Anthropic-谁在使用AI?劳动力技能与职业分布
这篇论文基于数百万条 Claude.ai 对话数据,运用 O*NET 对经济任务与职业进行匹配,考察 AI 在真实工作场景中的使用。研究发现,AI使用高度集中于软件开发和写作任务(近半数),体力或高门槛领域较少采用,应用广泛(36%职业至少1/4任务使用)但整合尚浅(仅4%职业超3/4任务使用)。在交互模式上,增强人类能力(57%)略多于自动化(43%),且使用高峰见于中高薪酬和中等要求的职业。该研究的关键贡献在于提供了一个测量和动态追踪AI经济角色的新颖实证框架,为理解技术影响提供了重要数据基础。
标题: Which Economic Tasks are Performed with AI? Evidence from Millions of Claude Conversations
发布平台: arXiv
- Kunal Handa:Research Scientist and Member of the Technical Staff at Anthropic. He focuses on improving the societal impact of AI systems. 很年轻的一个哥们。
- Alex Tamkin:Researcher at Anthropic. He is interested in how human can understand and improve the societal impacts of AI systems. 谷歌学术被引7000+,也是很年轻且很猛的一哥们。
上线时间: 11 February 2025
研究背景与意义
近年来人工智能(AI)的快速发展对劳动力市场产生了深远影响。学者们普遍认为,AI技术将显著改变未来工作的性质与分布。然而,现有对AI影响就业的研究大多基于预测模型、控制实验或用户调研,这些方法难以动态跟踪AI能力进步与实际应用之间的关系。例如,一些研究构建模型预测各职业被AI取代的可能性,另一些研究通过实验测量AI对特定任务生产率的提升,或采用问卷调查方式了解AI采纳情况。这些方法虽然提供了一定洞见,但缺乏对AI在真实经济任务中的实际使用情况的系统性实证证据。鉴于AI技术与实际应用之间可能存在差距,仅依赖理论预测无法充分把握AI对劳动力市场的实时影响。
针对这一空白,Handa等人提出了一种新的实证框架,通过分析数以百万计的AI对话记录来测量AI在各类经济任务中的使用模式。他们利用Anthropic公司Claude.ai平台的真实用户对话数据,映射到美国劳工部O*NET职业数据库中的任务和职业类别,以发现AI在不同任务领域中的应用情况。该研究是首个大规模实证测度AI在经济任务中使用情况的工作,为理解AI如何融入现有工作流程提供了宝贵的第一手证据。这一框架实现了自动化、细粒度地跟踪AI在经济中的作用,可为政策制定者和学术界提供及时的线索,洞察哪些领域可能最先受到AI影响。总之,本研究填补了理论与现实之间的鸿沟,其贡献在于以数据驱动的方式揭示AI对劳动力市场的实际渗透程度,为未来研究和政策响应奠定基础。
数据与方法
数据来源
本研究使用了Anthropic公司Claude.ai平台上的大量对话数据作为分析基础。具体而言,作者收集了超过四百万条Claude.ai对话(Claude.ai的免费版和专业版用户,在2024年12月至2025年1月的对话快照)。这些对话经过匿名化处理,剔除了敏感信息和企业/API用户数据,以保护用户隐私并聚焦于个人用户的使用模式。研究仅考虑有实际任务意义的对话(过滤掉无关聊天),并要求某一任务至少由五个以上不同用户、十五次以上对话提及,才将其计入分析,以确保结果具有代表性和稳定性。通过这些严格的数据筛选和隐私保护措施,作者确保分析基于可靠且合规的真实世界数据。
分析框架
作者将Claude.ai的对话内容映射到美国劳工统计局O*NET数据库中的职业任务。O*NET数据库包含约2万条细粒度的任务描述,涵盖各种职业及其职责。由于任务种类庞大,研究使用分层分类的方法:首先利用聚类和大语言模型创建任务层级体系,再逐层将每条对话分类到最相关的具体任务。这种递阶分类(hierarchical classification)缓解了直接在2万类别上分类的困难 。一旦对话被分配到某个底层任务,再通过 O*NET将该任务关联到对应的职业和上级职业类别,从而可以统计AI在各职业及行业类别中的使用情况。
分类工具
核心的方法工具是Anthropic开发的Clio系统。Clio是一个隐私保护的对话分析框架,它利用大型语言模型(Claude)对大量人机对话进行聚合分析。简言之,Clio通过预先设计的提问(facets),让AI助理从对话中提取所需的信息。例如,本研究中设置的facet包括:“这段对话对应哪一项O*NET任务?”以及“对话反映了哪种人机协作模式?”等。Clio在不泄露单个用户具体内容的前提下,对每一条对话生成摘要并分类标签,从而实现自动化的大规模对话内容标注。作者使用Clio分别对对话内容进行了三方面标注:
- 任务分类: 将每条对话映射到最相关的O*NET任务(通过上述分层任务体系实现)。由此获取AI在各具体任务和职业中的使用频率。
- 技能分类: 检索对话中AI展示的职业技能(基于O*NET定义的35项通用职业技能,如批判性思维、编程、沟通等)。Clio判断Claude在回答中运用了哪些技能,从而统计不同技能在AI对话中的出现频率。
- 交互模式分类: 分析人机协作方式,将每次对话归入预先定义的五种协作模式之一。这些模式根据AI在任务中所扮演的角色划分为自动化(AI代劳)或增强(AI辅助)两大类,包括指令式(直接让AI完成任务)、反馈回路(基于环境反馈反复改进)、任务迭代(人机来回完善任务)、学习(获取知识或理解)、验证(让AI检查或改进人类工作)等。作者还进行了少量人工校验Clio的分类结果,以确保协作模式判定的可靠性。
通过上述数据与方法,研究以任务为单位刻画了AI在经济活动中的用途分布,并据此推断不同职业、技能领域受到AI影响的程度。同时结合协作模式分析,探讨用户主要将AI用作自动化工具还是辅助搭档。这一方法学框架为动态监测AI对劳动力市场的渗透提供了新的思路:相比传统预测,它直接基于真实世界的AI使用行为数据,因而能更准确地反映当下AI与各行各业的交互情况。
主要发现
AI使用在任务与职业中的分布不均
集中于软件与文本类任务,实体操作类任务最少涉足。
研究发现,当前AI使用主要集中在软件开发和写作相关的任务上,这两类任务合计占据了将近一半的AI使用量。具体而言,与计算机和数学相关的职业(如软件工程师、数据科学家)在Claude.ai对话中关联的查询最多,占全部查询的 37.2% 。其次是艺术设计、娱乐媒体等内容创作类职业(约占10.3%)以及教育和图书馆职业。许多商业、金融、行政支持和管理类职业的任务也有相当比例使用AI。相反,需要体力操作或高度专业化训练的职业任务很少出现在Claude.ai中,例如运输与仓储、医疗护理辅助、农业林业等职业相关的任务使用率最低。甚至在高薪职业如麻醉师等需要实际操作的领域,AI参与度也微乎其微。这一分布表明,当前AI主要用于编码、文案撰写、数据分析等“认知密集型”任务,而对需要现场操作或手工技能的任务渗透有限。尽管如此,AI的使用已广泛扩散到各个经济领域:研究统计大约有36%的职业在至少四分之一的任务上使用了AI。换言之,超过三分之一的职业已经在其任务组合中融入了相当比例的AI支持。不过这种使用往往是选择性的,在多数职业中AI仅用于部分任务而非全部任务。
AI在单个职业内的渗透深度有限
只有极少数职业的绝大部分任务由AI参与,大多数职业仅部分任务用到AI。
作者进一步考察了每个职业的任务中有多大比例出现AI使用。结果显示,只有约4%的职业在其至少75%的任务上使用了AI。换言之,几乎没有职业能够实现其绝大多数任务都借助AI。例如,外语教师是少数例子之一:其约75%的任务(如教学协作、课程规划等)在数据中出现了AI使用,但仍有一些任务(例如撰写资助申请、管理学生记录等)未见AI介入。仅有约11%的职业在至少一半的任务上使用AI,例如市场营销经理有50%的典型任务出现AI支持(如市场调研分析、策略制定),但另有许多职责(如产品规格沟通、组织展会等)尚未使用AI。 约36%的职业在四分之一以上的任务上使用了AI ,例如物理治疗师有25%的任务(主要是研究和患者教育相关)使用了AI,但其余大量任务(例如实际物理治疗操作)没有AI参与。总体来看,多数职业目前只是在部分任务上引入AI,尚未做到对整个职业任务的全面覆盖。这意味着现阶段AI更多是对现有岗位的补充而非完全替代,大部分职业的核心工作内容尚未被AI大规模渗透。
⬆️该图将Claude.ai对话中各高层职业类别的AI使用占比与其在美国总体就业中的劳动占比进行对比。结果表明,在Claude.ai中占据最多AI使用的类别(如软件开发、技术写作、分析类职业)并不是美国就业人数最多的类别;相反,一些需要体力操作或高度专业训练的职业(如生产制造、医疗等)虽然在总体就业中占相当比例,却几乎没有AI使用。例如,“计算机与数学职业”在Claude.ai使用中比重远高于其在实际经济中就业比重,而诸如“运输、建筑”等职业类别的AI使用率明显低于其就业占比。这个对比图说明AI的采用目前主要集中在特定白领领域,与传统就业结构不一致,暗示了未来劳动力需求可能在这些领域发生较大变化。
对话中体现的职业技能分布
AI擅长认知技能,较少涉及体力和人际管理技能。通过分析Claude.ai对话中AI展示的O*NET职业技能,研究发现认知类技能在AI输出中出现频率最高,而体力操作类技能出现最少。具体而言,在35项通用职业技能中,Claude最常展现的是诸如阅读理解、写作、批判性思维、编程等需要大脑思考和知识处理的技能。这些技能对应的任务(例如撰写文档、代码调试、逻辑推理等)大量出现在对话中。而安装、设备维护、修理等需要动手操作的技能极少在AI对话中出现。另外,一些管理和社交类技能也不常见,例如谈判等领导管理能力在Claude的对话中出现率很低。
这一结果清晰地反映出现阶段AI能力的偏向性:AI更能补充人类的认知技能(比如快速编写文本、代码,提供信息和分析),但在涉及实际动手或微妙社交协调的技能上无法发挥作用。需要注意的是,研究统计的只是Claude在回答中体现出的技能,并不代表用户一定是为了练习或测试这些技能而来。例如,“积极倾听”(Active Listening)是Claude响应中第二常见的技能,但这很可能是因为Claude常常复述用户输入、提出澄清问题等默认的对话行为所致,并非用户特意请求AI进行倾听。总的来说,AI当前主要展现的是人类认知能力的延伸,而对需要体能或社交的能力几乎没有涉及。
⬆️此图统计了Claude.ai对话中AI展现各项O*NET职业技能的频率。柱状图显示,批判性思维、写作、编程、阅读理解等认知类技能出现频率最高,反映AI对用户请求的回答中经常涉及分析、创作和编程等能力。相反,设备维护、安装、操作等体力/操作类技能频率极低,几乎为零。一些中间技能如主动倾听、学习策略等也有较高出现率,部分由于AI模型的对话策略使然(如经常复述或解释)。通过图5可以清楚看到AI当前的能力侧重于“脑力”而非“体力”:它擅长文字、逻辑和编程工作,难以表现出需要实物操作的技能。
AI使用率与职业工资和进入门槛的关系
中高收入职业AI使用更多,低薪和最高薪职业使用率反而较低;适度门槛的职业AI渗透最高。
作者将职业的工资中位数与AI使用频率联系起来分析,发现AI使用在工资分布的两端都较低,而在中上段达到峰值。也就是说,收入非常低的工作和收入最高的专业职业都较少使用AI,而年薪在上四分位但非顶尖的职业AI使用率最高。例如,服务行业低薪岗位(如餐厅服务员)和顶尖高薪岗位(如麻醉医师)都很少出现在Claude.ai的数据中,这与前述结果一致:需要体力或高度专业技能的工作AI介入较少。相反,计算机程序员、网页开发者等中高薪技术职业是AI使用的突出群体。这表明除了技术可行性外,职业本身的特性(如是否以认知劳动为主)决定了AI采用率,而且在最高收入行业(如医生、律师)可能因监管、风险和实施成本等因素限制了AI的广泛应用。
除了工资,作者还考察了职业的进入门槛(Job Zone)与AI使用的关系。Job Zone是O*NET对职业所需准备程度的分级,共分1(无需特殊培训)到5(需要长期专业训练/高等学位)。结果发现,随着职业要求的提升,AI使用先升后降:从Zone 1到Zone 4,AI使用逐步提高,在要求“相当的准备”的第4区间达到峰值;但在最高的Zone 5反而下降。也就是说,需要本科学历等中等偏上水平准备的职业最常使用AI辅助,而要求最低技能的职业和要求博士等最高技能的职业使用率都较低。这与工资的趋势相吻合:许多Zone 4职业属于软件、工程等领域(高于平均工资但非顶尖),而Zone 5多为医生教授等顶尖职业(这些职业即使AI有能力,往往也涉及高风险或专业伦理,不易轻易用AI替代)。上述模式说明,人力资本的门槛与AI使用并非线性关系:当前AI更易渗透那些需要一定专业知识但并非最高级专门技能的职业领域。
⬆️图6描绘了不同收入水平职业的AI使用率。横轴为职业年薪(相对于美国工资分位数),纵轴为Claude.ai中该收入段职业的相对使用率。图中可以观察到一个倒“U”型趋势:AI使用率在中高收入(约75%左右分位)的职业达到最高,例如计算机程序员、软件开发者等年薪略高于社会中位数的职业是AI使用的突出群体。相比之下,最低收入段和最高收入段的职业AI使用率都很低。总体而言,图6显示AI使用在收入较高但未达到顶尖的职业中最普及,在底薪体力工作和顶薪专业工作中渗透率都有限,这可能归因于低薪工作技术替代价值不大,而高薪专业工作往往有严格要求和障碍。
AI在任务中既用来增强人类也用来自动化
对话协作模式以增强为主但比例接近,多数职业同时存在两种用途。
通过对Claude.ai对话的交互模式分析,作者发现57%的对话呈现为“增强型”模式,人类与AI在过程中反复交互、共同迭代完成任务;43%的对话属于“自动化”模式,即用户将任务直接交给AI完成。这一整体比例表明,当前用户稍微更倾向于将AI作为协作伙伴来提高效率,而非完全放手让AI自动执行。然而,不同任务和职业上两种模式的差异并不绝对:大部分职业的AI使用既包含自动化也包含增强型案例,呈现混合使用特征。这意味着AI同时扮演着“效率工具”和“协作助手”的角色,并没有单一用途独占。
在增强型对话中,常见的是用户让AI参与任务迭代(如一起润色文案、逐步完善代码)或者学习解释(如询问AI获取知识、解释概念),以及让AI验证人类产出(例如检查SQL查询是否正确)。在自动化对话中,主要模式包括指令式(直接命令AI完成一项任务,如格式化文档)和反馈回路式(让AI根据反馈不断修正,如调试代码错误)。两类用途的存在表明:一方面AI可以彻底代劳一些任务,另一方面更多情况下人们把AI当作辅助手段来扩展自身能力。值得注意的是,作者指出由于用户可能在对话窗口之外对AI输出进行调整编辑,因此实际增强型使用可能比数据更高。总之,目前AI在职场中的角色既非完全的工具也非完全的代理,而是两种角色并存,这为理解AI如何影响工作性质提供了重要线索。
不同模型的使用偏好存在差异
新模型侧重技术任务,老模型更用于创意和教育内容。
研究还比较了Claude模型不同版本在任务使用上的差异。Anthropic公司在研究期间推出了新版模型Claude 3.5(代号“Sonnet”)和早期模型Claude 3(代号“Opus”)。作者将这两种模型的对话分别提取出来,发现新版Claude 3.5(Sonnet)与旧版Claude 3(Opus)在任务用途上有明显侧重。具体而言,Claude 3.5 更常被用于编程和技术类任务,例如开发和维护软件、编写和调试代码等。这一点与外部评价中提到的Sonnet模型更强的编码能力相一致。相比之下,Claude 3 更频繁用于创造性写作和教育相关的内容生成,例如撰写文学影视作品、管理出版流程、设计教学大纲、开展学术研究等任务。这种差异也呼应了用户社区的普遍看法,即Opus模型在语言风格上更具特色、善于长篇文本创作,而Sonnet在技术准确性和代码生成上表现更佳。模型间的这种使用模式分工说明,AI模型的能力提升会引导其在实际应用中走向专业化:当新模型在某方面更强时,用户自然更多地用其执行该领域任务。这一发现提示我们在展望未来时,需考虑不同AI模型在经济中的角色可能各有侧重,随着能力优化方向不同,AI对各行业的影响也会随之演变。
总而言之,研究勾勒出当前AI在劳动力市场中的应用图景:即集中于认知密集任务、广泛但浅层地扩散于众多职业,展现出对人类智力的补充胜于对体力的替代,中高技能岗位受益更明显,同时AI既充当助手也执行独立任务。这些洞见为理解AI正在如何改变各行各业提供了实证依据。下面将结合论文中的图表,对关键结果进行进一步解读。
局限性分析
尽管本研究具有开创性,但作者审慎地指出了其存在的若干局限,这些局限关乎研究结果的解释效力与外部推广性:
- 数据来源的代表性问题 (External Validity): 研究数据完全来源于 Anthropic 的 Claude.ai 平台。尽管 Claude 是主流 LLM 之一,但其用户画像、模型能力偏好、产品交互设计等可能与其他平台(如 ChatGPT, Gemini)存在差异,导致研究结果可能无法完全推广到整个 AI 生态系统。时间窗口(2024年底-2025年初)的限制以及仅限于文本模态也限制了结论的时效性和覆盖面。此外,将全球使用数据映射到美国 O*NET 框架可能忽略了不同国家和地区的经济结构与职业任务差异;
- 分类方法的有效性与可靠性 (Construct Validity & Reliability): 依赖 LLM 进行对话分类和任务映射本身引入了测量误差的可能性。尽管通过人工验证提供了证据支持,但模型对任务语义的理解、O*NET 任务描述的模糊性与重叠性,以及用户查询意图的复杂性,都可能导致分类的准确性和一致性存在一定程度的噪音;
- O*NET 框架的局限性: O*NET 作为一个为传统经济设计的分类体系,其在捕捉由 AI 这一快速演进技术带来的新兴任务和职业方面存在天然的滞后性。其任务描述的粒度和标准化程度也可能不足以完全精确地匹配所有 AI 交互的细微差别;
- 缺乏下游行为数据: 本研究仅分析了人机对话过程本身,无法观测用户在获得 AI 输出后如何实际应用这些信息。用户可能对其进行修改、整合、验证、忽略,或者仅作为初步构思。这种对“最后一公里”应用情况的未知,限制了我们对 AI 实际价值创造和最终影响程度的直接评估。
启示与展望
尽管存在局限,本研究的发现对理解AI的经济影响和制定相应策略具有重要启示。
首先,实证结果与先前一些预测研究既有吻合又有出入,说明技术可行性并非决定AI实际采用的唯一因素。例如,Webb(2019)的预测曾认为最高薪的职业(约处于收入第90百分位)受到AI影响最大,而本研究发现AI使用高峰出现在中高薪段,在收入最高的职业中反而较低。这暗示诸如实施成本、监管障碍、组织准备度等因素可能正在减缓AI在顶尖行业的落地。再比如,Eloundou等人(2023)预测 80%的美国劳动力至少有10%的工作内容会被语言模型影响,但本研究实测目前约有57%的职业达到这一水平。虽然低于预测,但这一比例随着AI能力提高和扩散可能趋向预测值。值得注意的是,预测中认为医疗等行业AI影响大,而本研究数据尚未显示医疗领域的广泛采用,反而科研等领域的使用高于预期。这些差异强调了依靠实时数据调整对AI影响的认识的重要性——技术上可能的并不等于马上会被应用,政策和行业应考虑现实中的阻力和促进因素。
其次,本研究提供的方法证明了持续监测AI在工作场景中应用的可行性和价值。相比间隔性的调查或静态预测,直接分析AI使用日志能够及时捕捉新出现的使用模式,帮助我们识别哪些行业可能正接近技术拐点,哪些领域由于障碍导致采用滞后。这种动态跟踪对政策制定尤为有益 :监管者和决策者可以据此提早发现趋势,在某些领域看到AI大幅提升效率时及时支持推广,在另一些领域发现自动化加速时预判潜在失业风险并未雨绸缪。例如,如果监测到某职业的AI任务覆盖率逐年明显提升且逼近全面自动化,政府和企业就可以提前制定培训转岗计划;反之,如果看到某些行业长期落后于AI应用浪潮,则可研究其中阻碍(如数据隐私、成本投入)并提供相应支持。总之,将AI使用情况作为经济指标来持续观察,能为社会各方赢得宝贵的反应时间,从被动适应转向主动引导。
第三,研究强调了以任务为单位分析AI影响的重要性。当前的证据显示,AI往往只是进入了一些职业的部分任务,而不是取代整个职业。这意味着在可以预见的未来,许多职业可能演变其职责构成而非被彻底消灭——也就是通过工作内容重组来适应AI辅助:人类更多负责AI不擅长的环节,AI承担可自动化部分,共同完成原本由人独立完成的职业。然而,如果今后观察到AI在各职业的任务覆盖面持续扩大且没有饱和迹象,那可能预示着更加全面的工作场所变革,一些岗位可能被重新定义甚至替代。因此,跟踪任务层面的AI使用广度和深度能够作为预测职业走向的风向标。如果AI长期只停留在有限任务上,人们大可预期职业会协同进化;但一旦AI开始掌握职业的大部分任务,就要警惕更剧烈的就业结构变化。
第四,AI用于增强还是用于自动化带来的影响有所不同,应区别对待。当AI作为增强工具时,人类仍深度参与任务,只是借助AI提高效率或能力,这种情况下往往能提升生产率且保留人的价值作用。多项研究表明,AI帮助下的人机协作模式可以使个人更高效地完成工作,同时不至于让人被边缘化,从而实现“1+1>2”的效果。相反,若AI完全自动化取代某项任务,人力在该环节可能被排除,虽然短期效率提高,但长期看这涉及劳动力替代和岗位流失,需要社会加以应对。基于本研究发现目前两种模式并存且增强略占优,政策制定者应鼓励和支持AI的增强式应用,例如发展更友好的人机协同接口、培训员工利用AI工具的技能,让AI成为员工的“助手”而非“竞争者”。同时,对于那些确实出现明显自动化趋势的领域,要提前制定转型计划,包括再就业培训、社会保障等,降低完全自动化带来的冲击。
最后,我们需认识到当前的AI使用模式只是开端,未来随着AI能力的扩展,职业技能需求和岗位结构可能发生更深刻的变化。目前Claude.ai仅能处理文本,而新一代AI将掌握图像、语音,甚至通过机器人执行物理动作。这意味着许多过去AI无法涉足的任务也将逐步实现自动化或辅助,从而可能诞生全新的任务种类和职业形态。例如,AI机器人助手可能接管部分护理和物流工作,新职业如“AI操作监控员”可能涌现。为此,教育和培训体系需要前瞻性地调整,注重培养人类在与AI协作过程中不可或缺的能力,如创意、批判思维、跨领域沟通以及对AI决策的监督管理能力。这将有助于劳动者在AI驱动的岗位演变中保持竞争力。同时,本研究展现的分析框架也需要不断迭代:随着AI应用领域扩张,我们必须更新任务和技能的定义,将新出现的工作纳入监测范畴。只有这样,才能及时捕捉AI引发的就业版图改变,为政策和社会调整提供依据。
总而言之,AI正在以协作伙伴和自动化工具的双重身份逐步融入经济活动。本研究通过大规模数据证明了这一过程已经开启,但影响尚局限于特定领域和任务。未来的关键在于,我们能否运用类似的实证监测手段,持续追踪AI在各行各业的动态作用,并据此制定明智的策略来塑造一个人与AI共生共进的劳动力市场。正如作者所言,挑战在于不仅要衡量这些变化,还要利用对变化的理解来帮助塑造更美好的未来。我们应提前谋划,让政策和培训跟上技术演进的步伐,最大化AI带来的生产力红利,同时将其对就业的冲击降至最低。只有这样,AI时代的职业变迁才能朝着有利于广大劳动者和社会的方向发展。
(⬆️这是ChatGPT deep research的意见)
号外
- 以前想过一个发Nature的idea,"Mapping全球生成式AI获取的不平等" : 开篇讲联合国可持续发展目标SDGs,引出宏大叙事,使用人口、网络接入、教育、流量监测等多源数据,利用地理、人类行为决策等多源模型,给出结果;
- 对于这篇论文,Anthropic官方也出了个报告,链接如下:https://www.anthropic.com/news/the-anthropic-economic-index ;
- 本文也引了几篇Acemoglu的论文,大A真的绕不过去,遥遥领先。
原文信息
Handa, Kunal, Alex Tamkin, Miles McCain, Saffron Huang, Esin Durmus, Sarah Heck, Jared Mueller et al. "Which Economic Tasks are Performed with AI? Evidence from Millions of Claude Conversations." arXiv preprint arXiv:2503.04761 (2025). https://doi.org/10.48550/arXiv.2503.04761