AI训练是否侵权?美国法院与版权局给出双重回应
2025-06-27

       美国联邦地区法院近日裁定,由亚马逊支持的AI初创公司Anthropic使用受版权保护书籍训练其大语言模型Claude的行为不构成侵权,因其训练方式具有高度“转化性”(transformative),属于“合理使用”。

       该案由三位作家AndreaBartz、CharlesGraeber与KirkWallaceJohnson于2024年8月提起,指控Anthropic未经授权“窃取”盗版书籍训练模型,并通过此方式构建了价值数十亿美元的AI业务。根据当时的诉状,这些作者的作品被收录在Anthropic用来训练Claude的盗版书籍数据集中。“Anthropic下载了原告作品的已知盗版版本并复制,将这些盗版版本输入其模型。”该诉讼要求赔偿金额不详的经济损失,并要求永久阻止Anthropic滥用作者的作品。法官判决称,训练阶段属于合法合理使用,关键点在于模型并没有复制作品的核心创意或风格,而是像“人类读者”一样,学习并创造新内容,而不是替代原作。但该公司内部“中央图书馆”中存储的约700万本盗版书籍的行为构成侵权,尽管后来Anthropic购买了正版副本,但这并不免除其之前的侵权行为,相关赔偿问题将于2025年12月开庭审理。

        与此同时,美国版权局5月发布的《版权与人工智能报告(第三部分):生成式AI训练》Copyright and Artificial Intelligence Report (Part 3:Generative Al Training (Pre-publication))在AI训练数据使用方面提供了系统性的法律框架和政策建议。该报告首次系统性聚焦于生成式AI(Generative AI)训练模型全流程的版权侵权判定问题,直接回应了当前司法实践中最具争议的技术场景——人工智能如何通过数据收集与整理、模型训练到生成、输出触发版权侵权。报告第三章“初步侵权认定”(PRIMA FACIE INFRINGEMENT)作为这一问题的核心章节,围绕有效版权、复制行为等核心要素,结合模型权重、检索增强生成等技术细节,搭建起版权初步侵权判定框架[1]。

 

1.判断“高度转化性”的关键在于最终用途

       报告强调,转化性评估应聚焦模型训练的目标与部署目的:当AI训练的结果用于生成与输入作品不同的新内容时,更可能被判为合理使用;但若模仿原作风格,转化性程度则偏低。


2.AI学习≠人类学习       

        报告驳斥“AI训练类似于人类读书”的观点,指出AI能完美复制整部作品并在极短时间内提取结构与表达,这与人类学习存在本质差异,因此不得简单类比。这正与法官对Anthropic案的判断一致——他认为模型训练行为未复制作品核心表达,而是在模仿人类学习方式,从而不构成侵权。

 

3.“中间复制”需分别评估

       报告建议分别对“训练复制”、“微调”、“检索机制(RAG)”、“输出内容”在合理使用四要素下进行独立评估。某些阶段如输入阶段可能属合理使用,而输出阶段如生成的内容与原作高度相似,则可能侵权。

 

4.盗版训练数据影响评估

       报告明确指出,通过非法手段获取的数据即便后续购买正版也无法消除侵权事实,并且在合理使用因素中会被负向评估。这与法院对Anthropic“中央图书馆”部分的判决高度契合。报告强调“公开可得”(publicly available)≠“合法授权”,并警示部分AI开发者使用盗版网站(如Books3等)获取训练数据的问题。

 

5.市场影响是关键考量

       报告强调合理使用分析中最重要的是第4因子——市场影响。强调若AI训练成果替代原作、或者在市场上竞争,将严重损害版权人利益,不可被忽视。

 

6.呼吁建立许可机制

       报告指出,目前市场缺乏高效、可扩展的AI训练授权机制。虽然有集体许可、强制许可等方案设想,但操作复杂、阻力较大。这也解释了为何许多公司铤而走险使用未授权数据,从而引发如Anthropic案这样的诉讼。在训练与版权冲突中,报告建议建立可扩展的集体许可、强制许可或“选择退出”机制,为AI企业提供合规路径,同时确保创作者获得应有补偿。

 

结语:在AI训练中使用版权材料,若AI训练结果具备高度转化性,且在用途上无法替代原作,可被视为合理使用;若训练过程中非法使用数据,或者训练结果的市场替代性过强,则构成侵权。

 

参考文献:

[1] https://www.copyright.gov/policy/artificial-intelligence/