不圆 发自 凹非寺
量子位 | 公众号 QbitAI
无需原作者同意,AI可以用已出版书籍作训练数据了。
就在最新判决的诉讼中,美国法院裁决:允许Claude背后公司Anthropic在未经作者许可的情况下,使用合法购买的已出版书籍训练AI。
法院参考了美国版权法中的“合理使用”(Fair Use)原则,认为AI训练属于“转化性使用”(Transformative Use),即对原作品的新用途未取代原作市场,且有利于技术创新和公共利益。
这是美国法院首次认可AI公司对书籍的使用权,保护人工智能公司在使用受版权保护的文本训练 LLMs 时不受限制:
大大降低了AI训练数据的版权风险。
对此,不少网友的看法是这样的:既然人类读书并加以理解是毫无争议的,那AI读书并理解也应该合理。
怎么一回事?
对Anthropic的指控,由三位作家在2024年8月发起。
值得关注的是,Anthropic的案件不仅针对使用已出版书籍训练AI,还涉及到书籍的来源问题:
2021年,Anthropic的联合创始人Ben Mann从盗版网站下载19.6万本受版权保护的书籍。
到2022年,Anthropic又从LibGen和PiLiMi下载了“至少500万份拷贝(copies)”和“200万份拷贝”,建立数字化图书馆。
尽管Anthropic在那时已意识到盗版法律风险(“not so gung ho about pirated books for legal reasons”),但仍保留所有盗版副本。
2023年3月,Anthropic从数字化图书馆选择书籍子集训练Claude模型,Claude首版发布。
2024年2月,Anthropic雇佣前Google图书扫描项目负责人Turvey,转向合法采购并扫描书籍,购买数百万本纸质书。
Turvey发送了“一两封邮件”(“an email or two”)给出版商,但未持续跟进(“let those conversations wither”)。
根据美国法院对Anthropic的裁决文书,可以关注到以下几点:
1、这次事件的争议主要在Anthropic未经过创作者允许,使用已购买的正版书籍或盗版书籍对Claude进行训练。
2、原告对于Anthropic的指控是:非法复制作品(包括盗版和扫描版)用于训练AI,侵犯版权。
3、法院裁定Anthropic可以使用合法采购书籍的扫描副本用于训练AI的数据处理,认为AI训练具有“高度转化性”,未直接替代原作市场,且输出未侵犯原告作品。
4、法院同时裁定盗版书籍的使用不构成合理使用,盗版行为本身涉及侵权。盗版相关责任及赔偿问题需进入审判阶段。
有网友简单总结为:关键在于训练使用书籍的来源是不是盗版。
也就是说,AI公司可未经原作者许可使用合法购买的书籍训练AI。
有网友表示:这是一个正确的决定,就像人类可以去图书馆或者读自己买的书一样自然。
同样的,这个裁决结果也面临着一些争议:AI可以和人类一概而论吗?创作者又该如何保护他们的知识?
类似案例
类似案例曾出现在其他AI公司的诉讼中。
2015年Goggle Books:美国最高法院认定属于“合理使用”
2004年,Google开始了“Google’s Library Project ”,这个计划与各大图书馆合作,打算将超过两千万册图书扫描并数字化,供Google使用者直接搜索。被扫描的图书包括超过著作权保护期限的公有作品和那些尚处在著作权保护期内的书籍。
Google Books的处理是:对公有作品和内容提供全文免费浏览和PDF格式的下载;对尚处在著作权保护期内的作品,只提供书目、简介和少数章节的内容,同时提供正版的电子书或印刷版购买链接。
2005年,美国作家协会等机构将Google Books告上法庭,认为Google未经授权扫描全书构成版权侵权,理由包括:
全文数字化复制侵犯作者复制权;
片段浏览功能可能替代原作市场;
有商业动机(搜索业务衍生收益);
数字副本存储存在黑客泄露风险;
向合作图书馆分发副本可能损害版权人利益。
2013年,美国联邦法院作出了第一判决,驳回原告诉求,认定Google的搜索和片段浏览功能只“转化”了原作用途(从阅读到信息检索,未提供实质替代内容,可促进学术研究和图书发现,构成合理使用的条件。
2015年,二审维持原判。
2022年GitHub Copilot:促使AI公司推出“代码来源标注”功能
GitHub Copilot是微软旗下GitHub开发的AI编程助手,基于OpenAI的Codex模型,通过分析公开代码库(如 GitHub 上的开源项目)生成代码建议。
2022年,多名开源开发者及组织指控GitHub Copilot:
许可证违规:Copilot 训练时使用了 GPL 等“传染性”开源许可证代码,但生成代码未遵循原许可证要求(如保留版权声明)。
版权侵权:生成的代码与开源代码高度相似,涉嫌直接复制。
商业滥用:微软将免费开源代码转化为付费工具(Copilot 企业版),违背开源精神。
根据公开报道和诉讼进展,关键结论如下:
法院认定 AI 训练使用开源代码属于“转化性使用”,不构成直接侵权(参考Google Books案逻辑);
原告未能证明Copilot系统性输出侵权代码,偶发相似片段不构成大规模违规;
法院要求GitHub加强过滤机制,避免输出受GPL等强许可证约束的代码,或明确标注来源及许可证要求,并提供工具供用户检查代码与开源库的相似性。
2023年Open AI&Meta:仍在受理
2023年,多名作家、演员以及全球出版商联盟指控Open AI和Meta使用盗版数据训练AI,数据包含来自“影子图书馆”(如 Bibliotik、LibGen、Z-Library)的书籍,这些网站提供未经授权的版权内容。
ChatGPT能准确总结原告的书籍,证明模型“记忆”了受保护文本;Meta CEO扎克伯格及AI团队明知LibGen为盗版,仍决定使用其数据训练Llama 3,以加速超越OpenAI。
关于Open AI和Meta的案件仍在受理中,尚未明确裁决。
本次Anthropic案的胜诉并非孤例,而是美国司法系统在“技术创新vs.版权保护”的拉锯中倾向前者的体现,也是美国首次有法院支持合理使用原则,保护人工智能公司在使用受版权保护的文本训练 LLMs 时不受限制。
意味着此后AI可以研究其购买而非从盗版网站获取的内容。
有网友认为,本次裁决结果可能影响美国法院对Open AI和Meta案件的审理。
参考链接:
[3]https://githubcopilotlitigation.com/