论文摘要:在新科技革命和产业变革的大背景下,人工智能作为新质生产力与产业深度融合,如何因地制宜地寻找适应产业发展的规范措施成为当务之急。本文第一部分以国内外涉生成式人工智能侵权纠纷案件为考察样本,指出目前司法实践缺少明确、具体、统一的规则指引,亟需探索建立对于AI生成内容侵权判定的具体规则。第二部分深度剖析AI生成内容侵权判定的现实困境,即侵权事实查明的复杂性、侵权责任主体的多样性、技术发展与法律限制的矛盾性等难点堵点,以寻求破局之法。第三部分结合生成式人工智能深度学习的底层原理,拨开技术问题的层层迷雾,指出当前的生成式人工智能并非简单的重混工具,仅在史努比难题等特殊情况下构成侵权。第四部分明确生成式人工智能侵权责任认定路径的最优解是要在有限度控制风险的同时给新技术发展带来更多可能性。依托已有的司法实践,在合理使用制度、避风港规则、共同侵权基本原理下探索生成式人工智能侵权责任裁判路径。
创新观点:
1.指出相比传统“平台经济”下的侵权结构,生成式人工智能侵权脱离了“平台-用户”的二元结构,进入了“开发者-运营者-用户”的三元结构。模型开发者虽属于广义上的网络服务提供者,但应承担“内容生产者”责任;人工智能产品运营者则仍承担服务提供者责任。
2.通过分析生成式人工智能深度学习的一般工作原理,落地处理生成式人工智能的侵权问题。指出一般情况下生成式AI不会“记忆”训练数据,但“记忆”往往发生在文本描述与某个图像具有稳定联系的情况下。此时,AI生成内容有较大可能构成侵权。
3.探索建立多层次、多元化生成式人工智能侵权规则。通过有条件地扩大合理使用解释,探索一套适应人工智能产业发展的过错认定机制和责任分担机制。
引 言
在新科技革命和产业变革的大背景下,人工智能作为新质生产力与产业深度融合,是释放数字化叠加倍增效应、加快战略新兴产业发展的必然选择。近年来,从AI语言模型ChatGPT到视频生成模型Sora,一系列生成式人工智能相继问世,广泛应用于智能写作、代码生成、有声阅读、新闻播报、语音导航、影像修复等领域。“生成式人工智能”成为“决策式人工智能”外人工智能落地应用的重要赛道。然而,生成式人工智能技术在训练阶段的数据喂养和在利用阶段的内容生成,面临着现有法律体系下数据来源的合法性、内容生成物的著作权、人格权侵权,以及人工智能模型开发者、运营者和使用者等多主体交织的侵权责任承担等问题。
在开展“人工智能+”行动政策精神及发展“可信人工智能”全球共识的背景下,如何应对生成式人工智能技术日益发展带来的侵权问题,既避免其成为“权利清洗器”,又满足人工智能发展所带来的产业保障需求,成为目前理论和实务界的热点讨论问题。本文欲从当前司法实践对生成式人工智能侵权纠纷裁判思路切入,分析当前司法实践中对生成式人工智能侵权认定的困境,结合生成式人工智能的工作原理,提出生成式人工智能侵权认定的考量因素并完善裁判路径。
一、案例群像:生成式人工智能案件的实证分析
(一)国内生成式人工智能涉诉情况
当前国内生成式人工智能(以下简称AIGC)合规规则正在孕育,人工智能模型开发者、人工智能产品运营者、人工智能产品使用者的侵权责任边界尚不明晰,由此引发的纠纷有赖于司法在个案中进行能动调整、自由裁量。本文在中国裁判文书网及各大网络平台通过“生成式”“人工智能”“侵权”等关键词检索,通过对内容的甄别和匹配后整理出五件有效案件(见表1)。
表1 生成式人工智能侵权纠纷相关判决
序号
案号
案件名称
侵权类型
适用法条
裁判结果
1
(2018)京0491民初239号
北京菲林律师事务所诉北京百度网讯科技有限公司侵害著作权案
人工智能产品使用者vs二次使用者
《著作权法》第9、10、47、48、49条
1.被告北京百度网讯科技有限公司刊登道歉声明。2.被告北京百度网讯科技有限公司向原告赔偿经济损失及合理费用1560元。
2
(2019)粤0305民初14010号
深圳市腾讯计算机系统有限公司诉上海某科技有限公司侵害著作权及不正当竞争案
人工智能模型开发者+使用者vs二次使用者
《著作权法》第3、10、11、48、49条,《国著作权法实施条例》第2、3、4条
被告上海某科技公司赔偿原告经济损失及合理维权费用人民币1500元。
3
2023京0491民初11279号
李某诉刘某侵害作品署名权、信息网络传播权案
人工智能产品使用者vs二次使用者
《著作权法》第10、53、54条
1.被告刘某发布声明赔礼道歉。2.被告刘某赔偿原告500元。
4
2024粤0192民初113号
上海新创华文化公司诉某AI公司著作权侵权案
著作权人vs人工智能产品运营者
《生成式人工智能服务管理暂行办法》第4、14、15、22条,《著作权法》第2、10、12、52、53、54条,《关于审理著作权民事纠纷案件适用法律若干问题的解释》第7、26条
1.被告AI公司立即停止侵害原告涉案奥特曼作品的行为,立即采取技术措施,防止生成侵权图片。2.被告AI公司赔偿原告10000元。
5
AI生成声音人格权侵权案
人格权人vs人工智能模型开发者、运营者
《民法典》第1023条
1.被告某软件公司、北京某智能科技公司向原告赔礼道歉。2.被告某软件公司、北京某文化传媒公司赔偿原告损失 25万元。3.被告北京某智能科技公司、上海某网络科技公司、北京某科技发展公司主观上不存在过错,不承担损害赔偿责任。
通过对案件的梳理,上述案件中的行为可以归纳为AIGC内容侵权型、AIGC使用侵权型两类。
1.AIGC内容侵权型。此类案件系原始权利人针对人工智能模型开发者、运营者提起的侵权诉讼,如案例4、5的著作权人、声音人格权人提起的著作权侵权诉讼、人格权侵权诉讼。核心在于人工智能模型开发者在输入端使用受知识产权、人格权等保护的非公有领域数据进行数据训练,并在输出端生成侵权内容。
目前的司法现状下,直接对人工智能模型开发者提起的诉讼较少,司法判决中鲜有讨论。案例4中法院明确了人工智能模型开发者与人工智能产品运营者责任承担的不同,即“被告并未进行数据训练,无需删除训练数据集”。另一方面,对人工智能产品运营者的主观过错认定和侵权责任承担方式则存在相反判决。案例4中通过《生成式人工智能服务管理暂行办法》第15条认定人工智能产品运营者因欠缺投诉举报机制、侵权风险提示、AI生成标识而存在主观过错,并承担停止生成、赔偿损失的责任。而在案例5中认定人工智能产品运营者主观上不存在过错,不承担损害赔偿责任,仅承担赔礼道歉的责任。
2.AIGC使用侵权型。此类案件系人工智能使用者针对生成内容的二次使用者提起的侵权诉讼,如案例1、2、3中人工智能生成的文章、图片、视频被他人未经许可使用引发了侵权纠纷。核心争点在于人工智能使用者通过指令在输出端生成内容,该生成物可能获得著作权等专有权保护。
目前的司法现状下,关键点在于AIGC是否受到著作权法保护,即AI生成物的可版权性问题。理论界与实务界就此开展了大量的讨论。AI生成物的可版权问题在本文中暂不探讨,但面对当前司法实践中对AI生成物可版权性的支持倾向,根据“权责一致”原则,生成式人工智能的侵权问题应承担与人类侵权相一致的判断标准。
(二)国外生成式人工智能涉诉情况
国外作家、艺术家等较为关注生成式人工智能平台的迅速崛起和使用。自2022年以来,美国有24起针对生成式人工智能公司的诉讼,如纽约时报诉Open AI公司等案、安德森等视觉艺术家诉Stability AI公司等案、J. DOE 1等诉 GitHub公司案等,涉及未经授权复制使用受版权保护的文章、绘画、代码以及声音等用于生成人工智能产品。
截至2024年6月,前述案件都处于起步阶段,有些从被告的驳回起诉申请中幸存,有些则处于重新递交诉讼请求阶段,尚没有针对知识产权侵权责任的最终判决。其中,就安德森等视觉艺术家诉Stability AI公司等案,美国地区法官威廉·奥里克(William Orrick)驳回了针对Midjourney公司和DeviantArt公司的诉请,但针对Stability AI公司的侵权索赔诉请被允许继续进行。奥里克法官认为Midjourney 公司和 DeviantArt 公司通过自己的应用程序和网站提供 Stable Diffusion 使用接口,并未直接实施侵权行为,不承担侵权责任。
此外,2024年3月,法国负责竞争监管的机构法国竞争管理局(Autorité de la Concurrence,ADLC)对谷歌母公司Alphabet Inc.、谷歌公司(Google LLC)及其爱尔兰和法国子公司(Google Ireland Ltd、Google France)(以下统称“谷歌”)处以2.5亿欧元的罚款。ADLC发现谷歌于2023年7月推出的人工智能服务“Bard/Gemini”使用新闻机构和出版商的内容来训练其大模型,而没有通知新闻机构、出版商或ADLC,也没有及时为新闻机构和出版商提供选择退出等技术方案,阻碍了新闻机构和出版商谈判报酬的能力,违反了第22-D-13号决定中“根据透明、客观和非歧视性标准进行真诚谈判”“向新闻机构和出版商提供透明地评估其相关权报酬所需的信息”等承诺。
小结:生成式人工智能技术推动了AI创作的喷涌发展,也引发了权利归属、责任界定和利益分配等问题。目前涉及AIGC的侵权纠纷在国内外皆处于起始阶段,法律规定和司法判决尚缺少明确、具体、统一的规则指引,亟需探索建立对于AI生成内容侵权判定的具体规则,保证AIGC的发展守好边界,行有所止、行有所戒。
二、问题追溯:生成式人工智能侵权责任判定的现实困境
在人工智能时代背景下,AI开发难以孤立进行,经常涉及多方合作和数据共享,在解决侵权纠纷时需要考虑多方利益和合作关系。在侵权责任判定时,如何平衡创作者、开发者、运营者和使用者的权益,如何厘清黑箱算法的多个行为,如何处理技术发展与技术伦理的辩证关系,是生成式人工智能侵权责任判定需要突破的现实困境。
侵权事实查明的复杂性
人工智能产品是在互联网技术获得快速发展之后得来的产物,而互联网技术的发展又离不开计算机的发展和程序编码,单从计算机这一门来说,人工智能技术需要设计者掌握海量的专业术语、厘清各个程序之间的内在逻辑,审判人员极易迷失在海量专业术语中,将简单行为复杂化、复杂行为简单化。此外,相比其他人工智能产品,生成式人工智能在内容获取、内容输入与输出全阶段存在侵权风险。
1.生成式人工智能输入端的侵权风险
生成式人工智能在内容获取、内容输入阶段主要进行数据训练,即预训练、优化训练等训练数据处理。基于数据训练投喂以形成更加成熟的大模型训练效果已是当下人工智能技术升级与模式迭代的必由路径。然而,人工智能训练数据的路径不仅与现有法律秩序存在冲突,而且极大地影响了原有商业模式。 例如,Stable Diffusion 的训练需要接入几十亿的图片输入,其中包含大量受著作权保护的美术作品、摄影作品。未经授权对海量内容进行抓取、输入在现有著作权法体系下可能构成作品复制权侵权,在民法典体系下可能构成声音权、肖像权等人格权侵权。
问题在于,在当前AI训练数据不透明的情况下,权利人难以举证其特定作品、声音或肖像被用于数据训练。例如,在美国的安德森诉Stability AI公司案中,安德森声称“训练数据”中包含的其作品样本可以在“haveibeentrained.com”网站中找到;被告则认为,应要求安德森明确其哪件特定作品被复制到数据集中并成为Stable Diffusion的训练图像。
2.生成式人工智能输出端的侵权风险
由于原告难以掌握AI训练集的具体证据等原因,原告直接起诉AI数据训练侵权比起诉生成内容侵权的难度大得多。因此,目前,从广州互联网法院审理的奥特曼案到Open AI和纽约时报火热进展中的诉讼,本质都是权利人通过起诉大模型生成内容侵权来实现对大模型使用权利内容进行训练的控制,即希望通过起诉AI输出侵权来限制数据训练阶段的内容输入。
但基于生成式人工智能算法的复杂性,区别于简单的复制、改编、汇编行为,其生成过程涉及复杂多变的行为方式,增加了侵权行为的认定难度。同时,基于大量数据动态交流与互动的客观存在,生成式人工智能侵害著作权通常不针对单一著作权人或单一作品,往往涉及多个著作权人或多个作品合集,侵权客体的特殊性亦增加著作权保护的难度。
另外,若生成式人工智能在生成图片、文字等内容中使用他人的商标或近似商标,引发消费者混淆,亦可能侵犯商标权。
侵权责任主体的多样性相比传统“平台经济”下的侵权结构,生成式人工智能侵权脱离了“平台-用户”的二元结构,进入了“开发者-运营者-用户”的三元结构。三元侵权主体结构导致侵权责任划定难度指数性递增。
根据《互联网信息服务深度合成管理规定》,谈及生成式人工智能的侵权责任,通常涉及三个主体:服务技术支持者(模型开发者)、服务提供者(运营者)和服务使用者(用户)。需要注意的是,服务技术支持者和服务提供者并不相同——在算法备案时,生成式人工智能的基础模型由服务技术支持者(模型开发者)备案,而基于该模型构建的产品服务则由服务提供者(运营者)负责。三元主体结构带来了侵权认定的诸多新问题。
1.生成式人工智能模型开发者的侵权责任
在生成内容构成侵权的前提下,认定侵权责任面临的首要问题是:哪个主体直接实施了侵权行为。换而言之,直接侵权人是用户、还是模型开发者?模型开发者是网络服务提供者、还是内容提供者?在传统网络侵权理论中,网络服务提供者是指提供信息平台或者信息通道服务而不生产内容的主体。但是,生成式人工智能模型开发者与传统避风港规则下的网络服务提供者有本质的区别,主要表现在所输出的内容,皆是由生成式人工智能自行输出,而非由作为用户的第三人输出。正如《生成式人工智能服务管理暂行办法》第九条、第二十二条的规定,模型开发者属于广义上的生成式人工智能“服务提供者”,但却依法承担网络信息“内容生产者”责任。若在生成式人工智能侵权案件中直接套用传统网络侵权理论,将实质上的“内容生产者”定义为“网络服务提供者”而适用避风港规则,有违避风港规则的基本原理,也有违侵权赔偿的公平原则。
面对国内外众多直接起诉模型开发者侵权的诉讼,存在诸多不同意见。支持者认为,基于产品责任,模型开发者应承担直接侵权责任,因为其将未授权内容纳入训练数据,使得生成侵权内容成为可能。法律不应该鼓励和支持“版权清洗器”(copyright-laundering devices)。反对者则认为,模型开发者进行数据训练,具有“实质性非侵权用途”,其技术目的不是为了生成侵权产品,而是为了形成人工智能基础模型。售出人工智能服务后,用户如何使用便不再受模型开发者控制,除非其存在诱导、教唆行为,否则模型开发者不承担侵权责任。
模型开发者是否承担侵权责任,承担何种形式的侵权责任,相关制度安排将影响产业投入和应用的尺度和力度,亟待进一步阐明。
2.生成式人工智能产品运营者的侵权责任
关于生成式人工智能产品运营者是否承担侵权责任,目前司法实践中存在相反判决。在AI生成声音人格权侵权案中,北京互联网法院认为被告一北京某智能科技公司以应用程序接口形式,直接调取并生成涉案文本转语音产品在其平台使用,主观上不存在过错,不承担损害赔偿责任,但应赔礼道歉。在安德森诉Stability AI公司案中,美国地区法官驳回了针对Midjourney公司和DeviantArt公司的诉请,认为其通过应用程序和网站提供使用接口,并未直接实施侵权行为,不承担侵权责任。然而,在奥特曼案中,广州互联网法院不予采纳被告某AI公司主张其只通过可编程接口接入第三方服务,不承担责任的抗辩,判决其承担停止侵权、赔偿1万元的侵权责任。
AI生成声音人格权侵权案和安德森案中,在模型开发者和产品运营者为共同被告的情况下,判决产品运营者不承担侵权责任;奥特曼案中,在原告只起诉产品运营者的情况下,通过违反行政管理办法,即欠缺投诉举报机制、侵权风险提示和AI生成标识,推导出产品运营者未尽到合理的注意义务,应承担侵权赔偿责任。一方面,程序上模型开发者是否为共同被告都不应影响实体上产品运营者的侵权责任成立与否。另一方面,违反行政管理办法是否可以推出民事侵权纠纷中的主观过错也值得商榷。
尽管《生成式人工智能服务管理暂行办法》规定了生成式人工智能服务提供者包括通过提供可编程接口等方式提供生成式人工智能服务的组织、个人,但此“生成式人工智能服务提供者”是否等同于民法典及司法解释中的“网络服务提供者”有待进一步释明。若直接等同,则根据该管理暂行办法第九条,提供可编程接口的组织和个人应承担“内容生产者”责任,直接架空了民法典及《关于审理侵害信息网络传播权民事纠纷案件适用法律若干问题的规定》等司法解释中对该类网络服务提供者避风港规则的适用,无疑过度加重了产品运营者的义务。
在人工智能时代背景下,AI开发难以孤立进行,在解决侵权纠纷时需考虑多方利益和合作关系。生成式人工智能产品运营者是否仅以接口形式接入第三方服务为由就可以免除侵权责任也值得探讨。产品运营者的注意义务到底为何,指令词过滤等措施是否由其承担,应结合生成式人工智能技术发展过程中各方承担的角色和利益分配,确定合理的、可负担的注意义务。
生成式人工智能产品使用者的侵权责任
尽管权利人出于诉讼成本与收益的考量,鲜少起诉生成式人工智能产品使用者侵权,但大量生成式人工智能产品使用者导致集聚效应以及使用者故意诱导生成侵权图片的情况下,仍有必要考量使用者的侵权责任问题。
困难在于,就侵权生成物的产生而言,用户输入的提示词和生成式人工智能的生成能力缺一不可,很难区分用户与生成式人工智能在侵权过程中的贡献度。一方面,没有用户的行为,特别是用户的提示词,不可能产生侵权生成物。另一方面,必须承认的是,生成物的产生主要来自人工智能的能力。因此,很难直接套用直接侵权/间接侵权的框架将用户定义为直接侵权人,而将生成式人工智能服务提供者定义为间接侵权人。此外,生成式人工智能服务提供者和使用者就侵权的意思联络和行为分担也不明确,这导致共同侵权行为理论在生成式人工智能场景的适用方面面临很大挑战。
技术发展与法律限制的矛盾性
在认定生成式人工智能侵权责任时面临的核心困境,是如何有效平衡权利保护和技术进步之间的冲突。一方面,生成式人工智能的发展及进步离不开海量数据和知识成果,知识共享、数据共享、技术开源等无疑会促进人类社会进步,增进全人类福祉。然而,未经知情同意的海量数据抓取、内容复制、替代生成不仅会侵害创作者权益,还会降低整个社会创作的积极性,导致传统内容创意产业的式微。
著作权法等知识产权法自诞生就承担着技术发展下权利人和公共利益的平衡。其中,权利限制原则的设计初衷在于基于公共利益的考量对特定作品利用行为赋予侵权责任豁免。我国著作权法第二十四条引入了三步检验法,“合理使用”情形仅限于法定的十二种情形,尽管第十三项为“法律、行政法规规定的其他情形”,但仍未改变合理使用认定规则的封闭性特征。我国著作权法对合理使用情形的具体限定,以及成本过高的授权许可、法定许可制度,导致生成式人工智能技术发展中数据训练行为的合法性问题难以确认。
然而,在合理使用开放式立法的国度,对生成式人工智能的合理使用抗辩也捉襟见肘。例如,美国学者主张生成式人工智能构成合理使用的抗辩路径主要有三种:非表达性使用、实质性非侵权用途和转换性使用。非表达性使用抗辩源自谷歌电子图书馆案,但生成式AI不仅深度学习内容之间的“联系”,而且“记忆”内容本身且最后生成了新的表达性内容,故而很难适用。实质性非侵权用途抗辩源自索尼案,但生成式AI提供者并非完全技术中立,其主动将权利内容纳入了数据训练,因此该抗辩也很难成立。呼声最高的是转换性使用抗辩,该抗辩源于Campbell案、成熟于Warhol 案。然而,即使生成式AI的数据训练和生成行为满足了第一因素“使用的目的与特点”的考察,仍然无法满足第四因素“市场影响”的考察,即生成式AI生成内容大部分是原作内容的替代市场,难以论证开发了补充市场。
小结:面临技术创新与法律限制的层层冲突,生成式AI的合法性之路任重而道远。同时,黑箱算法下迷雾般的侵权事实查明与三元主体结构下互相交织的侵权责任关系,使得生成式AI的侵权责任认定也困难重重。
三、逻辑纠偏:生成式人工智能侵权的底层原理
生成式人工智能的一般工作原理
尽管生成式人工智能的算法复杂且不透明,但基于生成式人工智能算法生成内容的过程并非“不可解释”。这对于脱离想象、落地处理生成式人工智能的侵权问题至关重要。
1.自动编码
ChatGPT是众所周知的生成式人工智能。但在最初发布时,它只是 OpenAI 生成式预训练转换器(GPT-3) 的改进版本,是一种可供有限注册用户使用的“自动编码器”。“自动编码”(autoencoding)是处理生成式人工智能侵权问题时要掌握的最重要的特征。
生成式人工智能的本质是“学习”训练数据中固有的潜在或抽象特征。所谓“学习”,是指它们对图片或文本中的多维度特征进行压缩,再组合在数据训练期间获得的抽象特征,最后解压缩以生成新内容。简而言之,从训练数据中抽象出潜在特征,然后重建这些特征,形成新的组合。这就是自动编码的内涵。如下图所示,自动编码器可以将图像压缩变为编码表示,然后从简化的编码表示中重建接近原始数字的内容。
提炼抽象特征
GPT、Stable Diffusion等执行的是上述相同的压缩、解压缩技巧,但其输入和输出之间并不是一对一的关系。例如,当用户提示生成式 AI 创建“白色背景上的咖啡杯”时,该模型将“咖啡杯”“白色”的抽象特征相结合,这些抽象特征来自训练数据中带有这些概念标签的海量图像。
上图说明了 Stable Diffusion 训练数据中带有“白色”、“咖啡”和“杯子”字样的图像与在 Stable Diffusion 中根据提示“白色背景上的咖啡杯”生成的四张图像之间的对比。可以看到,右侧图像不是左侧训练数据的简单重混。Stable Diffusion 模型不仅学习了涉及咖啡杯的复杂图像,还区分了咖啡杯与蛋糕、日出和有胡须的男人等抽象概念的不同。
从考察著作权侵权的角度来看,这种抽象、压缩和重构的过程破坏了模型输入中原始表达(即训练数据)和模型输出中伪表达(即新图像)之间的联系。图中右侧的杯子不是特定的某个咖啡杯,也不是训练数据的简单重混,它们是向量的组合。生成式 AI 对咖啡的味道和白色的视觉效果一无所知,但它们编码了像素之间的基本关系。尽管伪表达在很大程度上来源于训练数据,但这种联系由不受著作权保护的“抽象”(甚至还没有成为思想)组成,而非源自受著作权保护的表达。
噪声的引入
如前文所述,输入数据与输出内容间的关联性因抽象和重组而减弱。此外,这种关联性还被随机噪声的引入不断减弱。在输入数据或中间层中添加噪声,有助于规范机器学习过程,减少过拟合。 换而言之,通过在训练数据中添加随机性,模型被迫学习更泛化的特征。当应用于新的、未见过的数据时,可以提高模型的通用性。如下图中瑞士卷形状,本来集中有序的样本点,受到噪声的扰动向外扩散,最终变成一个完全无序的噪声分布。
而从单个图像样本来看,就是通过扩散过程不断往图像中加噪声直到图像变成一个纯噪声。Diffusion 模型则是逆扩散过程,从纯噪声生成一张图像。 若在 t=0(第一步之前)引入噪声意味着在 t=T(最后一步)时解压缩的图像每次都会有所不同。
总之,当前的生成式人工智能不仅仅是一个简单的数据重混工具。与所有机器学习一样,生成式人工智能依旧依赖于训练数据,但训练数据与输出内容之间的关联性因从数据中提取抽象概念、重新组合以及注入噪声而大大减弱。因此,一般情况下,AI生成图像不太可能让普通观察者感到与训练数据中的某个特定图像实质性相似。
生成式人工智能侵权的特殊情况
如前所述,一般情况下输出内容不会构成对输入数据的侵权。但情况并非总是如此。在某些情况下,生成式人工智能可有效“记忆”训练数据的重要细节。此时,侵权可能性就大大提升。
史努比难题
一般而言,对传统美术作品、摄影作品的侵权十分困难,但对受著作权保护的角色形象的侵权则相对容易。例如,有学者使用指令词“在白色背景中,亚麻纺织品上有一杯咖啡和一盘橙色马卡龙蛋糕”,就Stable Diffusion 训练数据中的图像与 Stable Diffusion 生成的六张图像进行了比较。
可以看到,右侧的生成图像与左侧训练数据中的图像并不相似。尽管在更精确的指令下也许会获得相同图像,但在这种情况下,侵权主要源于用户的详细说明,而不是人工智能本身。
再比较从谷歌图片搜索(上)中获取的史努比图像,与输入提示词“史努比在被圣诞灯包围的红色狗窝里”后 Midjourney(左下)、 Stable Diffusion(右下)生成的图片。
虽然生成的图像都不是权利作品的精确复制,但史努比作为受著作权保护的角色形象足以使生成的图像侵权。广州互联网法院审理的奥特曼案也是如此。
为何使用人工智能再现摄影作品如此困难,但生成史努比、奥特曼的侵权图像却如此容易?原因在于,生成式人工智能数据训练采用将视觉元素与文本描述联系起来的方式,使AI记住了特定角色名称和角色视觉形象的关系。当呈现几千张“史努比”相关的图像时,Stable Diffusion 等模型会学习哪些特征在整个数据集合中不断重复。而受著作权保护的角色形象恰好具有稳定的、可识别的特征,极易被模型记忆。
角色形象之外的侵权可能
史努比难题并不只限于受著作权护的角色形象。在某些图像以微小变化重复并始终使用相同关键字进行标记的情况下,也极容易生成侵权内容。例如,很容易生成与班克斯街头艺术作品《女孩与气球》相似的图像。该作品以一个拿着红色气球的小女孩为特征。就像史努比和奥特曼的例子一样,“女孩+气球”的视觉意象简单、以微小的排列变化在训练数据中重复,且与特定的文本描述相关联。尽管生成的图像与班克斯的原始图像不完全相同,但女孩的轮廓、与气球的关系、气球形状都非常一致,以至于每个图像都与原始图像实质性相似。
小结:一般情况下,生成式AI不会“记忆”训练数据的细节,而是通过提取抽象概念、重新组合以及注入噪声等方式学习训练数据中的多维关系,以致于输出内容不会与某件特定的训练作品实质性相似。但是,生成式AI的“记忆”往往发生在文本描述与某个独特图像具有稳定联系,或图像相对简单、与某个单一物体相关,且该图像在训练数据中高频率出现的情况下。在这种情况下,生成式AI输出的内容有较大可能构成侵权。
四、范式推演:生成式人工智能侵权责任裁判路径探究
习近平总书记在主持召开中共中央政治局会议时指出:“要重视通用人工智能发展,营造创新生态,重视防范风险。”在生成式人工智能技术发展如火如荼,成为众多传统产业发展助力的时代背景下,生成式人工智能侵权责任认定路径的最优解并非制定严密的规则最大限度地防范风险,而是要在有限度地控制风险可能性的同时,给新技术发展带来更多可能性。第四部分试图在现行法律体系下,依托已有的司法实践,通过法律解释学方式,探索生成式人工智能侵权责任裁判路径。
审慎扩大合理使用的适用
基于“事前授权”的著作权使用付费模式是当下知识经济时代尊重他人智力成果、维护市场运行的基础模式。然而,数据训练作为人工智能技术发展的底层支撑,其数据喂养规模常常达至海量,传统著作权“事前授权、使用付费”的交易模式难以满足人工智能时代海量学习的需求。 因此,适当放开合理使用的适用情境,将采取适当预防措施下的生成式人工智能数据训练纳入著作权法第二十四条第六项“为学校课堂教学或者科学研究使用”,或者第十三项“法律、行政法规规定的其他情形”,并在满足“不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益”后两步检验下,认定不构成侵权。
从技术逻辑出发,生成式人工智能分为“数据训练”和“内容生成”两大阶段,其中数据训练阶段主要是将收集到的数据输入初步模型并进行微调优化。在此过程中,对数据的分析和学习仅在人工智能内部进行,并不产生同创作者竞争的内容,也不与其他公众的权益产生接触,因此不会对著作权人的作品产生替代效果,不应当受到著作权法的限制。 从产业政策视角出发,庞大的训练数据规模是人工智能大模型生成理想结果的基础,而互联网内容的著作权则分散在各个创作者处,要求模型开发者事前逐一获得著作权人授权无疑会耗费巨大的交易成本,造成“反公地悲剧”。
同时,应审慎扩大合理使用在数据训练情形下的适用,避免人工智能模型训练成为“权利清洗机器”。人工智能数据训练只有采取适当的侵权预防措施的前提下,才能侵权豁免。根据前述第三部分的侵权原理分析,适当的侵权预防措施应包括:从训练数据中清除重复项;强制模型学习抽象特征而非记忆特定细节;针对侵权敏感情形设置RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)等人工监督技术进行训练优化;保留训练日志,并为权利人提供技术工具以确定其作品是否是训练数据的一部分。
人工智能模型开发者与用户的共同侵权理论
前述的侵权豁免仅限于“数据训练”阶段的行为,而不延展至“内容生成”阶段的行为。在“内容生成”阶段,人工智能模型开发者训练的人工智能根据用户输入的指令生成了侵权内容,则模型开发者与用户根据《民法典》第一千一百六十八条、参照《关于审理侵害信息网络传播权民事纠纷案件适用法律若干问题的规定》第四条,构成共同侵权。
著作权法上传统的网络侵权理论倾向于英美法系的版权法思路,强调“直接侵权”与“间接侵权”之分。直接/间接侵权的区分在平台经济下行之有效,但在无法区分直接侵权人的生成式人工智能语境下捉襟见肘。大陆法系建立共同侵权责任制度的原因就在于缓和事实上的因果关系的要件,消除受害人因无法证明因果关系而面临的困境。因此,在生成式人工智能侵权责任认定时,应抛弃以往著作权侵权中的直接/间接侵权论证路径,回归多人共同侵权的论证思路。
在论证共同侵权之前,有必要厘清对人工智能模型开发者侵权的归责原则。换而言之,人工智能模型开发者应适用产品责任的严格责任,还是过错责任?两者的本质差别在于,人工智能模型开发者应对结果负责,还是对过程负责。产品责任理论采无过错归责原则的原因在于,在现代工业体系下,消费者与经营者在经济实力、举证能力等方面差距悬殊,并且损害主要集中在对生命权、身体权、健康权的侵害。而生成式人工智能侵权的后果可能集中在著作权、肖像权等方面的侵害,法益受损的危险程度远低于传统产品侵权后果。从发展的角度来看,生成式人工智能的发展尚处于初级阶段,对其课以过重的法律责任,难免抑制技术创新的进程。因此,模型开发者无需无条件对侵权结果负责,但需对过程负责,即不适用严格责任,而适用过错责任。其与用户的共同侵权建立两者存在共同过错的基础上。
可适当借鉴传统互联网内容平台中的“避风港规则”和“红旗规则”,探索建立一套适应人工智能产业发展的过错认定机制和责任分担机制。例如,参考《关于审理侵害信息网络传播权民事纠纷案件适用法律若干问题的规定》第十三条,建立模型开发者的“避风港规则”。具体而言,模型开发者应针对权利人建立相应的投诉举报机制,接到权利人提交的通知及构成侵权的初步证据,应及时采取数据集清理、强化学习、输出过滤、关键词屏蔽等必要措施,否则应当认定具有侵权故意。参考《关于审理侵害信息网络传播权民事纠纷案件适用法律若干问题的规定》第九条,建立模型开发者的“红旗规则”。综合考虑训练作品的知名度及引发侵权的可能性大小,是否积极采取了“对流行角色形象作为违禁词”“对重复侵权内容输出过滤”等预防侵权的合理措施,来认定模型开发者是否构成过失。
对于用户的过错认定,可区分为三种情况。若用户输入指令时,直接输入了版权作品,如输入一张版权作品并要求生成类似内容,则存在侵权故意;输入指令时,输入可能侵权的提示词,如生成一张奥特曼图片,则认定构成过失;输入指令时,若没有任何侵权引导倾向,但仍生成了侵权产品,则用户不存在过错,仅模型开发者承担侵权责任。
(三)强调人工智能运营者的注意义务
人工智能运营者是指人工智能模型开发者之外直接向特定或不特定公众提供人工智能产品的组织或个人。如果说模型开发者是内容生成者,则人工智能运营者则是将内容提供给用户的桥梁,属于传统网路侵权理论中的“网络服务提供者”。因此,可以直接参考适用《关于审理侵害信息网络传播权民事纠纷案件适用法律若干问题的规定》第四条,若能够证明其仅提供自动接入、自动传输、信息存储空间、搜索、链接、文件分享技术等网络服务,主张不构成共同侵权行为的,人民法院应予支持。但是根据民法典第一千一百六十九条,若存在教唆、帮助模型开发者或用户实施侵权行为的,应承担连带责任。人民法院应当根据人工智能运营者的过错,确定其是否承担教唆、帮助侵权责任。
关于人工智能运营者是否构成教唆侵权,应重点考察其是否以言语宣传、推介技术支持、奖励积分等方式诱导、鼓励网络用户实施侵权行为。
关于是否构成帮助侵权的过错可围绕是否履行了注意义务来判断。在人工智能生成阶段可能侵权的情况下,人工智能运营者往往面临预期不稳定的情况。其并不知道如果生成阶段构成侵权,会面临多大的责任;更不知道应采取哪些措施来进行合规,从而避免承担损害赔偿责任。注意义务作为行为人过失认定的客观化标准,可以在很大程度上解决上述问题。即在认定行为人是否具有过失时不再探究其主观心理状态,而是统一采用基于社会生活共同需要而提出的客观标准,又可以称为“善良管理人”标准。
在广州互联网法院审理的奥特曼案中,法院为生成式人工智能服务提供者明确提出了三个注意义务:设立投诉举报机制的义务、潜在风险的提示义务和显著标识义务。就投诉举报机制而言,《生成式人工智能服务管理暂行办法》和《生成式人工智能服务安全基本要求》(TC260-003)都明确规定了生成式人工智能服务提供者在知识产权方面有设立投诉举报渠道的义务。该机制与避风港规则中的“通知—删除”机制存在一定的相似性。就潜在风险提示义务,《生成式人工智能服务安全基本要求》明确规定生成式人工智能服务提供者“应在用户服务协议中,向使用者告知使用生成内容时的知识产权相关风险”,并与使用者约定关于知识产权问题识别的责任与义务。就显著标识义务,是指生成式人工智能服务提供者以让人可以感知的方式进行标识,从而使得公众能够认知到生成物是由人工智能生成。人工智能运营者能够证明已采取合理、有效的技术措施,仍未阻止侵权行为的,应当认定其不具有过错,不构成帮助侵权。
结 语
生成式人工智能技术在内容生成上的突破将深刻改变数字信息产业的未来发展和竞争格局,变革知识获取方式,大幅提升知识利用效率。但在目前法律体系下,生成式人工智能面临着数据训练缺乏合法性、传统网络侵权理论难以适用、侵权事实难以固定等难题。知识产权法作为科技与法律相互作用、相互影响最为直观的制度规范,正面临着传统理论与现实产业发展之间的挑战,如何因地制宜地寻找适应产业发展与技术升级的规范措施成为当务之急。拨开技术问题的层层迷雾,还原生成式人工智能的基础法律关系,承认生成式人工智能多元服务提供者的主体划分,并在合理使用制度、避风港规则、共同侵权基本原理下探索适宜的侵权责任规则,将为解决生成式人工智能侵权纠纷提供有益路径。