法护 AI ,律智协行——基于ChatGPT 的人工智能自动生成内容的法律应对

(整期优先)网络出版时间:2023-12-11
/ 2

法护 AI ,律智协行——基于ChatGPT 的人工智能自动生成内容的法律应对

赵娣

沈阳师范大学法学院

【摘要】作为人工智能“新风口”,以ChatGPT为代表的内容生成式人工智能席卷全球,强大的人机交互功能充分展现其对各领域的革新作用。但若监管机制未能跟上步伐、生成式人工智能被恶意利用,将极易带来虚假信息泛滥、 算法歧视等问题,进而陷入“科林格里奇窘境”。因此风险合规势在必行。本文着重分析ChatGPT的三大潜在法律风险,予以精准应对措施,护航生成式人工智能产业从野蛮生长走向合规发展,既保障科技发展急用先行,又助推法律监管安全协行,为探索生成式人工智能治理的中国化路径提供法治保障。

[关键词]ChatGPT;生成式人工智能;风险规制

一、ChatGPT内容生成过程中法律风险问题的分析研究

1.ChatGPT内容生成过程中的数据侵权风险及其成因分析

首先,由于ChatGPT模型的参数量巨大使得预训练数据中不乏众多受版权保护的数据客体。作为自动化技术,ChatGPT只能依据开发者设置的指令运行,并不能主动识别数据的权利状态,很可能出现未经授权就直接挖掘数据进行输出内容整合的情况。其次,生成文本时,ChatGPT并不是将语料库中数据“原片直出”式提取,而会对输入内容与语料库中的数据进行修改整合,用户看到的生成内容是对原数据的二次加工。其数据挖掘技术的隐秘性为权利主体识别自身是否陷入侵权隐患增添了一定难度。再次,ChatGPT采取的“样本=总体”的全数据挖掘模式使得挖掘对象的数量庞大,即须向更多的数据权利主体获取使用授权,协商成本增加。出于商业利益考量,OpenAI公司有充分动机对数据不经授权而直接进行使用。

2.ChatGPT内容生成过程中的数据安全风险及其成因分析

在大型语言模型迅速发展的情况下,数据安全风险不容忽视。以ChatGPT为例,根据其工作原理,它在预先自主学习训练的过程中不受人工监督,也不能主动对数据的来源进行实质性筛选,所以即便是虚假信息、违法信息,也有可能被ChatGPT直接复制到数据库中用于回答后续用户提出的问题,即数据在源头就可能存在内容不合法、不合规、内容虚假等风险。若用户非专业人士,则难以辨认生成内容的可信度;若用户对该内容进行网络传播,或将带来有害信息泛滥的更大现实危害。

3.ChatGPT内容生成过程中的信息泄露风险及其成因分析

ChatGPT规定用户应同意ChatGPT使用用户输入内容改进和提升服务即利用用户来训练机器学习算法,并提供了更详细的内容使用规则。此项规定确实有利于保证ChatGPT智能化和竞争力,但一旦将用户输入的个人数据或商业秘密采集并存储到自身语料库,使其成为模型训练的基础语料,则可能产生信息泄露风险。虽然ChatGPT承诺删除所有个人身份信息,但未说明删除方式,在不能对信息与数据来源进行事实核查时,仍然具有泄露风险。关于涉及商业秘密的信息将被如何处理,ChatGPT也是付之阙如。

二、ChatGPT内容生成过程中法律风险问题的合规对策

1.ChatGPT内容生成过程中数据侵权风险的合规对策

对于上述ChatGPT在数据挖掘过程中的侵权问题,其实质在于数据挖掘者与被挖掘数据的权利人之间的利益冲突。笔者认为可从权利人和挖掘主体两角度着手:权利人方面,重在保障其数据来源明确,故可尝试通过网络爬虫排除标准、数字版权管理技术等来主动标记数据的权利状态;但若对标记数据一一请求授权,挖掘成本高昂,一定程度上是对大型语言模型智能化发展的阻碍。成本阻碍可能会倒逼挖掘主体利用技术的黑箱效应直接跳过授权程序而随意利用。综上,为权利人和挖掘主体之间的利益平衡,有必要松绑知识产权对ChatGPT训练的限制,为数据挖掘创设合理使用模式。

结合国外司法实践和国际最新立法,可供我们参考借鉴的制度模式有著作权默示许可制度、美国的四要件规则、英国和欧盟的“有条件例外”模式。其中,“有条件例外”模式通过确立数据挖掘的版权例外制度、限定例外适用条件,既为大模型使用者对海量数据进行价值挖掘让渡了合法使用空间,又不会对权利人著作权造成过分侵害,于双方主体间形成新的利益平衡点。故我们可参照此模式为挖掘者建立适合当前环境的著作权合理使用规则。

诚然,我国《著作权法》 第二十四条已列举12种法定合理使用情形和相关规定。但这种封闭式立法不能满足大型语言模型创作的开放化需求。法定许可在规制大型语言模型创作方面缺乏制度优势,所以应对我国合理使用规则的现有理路进行必要修正,引入“三步检验法”作为大模型合理使用认定的标准与界限,灵活判断其数据挖掘行为是否属于侵权。

2.ChatGPT内容生成过程中数据安全风险的合规对策

解决数据安全风险应该多措并举、多方共治。

平台层面上,ChatGPT等大型语言模型应加快构建人工智能自检测模型,从数据库前端就对平台使用者的输入数据及合成结果审核筛查;并扩展数据获取渠道进行多方比照,以提高数据库的信息真实率和ChatGPT的信息识别能力。第二,加快建立举报标记机制和用于识别违法、不良信息的特征库,以改善后续用户的使用体验;第三,ChatGPT平台应以显著方式提示ChatGPT的技术支持者和使用者,并在生成疑似违法或不良信息时进行必要安全拦截。第四,ChatGPT平台应遵循相关法律法规,落实主体安全责任。我国目前已进行相关立法,如《互联网信息服务深度合成管理规定》中对深度合成服务提供者和技术支持者的规定。

用户层面上,《互联网信息服务深度合成管理规定》中明确指出:任何组织和个人不得利用深度合成服务制作、复制、传播法律、行政法规禁止的信息,不得利用生成式AI从事违法违规活动。其次,OpenAI特别提示其暂时无法从输入历史中删除特定某内容;如果想要删除数据,必须以注销此账号的方式,删除账号相关数据。故建议用户不仅要注意信息传递,对所有可能涉及隐私秘密的数据进行脱敏化处理,还要提高对生成内容的辨识能力,谨慎传播与应用。

政府对此也有必要出手监管整治:建立全链条监管模式,深入到大型语言模型的全生命周期。另一方面,算法监管和数据监管同样重要,着手建立场景化、精细化的算法治理机制,可参考2018年发布的《人工智能深度学习算法评估规范》在算法治理实践中进行的有益尝试。

3.ChatGPT内容生成过程中信息泄露风险的合规对策

AI提供方采取相应措施相较于用户会将更为有效且根本地解决问题。笔者认为应将ChatGPT用户协议中“用户对输入数据的授权”定性为一般授权,即用户仅授权ChatGPT对输入数据进行有限利用,ChatGPT可依据授权对一般性的输入数据进行合法处理,未经另行授权不得将用户输入的可识别到个人的数据或涉及到商业秘密的数据采集并存储到ChatGPT数据库中进行二次合成输出,已经脱敏化处理的信息除外。换言之,若要获得对上述特殊信息的完全自由使用,ChatGPT除了要获取用户协议中的一般授权外,还应获得将上述信息纳入数据库进行二次输出的特殊授权。虽然使用条款中也表示如果用户不愿意自己的内容被ChatGPT使用,可以邮件的方式表示拒绝,但这可能导致用户在特定场景下的使用系统能力受影响。数据权益的分配不应该是零和博弈,而应当是共赢机制。因此为兼顾用户信息安全和ChatGPT发展需要,双方可依托于专业的数据中间商提供经纪服务,如我国现有的贵阳大数据交易中心。《数据安全法 (草案)》第30条也明确了数据中间商在数据交易中的权利审核和交易记录责任,相信这将为实现数据形成利用激励和安全保护激励的双重目标打下良好的基础。

【参考文献】

[1]唐思慧.大数据环境下文本和数据挖掘的版权例外研究——以欧盟《DSM版权指令》提案为视角[J].知识产权,2017(10):109-116.

[2] 吴汉东.人工智能生成作品的著作权法之问[J].中外法学,2020(3):662-663,661.

[3]王利明.法学方法论[M].北京:中国人民大学出版社,2012:623-640.

[4] Gut h S.Rights expression languages.In: Becker E.et al.Digital Rights Management: Technological, Economic, Legal and Political Aspects.[M].Berlin: Springer Verlag, 101-112(2004).

项目编号X202310166020,大学生创新创业训练计划