×

打开微信,扫一扫二维码
订阅我们的微信公众号

首页 锦天城概况 党建工作 专业领域 行业领域 专业人员 全球网络 新闻资讯 出版刊物 加入我们 联系我们 订阅下载 CN EN JP
首页 > 出版刊物 > 专业文章 > BigScience 人工智能大模型许可证合规探析

BigScience 人工智能大模型许可证合规探析

作者:丁华 黄威 陈岱源 2024-09-06

一、人工智能开源大模型BigScience Bloom简介


Bloom是由BigScience项目组开发的一个开源的,支持多语言的大语言模型。BigScience 既不是一个财团,也不是一个正式成立的实体。它是由HuggingFace(大模型托管平台)、GENCI(法国国家超级计算机中心)和IDRIS(法国国家科学研究中心密集科学计算开发与资源研究所)发起的开放式研究研讨会。该研究研讨会汇聚了来自多个分支机构的学术界、工业界和独立研究人员,他们的研究兴趣横跨人工智能、自然语言处理、社会科学、法律、伦理和公共政策等多个研究领域[1]。

BigScience认为大型语言模型(LLM)对人工智能研究产生了重大影响。这些功能强大的通用模型可以根据用户的指令承担各种新的语言任务。然而,学术界、非营利组织和小型公司的研究实验室很难创建、研究甚至使用大型语言模型,因为只有少数拥有必要资源和专有权的工业实验室才能完全使用它们。因此,BigScience组织决定将其研发的BLOOM大语言模型进行开源。


BLOOM拥有1760 亿个参数,能够生成 46 种自然语言和 13 种编程语言的文本。在法国研究机构 CNRS 和 GENCI 提供的价值约 300 万欧元的计算资助下,来自 70 多个国家和 250 多个机构的 1000 多名研究人员历时一年(3 月 11 日至 7 月 6 日),在法国巴黎南部的 Jean Zay 超级计算机上对 BLOOM 模型进行了为期 117 天的最终训练。


BigScience认为,一方面要最大限度地获取和使用 LLMs,另一方面要降低与使用这些功能强大的模型相关的风险,因为这些风险可能会给社会带来伤害和负面影响。尽管BLOOM是开放(开源)的,但是不意味着其应用风险被化解,传统的开源许可协议并不是“负责任”的,因此BigScience参与设计了负责任的人工智能许可证("RAIL")。BigScience在设计许可证时,阅读了记录大型语言模型潜在危害的文献,还咨询了 BigScience 模型卡和伦理宪章工作组并询问他们 BigScience 的作品可能被如何不当使用,查阅了公开的人工智能道德准则,包括《负责任的人工智能蒙特利尔宣言》、IBM 的《信任和透明原则》、欧盟委员会的《可信人工智能道德准则》、蒙特利尔数据许可倡议。最终制定出了BigScience RAIL License v1.0,BigScience认为这种许可证有效地对模型的使用施加了行为限制条款[2]。


在BigScience RAIL License发布之后,BigScience工作组经常收到开发者的咨询,询问BLOOM是否是一个开放的大模型,对BLOOM能否像开源软件一样进行二次开发和衍生作品的分发。BigScience工作组意识到BigScience RAIL License的名称不能清楚地传达出“允许自由复制和再分发”的开放精神,并且,确实也有部分采用RAIL许可证的大模型将大模型的使用限定为研究目的。因此BigScience工作组意识到随着 RAIL 许可证采用率的增加,显然需要更清晰地在名称上就对大模型的开放性特点进行标注。在与RAIL Initiative进行商讨后,RAIL Initiative在负责任的人工智能许可证类别中引入了一个新的分类方式,称为“开放式的RAIL许可证”。“开放式的RAIL许可证”提倡自由使用和重新分发适用的人工智能模型,同时保留行为使用限制。在此之后,BigScience工作组也在BigScience RAIL License许可证的基础上,调整部分条款,形成了BigScience Open RAIL-M许可证。该许可证不仅适用于 NLP 模型,也可适用于其他类型的模型,包括多模态生成模型[3]。目前在Huggingface平台上有823个模型使用BigScience Open RAIL-M许可证[4]。


二、人工智能开源大模型BigScience Bloom许可证BigScience RAIL License v1.0和BigScience Open RAIL-M License简介


(一)BigScience RAIL License v1.0简介


BigScience Bloom最初所采用的BigScience RAIL License v1.0许可证在2022年5月19日发布,许可证内容包括4节12个条款和附件A,主要内容如下:


首先在第一节序言之前,BigScience说明Apache 2.0许可证适用于开发模型所使用的资源,为了访问和分发模型,BigScience对许可条件做了修改,BigScience RAIL License v1.0许可证旨在保持开放和宽容的特性,同时努力实现模型的负责任使用。


在第一节序言部分进一步说明, BigScience是一个协作式的开放创新项目,旨在负责地开发和使用大型多语言数据集及大型语言模型(“LLM”),同时记录由此协同努力产生的最佳实践和工具。世界已经见证了少数公司/机构能够开发LLM,并且自然语言处理技术在某些情况下可能对公众构成普遍风险。BigScience制定了代表其社群价值观的伦理宪章。尽管BigScience社群无意将其价值观强加给该模型的潜在使用者,但它决心采取切实措施,保护社群免受对BigScience开发成果不当使用的伤害。BigScience RAIL License v1.0管辖BigScience BLOOM模型(及其衍生品),BigScience相信开放和负责任的人工智能开发之间的交集,努力平衡二者,以使大型语言模型及未来自然语音处理技术的负责任开放科学成为可能,并希望根据BigScience RAIL License v1.0许可协议,促进合作并分享研究模型成果,以造福社会。


序言部分还对模型许可涉及的重要概念在第1条进行了定义,例如:


数据指提取自BigScience语料库与模型一起使用的文本集合,包括用于训练、预训练或以其他方式评估模型。数据未根据BigScience RAIL License v1.0许可证授权。BigScience语料库是在BigScience网站上记录的现有语言数据资源的集合。模型是指任何随附的基于机器学习的组合(包括检查点),由学习的权重、参数(包括优化器状态)组成,与补充材料中体现的BigScience BLOOM模型架构相对应,该组合通过使用补充材料利用全部或部分数据进行了训练或调整。模型的衍生作品是指对模型的所有修改,基于模型的作品,或通过将模型的权重、参数、激活或模型输出的模式转移到另一个模型来创建或初始化的任何其他模型,以使其他模型的执行与该模型相似,包括但不限于需要使用中间数据表示的蒸馏方法或基于该模型为训练其他模型生成的合成数据的方法。补充材料是指用于定义、运行、加载、基准检测或评估模型的附随源代码和脚本,和用于准备训练或评估数据的适用源代码和脚本。这包括任何随附的文档、使用说明、示例等。 分发是指任何传输、再制造、公布或以其他方式分享模型或模型的衍生作品给第三方,包括通过电子或其他远程方式(例如基于 API 或网络访问)使提供模型以托管式服务可用。贡献系指版权人或被授权以版权人名义提交的个人或法律实体有意提交给许可人以纳入模型的任何作者作品,包括模型的原始版本以及对该模型或其衍生作品的任何修改或添加。


第二节知识产权,首先BigScience RAIL License v1.0许可证明确规定其对版权和专利的授权适用于模型、模型的衍生作品和补充材料。模型和模型的衍作生品还受第III节中所述的附加条款的约束。


其次,许可证第2条明确授予被许可人永久的、全球性的、非排他性的、不收费的、免版税的、不可撤销的版权许可,以再制造、准备、公开展示、公开执行、可分许可和分发补充材料、模型和模型的衍生作品。


再次,许可证第3条明确授予被许可人永久的、全球性的、非排他性的、不收费的、免版税的、不可撤销的(本段另有规定除外)的专利许可,制造、委托制造、使用、许诺销售、销售、进口和以其他方式转移模型和补充材料。


最后,许可证第3条规定,如果被许可人针对任何实体提起专利诉讼(包括诉讼中的交叉请求或反请求),声称模型和/或补充材料,或合并进模型和/或补充材料中的贡献构成直接或间接专利侵权,则根据本许可证授予的模型和/或作品的任何专利许可应自此类诉讼被提起之日起终止。


第三节使用、分发和再分发的条件 首先,许可证第4条规定,被许可人可为第三方远程访问目的提供托管(例如软件即服务),在任何媒体上再制造和分发模型或模型的衍生作品的副本,无论是否修改,前提是满足以下条件:(1)将许可证第5段的使用限制作为可执行的条款包含在管辖模型或模型衍生作品的法律协议(例如许可证)中,但本条要求不适用于补充材料的使用;(2)必须向模型或模型衍生作品的任何第三方接收者提供一份BigScience RAIL License v1.0许可证的副本;(3) 使任何修改的文件带有显著的通知,声明该文件被修改;(4)保留所有版权、专利、商标和归属声明,但不包括与模型、模型衍生作品的任何部分无关的声明:(5)被许可人可以在其修改中添加其自己的版权声明,并可以提供附加的或不同的许可条款和条件,但前提是使用、复制和分发模型符合BigScience RAIL License v1.0许可证中规定的条件。


其次许可证第5条规定,附件 A 中规定的限制被视为“基于使用行为的限制”。因此,被许可人不能因特殊规定的限制用途使用模型和模型的衍生作品。


最后,许可证第6条规定许可人对被许可人使用模型生成的输出不主张任何权利。被许可人对生成的输出及其后续使用负有责任。对输出的任何使用均不能违反许可证中陈述的任何条款。


第四节其他规定 许可证第7条规定,在法律允许的最大范围内,许可人保留限制(远程或其他方式)违反本许可证使用模型、通过电子方式更新模型或基于更新修改模型输出的权利。被许可人还应尽合理努力使用最新版本的模型。许可证第8条规定,不允许被许可人使用许可人的商标、商号、标识或以其他方式建议认可或错误陈述双方之间的关系。许可证第9条和第10条规定了无担保和责任限制声明。许可证第11条规定,在重新分发模型、模型的衍生作品和补充材料时,被许可人可以选择收取费用并提供同意支持、担保、补偿或与本许可证一致的其他责任义务和/或权利。但是,在接受此类义务时,被许可人只能代表被许可人自己并独自承担责任,而不是代表任何其他贡献者,并且被许可人同意补偿、抗辩并使每个贡献者免受由此可能导致损害。许可证第12条是可分割性条款,即如果本许可的任何条款被认定为无效、非法或不可执行,则其余条款不受影响,并继续有效。


附件A使用限制 附件A作为第5条的援引内容对模型或模型衍生作品(不包括补充材料)的使用限制进行了规定。模型或模型衍生作品的使用限制包括:以任何方式违反任何适用的国家、联邦、州、地方或国际法律或法规;通过任何方式剥削、伤害或试图剥削或伤害未成年人;为伤害他人的目的生成或传播可验证的虚假信息;生成或传播可用于伤害个人的个人身份识别信息;在任何情境下(例如,帖子、文章、推文、聊天机器人或其他类型的自动化机器人)生成或传播信息或内容,而不明确且清晰地声明文本为机器生成;诽谤、贬低或以其他方式骚扰他人;冒充或企图冒充他人;用于全自动决策,该决策对于对个人合法权利产生不利影响或以其他方式产生或修改具有约束力、可执行义务的;基于在线或离线社交行为或已知或预测的个人或人格特征,意图或具有歧视或伤害个人或群体效果的任何使用;利用特定群体基于其年龄、社会、身体或精神特征的任何脆弱性,对属于该群体的个人的行为进行实质性扭曲,通过导致或可能导致该该个人或另一个人身体和心理伤害的方式;基于受法律保护的特征或类别,意图或具有歧视个人或群体的任何使用;提供医疗建议和医疗结果解释;生成或传播用于司法管理、法律执行、移民或庇护程序的信息,例如预测个人将实施欺诈/犯罪(例如通过文本摘要、在文件中的声明之间得出因果关系 、不加区分和任意有针对性的使用)。


(二)BigScience Open RAIL-M License简介


BigScience Open RAIL-M License许可证为2022 年8月 8 日版本,许可证内容包括4节12个条款和附件A。BigScience Open RAIL-M License许可证是在BigScience RAIL License v1.0许可证基础上修订而产生,BigScience Open RAIL-M License许可证和BigScience RAIL License v1.0最大的区别在于:BigScience RAIL License v1.0许可证是BigScience为管辖大语言模型BigScience BLOOM(及其衍生模型)而设计的许可证,而BigScience Open RAIL-M License则是在BigScience RAIL License v1.0许可证基础上行调整修订后,提出的适用于基于机器学习的人工智能模型(如多模式生成模型)一个通用开放和负责任的许可证。


除个别措辞和调整外,BigScience Open RAIL-M License许可证和BigScience RAIL License v1.0许可证条款及附件A基本相同,具体条款内容可参考前文介绍。


三、适用BigScience Open RAIL-M License许可证或BigScience RAIL License v1.0许可证的人工智能开源大模型合规需要关注的问题


根据前文对BigScience Open RAIL-M License许可证和BigScience RAIL License v1.0许可证内容的简要介绍,商业公司在合规使用和分发适用BigScience Open RAIL-M License许可证或BigScience RAIL License v1.0许可证的人工智能开源大模型时应当关注如下问题。


(一)BigScience Open RAIL-M License许可证和BigScience RAIL License v1.0许可证许可专利和版权范围包括模型、模型衍生作品和补充材料(即代码文件及其文档)


BigScience Open RAIL-M License和BigScience RAIL License v1.0两个模型许可证均发布于2022年同2023年发布的AIPubs Open RAIL-M许可证比较,相同之处在于,三个许可证均规定用于训练、评估的数据未根据前述模型许可证进行许可;不同之处在于,BigScience Open RAIL-M License和BigScience RAIL License v1.0同时适用于模型(即模型参数权重文件)和补充材料(模型源代码及其文档),而AIPubs Open RAIL-M许可证明确规定,补充材料未根据AIPubs Open RAIL-M许可证进行许可。


因此商业公司在部署、使用和分发适用BigScience Open RAIL-M License许可证或BigScience RAIL License v1.0许可证的人工智能开源大模型时,应清楚BigScience Open RAIL-M License、BigScience RAIL License v1.0许可证的许可版权和专利的范围包括模型、模型衍生作品和补充材料(即代码文件及其文档)。在此基础上商业公司还应当注意,虽然模型参数文件和补充材料(即代码文件及其文档)相关的版权和专利根据BigScience Open RAIL-M License许可证和BigScience RAIL License v1.0许可证第2、3条进行许可,但BigScience Open RAIL-M License许可证和BigScience RAIL License v1.0许可证第4条的规定的被许可人需要满足的对应条件仅为复制、分发和提供远程访问“模型和模型衍生作品”时需要满足的条件,而不包括“补充材料”,并且第5条及附件A的使用限制仅适用于“模型及其衍生作品”,同样并不适用于“补充材料”。


(二)模型权利人根据BigScience Open RAIL-M License许可证和BigScience RAIL License v1.0许可证对被许可人的授权范围包括版权和专利权,但不包括商标和商号权。


BigScience Open RAIL-M License和BigScience RAIL License v1.0许可证第2条明确授予被许可人永久的、全球性的、非排他性的、不收费的、免版税的、不可撤销的版权许可,用于再制造、准备、公开展示、公开执行、可分许可和分发补充材料、模型和模型的衍生作品。BigScience Open RAIL-M License许可证和BigScience RAIL License v1.0许可证第3条明确授予被许可人永久的、全球性的、非排他性的、不收费的、免版税的、不可撤销的(许可证另有规定除外)的专利许可,用于制造、委托制造、使用、许诺销售、销售、进口和以其他方式转移模型和补充材料。


BigScience Open RAIL-M License许可证和BigScience RAIL License v1.0许可证第8条规定,不允许被许可人使用许可人的商标、商号、标识或以其他方式错误陈述双方之间的关系。


(三)特别关注BigScience Open RAIL-M License许可证和BigScience RAIL License v1.0许可证第7条规定的“被许可人还应尽合理努力使用最新版本的模型”的要求


商业公司在合规使用和分发适用BigScience Open RAIL-M License许可证或BigScience RAIL License v1.0许可证的人工智能开源大模型时应当特别关注适用BigScience Open RAIL-M License许可证和BigScience RAIL License v1.0许可证的人工智能开源大模型第7条规定的“被许可人还应尽合理努力使用最新版本的模型”的要求。


该要求被公众诟病,因为如果商业公司在适用BigScience Open RAIL-M License许可证或BigScience RAIL License v1.0许可证的人工智能开源大模型基础上已经进一步投入数据和算力对模型进行了微调,并将微调后的模型用于商业服务。此后该大模型的后续版本发布,前述商业公司是否应当放弃之前投入成本微调后的模型,而采用新的后续模型,并再次投入成本对后续模型进行微调?如果商业公司在大模型后续版本发布后,继续使用对旧模型微调后的版本,是否违反了BigScience Open RAIL-M License和BigScience RAIL License v1.0许可证第7条规定的“被许可人还应尽合理努力使用最新版本的模型”的要求?以上问题可能会困扰模型的使用者。


(四)被许可人对适用BigScience Open RAIL-M License许可证或BigScience RAIL License v1.0许可证的人工智能开源大模型修改形成的派生作品,且无强制开源义务


BigScience Open RAIL-M License和BigScience RAIL License v1.0许可证第三节:使用、分发和再分发的条件第4、5、6条规定,被许可人为第三方远程访问目的提供托管(例如软件即服务),在任何媒体上再制造和分发模型或模型的衍生作品的副本,无论是否修改,所需要满足的条件中,并不要求后续使用者对基于开源人工智能大模型进行修改得到的派生作品继续进行开源/开放,因此被许可人对修改适用BigScience Open RAIL-M License许可证或BigScience RAIL License v1.0许可证的人工智能开源大模型获得的派生模型作品,有权决定是否继续开源/开放其修改后的模型派生作品。


另外需要注意的是,虽然被许可人对适用BigScience Open RAIL-M License许可证或BigScience RAIL License v1.0许可证的人工智能开源大模型修改形成的派生作品无强制开源义务,但根据BigScience Open RAIL-M License许可证和BigScience RAIL License v1.0许可证第4条的规定,被许可人应当使任何修改的人工智能开源大模型带有显著的通知,声明大模型的相关文件被修改。


(五)被许可人用模型为用户提供远程访问、再制造和分发模型或模型的衍生作品的副本(无论是否修改),需遵守BigScience Open RAIL-M License许可证和BigScience RAIL License v1.0第5条及附件A的使用限制


被许可人用模型为用户提供远程访问、再制造和分发模型或模型的衍生作品的副本(无论是否修改),需遵守BigScience Open RAIL-M License许可证或BigScience RAIL License v1.0第5条和附件A的使用限制。


BigScience Open RAIL-M License许可证或BigScience RAIL License v1.0的附件A规定了13类使用限制,限制的类别和通用的AI Open RAIL许可证的使用限制相似,也可以大致分为违法、伤害和歧视和不符合透明度三类。


注释

[1] 参见https://bigscience.huggingface.co/。

[2] 参见https://bigscience.huggingface.co/blog/the-bigscience-rail-license。

[3] 参见

https://bigscience.huggingface.co/blog/bigscience-openrail-m。

[4] 参见

https://huggingface.co/models?license=license:bigscience-openrail-m&sort=trending。