《安远AI&北京大学:2024基础模型的负责任开源-超越开源闭源的二元对立:负责任开源的内涵、实践与方案报告(71页).pdf》由会员分享,可在线阅读,更多相关《安远AI&北京大学:2024基础模型的负责任开源-超越开源闭源的二元对立:负责任开源的内涵、实践与方案报告(71页).pdf(71页珍藏版)》请在三个皮匠报告上搜索。
1、执摘要执摘要1.开源基础模型已成为创新的重要驱动之根据斯坦福学2024年AI指数报告1,2023年全球总共发布了149个基础模型,2022年发布的数量翻了倍还多,且更例是开源的。在这些新发布的模型中,有65.7%是开源的,相之下,2022年只有44.4%,2021年只有33.3%的模型是开源的。根据全球开源社区Hugging Face的调研2,Llama 1和Llama 2现在已经衍出了3万个新模型。多位专家预计,即将推出的Llama 3?B将会是“个GPT-?级别的开源模型”。2.如何治理开源AI已成为短期内重要的未解决议题之本报告从安全治理的度探讨开源AI的政策和实践。在制定相关政策时,各
2、国需要综合考虑促进创新态、技术的安全性与可控性、隐私保护、知识产权、伦理与责任、国际合作与标准制定、市场竞争环境、教育与公众参与等多个。这些维度与各国的战略考虑及监管取向相结合,共同构成了开源AI的治理政策框架。全球范围内,许多国家和地区,包括欧盟、美国、英国、法国、中国以及其他全球南国家,都在积极制定AI相关政策,开源AI也成为多项政策探索的核。尽管这些政策旨在平衡技术发展与安全需求,但在监管取向和具体条款的设计上存在显著差异,这部分原因是由于政策制定过程中缺乏关于险、收益及潜在影响的严谨证据。3.前沿AI开源的主要争论领先的基础模型研发机构近年决定开源其模型或限制对其模型的访问,引发了关于
3、是否以及如何开放能益增强的基础模型的争论。我们识别了两种主要场:是审慎开放的倡导者,他们担前沿AI开源成为潜在不安全技术“不可逆转的扩散”,并主张在确保安全的基础上逐步推进开放;另则是励开放的持者,他们认为前沿AI开源是“确保对技术信任的唯途径”,强调开放性对于促进创新和透明度的重要性,并反对过度限制的做法。尽管在险与收益的评估、开源式、安保措施以及监管政策等存在分歧,但两都认同开放性在推动技术进步和促进社会福祉的重要作,以及前沿AI开源的潜在险,都主张在开源前应采取必要的评测等安全措施。此外,从企业视看,有关开源和闭源的讨论和实践或多或少地带有商业利益的考量。2Clem Delangue,“
4、Llama 3 is officially the fastest model from release to#1 trending on Hugging Face-in just a fewhours.”,2024-04-19,https:/ HAI,“2024 AI Index Report”,2024-04-15,https:/aiindex.stanford.edu/report/.I基础模型的负责任开源4.超越简单化的“开放与封闭”争论虽然开放基础模型带来了发展与安全之间的紧张关系不可能完全消除,但我们提倡可以超越简单化的维视,探索更丰富的发布政策设计空间。将AI模型简单地划分为开源
5、或闭源是种过于简化的做法。开源AI的概念尚未得到清晰定义,与开源软件不同,AI模型的“源代码”可能包括多种组件,这些组件的开放程度可以各异。此外,从“完全开放”到“完全封闭”的发布选项实际上是多样的,需要明确的标准和定义来权衡透明性、安全性和商业考量。根据多个度的安全和治理评测,我们依然法得到开放或封闭模型哪个更有明显优势的结论。综合模型安全性评测,开放模型和封闭模型均显出对各种攻击的脆弱性。AI研发机构治理评测指出,倾向于开放模型的机构和倾向于封闭模型的机构各有所。本报告的讨论范围设定参考了斯坦福学基础模型研究中的“开放基础模型”概念图35.推动基础模型负责任开源的务实案开源是科学和创新的重
6、要驱动,但同时需要权衡其潜在险,对未来更强的前沿AI不同程度开源可能引更的潜在险。因此,我们建议推动负责任开源,这包括两个层:第,促进开放发布从构建到使的全流程负责任实践。建议根据基础模型的命周期和流程阶段,设计构建和使阶段的负责任开源维度,并针对不同能级别的模型制定差异化的负责任开源要求。例如对于多数AI模型,负责任主要体现在提透明度、确保合规和促进创新。对于能更强的前沿模型,需要实施与模型的潜在险相称的评测和安全缓解措施。3Rishi Bommasani et al.,“Considerations for Governing Open Foundation Models”,2023-12
7、-13,https:/hai.stanford.edu/issue-brief-considerations-governing-open-foundation-models.II执摘要第,在封闭发布中探索实现开源等效收益的替代案。建议开发者应考虑开源的替代案,在获得技术和社会效益的同时,没有太的险。包括为受信任的研究员提供结构化访问,以帮助识别安全或道德缺陷,励独第三的审核等。虽然严格意义上我们讨论的是“负责任发布”,但我们希望通过突出“负责任开源”的概念,推动开源AI安全治理的讨论,并促进负责任开源实践的发展。6.向四类标群体和国际合作分别提出建议本报告是为中国的基础模型研发机构、AI开源
8、社区、AI治理/政策/法专家、AI投资和资助编写的,其的是作为基础模型的负责任开源的决策和实践的参考。我们励相关机构和专家进步探讨负责任开源的内涵,实施负责任的开源实践和案。我们倡导在全球范围内展开合作,通过负责任开源助发展中国家提升AI技术和治理能,推动形成具有泛共识的险模型治理框架和标准规范。开源AI的负责任实践并成不变,是会随着技术发展和社会需求的变化不断演进。可以预,未来开源与闭源的讨论将更加深和细化,可能会出现更多创新的发布模式和治理机制,以适应不断变化的环境和挑战。在这个过程中,各的合作和对话将关重要。III基础模型的负责任开源术语定义本报告聚焦基础模型的负责任开源。规模机器学习模
9、型相关术语,主要参考斯坦福学、智源研究院:基础模型(Foundation Model):在规模泛数据上训练的模型,使其可以适应泛的下游任务;国内外学界通常简称为“模型”。模型开源和开放相关术语,主要参考斯坦福学、津学研究机构:开源AI(Open-Source AI):概念尚未得到清晰定义,不同机构都它来表不同程度的“公开可”;开放源代码促进会(OSI)等机构正致于明确定义开源AI。开放基础模型(Open Foundation Models):基础模型在发布时,其权重是泛可的;不严格区分时,也会称为“开源基础模型”“开放模型”“开源模型”。封闭基础模型(Closed Foundation Mod
10、els):基础模型在发布时,其权重不是泛可,可能受定限制或完全封闭;不严格区分时,也会称为“闭源基础模型”“封闭模型”“闭源模型”“受限模型”。负责任开源(Responsible Open-Source):开源项的维护者和贡献者在开源过程中遵循定的道德和法律标准,确保技术的构建和发布对社会和个是安全和有益的,这可能包括安全性、透明度、可访问性、包容性、合规性、社区治理和态和创新影响等。模型能相关术语,主要参考全球AI安全峰会、前沿模型论坛:前沿AI(Frontier AI):能的通AI模型,能执泛的任务,并达到或超过当今最先进模型的能,最常的是基础模型,提供了最多的机遇但也带来了新的险。智能险
11、相关术语,主要参考津学研究机构:灾难性险(Catastrophic Risk):种可能发的事件或过程,若发将导致全球约10%或更多丧,或造成类似损害。IV执摘要致谢本报告的主要贡献者:安远AI:亮(主要撰写)、谢旻希、程远、段雅北京学智能研究院:杨耀东北京学武汉智能研究院:辜凌云北京通智能研究院:綦思源感谢北京通智能研究院院、北京学智能研究院院朱松纯教授,北京学智能研究院智能安全与治理中主任、北京学武汉智能研究院副院张平教授,给予的悉指导和宝贵建议。感谢安远AI伙伴潘汉、张玲、王婧对内容的贡献。V基础模型的负责任开源录1 各国积极发布基础模型相关政策,开源部分取向不同11.1 欧盟AI法案创全
12、球部全AI监管法,设独特开源豁免规定11.2 美国宫AI政命令关注泛可的模型权重所带来的挑战31.3 英国政策件谨慎对待开放与封闭之争,防范监管捕获61.4 法国将开源AI作为其“创新优先”发展AI的核战略之71.5 中国智能法的两份专家建议稿对开源问题做不同处理91.6 其他全球南国家励AI险与收益研究,以开放科学应对全球发展111.7 结122 审慎开放vs励开放,前沿AI开源的主要争论132.1 争论主要在于前沿AI的滥和失控险132.2 场:审慎开放,防范险的开放槛须标准更152.3 场:励开放,边际险的严谨证据仍相当有限192.4 两种场的异同点242.5 争论之外的场三:是否开源主
13、要取决于商业考量252.6 结263 开源vs闭源,是错误的分法273.1 不同于开源软件,开源AI的概念尚未得到清晰定义273.2 从“完全开放”到“完全封闭”之间存在多种模型发布选项293.3 基础模型安全性评测:开放vs封闭模型均显出对各种攻击的脆弱性333.4 AI研发机构治理评测:倾向于开放vs封闭模型的机构各有所383.5 负责任开源之:促进开放发布从构建到使的全流程负责任实践433.6 负责任开源之:在封闭发布中探索实现开源等效收益的替代案493.7 结594 对推动基础模型负责任开源的建议604.1 基础模型研发机构604.2 AI开源社区614.3 AI治理、政策和法专家62
14、4.4 AI投资和资助634.5 负责任开源的国际合作63VI?I1 各国积极发布基础模型相关政策,开源部分取向不同1 各国积极发布基础模型相关政策,开源部分取向不同我认为,如何监管开源智能,是短期内最重要的未解决问题。加库斯(Gary Markus)4各国在制定开源AI相关政策时,通常需要综合考虑促进创新态、技术安全与可控性、隐私保护、知识产权、伦理与责任、国际合作与标准制定、市场竞争环境、教育与公众参与等多个,这些维度与各国各地区的战略考虑或监管取向相结合,共同组成了对于开源AI的治理政策框架。欧盟、美国、英国、法国、中国和其他全球南等国家和地区在开源AI的治理上,虽然都希望能平衡发展与安
15、全,但整体监管取向和具体条款设计有所不同。1.1 欧盟AI法案创全球部全AI监管法,设独特开源豁免规定2023年128,欧盟就AI法案5达成协议,该法成为全球部针对AI进全监管的法案。2024年22,欧盟理事会常务代表委员会就AI法案进表决,获得全票通过。2024年313,欧洲议会以523票赞成、46票反对和49票弃权通过了AI法案,这标志着欧盟在AI技术的监管上在了世界前列。接下来AI法案还需得到欧盟理事会的正式批准,但最艰难的法阶段已经过去,距离最终出台仅步之遥。欧盟AI法案整体倾向于“监管优先”,但也图平衡AI险管控、保护中企业。法案2021年以来直在制定中。那时起,该技术已经发了快速显
16、著的发展,该提案也经历了多次修订以跟上步伐。ChatGPT的出现引发了控制基础模型的轮修订。谈判在2023年2底达到热化程度。法国、德国和意利为了保护本国的开发者,试图削弱对基础模型的限制6。最后敲定的协议条款对被认为具有特别危险性的AI的使做出了限制,但减轻了中型公司和模型开源、开发的负担。6Gian Volpicelli,“Power grab by France,Germany and Italy threatens to kill EUs AI bill”,2023-11-20,https:/www.politico.eu/article/france-germany-power-gr
17、ab-kill-eu-blockbuster-ai-artificial-intelligence-bill.5European Parliament,“Artificial Intelligence Act”,2024-04-23(引期),https:/www.europarl.europa.eu/doceo/document/TA-?-?-?_EN.pdf.4David Harris,“Open-Source AI Is Uniquely Dangerous”,2024-01-12,https:/spectrum.ieee.org/open-source-ai-?.1基础模型的负责任开源到
18、前为,欧盟主要通过以下这些法案对开源模型或软件的安全管理做出规定:时间主要法案对开源AI或软件的规定2024年3AI法案免费或于科学研究和开发的投使的开源AI系统可豁免该法案,但该豁免不适于被认为会带来系统性险的模型、商业化的开源AI产品。2024年3产品责任指令该指令适于所有AI产品和系统,但不应适于在商业活动之外开发或提供的免费且开源软件及其源代码。2024年3络弹性法案根据开源软件的所属和开发式,实施分层安全管理。2020年10开源软件战略(2020-2023年)建世界流的公共服务,励更多地使开源软件来进构建,励共享和重复使软件、应程序,以及数据、信息和知识,以期通过共享源代码来为知识社
19、会作出贡献。欧盟对开源AI或软件做出规定的主要法案(本报告制)注:络弹性法案产品责任指令AI法案欧洲议会已批准,还需欧盟理事会正式批准后效欧盟AI法案对开源AI设定了些独特的规定。该法案规定,所有通AI系统的开发者必须确保透明度,但如果AI系统是免费开源的,则可享有特别豁免。然,此豁免不适于商业化的开源AI产品,如那些提供付费技术持或通过告覆盖成本的企业。重要的是,对开源AI的这种豁免不适于被认为具有系统性险的模型,例如任何使了超过1025浮点运算次数(FLOPs)训练的AI模型,这些模型必须遵守更为严格的规定,包括提供详细的技术档和进安全测试。法案还特别提到,为科学研究和开发的开发的AI系统
20、可以豁免,但这也为根据开源许可证开发的科研途的模型转为商业途提供了可能,从绕过了部分安全法规。此外,欧盟产品责任指令的草案7也扩了AI系统的适范围,涵盖所有AI产品,为了不妨碍创新或研究,该指令也明确说明不应适于在商业活动之外开发或提供的免费且开源软件及其源代码。但强调如果商业活动中开发的免费开源软件旦被作产品组件,制造商也可能需对由此引发的缺陷负责。络弹性法案的草案进步引起争议,尤其是关于上游开源开发者可能要为下游产品的安全缺陷承担责任的条款,引发了开源社区的泛反响,封公开信称该法案可能会对软件7European Parliament,“New Product Liability Direc
21、tive”,2023-12-14,https:/www.europarl.europa.eu/RegData/etudes/BRIE/?/?/EPRS_BRI(?)?_EN.pdf.21 各国积极发布基础模型相关政策,开源部分取向不同开发产“寒蝉效应”8。对此,欧盟提出了分层安全管理的概念9,要求单独开发并控制产品内开源软件的商业实体需要承担所有的合规性责任,但减轻了对开源软件基会或类似持组织下协作开发的或多协作开发开源软件的管理压,确保开源项可以在合理的法律框架内运。2024年3,欧洲议会正式批准了络弹性法案,之后还须得到欧盟理事会的正式通过才能成为法律,最终效要到2027年,这就给了各时间
22、来满法律要求并梳理各种合规细节。在监管实践,欧盟设了AI办公室,负责监督并制定GPAI模型的标准和测试实践10。同时,法案励开源开发者采纳泛接受的档实践,如模型卡和数据表,以提透明度和可追溯性,尽管具体细节仍待明确。结合该法律的泛范围,法案将显著影响欧盟内开源AI的开发和使。在某些情况下,例如当家公司单开发开源AI模型时,遵从规定与开发封闭AI模型没有任何不同。这些新规则的复杂性可能会使其更难在欧盟内推开源AI。从更泛的视看,欧盟希望通过其单的市场规制能,在需其他国家、国家机构协作的情况下,制定出全球市场遵循的规章制度,引领了全球商业环境“欧洲化”,即“布鲁塞尔效应”11。AI法案产品责任指令
23、络弹性法案以及欧盟GDPR、数字服务法案等都是“布鲁塞尔效应”在数字治理领域的体现,但AI法案因可能对技术进步和产业发展产制约,也受到了泛质疑12。这些法案的最终效果,还有待时间的检验。1.2 美国宫AI政命令关注泛可的模型权重所带来的挑战2023年1030,美国宫发布关于安全、可靠和可信的AI政命令13(以下简称AI政命令),该政命令为AI安全和保障建了新的标准,意图保护美国众的隐私,促进公平和公权利,维护消费者和的利益,促进创新和竞争,确保政府负责任且有效地使AI,提升美国在全球的领导。13The White House,“Executive Order on the Safe,Secur
24、e,and Trustworthy Development and Use of ArtificialIntelligence”,2023-10-30,https:/www.whitehouse.gov/briefing-room/presidential-actions/?/?/?/executive-order-on-the-safe-secure-and-trustworthy-development-and-use-of-artificial-intelligence/.12鲁传颖:欧盟推出全球部AI法案,会形成效应还是陷阱?2024-03-27,https:/ Bradford,“T
25、he Brussels Effect”,107:1(2012),https:/ Artificial Intelligence Act,“The AI Office:What is it,and how does it work?”,2024-03-21,https:/artificialintelligenceact.eu/the-ai-office-summary/.9Euractive,“EU policymakers advance on open source software,support period in new cybersecurity law”,2023-10-31,h
26、ttps:/ Foundation et al.,“Open Letter to the European Commission on the Cyber Resilience Act”,2023-04-17,https:/newsroom.eclipse.org/news/announcements/open-letter-european-commission-cyber-resilience-act.3基础模型的负责任开源该政命令被外界称为“有史以来政府为推进AI安全领域所采取的最重动”14,以确保美国在把握AI的前景和管理AI险处于领先地位,同时也明确了美国政府下步动措施与职责分。作为
27、美国政府负责任创新综合战略的部分,该政命令以美国政府之前采取的动为基础,包括促使15家领军企业愿承诺推动AI的安全、可靠和可信的发展。美国政府针对开源软件做出过系列的监管规定,在此基础上,2023年发布的AI政命令和针对基础模型的透明度法案,也涉及了对开源模型的要求:时间主要法案对开源AI或软件的规定2023年122023年AI基础模型透明度法案15旨在指导联邦贸易委员会制定标准,公开有关AI基础模型训练数据和算法的信息,但将考虑为开源基础模型制定特别规定。2023年10关于安全、可靠和可信的AI政命令没有直接提到开源,是要求商务部通过公开咨询征求各利益相关对具有泛可权重的双途基础模型相关的潜
28、在险、利益、其他影响以及适当的政策和监管法的意,并向总统提交报告。2023年9CISA开源软件安全路线图16度关注开源软件漏洞“连锁”效应、供应链“投毒”等两类特有险,实美国政府络和关键基础设施“核”重点保护,强化开源态系统“范围”联动协作。2023年32023年开源软件安全法案17强调了开源软件作为公共数字基础设施的重要性,但需针对其安全性挑战加强监管。2022年92022年保护开源软件法案18建议美国络安全和基础设施安全局(CISA)创建“险框架”,以降低使开源软件系统的险。美国对开源AI或软件做出规定的主要法案(本报告制)18US Congress,“S.?-Securing Open
29、Source Software Act of 2022”,2022-09-21,https:/www.congress.gov/bill/?th-congress/senate-bill/?/text.17US Congress,“S.?-Securing Open Source Software Act of 2023”,2023-03-22,https:/www.congress.gov/bill/?th-congress/senate-bill/?/text.16Cybersecurity and Infrastructure Security Agency,“CISA Open Sou
30、rce Software Security Roadmap”,2023-09,https:/www.cisa.gov/sites/default/files/?-?/CISA-Open-Source-Software-Security-Roadmap-?c.pdf.15US Congress,“AI Foundation Model Transparency Act of 2023”,2023-12-22,https:/www.congress.gov/bill/?th-congress/house-bill/?.14BBC,“US announces strongest global act
31、ion yet on AI safety”,2023-10-31,https:/ 各国积极发布基础模型相关政策,开源部分取向不同关于安全、可靠和可信的AI政命令没有直接提到开源(Open Source)词,是对更具体的具有泛可模型权重的双重途基础模型(Dual-Use Foundation Models withWidely Available Model Weights)进了规定,主要集中在第4节(确保AI技术的安全性和安保性)的第4.6节。该政命令指出,“当双重途基础模型的权重被泛可时,例如当它们在互联上公开发布时,创新可能会带来巨的收益,但也会带来巨的安全险,例如移除模型内的安全措施。”
32、具体规定如下:“在命令发布之起270天内,商务部应通过通信和信息助理部,并与国务卿协商,通过公开咨询过程征求私营部、学术界、间社会及其他利益相关者对于具有泛可权重的双途基础模型相关的潜在险、利益、其他影响以及适当的政策和监管法的意。并将收集到的意,与其他相关机构负责协商后向总统提交份报告。”这个任务既需要技术洞察,也需要政策制定的智慧。对于开源AI有可能促进如物和化学武器等危险材料产的问题,宫政命令在第4.1结提到了化学/物/辐射/核威胁(CBRN)的险,美国国会前正在考虑多项法案19来应对这些威胁。第4.2节要求模型开发者必须分享红队测试中的表现结果,对使于1026FLOPs训练的任何模型,
33、提出了报告安全测试结果和关键信息的要求,另要求物序列数据相应的槛是1023FLOPs。这些规定旨在通过跨部合作和公众参与来解决泛可的AI模型权重所带来的挑战,并确保在创新和安全之间取得平衡。通过这种式,政命令试图制定出既能促进AI技术发展,能保护国家安全和公共利益的政策框架。2023年AI基础模型透明度法案则是在此基础上,要求联邦贸易委员会在九个内制定标准,提AI基础模型在数据和操作的透明度,并为开源基础模型或基于其他基础模型重新训练或调整的模型制定特别规定,显了对开源AI的定持。在早些时候,国会已经提出了多项关于开源软件的法案,如2022年保护开源软件法案和2023年开源软件安全法案,旨在通
34、过制定险框架和安全职责,增强开源软件的安全性,并将其视为重要的公共数字基础设施。CISA开源软件安全路线图进步强调了联合协作和安全责任,明确了开源软件的数字公共物品属性,度关注开源软件漏洞“连锁”效应、供应链“投毒”等两类特有险。对此政命令,不同专家和利益相关者持有不同看法20。些智库专家持,认为这是美国AI治理的重要步骤,也有专家批评政府可能过度预,政策制定者似乎准备回避开放式创新模式,这种模式曾使美国公司在乎所有计算和数字技术领域处于全球领先地位。虽然以OpenAI为代表的业界普遍赞成或少接受这样的要求,但些投资者、型AI业参与者和20安全内参,“拜登AI政令评论:美国技术监管式转变?或是
35、回避开放式创新模式”,2023-11-01,https:/ Markey,“Sens.Markey,Budd Announce Legislation to Assess Health Security Risks of AI”,2023-07-18,https:/www.markey.senate.gov/news/press-releases/sens-markey-budd-announce-legislation-to-assess-health-security-risks-of-ai.5基础模型的负责任开源学者的代表致函拜登总统21担忧在政策制定过程中的声有限,并建议未来应为中企业
36、设计豁免机制,为平台设具体责任,以适应不同的险和能平。总的来说,美国的这些政策和法案在试图促进开源AI的发展的同时,也在努确保其在不增加国家安全险的前提下进创新和应。政府与公众的合作,以及透明和公正的监管是实现这标的关键。1.3 英国政策件谨慎对待开放与封闭之争,防范监管捕获英国的开源产业政策由来已久,政府励创新,并在开源技术的开发上投了量的资和才,这让其对励开放创新和AI竞争的场脉相承。但同时英国政府也关注到开源模型如果没有没有够的保护措施,也可能造成伤害。组织在开发和发布基础模型的不同式,也为AI的监管引了复杂性。在英国举办的届全球AI安全峰会上,在布莱切利AI安全宣等成果与共识之外,开源
37、模型的险和利弊成为个主要争论点22。英国还在峰会上宣布成AI安全研究所,并将“开源系统以及采各种形式的访问控制部署的系统”和“破坏保障措施或利不安全的模型权重”作为其优先事项之23。英国对于对开源AI或软件政策件包括:时间政策件对开源AI的规定或场2024年2语模型和成式AI报告24积极的市场成果将需要系列在开源和闭源基础上推动前沿的模型。呼吁政府将“开放创新和AI竞争”作为明确的政策标。2023年3种持创新的AI监管法25开源模型可以提对基础模型的变能,但如果没有够的保护措施,也可能造成伤害。组织在开发和提供基础模型的式上的差异,为AI的监管引了泛的复杂性。英国对开源AI或软件做出规定的主要
38、政策件(本报告制)2024年2,英国上议院的通信和数字委员会发布语模型和成式AI报告,强调需要重新进战略平衡,以应对安全和社会险,同时把握新技术带来的机遇。报告提出多项25GOV.UK,“A pro-innovation approach to AI regulation”,2023-08-23,https:/www.gov.uk/government/publications/ai-regulation-a-pro-innovation-approach/white-paper.24UK Parliament,“House of Lords-Large language models and
39、 generative AI”,2024-02-02,https:/publications.parliament.uk/pa/ld?/ldselect/ldcomm/?/?.htm.23UK Government,“Introducing the AI Safety Institute”,2024-01-17,https:/www.gov.uk/government/publications/ai-safety-institute-overview/introducing-the-ai-safety-institute.22谢旻希,“为什么中国的参与必不可少?我参加届全球智能安全峰会的所所思
40、(万字回顾)”,2023-11-09,https:/ Casado,“Weve submitted a letter to President Biden regarding the AI Executive Order and its potentialfor restricting open source AI”,2023-11-04,https:/ 各国积极发布基础模型相关政策,开源部分取向不同建议,包括防范监管俘获(regulatory capture)26、审查灾难性险、赋予监管机构权等,并单独章探讨了开放模型与封闭模型之间的竞争动态,以及政府应该如何在这两者之间采取场,并处理潜在的
41、监管捕获问题,求在开放与封闭模型之间找到合理场。报告认为开放模型通常成本低廉、易于获取,促进了技术的泛尝试和社区驱动的改进,但在性能基准测试中可能不如封闭模型。封闭模型则因其先进技术被少数研究实验室控制,使得其他企业难以进技术检查和实验。英国政府通过监管和政策引导,试图在这两种模型之间寻求平衡,推动各在前沿领域的发展。报告中还提到,积极的市场结果需要基于开源和闭源相结合的平衡发展,并关注型开发者可能利先发优势造成的市场权固化问题,并呼吁政府将“开放创新和AI竞争”作为明确的政策标。此外,英国科学、创新与技术部(DSIT)在2023年发布的种持创新的AI监管法政策件中,其中谈到些组织对其基础模型
42、的开发和分发进严格控制,其他组织则采取开源式开发和分发技术。开源模型可以提们对基础模型的变能,但如果没有够的保护措施,也可能造成伤害。组织在开发和提供基础模型的式上的差异,为AI的监管引了泛的复杂性。英国是开源技术的领导者之,早在2004年就次发布开源产业政策,并于2009年2进了更新,开源营利组织OpenUK于2021年2在欧盟开源政策峰会发布了其三阶段报告,报告指出开源技术为英国贡献了达430亿英镑的经济增,其国内预计有12.6万名贡献者参与了创建、开发和维护开源的作;这数字将近欧盟26万名开源开发者中的半。英国希望在政府内部励创新,励开源思维,在外部帮助发展个充满活的市场。综合来看,英国
43、的AI政策旨在通过持开放创新与市场竞争,同时确保够的监管措施,来平衡技术创新与险管理的关系。这种策略不仅关注如何利AI带来的机遇,也严肃对待由此可能产的社会和安全挑战。英国试图在AI监管开辟的道路,借鉴但不照搬美国、欧盟和中国的做法,从保持战略灵活性。1.4 法国将开源AI作为其“创新优先”发展AI的核战略之法国政府度重视AI的发展,并将其视为国家竞争的关键。在这背景下,法国将开源AI作为技术政策的核战略之,积极推和持开源AI的发展。法国总统克在多个场合强调了创新和发展的重要性,并主张在治理之前优先考虑创新。2023年6,克在欧洲科技峰会Viva Tech上强调“我们相信开源”27。法国的这场
44、与其在欧盟中的作形成了定的不协调,因为欧盟更倾向于采取“监管优先”的法。然,法国也意识到了在推动AI创新27Politico,“France bets big on open-source AI”,2023-08-04,https:/www.politico.eu/article/open-source-artificial-intelligence-france-bets-big/.26这术语在常使中,指的是监管有利于受监管业或特殊利益集团不是公共利益的现象。Wendy Li,“Regulatory captures third face of power”,2023-02-07,https
45、:/doi.org/?.?/ser/mwad?.7基础模型的负责任开源发展的同时,需要平衡与欧盟政策的关系,因此法国国家信息和由委员会(CNIL)作为法国的政机构,在执欧盟监管政策的同时,也在积极推动符合法国利益的AI创新政策28。时间法规或政策件对开源AI或软件的规定2016年数字共和法案增强数字领域的透明度、开放性和私数据保护。法案中明确要求公共部和某些私部开放其数据,励数据的由流通和使,同时强调保护个隐私和数据安全2023年5CNILAI动计划CNIL不仅监管数据保护法律的遵守,也发布了关于AI和数据使的指导原则。这些指导原则旨在确保AI技术开发过程中的数据使遵守法律规定,同时保护的隐私
46、权。2018年3国家AI战略AI造福类这战略计划通过公共投资达15亿欧元,以推动AI研究、创新和商业化。政策重点励开源AI平台和具的发展,旨在建个开放和协作的AI态系统。法国对开源AI或软件做出规定的主要法规或政策件(本报告制)法国政府对于开源AI的监管倾向于制定灵活的政策,以适应技术快速发展的需求,保证开源项的活不被过度监管抑制。政策明确励创新和数据的开放使,但同时确保了数据安全和隐私的保护。这种平衡的监管框架为Mistral模型等开源AI项提供了发展的壤。法国的开源AI推策略也体现在对才的重视上。法国拥有强的数学和信息科学基础,这为其在智能领域的研究提供了坚实的基础29。法国政府通过PIA
47、(Investments for theFuture Program)等项,持等教育和培训,以及应型基础研究及其经济价值的实现。法国政府通过投资研发和建合作络,励公私部的合作,推动了开源AI的创新和应。其中,图灵奖得主、Meta席AI科学家杨昆(Yann LeCun)的参与,使得法国在全球AI研究领域的地位愈发显著。在产业层,法国也涌现出了批在开源AI领域具有国际影响的公司。例如,HuggingFace的联合创始都是法国,该公司已成为全球开源AI社区的重要参与者。法国AI初创公司Mistral AI开发的旗舰模型对标GPT-?,展了法国在模型领域的强实30。Mistral AI的成30智东西,
48、“法国版OpenAI杀疯了,1760亿参数MoE登开源榜,3张A?显卡可跑”,2024-04-11,https:/ 各国积极发布基础模型相关政策,开源部分取向不同功,部分归功于其能够巧妙地将AI技术与政治结合起来,这也是法国政府持开源AI发展的个例证31。此外,法国还有欧洲个致于AI开放科学研究的独实验室Kyutai。总体,法国政府通过系列政策和措施,积极推开源AI的发展,并在国际舞台上展现了其对AI技术的重视和持。这些努不仅有助于法国在全球AI竞争中保持领先地位,也为全球开源AI社区的发展做出了贡献。1.5 中国智能法的两份专家建议稿对开源问题做不同处理中国政府出台了系列政策来促进开源软件的
49、发展,励企业和研究机构参与开源社区,推动开源软件的创新和应,这些政策也适于开源AI项。但暂未发布针对基础模型开源的相关政策法规,相关法还在制定中。2023年10,中国政府在第三届“带路”国际合作峰论坛上发布了全球智能治理倡议,围绕智能发展、安全、治理三系统阐述了智能治理中国案。在国际治理中,中国政府站在全球南的度呼吁开源智能技术,并倡导需要开展向发展中国家的国际合作与援助,不断弥合智能鸿沟和治理能差距。时间主要倡议或建议稿对开源AI的规定或场2024年4智能范法2.0版(专家建议稿)32(2023年81.0版,91.1版33)重视智能开源发展,提出促进开源社区建设、制定专合规指引、明确责任减免
50、规则等持措施。2024年3中华共和国智能法(学者建议稿)34推进开源态建设,建开源治理体系,免费开源的智能/基础模型可豁免本法。2023年10全球智能治理倡议35励全球共同推动智能健康发展,共享智能知识成果,开源智能技术。中国对开源AI或软件做出规定的主要倡议或建议稿(本报告制)2023年6,国务院办公厅印发国务院2023年度法作计划。其中显,智能范法草案等预备提请全国常委会审议。前,已有两组专家对智能法提出了建35中央络安全和信息化办公室,“全球智能治理倡议”,2023-10-18,https:/ 重视AI开源发展、构建知识产权创新规则”,2024-04-16,https:/m.? Open
51、AI”,2024-03-01,https:/ 各国积极发布基础模型相关政策,开源部分取向不同置,并在守住系统性险底线的同时持智能的由发展;逐步建算法相关新型权益、泛的利益共享机制、智能赋能机制,保护个选择空间等。在考虑我国型开源模型的现实状况与未来发展需求时,我们应当综合运技术保障措施、负责任的研发为规范以及全的安全评估等段,实现律与他律的有效结合,确保开源模型态在安全与健康的基础上不断推动创新38,我们期待就这议题展开更深的探讨。1.6 其他全球南国家励AI险与收益研究,以开放科学应对全球发展2024年3,联合国会未经表决致通过了项呼吁抓住安全、可靠和值得信赖的AI系统带来的机遇,促进可持续
52、发展的决议39。其中,“励开展研究和国际合作,以了解、平衡和解决与AI系统在弥合数字鸿沟和实现所有17项可持续发展标所发挥作有关的潜在利益和险,包括扩开源AI系统等数字解决案的作”。2023年9,哈那G?+中国峰会的最终宣40强调了对开放科学合作的需要以及推全球科技发展的开源模式的重要性。它呼吁促进个包容和公平的技术进步环境,避免垄断和其他障碍,确保尤其是发展中国家能公平获取信息和通信技术。宣突出了开放科学在应对全球挑战和通过共享知识及技术增强各国发展能中的作。中东地区,阿联酋积极采开源治理模式,对模型发放开源许可证(Open-sourceLicense)。此外,阿联酋政府还向Falcon基会
53、承诺3亿美元的资,持该营利性机构的模型开源开发作,阿联酋有兴趣帮助其他国家获取这些开源模型,以便他们可以开放相应的AI应程序。有观点认为,阿联酋致于开源AI的承诺在外交上取得了成功,赢得了来全球南国家的朋友,否则这些国家将被排除在昂贵的AI开发之外。其中部分动机是为阿联酋找到个领域,并增强国家竞争41。此外,巴西促进能够验证数据集和机器学习模型中歧视性趋势的开源代码的传播42。洲部分国家,如乌达、肯尼亚、卢旺达、坦桑尼亚,制定了AI治理数据保护相关法,但前未涉及针对开源治理的重点讨论43。43Thomson Reuters Foundation,“AI Governance for Afric
54、a Toolkit”,2023-11-22,https:/www.trust.org/dA/?db/pdfReport/AI%?Governance%?for%?Africa%?Toolkit%?-%?Part%?%?and%?.pdf.42Brazil Government,“Summary of the Brazilian Artificial Intelligence Strategy”,2022-02-24,https:/www.gov.br/mcti/pt-br/acompanhe-o-mcti/transformacaodigital/arquivosinteligenciaart
55、ificial/ebia-summary_brazilian_?-?_?.pdf.41Billy Perrigo,“The UAE Is on a Mission to Become an AI Power”,2024-03-22,https:/ Ministry for Foreign Affairs,“Final Declaration of Havanas G?+China Summit”,2023-09-18https:/ Omamo表,南国家更关注的是发展,以及谁能更好地在基础设施建设、员培训和公共健康等领域持和帮助国家,不会关是不是给某个国家贴上标签。全球南部的许多国家仍将数字发展
56、置于地缘政治协调之上44。1.7 结在全球化的背景下,各国对于开源AI的监管政策呈现出了不同的监管取向和政策设计。这些不同的政策取向不仅反映了各国对于AI技术发展的重视程度,也体现了对于开源AI险与收益的不同理解和评估。,监管机构试图通过制定相关法规来确保AI技术的安全性和可控性,防潜在的滥险;另,政策制定者也认识到开源AI在促进技术创新、推动业发展以及普及教育资源等的积极作。这种平衡发展与安全的双重标,导致了在开源AI政策上的不同选择和实施路径。我们认为制定开源AI的政策需要有更多关于险、收益及潜在影响的严谨证据持,同时安全治理需要国际合作,因此需要充分理解各个国家的监管政策和国情考虑。与此
57、同时,产业界和学术界对于开源AI的险和收益也展开了激烈的讨论,展现出不同的场。接下来,我们将深探讨这些不同场及其异同点,并分析这些观点对于开源AI治理政策制定的启和影响。44肖茜,“在慕安会感受欧美AI治理的协调与分歧”,2024-02-22,https:/ 审慎开放vs励开放,前沿AI开源的主要争论2 审慎开放vs励开放,前沿AI开源的主要争论到前为,AI领域的开源直是有益的。但未来我们可能会到达个地步,不开源在减少险的层会对社会更有益,尽管这会在创新速度等有所损失。显然,这有利有弊。约书亚本吉奥(Joshua Bengio)45林纳斯定律:只要有够多的眼睛,所有的错误都是显而易的。埃克雷蒙
58、德(Eric Raymond)462023年9底,抗议者聚集在Meta旧办公室外,抗议其公开发布AI模型的政策,声称Llama系列模型发布代表了潜在不安全技术的“不可逆转的扩散”47。但也有表,乎没有证据表明开源模型造成了任何具体损害,AI研发的开源是“确保对技术信任的唯途径”。2.1 争论主要在于前沿AI的滥和失控险2.1.1 多数AI应开放并争议图灵奖得主Yoshua Bengio在讨论开源AI潜在的滥险时认为48:模型开源般由研发机构决定。前多数AI是有益/害的,应该共享。但未来更强的AI可能因滥产全社会的影响,这些决定应经过利益相关的审议。因为模型的开放共享决策是不可逆转的,旦落恶意为
59、者中,国家和社会就法控制。当Elon Musk等指责Sam Altman“呼吁监管”只是为了保护OpenAI的领导地位时,SamAltman回应称49,“应该对那些超过某度能阈值的型公司和封闭模型进更多监管,对型初创公司和开源模型的监管应该较少”。OpenAI、DeepMind、微软等机构的研究员撰写的研究报告前沿AI监管:管理公共安全的新兴险50指出:开源AI模型可能是项重要的公共产品。然,前沿AI模型可能需要相对于它们更、更专或能较弱的同类模型受到更多限制。50Markus Anderljung et al.,“Frontier AI Regulation:Managing Emergin
60、g Risks to Public Safety”,2023-11-07,https:/arxiv.org/abs/?.?.49ETtech,“Regulation?AI,says OpenAI CEO Sam Altman”,2023-06-09,https:/ Bengio,“以主治理管理智能险”,2023-12-09,https:/ Gent,“Protesters Decry Metas Irreversible Proliferation of AI”,2023-10-06,https:/spectrum.ieee.org/meta-ai.46Eric Raymond,“教堂与集市”
61、,2014-05,https:/ Azhar,Yoshua Bengio,“Yoshua Bengio:Towards AIs humanistic future”,2024-02-14,https:/www.exponentialview.co/p/yoshua-bengio-towards-ais-humanistic.13基础模型的负责任开源Anthropic在第三测试是AI政策的关键组成部分51中认为:当今绝多数(甚可能是全部)AI系统都可以安全地公开传播,并且在未来也可以安全地泛传播。然,我们相信,未来前沿AI系统完全开放传播的化与社会安全化之间可能很难调和。2.1.2 前沿AI可能
62、因滥和失控引发灾难性险前沿AI可能涉及的滥和失控险主要包括络安全、化学/物/辐射/核威胁(CBRN)、虚假信息的滥险,以及操纵欺骗、模型主性导致的滥和失控险。当前证据表明开放模型和封闭模型之间存在显著的性能差距52,但随着开源模型的能益接近GPT-?级别53,对于前沿AI模型是否应开源的争论预计将更加激烈。险类别描述络安全滥利AI进络攻击,从破坏计算机系统的机密性、完整性、可性相关的险。CBRN滥利AI辅助段创建化学/物/辐射/核威胁相关的险。虚假信息滥利AI成传播有害或虚假信息给公共安全带来相关的险。操纵欺骗滥/失控利AI成内容使们改变其信念或据此采取动相关的险。主性滥/失控更强的模型主性使
63、为体能够适应环境变化并规避被关闭,从可能被规模化滥。主性也是我复制、我改进、资源获取的前提。由于前的安全技术还不够完善,其为可能会违背设计者或使者的初衷(不对)。即使没故意滥,也可能成为灾难性险的来源。前沿AI可能涉及的滥和失控险(本报告制)注:1)布莱切利AI安全宣,重点关注络安全、物技术、虚假信息2)安全、可靠和可信AI政命令,重点关注络安全、CBRN、欺骗3)北京AI安全国际共识,重点关注主复制或改进、权寻求、协助武器制造、络安全、欺骗4)OpenAI的Prepareness Framework(Beta),重点关注络安全、CBRN、操纵(含欺骗)、主性5)Anthropic的Respo
64、nsible Scaling Policy 1.0,重点关注络安全、CBRN、主性和复制53Meta,“Introducing Meta Llama 3:The most capable openly available LLM to date”,2024-04-18,https:/ HAI,“2024 AI Index Report”,2024-04-15,https:/aiindex.stanford.edu/report/.51Anthropic,“Third-party testing as a key ingredient of AI policy”,2024-03-25,https
65、:/ 审慎开放vs励开放,前沿AI开源的主要争论2.2 场:审慎开放,防范险的开放槛须标准更2.2.1 产业界1)Anthropic专注于开发安全、可控的AI系统,前沿模型均未开源54,Anthropic认识到科学进步很程度上依赖于研究的开放和透明化,AI领域的许多命性进展都是建在开源研究和模型的基础上的。开源系统通过允许更多测试技术并识别潜在弱点,有助于提安全环境的稳健性。另,Anthropic 也表达了对于前沿AI系统完全开源可能带来的险的担忧。他们认为,随着 AI 模型的能益增强,如果(“如果”是个关键且尚未解决的问题)存在可能导致有害影响或灾难性事故的险,那么当前的开源化可能需要调整,
66、以确保 AI 系统的安全和社会责任。Anthropic提出,AI开发者在发布系统时需要提供强有的安全保证,例如通过分类器检测和阻滥尝试,或通过合同义务限制微调系统的能。如果有想要公开发布模型权重,他们需要确保模型经过强化以防滥(例如,通过RLHF或RLAIF训练),并找到种法来制作该模型能够适应将其微调到可能导致这种滥的数据集的尝试。还需要试验披露流程,类似于安全社区如何制定有关零披露预先通知的规范。Anthropic强调,尽管这些安全措施可能成本昂,但为了预防AI系统可能导致的严重滥或事故,这些努是必要的。然,他们也承认,对于AI系统的公开传播进限制需要在AI系统或系统为的不可接受滥为上达成
67、泛共识。最后,Anthropic指出,作为家主要开发封闭系统的公司,他们没有正当性来决定哪些为在开源模型中应该或不应该被接受。因此,他们呼吁需要合法的第三来开发和应被泛认可的测试和评估法,以及定义AI系统滥为的标准,并对受控(例如通过API)或公开传播(例如通过开源权重)的模型进这些测试,以成关于AI领域安全特性的基本信息。如果不这样做,可能会临严重滥或AI事故的险,这可能对和社区造成重伤害,并可能导致对AI业不利的法规。2)OpenAI开源策略经历了从相对开放到逐步收紧的过程2015-2019年的早期阶段,OpenAI秉持开放、协作、造福类的理念,主张通过开源推动AI的进步。他们发布了GPT
68、、GPT-?等然语处理模型,以及Universe等平台的源代码,希望学术界和业界能泛参与、共同进步。但随着语模型等AI系统变得越来越强,OpenAI开始意识到技术滥和误可能带来的危害,如制造虚假信息、侵犯隐私等。为了降低险,他们在GPT-?发布时采取了分阶段发54Anthropic,“Third-party testing as a key ingredient of AI policy”,2024-03-25,https:/ DeepMind开源了AlphaFold 2和Gemma,但不开源前沿模型Gemini2024年2,Google DeepMind的席执官Demis Hassabis在
69、接受纽约时报专访时57,谈及如何看待通过开源使基础模型可增加了被恶意使其能的险这批评。Demis Hassabis提到,开源和开放科学对于AGI技术的发展显然是是有益的。但他也指出开源可能带来的险,特别是对于强的AGI技术,因为其通性,旦开源就可能被恶意利。他解释说,Google DeepMind决定开源Gemma模型的原因是因为Gemma是轻量级的版本,相对于前沿模型Gemini来说,它的能已经得到了很好的测试和理解,因此GoogleDeepMind认为这种规模的模型相关的险并不。他还强调了安全性、鲁棒性和责任性的重要性,特别是在接近AGI时,必须更加谨慎地考虑这些系统可能被滥的可能性,开源
70、的槛必须更。他认为,对于开源的极端主义者,必须更多地考虑这些问题,因为这些系统变得越来越强。此前,DeepMind还开源了AlphaFold 2,但也通过内部机构审查委员会,外部物研究、物安全、物伦理专家咨询,以及精设计的发布策略,旨在使AlphaFold 2的收益尽可能地泛可,同时保持对其局限和准确性的透明度 58。总的来说,Demis Hassabis和DeepMind持开源,但同时也强调了在开源时需要考虑的安全性和潜在险,特别是在AGI技术。他们倾向于在确保险可控的情况下进开源,以促进技术的健康发展和泛应。58Google Deepmind,“How our principles hel
71、ped define AlphaFolds release”,2022-09-14,https:/deepmind.google/discover/blog/how-our-principles-helped-define-alphafolds-release.57Hard Fork,“Google DeepMind C.E.O.Demis Hassabis on the Path From Chatbots to A.G.I.”,2024-02-23,https:/ Harris,“Open-Source AI Is Uniquely Dangerous”,2024-01-12,https:
72、/spectrum.ieee.org/open-source-ai-?.55OpenAI,“GPT-?:?.?B release”,2019-11-05,https:/ 审慎开放vs励开放,前沿AI开源的主要争论4)AI合作伙伴关系(PAI)建议谨慎发布前沿模型2023年10,PAI发布安全基础模型部署指南59,为AI模型提供商提供了个框架,并为负责任地开发部署基础模型提出了22条实践建议,旨在确保社会安全并适应不断发展的AI能和途。为了解决这些深远的影响,PAI强调需要采取集体动和共享安全原则。这种协作法涉及各个不同利益相关,包括业界、间机构、学术界和政府。标是为负责任的模型开发和部署建集体
73、共识的最佳实践,从落实AI安全原则。指南被设计为份动态档,可以随着新的AI能和险不断发展。它提供了组针对模型的特定能和发布式的定制化推荐实践104。这种法在整个部署过程中指导模型提供商的同时,也补充了更泛的监管框架,并持续迭代。指南的主要特点:监督和安全的扩展性。为了适当地解决险,模型部署指南的针是根据每个AI模型的能和可性量定制监督和安全实践。模型部署指南避免了过度简化,不仅仅将模型的或通性等同于险。开放访问指导。模型部署指南包括对开放访问模型的指导针,为透明度和险缓解策略提供了起点。这为当前和未来的开源模型提供商提供了指导。泛的适性。模型部署指南适于从现有到前沿的基础模型全谱系。谨慎推出前
74、沿模型。模型部署指南建议对前沿模型最初进分阶段发布和限制访问,直到展出够的安全保障措施。安全的整体视。模型部署指南建了起点,以解决各种安全险,包括与偏、过度依赖AI系统、待遇和恶意为者相关的潜在伤害。2.2.2 学术界1)GovAI探讨了开放能基础模型的潜在险和替代案2023年9,GovAI发布的开放能基础模型报告60,对追求开源标的险、收益和替代案进了评估。作者们承认,开源有显著的优势,例如使外部监督成为可能、加速进步和去中化的AI控制。但也存在明显的险,例如允许恶意为者在没有监管的情况下滥AI,并可关闭模型本设计的安全措施。60Elizabeth Seger,“Open-Sourcing
75、Highly Capable Foundation Models”,2023-09-29,https:/www.governance.ai/research-paper/open-sourcing-highly-capable-foundation-models.59PAI,“PAIs Guidance for Safe Foundation Model Deployment”,2023-10-24,https:/partnershiponai.org/wp-content/uploads/?/?/PAI-Model-Deployment-Guidance.pdf.17基础模型的负责任开源虽然
76、迄今为,开源已经为多数软件和AI开发流程提供了可观的净收益,但对于在不久的将来可能出现的些能模型,开源的险可能超过收益。主要考虑因素包括:潜在险:能模型可能带来极端险,如于产化武器或进络攻击。当前AI能还未能超过最极端险的临界能阈值。然,我们已经看到初步的危险能出现,随着模型变得越来越强,部署和调整这些模型所需的专业知识和计算资源越来越少,这趋势可能会持续。攻防失衡:开源有助于解决些险,但可能加剧部分极端险。对于传统软件,开源促进了防御。然,对于越来越强的基础模型,攻防平衡可能会因以下原因偏向于攻击,因为恶意为者可以更容易地发现和利漏洞,开源也不利于修复漏洞以及改进措施在下游实施。替代案:有其
77、他更少险的法可以追求开源标,尽管这些策略都有其的缺点。例如,针对特定研究、审计和下游开发需求的结构化模型访问选项,以及积极努组织安全合作,励和实现更泛地参与AI开发、评估和治理过程。鉴于这些潜在险、攻防失衡和替代案,为帮助建负责任开源的最佳实践,在安全的前提下保留开源的优势。作者为开发者、标准制定机构和政策制定者提出了以下建议:开发者和政府应该认识到,些功能强的模型开源的险太,少在初期是这样。随着社会对险适应和安全机制改进,之后可以开源。开源性能基础模型的决策应基于严格的险评估。除了评估模型的危险能和直接滥之外,还必须考虑模型微调或修改可引发的滥。开发者应考虑开源的替代案,在获得技术和社会效益
78、的同时,没有太的险。可能的替代案包括渐进/分阶段发布、为研究和审核员提供结构化模型访问,对AI开发和治理决策的泛监督等。开发者、标准制定机构和开源社区应多协作,定义模型组件发布的细粒度标准。标准应基于对发布不同组件特定组合所带来的险的理解。政府应对开源AI模型进监督,并在险够时实施安全措施。AI开发者或许不会愿采险评估和模型共享标准,政府需要通过法规来执此类措施,并建有效执此类监督机制的能。2)Mila等机构的学者提出可下载模型微调的益便捷可能会增加险2023年12,Mila、英国AI安全研究所、剑桥学等机构的研究联合发布论可下载基础模型益便捷的微调所带来的险61(这的“可下载访问”,是指公开
79、发布预训练61Alan Chan et al.“Hazards from Increasingly Accessible Fine-Tuning of Downloadable Foundation Models”,2023-12-22,https:/arxiv.org/abs/?.?.182 审慎开放vs励开放,前沿AI开源的主要争论基础模型的权重,3.2节将进步讨论)。论讨论了以下个主要:微调的可访问性提:研究如何通过减少微调的计算成本和改进成本分摊机制,提了微调的可访问性。既包括了模型权重的可获取性,也包括了通过研究进展(如改进算法、使合成数据、参数效的微调法等)来降低微调的技术槛和成本
80、,使得更泛的群体能够便捷地使这些模型。潜在危害的增加:论认为,微调法的可访问性提可能会通过促进恶意使和使得对具有潜在危险能的模型进监督变得更加困难,从增加危害。潜在缓解措施和收益:论讨论了可能的缓解策略,例如使预训练模型更难针对特定任务进微调62,以及“遗忘学习”(unlearning)技术来移除可能被恶意为者利的记忆信息。同时,论也指出了微调的可访问性提可能带来的潜在好处,如促进学术研究、适应新的例、避免权不平衡等。不确定性和未来作:论强调了关于危害的量剩余不确定性,并建议未来的作应该集中在研究危害可能出现的情况,并开发缓解措施,如使某些任务或能的微调变得更加困难。论强调了在开放模型和提微调
81、可访问性的同时,需要平衡潜在的收益和险,并并投更多的研究努来理解和减轻这些险。论的结论强调了在提微调可访问性的同时,需要平衡潜在的危害和好处,并投更多的研究努来理解和减轻这些险。这表明作者倾向于在采取适当的预防措施和监管框架的情况下,审慎地推进基础模型的开放。2.3 场:励开放,边际险的严谨证据仍相当有限2.3.1 产业界1)领先的AI开源机构:仅列举开源了其最强模型的机构Meta(Facebook)期以来直积极持开源社区,贡献了PyTorch等多个重要的项。Meta在开始每个AI项时都希望将项的每个组件开源63,但有时却因为研究想法不成功或其他考量法开源。在模型,2022年5Meta发布OP
82、T-?B语模型,2023年2发布Llama模型,都为商业研究途免费开放,并在2023年7和2024年4分别开源了可直接商的模型Llama 2和Llama 3。Meta席科学家杨昆认为64,开源的模型能够吸引更多参与,从加速技术进步,这样的系统更安全,性能更佳。AI必须是开源的,因为当模型成为通信结构的重要组成部分时,我们都需要有个通的基础设施。64Steven Levy,“How not to be stupid about AI,with Yann LeCun”,2023-12-22,https:/ HAI,“How to Promote Responsible Open Foundatio
83、n Models”,2023-10-3,https:/hai.stanford.edu/news/how-promote-responsible-open-foundation-models.62Peter Henderson,“Self-Destructing Models:Increasing the Costs of Harmful Dual Uses of Foundation Models”,2022-11-27,https:/arxiv.org/abs/?.?.19基础模型的负责任开源BigScience是个由学术界和业界合作发起的国际开源研究项,旨在训练和开源有益于科学发展的规模
84、AI模型,在推动模型开源和多样性在前列。2022年5他们发布BLOOM-?B等规模多语开源对话模型,希望让不同语和化背景的都能使先进AI技术。该项由Hugging Face联合创始Thomas Wolf构想,他希望与公司竞争,提出不仅要训练出于世界上最的多语模型之林的模型,还要让所有都可以公开访问训练结果,圆了多数的梦想65。EleutherAI是个致于开源的营利实验室,成员主要是AI研究员、程师等。他们的标是复现和开源类似GPT-?的规模语模型,让更多能使和研究。EleutherAI发布了GPT-Neo系列、GPT-J、Pythia系列等免费商授权的开源模型,这些模型有不同规模,全部采公开数
85、据进训练,旨在帮助研究员理解模型训练的不同阶段。Connor Leahy是EleutherAI和Conjecture的联合创始,他对AI模型开源持复杂观点。EleutherAI在推动开源AI研究发挥了重要作,但Connor Leahy也批评Meta是“最不负责任的AI参与者”,“我们应该令核武器的设计透明化吗?”66强调了在没有严格安全防护的情况下公开强技术的险。Stability AI是家致于开发先进的图像成软件开源AI的公司。其代表作StableDiffusion软件在业界享有盛誉,最强的开源图像成模型之,被泛应于图像识别、成和编辑等领域,推动了AI艺术创作的发展和普及。阿联酋智能和数据科
86、学研究所(TII)是阿联酋国家AI战略的重要组成部分,致于推动AI技术的研究、开发和应。TII在开源模型领域取得了重进展,推出Falcon?B模型,为全球研究员和开发者提供了宝贵的资源。TII将 Falcon?B 开源,旨在促进全球AI研究的合作和发展,成为阿联酋和中东地区积极发展AI技术的体现。2)IBM和Meta联合发起AI联盟,合作推动开放、安全、负责任的AI发展2023年12,IBM和Meta联合发起AI联盟(AI Alliance)67。这是个国际性的技术开发者、研究员和采者社区。AI联盟由超过50个创始成员和协作者组成,包括AMD、CERN、歌、英特尔、Hugging Face等知
87、名机构。该联盟旨在通过开放创新和科学,聚焦于加速负责任的AI创新,同时确保科学严谨、安全、多样性和经济竞争。联盟将开展多个项,包括开发和部署标准、具,推进开放基础模型的态系统,促进AI硬件加速器态系统的繁荣,以及持全球AI技能培训和探索性研究。67AI Alliance,“AI Alliance Announces 25+New Members,Launches AI Safety Tooling and AI Policy Working Groupsto Enable Open,Safe,and Responsible AI for All”,2024-02-08,https:/theal
88、liance.ai/news.6636氪,“杨昆希望开源战胜OpenAI?”,2023-12-04,https:/? Bekman,“千亿参数开源模型 BLOOM 背后的技术”,2022-07-14,https:/huggingface.co/blog/zh/bloom-megatron-deepspeed.202 审慎开放vs励开放,前沿AI开源的主要争论3)负责任创新实验室发布聚焦于负责任AI的愿承诺协议2023年11,总部位于旧的负责任创新实验室(Responsible Innovation Labs,RIL)68发布了针对初创公司及其投资者的个业驱动的负责任AI承诺。这些承诺包括五个关
89、键动步骤:确保组织对负责任AI的认同、通过透明度建信任、预测AI的险和收益、审计和测试以确保产品安全、进定期和持续的改进。这愿性协议旨在提供实指导,由多部联盟持,包括险投资家、成AI初创公司、学术界和美国商务部。协议聚焦于负责任AI的愿承诺,为早期阶段的初创公司提供了针对其特定需求的资源。RIL的标是为益增多的希望在扩业务和创新时整合负责任AI实践的初创公司和投资者提供指导。该协议的初始签署者包括35家领先的险投资基。2.3.2 学术界1)Mozilla发起关于AI安全和开放的联合声明主张以公开访问和审查增强安全性69声明指出,当前正处于AI治理的关键时期。为了减轻当前和未来AI系统可能带来的
90、伤害,需要拥抱开放性、透明度和泛的访问权限。这应该是个全球性的优先事项。签署者包括来不同领域的专家,如Meta的杨昆、斯坦福学的吴恩达、哥伦亚学的CamilleFranois、Mozilla的Mark Surman、加州学伯克利分校的Deborah Raji、诺尔和平奖得主Maria Ressa Rappler、EleutherAI的Stella Biderman等1800多位签署者。声明反对仅通过严格、专有控制AI模型来防对社会的规模危害的观点,主张通过公开访问和审查来增强安全性。声明强调,过于匆忙地推限制性法规可能损害竞争和创新。从开源到开放科学,声明呼吁采取多样化的法:1.通过促进独研究
91、、合作和知识共享,加速理解AI能、险和伤害。2.通过帮助监管者采具来监测规模AI系统,增加公众审查和问责。3.为专注于创造负责任AI的新参与者降低进槛。当谈到AI安全和安保时,强调“开放性是种解药,不是毒药”。2)普林斯顿学等机构的学者探讨开放基础模型的社会影响,求促进讨论的精确性70作者认为对开放影响的分歧是由于对其社会影响的说法缺乏精确性造成的。在分析了开放基础模型的收益的基础上,他们提出了个险评估框架,于评估开放基础模型与封闭模型或互联上的络搜索等现有技术相的边际险。70Sayash Kapoor et al.,“On the Societal Impact of Open Founda
92、tion Models”,2024-02-27,https:/crfm.stanford.edu/open-fms/.69Camille Franois et al.,“Joint Statement on AI Safety and Openness”,2023-10-31,https:/open.mozilla.org/letter/.68Responsible Innovation Labs,“Introducing the Responsible AI Commitments”,2024-04-23(引期),https:/www.rilabs.org/responsible-ai.21
93、基础模型的负责任开源开放基础模型的收益。开放性的关键属性包括:更泛的访问(通过允许更泛的访问模型权重)、更的可定制性(通过允许按需调整模型)、本地适应和推理(可选择硬件)以及法撤销访问权限(基础模型开发员旦发布就法轻易撤销访问权限)。这些特性带来许多收益:分配谁定义可接受的模型为:更泛地访问模型及其更的可定制性扩展了谁能够指定可接受模型为的边界,不是仅由基础模型开发员拥有决策权。加创新度。更泛的访问、更的可定制性和本地推理扩展了基础模型于开发应程序的式。例如,具有严格隐私控制要求的应程序可使本地部署的模型。促进科学研究。许多类型的基础模型研究和使都需要访问模型权重。过去两年中,已经看到了开放模
94、型带来的速度提和安全挑战的例。同时,访问数据、档和模型检查点等资产对于其他研究来说是必要的,因此单独提供模型权重通常并不够。实现透明度。持续且泛的公开源代码持的同评议可以通过识别和消除核开发团队可能法发现的缺陷来提软件的安全性71。同时,没有经验证据表明开源软件闭源软件更容易受到攻击或更不安全72。对模型权重的泛访问可实现某种形式的透明度,例如有关模型架构的详细信息。然,与研究类似,透明度也需要模型权重以外的资产,特别是公开档,当前即使模型权重公开发布,也往往缺乏公开档。减轻单化和市场集中度。在不同的应中使相同的基础模型会导致单化。当模型出现问题时,会影响所有下游应。更的可定制性可减轻单化的危
95、害,因为基础模型的下游开发者可对其进微调以改变其为。同样,更泛的模型访问渠道可降低开发不同类型基础模型的进壁垒,从有助于降低下游的市场集中度。使其框架对开放基础模型的险进评分研究。表明该步骤已明确完成;表部分完成;表不存在该步骤(完整论清单)7373Sayash Kapoor et al.,“On the Societal Impact of Open Foundation Models”,2024-02-27,https:/crfm.stanford.edu/open-fms/.72Guido Schryen,“Is Open Source Security a Myth?”,2024-04
96、-12,https:/dl.acm.org/doi/pdf/?.?/?.?.71Rishi Bommasani et al.,“Considerations for Governing Open Foundation Models”,2023-12-13,https:/hai.stanford.edu/issue-brief-considerations-governing-open-foundation-models.222 审慎开放vs励开放,前沿AI开源的主要争论框架步骤步骤描述以络安全(动漏洞检测)为例威胁识别指定威胁是什么以及来谁?所有滥分析都应系统地识别和描述正在分析的潜在威胁为了
97、提出明确的假设。漏洞检测具可于动执发现软件漏洞的过程。威胁为者包括个客、团体或国家持的攻击者。现有险(不考虑开放基础模型)这种威胁的现有险是什么?在许多情况下,公开发布模型的险已经存在于现实世界(尽管严重程度可能有所不同)。攻击者受益于漏洞检测中然最坏情况的不对称性:攻击者只需利单个有效漏洞即可成功,防御者必须防御所有漏洞才能成功。现有险很程度上受到攻击者资源的影响:练的攻击者经常在攻击设计中使动漏洞检测具。模糊测试具期以来直被来查找软件中的漏洞,Metasploit等具也是如此,Metasploit是个免费的渗透测试框架,可以帮助动漏洞检测。MITRE的AI系统对抗威胁格局是对抗性机器学习的
98、络安全威胁矩阵,包括许多利封闭基础模型和其他类型的机器学习模型来检测漏洞的技术。现有防御(不考虑开放基础模型)这种威胁的现有防御是什么?开放基础模型的许多所谓险都有现有的防御措施。络安全防御通常采纵深防御策略,其中防御是分层的,以确保基于层中未解决的漏洞的利不会影响其他防御层。在漏洞检测设置中,防御者可以抢先使漏洞检测具来检测和修补安全威胁,这同样取决于他们对资源的访问。漏洞赏等激励策略可以通过激励漏洞发现者(客、安全研究员、公司)报告漏洞,在定程度上使攻防平衡向有利于防御的向倾斜。边际险(marginalrisk)的证据这种威胁的险增量是什么?旦威胁途径、现有险平以及现有防御措施的范围明确后
99、,理解开放发布模型的边际险就常重要。不仅要与现有技术(如互联)相较,还要与闭源的基础模型的发布相较。我们不知道现有证据表明恶意为者已成功使开放基础模型来动检测漏洞。存在暗具告,声称可以促进动漏洞检测,但尚不清楚这些产品是否依赖于开放基础模型。在考虑相对于封闭基础的边际险时,虽然可以更好地监测封闭基础模型的滥情况,但尚不清楚此类途是否会得到可靠性识别。也就是说,使封闭基础模型进漏洞检测并不定是滥,这引了区分于动漏洞检测的封闭基础模型的合法和恶意使的重要分类问题。新险防御难易度改进防御措施以应对新险有多难?虽然现有的防御措施为应对开放基础模型引的新险提供了基线,但可以实施新的防御措施或修改现有的防
100、御措施,以应对总体险的增加。模型可以纳信息安全具包中以加强防御。展了模型如何扩流的模糊测试具OSS-Fuzz的覆盖范围。基础模型还可于监测来已部署软件系统的信号,以发现主动攻击的迹象。Google在其流的恶意软件检测平台Virus-Total中利了模型,使模型来帮助解释特定件中包含的恶意软件的功能。纵深防御在辅助防御将继续发挥重要作。论于动漏洞检测的模型是开放还是封闭的,信号以及以机器规模和速度分析信号的能都可以为防御者提供不同的持,因其可以更好地访问系统。不确定性和假设分析中隐含的不确定性和假设是什么?些分歧可能源于不同研究员对开放基础模型态系统未明确的假设。该框架要求研究员对其具体说明,以
101、澄清分歧。对边际险和防御难易度的分析假设防御者将继续更好地访问最先进的漏洞检测具,包括基于开放基础模型的具。它还假设防御者投资使这些具来更新他们的信息安全实践,并且随着模型能的提,攻防平衡不会发巨变化。险评估框架对络安全险分析的实例化7474Sayash Kapoor et al.,“On the Societal Impact of Open Foundation Models”,2024-02-27,https:/arxiv.org/abs/?.?.23基础模型的负责任开源作者实例化了两种滥险的框架,对动漏洞检测产的络安全险(如上表所)和数字化修改的NCII险进了初步分析。对于前者,开放基
102、础模型前的边际险较低,并且有多种法可以防御边际险,包括使AI进防御。对于后者,开放基础模型前前带来了相当的边际险,且看似合理的防御似乎很困难。最后,作者希望其概念框架能够帮助弥补当前实证证据的不,并提出以下政策建议:开放基础模型的开发者应明确其与产品下游开发者之间的责任划分。特别是,开发员应明确实施了哪些负责任的AI实践,以及哪些留给可能修改模型以在向消费者的应程序中使的下游开发者。研究开放基础模型险的研究员应采险评估框架来明确阐明公开发布基础模型的边际险。如果没有这样的评估,就不清楚所概述的险是否也存在于现状中或新险确实法制定良好防御措施。前这种边际险的证据仍然相当有限75。政策制定者应主动
103、评估监管草案对开放基础模型的影响,尤其是在缺乏边际险权威证据的情况下。资助机构应确保调查开放基础模型险的研究获得够的资助,同时保持适当独于基础模型开发者的利益。竞争监管机构应该投资于更系统地衡量基础模型的收益以及开放性对这些收益的影响。例如,AI监管对围绕开放基础模型活跃创新态系统的潜在意外后果。2.4 两种场的异同点总体,审慎开放和励开放都认可:开源开放对加速创新、提透明度、促进科学研究等有重要意义,都意识到强的基础模型如果完全开源可能带来重险;都主张在开源时需要采取定的安全措施,如对系统进必要的测试和评估,以降低险。审慎开放励开放总体态度认为随着基础模型能的增强,当前的开源化可能需要调整,
104、以确保安全和责任,持有条件、渐进式的开源认为开放性、透明度和泛访问对于减轻AI险、促进创新竞争关重要,反对严格限制性的做法收益vs险承认开源有助于外部监督、加速进步等优点,但认为对于能模型,开源的险可能于收益强调开源在分配模型为定义权、促进创新、持科研、实现透明、减轻单化等的重要价值。应客观评估开源的边际险,很多险在闭源情况下也存在75Rishi Bommasani et al.,“Considerations for Governing Open Foundation Models”,2023-12-13,https:/hai.stanford.edu/issue-brief-conside
105、rations-governing-open-foundation-models.242 审慎开放vs励开放,前沿AI开源的主要争论审慎开放励开放如何开源倾向于渐进、分阶段、有限度地开源。认为应该评估不同技术成熟度下的开源险,对成熟、可控的模型可以开源,但对于前沿、险的模型应暂缓开源主张尽可能完全、直接地开源源代码、模型、权重等,及时开源有助于发现和修复问题,即使是前沿模型也应尽快开源,但要有配套的安全防护安全保障主张开源前应进强有的滥检测、使限制等安全保证,险时不应开源,政府应加强监管执法提倡在开源的同时加强防御措施,严格管控。呼吁明确开发者和下游开发者的责任划分监管政策更倾向于严格监管。建
106、议制定细粒度的模型开源标准,政府应对险模型实施必要的安全管控措施担监管过严会抑制创新,主张更多地依靠业律,提醒应评估监管对开源创新态的影响,政策制定应有充分的险证据撑,竞争机构应衡量开放性的价值审慎开放vs励开放的场对(本报告制)但双的主要分歧在于:持审慎开放的更强调潜在的重险,主张谨慎渐进,更倾向于集中治理。持励开放的则更看重开放创新的巨收益,主张尽快动,强调创新活和去中化。这反映了当前AI治理所临的复杂性和两难困境。未来还需要各持续对话协作,在负责任、可持续的前提下推动AI技术造福类。2.5 争论之外的场三:是否开源主要取决于商业考量在审慎开放和励开源这两种场的争论之外,还存在类观点认为企
107、业决定是否开源前沿模型,很程度上取决于其商业利益的考量,对滥险的审慎权衡。例如,Mistral、xAI,以及国内的智谱AI和百川智能等AI企业采纳了开源与闭源并的策略。根据不同的业务需求和市场环境,选择将某些模型开源以促进技术的普及和创新,同时保留核技术的闭源状态,以保护商业秘密和增加竞争优势。如百度创始兼CEO李彦宏所指出的,闭源模型在成本控制和效率提升可能更具优势,因为企业可以集中资源进深度优化和定制化开发。此外,闭源模型也为企业提供了更多的商业模式选择,包括提供质量的付费服务、定制解决案等。这种双重策略可以帮助公司在保持技术领先的同时,也能够在开放创新态中发挥作。25基础模型的负责任开源
108、字节跳动AI Lab总监李航引微软全球执副总裁沈向洋的观点,强调企业的开源决策与其市场地位紧密相关76。业的领导者可能不会选择开源,第名肯定不会开源,第名想要和第名竞争也不会开源,第三、第四名的公司可能会选择开源以取得些竞争优势。李航指出,从历史经验看,这观点有定道理。他举例在AI公司中,OpenAI、Anthropic前尚未开源,Meta和Amazon则选择了开源。他认为,从商业度看,Meta等公司开源并出于其他考虑,主要是为了获取商业利益优势。此外,之暗的CEO杨植麟也表77,领先的公司概率不会开源其主要模型,反是落后者可能会这么做,或者开源模型,旨在打乱现有秩序。同时,智源研究院和智谱A
109、I等机构签署的北京AI安全国际共识78也表明,论开源还是闭源,业的参与者都度重视AI的安全和伦理治理。这显出虽然商业利益是个重要考量,企业在决策时还必须考虑到技术安全、伦理治理、地缘政治等复杂因素。2.6 结在探讨前沿AI开源的争论中,我们识别了两种主要场:是审慎开放的倡导者,他们关注潜在险并强调在确保安全的基础上逐步推进开放;另则是励开放的持者,他们看重开放性对于促进创新和透明度的重要性,并反对过度限制的做法。尽管在险与收益的评估、开源式、安保措施以及监管政策等存在分歧,但都认同开放性在推动技术进步和促进社会福祉的重要作。除了这两种场之外,还有部分观点认为,企业在决定是否开源其AI模型时,商
110、业利益往往是主要考量。企业会根据的市场定位和商业标来选择开源或闭源策略,以实现竞争优势、保护核技术或商业态演进。实际上,开源与闭源并此即彼的分法,是存在于个阔的设计空间中,其中包含了多种可能的开放和发布选项和策略。接下来我们将深剖析开源AI的真正含义,探索不同模型发布选项的特点,评估各种发布和治理模式的安全性,并讨论如何实现更为负责任的开源实践。78Yoshua Bengio et al.,“北京AI安全国际共识”,2024-03-11,https:/idais-.77张珺,“之暗杨植麟复盘模型创业这年:向延绵未知的雪前进”,2024-03-01,https:/ 开源vs闭源,是错误的分法3
111、开源vs闭源,是错误的分法发布选项可能存在个阔而未充分探索的设计空间,这似乎是个需要多元专业知识才能解决的社会技术设计问题。吉什萨斯特(Girish Sastry)79关于基础模型发布选项的讨论,通常基于“开源”与“闭源”的对。值得探讨的是,有哪些不同的发布选项,如何能够更加负责任地开源,以及如何在维持闭源所带来的优势的同时也享受到开源所带来的益处。换句话说:我们是否能够两全其美?3.1 不同于开源软件,开源AI的概念尚未得到清晰定义开源最初是于描述开源软件(open-source software,简称OSS),它是种社会契约,意味着软件的源代码是公开可访问的,任何都可以查看、使、修改和分发
112、,并且是在开源许可证下发布的。开源软件的标准定义必须满个核标准80,81,包括免费提供源代码、允许衍作品以及不歧视任何使该软件的领域或群体等。因此,开源既指源代码的可性,也指允许下游不受限制地使所述代码的合法许可。然,随着像Llama 1、Llama 2、StableLM这样的AI模型的发布,“开源”这术语与开源许可证的要求开始脱节82。些开发者使“开源”词仅意味着他们的模型可以被下载,但许可证可能仍然禁某些使情况和分发。例如,尽管Meta将Llama 2称为开源模型,但其许可证有个限制,即拥有超过7亿活跃的下游开发者不能将其于商业途,其输出也不能于训练其他模型83。因此严格来说,根据传统的开
113、源软件定义,Llama 2并不是开源的,将其作为开源进市场推被开源倡议组织批评为错误和误导性的84。其他组织则使了具有使限制的OpenRAIL(Open&Responsible AI)许可证85。抛开许可证问题,开源软件仅仅指“免费且公开可下载的源代码”的概念,并不直接适于AI,因为系统的构建式不同86。对于AI系统,“源代码”可以指推理代码和/或训练代码,86Sid Sijbrandij,“AI weights are not open source”,2023-06-27,https:/ Muoz Ferrandis,“OpenRAIL:Towards open and responsib
114、le AI licensing frameworks”,2022-08-31,https:/huggingface.co/blog/open_rail.84Open Source Initiative,“Metas LLaMa 2 license is not Open Source”,2023-07-20,https:/opensource.org/blog/metas-llama-?-license-is-not-open-source.83Meta,“Llama 2 Version Release”,2023-07-18,https:/ for the Governance of AI,
115、“Open-Sourcing Highly Capable Foundation Models”,2023-09-29,Open-Sourcing Highly Capable Foundation Models.81Choose a License,“Licenses”,2024-04-23(引期),https:/ Source Initiative,“The Open Source Definition”,2024-02-16,https:/opensource.org/osd.79Girish Sastry,“Beyond Release vs.Not Release”,2021-10-
116、18,https:/crfm.stanford.edu/commentary/?/?/?/sastry.html.27基础模型的负责任开源这两者可以独共享。AI系统还有超出源代码的其他系统组件,如模型权重和训练数据,所有这些都可以独于源代码和彼此共享或保留。正如开放源代码促进会(Open Source Initiative,简称OSI)的执董事Stefano Maffulli所说的,开源AI的概念尚未得到清晰定义。不同的组织使该术语来指代不同的事物。这常令困惑,因为每个都它来表不同程度的“公开可”,并提出了系列新的挑战,其中最重要的是围绕训练数据的隐私和版权问题87。专家们对于哪些模型组件需要
117、共享才能将AI模型视为开源并没有达成致。OSI2022年以来直致于明确开源AI的确切定义88,截到2024年3底,已形成0.0.6版草案,并计划在2024年内发布1.0版。OSI的开源AI定义作的2024年时间线8989Open Source Initiative,“Open Source AI Definition”,2024-01-26,https:/opensource.org/wp-content/uploads/?/?/osi_townhall_?.pdf.88Open Source Initiative,“Join The Discussion on Open Source AI”
118、,2024-04-23(引期),https:/opensource.org/deepdive.87Edd Gent,“Protesters Decry Metas Irreversible Proliferation of AI”,2023-10-06,https:/spectrum.ieee.org/meta-ai.283 开源vs闭源,是错误的分法3.2 从“完全开放”到“完全封闭”之间存在多种模型发布选项3.2.1 AI系统访问的渐进等级模型要么开源,要么闭源的想法,提出了错误的分法90,91。从“完全封闭”到“完全开放”之间存在多种模型发布选项。AI系统访问的渐进等级:需要进步的研究和
119、定义92系统越开放,可以更好地对其进审核和社区研究,但更难控制其险。通常所说的“开源”模型发布涵盖了Irene Solaiman梯度最右侧两个系统访问类别:可下载(Downloadable,特别是槛下载意味着任何都可以免费下载可组件,通常包括权重和架构)和完全开放(Fully Open,源代码、权重、训练数据、其他组件、档全部公开)。开源访问的渐进等级:对于完全开放的模型,源代码、权重、训练数据以及所有其他模型组件和可档都是公开的。然,在槛下载类别中其中些组件是可公开下载的(通常包括权重和架构),其他组件则被保留还有进步规范的空间。重要的是,开源的确切收益和险是由公开的模型组件和档的特定组合决
120、定的。需要明确的标准和定义:需要对项进调查和阐明通过访问不同的模型组件(组合)可以进哪些活动。这些信息对于构建有效且细粒度和不过分繁重的模型发布标准,以及确保开源价值受到保护并在安全的情况下享受利益关重要。3.2.2 进步探讨基础模型的“发布”关于如何监管基础模型的争论的核是基础模型的发布(released)过程:在多程度上以及通过什么机制提供给基础模型开发员之外的实体?92Irene Solaiman,“The Gradient of Generative AI Release:Methods and Considerations”,2023-02-05,https:/arxiv.org/a
121、bs/?.?.91Girish Sastry,“Beyond Release vs.Not Release”,2021-10-18,https:/crfm.stanford.edu/commentary/?/?/?/sastry.html.90Center for the Governance of AI,“Open-Sourcing Highly Capable Foundation Models”,2023-09-29,https:/www.governance.ai/research-paper/open-sourcing-highly-capable-foundation-models
122、.29基础模型的负责任开源发布的可以是多维的:不同的资产(例如,训练数据、代码、模型权重)可以发布给特定的实体或公众。开发者在完全封闭设置(不向任何发布任何内容)和完全开放设置(所有资产都向所有发布)之间有许多中间选项。斯坦福学基础模型研究中经Solaiman授权的修改版AI系统访问的渐进等级93模型可以是完全封闭的(如Google DeepMind的Flamingo,不向开发组织外的任何开放);托管访问(通过界提供,如Inflection的Pi);模型的API访问(如OpenAI的GPT-?);微调的API访问(如OpenAI的GPT-?.?)94,95;权重可(如Meta的Llama 2)
123、;有使限制的权重、代码和数据可(如BigScience的BLOOM);使限制的权重、代码和数据可(如EleutherAI的GPT-NeoX)。斯坦福学的学者使的开放基础模型(open foundation models)的概念,即权重泛可的基础模型。这与美国安全、可靠和可信AI政命令的要求致。OSS Capital也在尝试对“开放权重”(Open Weight)的概念96和许可框架97进更严格的定义98。围绕开放基础模型的许多担忧源于这样个事实:旦模型权重发布,开发员就放弃对其下游使的控制。即使开发者对下游使以及谁可以下载模型进限制,这种限制也可能被下游开发者特别是恶意为者忽略。相之下,对恶意
124、使或其他重要险,封闭基础模型开发者可以限制对模型的访问,即通过在模型发布渐进等级上转移到更严格的点来减少访问。98Heather Meeker,“Definition/Definition.md”,2024-02-07,https:/ Meeker,“Definition/Open Weights License.MD at main”,2024-01-04,https:/ Sijbrandij,“AI weights are not open source”,2023-06-27,https:/ improvements to the fine-tuning API and expandin
125、g our custom models program”,2024-04-04,https:/ Bommasani et al.,“Considerations for Governing Open Foundation Models”,2023-12-13,https:/hai.stanford.edu/issue-brief-considerations-governing-open-foundation-models.303 开源vs闭源,是错误的分法关于模型发布的更多信息,可参考斯坦福学的研究员整理的Ecosystem Graphs数据库99。因此,发布引了科学知识的开放产(包括基础模
126、型的局限性和险的知识)与发布可能导致的不安全部署险之间的紧张关系。虽然这种紧张关系不可能完全化解,但我们可以超越简单化的维视,探索更丰富的发布政策设计空间,从取得些进展。斯坦福的学者提出100可以通过确定四个关键问题来为这个设计空间提供个坐标系:发布什么、向谁发布、何时发布以及如何发布。社区前缺乏发布规范,不同的基础模型开发员有常不同的政策。我们励制定社区规范,并对研究访问的发布进协调。1)发布什么斯坦福学的Percy Liang副教授认为,通常可以认为更开放的发布可以使研究员能够解决更深层次的问题101。发布内容先可以被分为直接资产和间接资产:直接资产提供对现有模型的访问,这既允许对模型进即
127、时研究,也可以持模型的部署。直接访问的形式包括:(i)开发者中介访问(例如对预测或嵌的访问),(ii)API访问,以及(iii)对模型权重的访问。前,API访问是最常的,它是种结构化访问102,103,可以实现对访问的监测和撤销。开发者中介访问(即让基础模型开发者代表外部研究员运评估)提供更强的监督,并降低维护API的基础设施成本,但引了为瓶颈,法持需要交互性的研究。另,访问模型权重可以持更深的研究,这是即使有API访问也法实现的,例如开发新的微调法。请注意,访问模型权重并不排除结构化访问:模型权重可以托管在开发者控制的环境中,这将为开发者提供监督,为研究员提供算资源的便利性。间接资产提供构建
128、模型的段;这些包括:(i)描述基础模型的论,包括有关数据、训练和模型的细节;(ii)访问训练和数据处理的代码;(iii)访问训练数据(很少);(iv)训练新模型的算资源(是重要的)。值得注意的是,发表论也是种发布形式。如果篇论包含够的细节来复现模型,那么发布该论在使资源参与者能够使(更令担忧的是滥)可能相当于发布完整模型104。但实际上,仅凭论是不以完全复现的,需要以代码、数据和算104EleutherAI,“Why Release a Large Language Model?”,2021-06-02,https:/blog.eleuther.ai/why-release-a-large-l
129、anguage-model/.103Benjamin S.Bucknall,Robert F.Trager,“Structured access for third-party research on frontier AI models:Investigating researchers model access requirements”,2023-10-27,https:/www.oxfordmartin.ox.ac.uk/publications/structured-access-for-third-party-research-on-frontier-ai-models-inves
130、tigating-researchers-model-access-requirements/.102Toby Shevlane,“Structured access:an emerging paradigm for safe AI deployment”,2022-01-13,https:/arxiv.org/abs/?.?.101Percy Liang,“Metas release of OPT is an exciting step towards opening new opportunities for research”,2022-05-04,https:/ Liang et al
131、.,“The Time Is Now to Develop Community Norms for the Release of Foundation Models”,2023-05-17,https:/hai.stanford.edu/news/time-now-develop-community-norms-release-foundation-models.99Stanford CRFM,“Ecosystem Graphs for Foundation Models”,2024-04-23(引期),https:/crfm.stanford.edu/ecosystem-graphs/ind
132、ex.html?mode=table.31基础模型的负责任开源的形式进更强的发布。如果以负责任的式发布,这些资产将开辟阔的新研究机会,包括探索新的模型架构、探索新的训练策略以及执数据消融。这种类型的研究访问(特别是算)对于从根本上期改进基础模型关重要。基础模型开发员可以发布直接资产,这提供了使现有基础模型的法;和间接资产,它们提供了理解现有模型的构造或构建新模型的法1002)向谁发布基础模型开发员通常会逐步扩其资产的开放范围,(i)起初仅向那些被充分了解并信赖的内部同事开放,(ii)随后逐步扩展到根据公开征集访问申请并被开发者授予访问权限的,(iii)最终普及般众。基础模型的开发者通常会逐步扩
133、资产发布受众100在这过程中,介于内部同事与泛公众之间的第阶段尤为关键。这阶段涵盖了由第三进的严密审计与红队攻击测试,以此确保模型的安全性。随着模型能的增强,这种“了解你的客”(KYC)的审查变得尤为重要,因为能模型的潜在险更。然,同时必须注意到过度严格的KYC要求可能会抑制技术创新和应普及。因此,可以考虑在第阶段与第阶段之间增设类类别:持有经官认证的安全使许可证的。这些必须通过系列专业培训与资质审核,其资格类似于持枪证,以保证他们在访问敏感度资产时的专业性与安全性。323 开源vs闭源,是错误的分法3)何时发布何时发布资产取决于内在属性(例如安全评估的结果)和外部条件(例如存在哪些其他模型以
134、及已经发布了多时间)。般来说,我们建议发布应该分阶段进105,每个阶段都沿着“发布什么”或“向谁发布”轴扩展。重要的是,我们认为这进展应该受到条件的限制:例如,为了扩对公众的访问,应该经过些时间间隔以便有时间进分析,并且模型应该通过定的安全标准。4)如何发布除了分阶段发布之外,发布也不应该是次性的决定。基础模型开发员有责任随着时间的推移维护其版本,类似于维护软件106。发布应包括开发员和研究员之间的双向沟通 式。如果下游开发者有反馈,例如特定的故障案例或系统偏差,他们应该能够向开发员公开报告这些反馈,类似于提交软件错误报告。相反,如果模型开发员更新或弃模型,他们应该通知所有下游开发者。基础模型
135、的发布常重要,没有任何个组织能够拥有所需的不同视来预所有期问题,同时也必须适当控制发布以最程度地降低险。前对于发布缺乏规范,建议制定社区规范并励研究访问发布的协调。3.3 基础模型安全性评测:开放vs封闭模型均显出对各种攻击的脆弱性3.3.1 当前还没有成熟的安全性评测,需要评测科学模型评测是个新兴领域,当前还没有成熟的评测107,不能像在成熟领域那样信任评测结果,开源模型的安全评估法更是明显缺乏108,我们需要评测科学(We need a Science ofEvals)109。1)HarmBench:对动化红队和鲁棒拒绝机制进详细较测试的标准化评估框架在HarmBench的研究中,对开源模
136、型(Open-Source Models)和闭源模型(Closed-SourceModels)进了评测对,以评估它们在对各种攻击时的安全性和鲁棒性。109Apollo Research,“We need a Science of Evals”,2024-01-22,https:/www.apolloresearch.ai/blog/we-need-a-science-of-evals.108Yuxia Wang et al.,“Do-Not-Answer:A Dataset for Evaluating Safeguards in LLMs”,2023-08-25,https:/arxiv.o
137、rg/abs/?.?.107Stanford HAI,“2024 AI Index Report”,2024-04-15,https:/aiindex.stanford.edu/report/.106Colin Raffel,“A Call to Build Models Like We Build Open-Source Software”,2021-12-08,https:/ Solaiman et al.,“Release Strategies and the Social Impacts of Language Models”,2019-08-24,https:/arxiv.org/a
138、bs/?.?.33基础模型的负责任开源在开源与闭源模型的较中,研究发现没有种模型能够对所有攻击完全鲁棒,鲁棒性在这两类模型中甚在同类别内也有显著差异。这意味着论是开源模型还是闭源模型,都存在被特定攻击法成功的可能性。通过使HarmBench进的规模较实验揭了些有趣的发现,例如,模型的鲁棒性与其规模的相关性较,是更多地取决于训练数据和算法。总的来说,不能简单地说开源模型或闭源模型的安全性更,因为它们的安全性取决于多种因素,包括模型的设计、训练过程、以及所临的特定攻击类型。HarmBench提供了个可以帮助研究员和开发者评估和改进各种模型安全性的具。通过持续的红队测试和对抗性训练,可以提模型的鲁棒
139、性,论是开源还是闭源模型,都能够受益于这些法,从推动整个领域向更安全的AI系统发展。HarmBench对标准/上下/版权为的评测对(上21个为开源模型,下8个为闭源模型)1102)SuperCLUE-SafetSC-Safety:中模型多轮对抗安全基准SC-Safety模型安全类测评,包含以下三能的检验:传统安全类、负责任智能和指令攻击。总体发现:1.总得分,是指计算每道题的分数,汇总所有分数并除以总分。可以看到总体上,相对于开源模型,闭源模型安全性做的更好。2.与通基准不同,安全总榜上国内代表性闭源服务或开源模型与国外领先模型较为接近;闭源模型默认调式为API。110Mantas Mazei
140、ka et al.,“HarmBench:A Standardized Evaluation Framework for Automated Red Teaming andRobust Refusal”,2024-02-27,https:/arxiv.org/abs/?.?.343 开源vs闭源,是错误的分法排名模型机构总分传统安全类负责任类指令攻击类许可1BlueLMvivo92.5187.2196.5994.16闭源2AndesGPTOPPO90.8787.4694.6090.81闭源3Yi-?B-Chat零万物89.3085.8994.0688.07开源44.0百度88.9188.419
141、2.4585.73闭源-GPT?OpenAI87.4384.5191.2286.70闭源5讯星(v?.?)科讯86.2482.5191.7585.45闭源6?gpt-pro36085.3182.8290.3582.75闭源7讯星(v?.?)科讯84.9880.6589.7884.77闭源-gpt-?.?-turboOpenAI83.8282.8287.8180.72闭源83.5百度81.2479.7984.5279.42闭源9ChatGLM?-Pro清华&智谱AI79.8277.1687.2274.98闭源10ChatGLM?-?B清华&智谱AI79.4376.5384.3677.45开源11
142、Baichuan?-?B-Chat百川智能78.7874.7085.8775.86开源12Qwen-?B-Chat阿巴巴78.6477.4985.4372.77开源13OpenBuddy-Llama?-?BOpenBuddy78.2177.3787.5169.30开源-Llama-?-?B-ChatMeta77.4971.9785.5475.16开源14?GPT_S?_V?36076.5271.4585.0973.12闭源15Chinese-Alpaca?-?Byiming cui75.3973.2182.4470.39开源16MiniMax-Abab?.?MiniMax71.9071.677
143、9.7763.82闭源SC-Safety安全总榜(更新时间2024年14)111111Liang Xu,“SuperCLUE-Safety:中模型多轮对抗安全基准”,2024-01-04,https:/ 封闭模型的脆弱性尽管封闭模型的开发者可以通过限制模型访问来防范恶意使,例如实施严格的访问控制策略,但模型仍临多种安全威胁,容易被恶意使。以下是些有代表性的脆弱性:微调对的语模型引的新安全险:封闭模型的开发者常通过微调来优化模型以满特定的下游例需求。然,这种定制化的微调过程可能会带来安全成本。例如,普林斯顿学等机构的研究发现112,当微调权限扩展最终时,现有的安全措施法全覆盖新的安全险。他们通过
144、对OpenAI的API以不到0.20美元的成本在10个这样的样本上进微调,演了如何绕过GPT-?.?Turbo的安全护栏。此外,即使是恶意的常规数据集微调也可能不经意间降低模型的安全性。构建通和可迁移的对抗性攻击:对已进安全对的型语模型,如ChatGPT,可以设计特殊字符序列,这些序列加到查询中可能使模型执有害指令。通常这种“越狱”需要量的动设计作,并且通常可以很容易地被模型开发者修补。卡内基梅隆的研究表明113,这种对抗性攻击可以完全动化地构建,允许成乎限数量的攻击。这些攻击虽然针对开源模型设计,但也可迁移到ChatGPT、Bard和Claude等多种封闭模型,增加了对封闭系统的安全性担忧,
145、特别是当它们开始以更加主的式被使时。通过偏离攻击从语模型中提取训练数据:Google DeepMind等机构的研究发现114,通过重复某些词语,可以诱使模型泄露其训练数据,这种数据称为“可提取记忆”(extractable memorization)。作者设计了种“偏离攻击”(divergence attack),使模型偏离其聊天机器格的成,并且以正常为出150倍的概率泄露训练数据。这种偏离攻击表明封闭模型同样容易受到信息泄露的威胁115。这类攻击的成功率与特定词语的选择有关,显了模型在数据隐私保护的脆弱性。偏好数据引起的“谄媚”(Sycophancy)现象:Anthropic的研究116探讨
146、了种模型产的回应趋向于符合的场或偏好,但有时可能以牺牲真实性或准确性为代价的为。此研究涵盖了5个当时最领先的AI系统:Claude 1.3、Claude 2、GPT-?.?、GPT-?、Llama 2,发现这些系统致地展现了谄媚为。该研究强调了封闭模型在处理偏好数据时如何产偏向场的输出,从影响了决策和信息的质量。尽管谄116Mrinank Sharma,“Towards Understanding Sycophancy in Language Models”,2023-10-20,https:/arxiv.org/abs/?.?.115段雅,“AI安全前沿#2|模型谄媚现象、RLHF后攻击、A
147、I?Science模型的滥险、态势感知能、表征程”,2023-12-29,https:/ Nasr et al.,“Scalable Extraction of Training Data from(Production)Language Models”,2023-11-08,https:/arxiv.org/abs/?.?.113Andy Zou,“Universal and Transferable Adversarial Attacks on Aligned Language Models”,2023-12-20,https:/llm-attacks.org/.112Xiangyu Qi
148、,“Fine-tuning Aligned Language Models Compromises Safety,Even When Users Do Not Intend To!”,2023-10-05,https:/llm-tuning-safety.github.io/.363 开源vs闭源,是错误的分法媚为通常被视为误导性反馈的问题,但它同样是封闭模型中个未被解决的挑战。同时,这也说明了开发超越仅依赖类评分的训练法的必要性117。3.3.3 开放模型的脆弱性为何开源模型更容易遭受滥?实际上,尽管最好的开源模型与闭源模型相仍存在能差距(有专家判断差距约为1年半118,另有专家认为差距正在
149、缩119),但在众多场景中,开源模型往往是恶意为者的选,原因可能包括120:法监测滥或偏:封闭模型可以监测有意或意的滥为并禁相关帐,如果模型在不良为者的硬件上运,则开放模型本质上法监测。开放模型也法进偏监测,因为他们甚不知道他们的模型在被谁以及如何使。删除安全特性的能:研究员已经证明,通过对模型代码进极其简单的修改和其他对抗攻击121,就可以删除开放模型的“安全特性”,如果恶意为者在的硬件上操作,这种为是难以检测的。精微调后的滥:专家还证明,开放模型可以进微调以便在滥情况下做得更好(例如GPT-?Chan),例如提其在合成物学、错误信息成或说服的表现。速率限制:封闭模型可以对每个的内容产出进限
150、制,但是当恶意为者使的硬件时,他们可以成旨在伤害们的限内容,并使其度个性化和互动,只受到硬件的限制。这可能会助包括窄播(narrowcasting)、虚假草根运动(astroturfing)、结队(brigading)或旨在使观众两极分化的材料等各种危害。旦发布,安全漏洞法修补:即使开放模型的开发员发现了漏洞(例如Llama 2的Uncensored版本122可以设计物武器),旦发布,他们也法有意义地召回。这使得发布开放模型的决定给社会带来了不可逆转的险。于监测和分析标:开放模型不仅可以于成内容,还可以来对量内容进结构化分析。封闭模型的输出可能受到速率限制,开放模型则可于分析量有关个的公共信息
151、,甚是法获取的数据库,然后确定影响操作的标、放极化内容制作者、易受骗的受害者等。122Hugging Face,“jarradh/llama?_?b_chat_uncensored”,2024-04-23(引期),https:/huggingface.co/jarradh/llama?_?b_chat_uncensored.121Markus Anderljung et al.,“Protecting Society from AI Misuse:When are Restrictions on CapabilitiesWarranted?”,2023-03-16,https:/arxiv.o
152、rg/abs/?.?.120David Harris,“How to Regulate Unsecured Open-Source AI:No Exemptions”,2023-12-04,https:/www.techpolicy.press/how-to-regulate-unsecured-opensource-ai-no-exemptions/.119张俊林,“如何看待 Meta 发布 Llama?,并将推出?B+版本?”,2024-04-19,https:/ Clark,“Import AI 367:Googles world-spanning model;breaking AI p
153、olicy with evolution;$?k foralignment benchmarks”,2024-04-01,https:/ Casper et al.,“Open Problems and Fundamental Limitations of Reinforcement Learning from HumanFeedback”,2023-07-27,https:/arxiv.org/abs/?.?.37基础模型的负责任开源对封闭模型的公开攻击:研究员利开放模型来研究“越狱”,在某些情况下可以转移到封闭模型,从使这两种类型的模型都更容易受到滥。印去除:开放模型可以通过改写本或去除图
154、像、频、视频印,实现对印的规模、动化移除。危险材料、物质或系统的设计:虽然封闭模型可以限制与这些主题相关的查询,但开放模型的障碍可以被消除。这是个真正的威胁,GPT-?和Claude 2在预发布版本的红队测试中发现了这的潜在险123,124。3.4 AI研发机构治理评测:倾向于开放vs封闭模型的机构各有所3.4.1 安全政策评测:倾向于封闭模型的机构表现较优2023年全球AI安全峰会前,英国政府发布了前沿AI安全的新兴流程125。并邀请7家企业介绍在AI安全的政策。剑桥学未来智能研究中邀请了由15名AI学者、监管专家和技术研究员组成的组,评估了6家企业的政策,并为每个企业进了评分和较。总体发现
155、:没有家公司符合所有最佳实践政策。其中整体做的较好的是“开展研究以促进AI安全”。但也有些是都做的不太好的,例如“通过邀请外部参与者评估其输数据并共享输数据审计的信息,促进对输数据的外部审查”,“准备应对潜在的最坏情况或持续的滥情况,包括通过快速模型回滚和撤回”。可以看到,表现最好的Anthropic也只达到82%。当时也是唯发布了的负责任扩展策略/负责任能扩展的机构。有家公司明显落后,尤其是Meta和亚逊。Meta主要在“包括保护模权重在内的安全控制”和“防和监测模型滥”部分失分。这显然涉及了开源前沿基础模型的争论。最佳实践AnthropicDeepMindMicrosoftOpenAIAm
156、azonMeta达成率82%75%75%74%58%48%评级BCCCEF125GOV.UK,“Emerging processes for frontier AI safety”,2023-10-27,https:/www.gov.uk/government/publications/emerging-processes-for-frontier-ai-safety124Anthropic,“Frontier Threats Red Teaming for AI Safety”,2023-07-26,https:/ Report”,2023-03-15,https:/ 开源vs闭源,是错误的
157、分法整体情况126分类详细评分127127安远AI,“前沿智能安全的最佳实践向中国机构的研发实践案例与政策制定指南”,2024-01-17,https:/ higeartaigh et al.,“Do Companies AI Safety Policies Meet Government Best Practice?”,2023-10-31,http:/lcfi.ac.uk/news-and-events/news/?/oct/?/ai-safety-policies/.39基础模型的负责任开源3.4.2 透明度评测:倾向于开放模型的机构表现较优来斯坦福学、省理学院和普林斯顿学的多学科团队为
158、评估透明度,设计了个名为基础模型透明度指数(Foundation Model Transparency Index)的评分系统128,评估了透明度的100个不同,从公司如何建基础模型、如何运作,以及如何在下游使。团队使指数对10家主要公司进评分时。总体发现:令担忧的是,即使最分的模型也只得了54分/满分100分。这表明没有家主要的基础模型开发者能够提供够的透明度,揭了AI业在透明度的根本不。主要领域层的分析揭了哪些类型的透明度导致上述评分,例如数据、劳动和算所需的资源最不透明,对数据保护及其模型的基本功能更加透明。开放基础模型开发者在透明度指数上的得分平均出封闭开发者20%,在供应链各部分的透
159、明度优于封闭模型开发者。这种透明度对于避免重现过去不透明的数字技术造成的危害可能很重要,但前下游对经济和社会的影响缺乏透明度仍然令担忧。主要的开放基础模型在满法律草案关于披露训练数据和算使信息的要求普遍优于封闭模型,封闭模型在部署相关要求表现更好。对10家基础模型提供商的评分按照13个领域进细分,每个领域包含三个或更多的指标128128Stanford CRFM,“Foundation Model Transparency Index”,2023-10-04,https:/crfm.stanford.edu/fmti/.403 开源vs闭源,是错误的分法开放模型领先,并占据排榜的1、2、4位(
160、分别是Meta的Llama 2、Hugging Face的BLOOMZ和Stability AI的Stable Diffusion 2),封闭模型中领先的是OpenA 的GPT-?之后128开放和封闭模型的差异是由上游指标缺乏透明度造成的,例如模型开发的数据、劳动和算信息12841基础模型的负责任开源但需要说明的是,虽然透明性有助于信任建和险管理,并且在许多业中透明性也是法律合规的部分,但透明性和安全性之间的关系并简单的正相关。在实际操作中,许多业都临着如何在保护关键商业信息和满公众透明度需求之间做出平衡的挑战。例如汽商产过程透明度可以不,但需要通过安全性测试。3.4.3 合规性评测:倾向于开
161、放vs封闭模型的机构各有所欧盟AI法案从被提出开始即引起全球泛关注,也会影响多数AI模型在欧洲的发展前景。2023年6,在斯坦福学曾发布份针对模型提供商是否满AI法案草案合规性的研究129,研究团队从监管草案选取出22项要求,以是否有意义地使公众信息作为标准最终选择出12项评估要求。在此基础上,研究员将这12项要求进维度划分为数据来源、数据处理、模型本和实践应四个层次。模型提供商是否遵守欧盟AI法案草案?129总体发现:各AI模型的得分与满分仍有很差距。主要的问题集中在:版权责任不明确;能源使报告不均衡;险缓解披露不充分;缺乏评估标准或审计态系统等等。开放发布通常由强调透明度的组织进,这导致他
162、们在资源披露要求(例如数据和算)通常获得较分数,如EleutherAI在这些类别中获得19/20分。然,这种开放发布使监测或控制部署变得具有挑战性。129Stanford CRFM,“Do Foundation Model Providers Comply with the Draft EU AI Act?”,2023-06-16,https:/crfm.stanford.edu/?/?/?/eu-ai-act.html.423 开源vs闭源,是错误的分法封闭发布通常与为提供商的旗舰产品和服务提供持的模型相吻合,这使得他们在部署相关要求得分更好。例如,Google的PaLM 2在部署获得11/
163、12分。API或开发员介导的访问为结构化访问提供了更简单的法。3.5 负责任开源之:促进开放发布从构建到使的全流程负责任实践确保基础模型开源的安全性对于保护敏感数据、防御对抗攻击和加强应的鲁棒性关重要。针对基础模型开源的独特挑战量定制安全措施,可提模型的可信度并防范潜在险。我们建议根据基础模型的命周期和流程阶段,设计构建和使阶段的负责任开源维度,并针对不同能级别的模型制定差异化的负责任开源要求130。例如对于多数的AI模型,负责任的实践主要通过提透明度、确保合规以及促进创新来实现。对于能更强的前沿模型,需要实施与模型的潜在险相称的评估和安全缓解措施。我们还将以审慎开放的代表Google Dee
164、pMind对Gemma的开源和励开放的代表Meta对Llama的开源为例,对展他们的负责任开源实践。3.5.1 上游:基础模型的构建(程序负责任)模型开发员培训:开发团队接受过AI伦理和安全的培训险评估:开发过程中对社会的潜在影响和险进了全评估缓解措施:开发过程中针对险设计了相应的缓解措施伦理审查:有明确的伦理审查流程和决策记录定期评估:定期评估和调整开发政策和实践,以符合技术发展和现实影响数据和模型合规数据合规:训练数据的获取和使合法合规数据质量:训练数据具有够的质量、多样性和代表性,以避免偏和歧视数据管理:有明确的数据管理和保护政策知识产权:尊重他的知识产权,如版权、专利等开源许可证:遵守
165、开源许可证的要求和限制标准规范:积极与监管机构和政策制定者沟通,推动负责任AI标准和规范模型评测安全性评测:评估了模型在安全性的表现公平性评测:评估了模型在公平性的表现隐私性评测:评估了模型在隐私性的表现多学科红队:建了多学科专家红队,并进了泛的内部测试和外部审计环境影响评测:评估了模型在能耗和环境的表现和影响评测结果公开:测试和评估结果透明公开,接受社区监督上游:基础模型的构建相关指标(本报告制)130感谢中国社科院AI安全治理实验室对本节关于负责任开源的内涵以及差异化要求的讨论。43基础模型的负责任开源1)Gemma2024年2,Google DeepMind发布轻量级开源模型Gemma,
166、称其性能在同等规模中最为先进,在模型的开发阶段采取的负责任举措包括131:根据公司AI原则进内部审查。只有在确定收益显著且误险较低或可以减轻的情况下才发布模型。该公司对开放模型采取同样的法,权衡更泛地访问特定模型的收益与滥险,并考虑如何减轻这些险。与Gemma模型的发布同时,GoogleDeepMind考虑了增加AI研究和创新的需求,以及持这些例所需的访问权限。设定更的评测标准。需要保护下游开发者和免受开放模型的意外为的影响,包括产有毒语或延续歧视性社会危害、模型幻觉和泄露个份信息。Gemma模型经过了全的评估,并设定了封闭模型更的标准。评估覆盖了泛的领域,包括安全、公平、隐私、社会险,以及C
167、BRN险、络安全和主复制等能。开源条件:Google DeepMind认为在现有态系统中,Gemma模型对整体AI险组合的影响可忽略不计。考虑到模型在研究、审计和下游产品开发的实性,公司认为Gemma模型对AI社区的益处超过了潜在险。2)Llama2024年4,Meta迄今为能最强的开源模型Llama 3发布。与此同时,Meta也公布了其在模型的开发阶段采取的负责任举措,包括132:应对训练中的险。例如扩展Llama 3的训练数据集,增加数据多样性;使Llama 2构建本质量分类器,为Llama 3提供持;利合成数据来训练编码、推理、和上下;遵循Meta的标准隐私审查流程,并删除了量个信息相关
168、的数据。安全评估与调优。通过动和动评估并采取额外措施,了解和限制模型在武器、络攻击和童剥削等系列险领域进不必要的响应。例如,与外部和内部专家进了泛的红队练习,通过Cyber SecEval衡量模型帮助实施络攻击的可能性,利RLHF让类对模型的响应提供偏好反馈等。减少良性拒绝。改进微调法,并使质量数据来显这些语细微差别的模型响应例,以降低Llama 3意中拒绝回答害提的可能性,这使Llama 3成为Meta迄今为最有帮助的模型。开源条件:安全性其他开源模型更好,接近闭源模型133。133Stanford HAI,“How to Promote Responsible Open Foundatio
169、n Models”,2023-10-3,https:/hai.stanford.edu/news/how-promote-responsible-open-foundation-models.132Meta,“Our responsible approach to Meta AI and Meta Llama 3”,2024-04-28,https:/ Bertucio,“Building Open Models Responsibly in the Gemini Era”,2024-02-21,https:/ 开源vs闭源,是错误的分法3.5.2 模型:基础模型的功能或属性(结果负责任)模型
170、功能或属性安全性:模型在安全性达到定的标准134,并且嵌的安全功能不易被移除或绕过可解释性:模型在可解释性达到定的标准隐私保护:模型在隐私保护达到定的标准公平性:模型在公平性达到定的标准模型:基础模型的功能或属性相关指标(本报告制)1)Gemma正如Google DeepMind的技术报告中所述,Gemma模型在体并评估中表现出最先进的安全性能,但也承认此发布是不可逆转的,并且开放模型造成的危害尚未明确定义,因此将继续采取与模型潜在险相称的评估和安全缓解措施。例如,需要进步研究事实性、对、复杂推理和对抗攻击的鲁棒性等,也需要更具挑战性和稳健的基准。Gemma技术报告中的安全性评测:Gemma
171、1.1 IT模型的安全学术基准结果与类似规模开放模型较1352)LlamaMeta在红队投较,并使监督微调和RLHF等技术,使Llama 2在安全性与当时领先的封闭模型不相上下。虽然各个类别的模型表现相似,但Llama?-Chat在不合格建135Google,“Gemma:Open Models Based on Gemini Research and Technology”,2024-02-21,https:/ 3的技术论和安全性评测暂未发布,安全性和社会影响还有待进步观察。Llama 2技术论中的安全性评测:每个险类别的违规百分136由于提集的局限性、审查指南的主观性、内容标准和个评分者,
172、应仔细解释这些结果3.5.3 下游:基础模型的使(程序负责任)模型分发和使常规性使指南:提供了清晰的使指南和实践建议险披露:披露了模型的预期途、使局限和潜在险负责任使指南:提供了负责任使的建议、教程或培训可访问性:开源资料易于访问、理解和复现,并持社区参与和贡献模型更新:有关于开发员版本控制协议、更改志和弃政策模型监测和监督开源条件:设定了开源条件,如哪些级别的模型经过哪些步骤后允许开源漏洞报告:建了漏洞报告机制内容溯源:公开了于检测此模型成的内容的任何机制影响评估:定期评估模型的社会影响,并根据反馈不断改进模型期监督:有期的社会影响评估和险管理计划社区参与和治理社区参与机制:建明确的社区为准
173、则,促进负责任、包容的交流和协作利益相关者参与:泛征求了不同利益相关者的意开发者责任义务:明确了开发者的责任义务,提供违规问责的渠道开发者限制政策:披露了谁可以和不能使该模型的描述136Hugo Touvron et al.,“Llama 2:Open Foundation and Fine-Tuned Chat Models”,2023-07-18,https:/arxiv.org/abs/?.?.463 开源vs闭源,是错误的分法不当使追责:有机制追究滥模型的责任例限制政策:披露了模型的允许、限制和禁的途可持续发展:建有效的治理机制和发展路线图态和创新影响促进开源态:代码贡献者数量、代码f
174、ork数量、社区活跃度、可扩展性等促进科学研究:基于此开源模型的论数量、引次数、研究项数量等促进产业创新:基于此开源模型的产品/服务数量和规模、经济效益等促进公平和包容:模型对于弱势群体赋能、缩数字鸿沟等的贡献其他负责任创新:模型在伦理和社会福祉的创新贡献下游:基础模型的使相关指标(本报告制)1)GemmaGoogle DeepMind对于Gemma模型使阶段采取的负责任举措包括:模型卡:尽管在改进模型做了量投,但Google DeepMind认识到其局限性。为确保对下游开发者的透明度,他们发布了详细的模型卡,以便研究员更全地了解Gemma模型。负责任的成式AI具包。发布Gemma模型的同时,
175、还为开发员发布了负责任的成式AI具包137,提供指导和具来帮助他们创建更安全的AI应程序。许可证/使条款。Gemma模型的使条款允许个开发者、研究员和商业免费访问和重新分发,同时允许他们由创建和发布模型变体。这些开发员在使模型时需承诺避免将其于有害的138,这体现了公司对负责任AI开发的承诺和对技术使的增加考量。尽管存在使条款的约束,但Google DeepMind认识到直接提供模型权重通过API式带法完全阻不良为者出于恶意的微调Gemma。还需建更强的策略以防故意滥。未来的发布式探索。随着能的进步,Google DeepMind可能会探索扩展测试、交错发布或替代访问机制,以确保负责任的AI开
176、发。2)LlamaMeta在发布Llama 2模型的同时发布了负责任使指南139,为开发员提供了以负责任的式构建由语模型持的产品的最佳实践和注意事项,涵盖从构思到部署的各个开发阶段。Llama 3发布时,Meta在负责任使指南的基础上,为开发员提供了安全可信139Meta,“Responsible Use Guide:your resource for building responsibly”,2024-04,https:/ Prohibited Use Policy”,2024-02-21,https:/ai.google.dev/gemma/prohibited_use_policy.1
177、37Google,“Responsible Generative AI Toolkit”,2024-02-21,http:/ai.google.dev/responsible.47基础模型的负责任开源的开源具140,帮助开发者更轻松地定义Llama 3及其驱动的AI应体验。具体包括:提升模型透明度。与Llama 2样,Llama 3发布了张模型卡,包含有关模型架构、参数和预训练评估的详细信息,和有关模型的功能和限制的信息。正在发布更新后的Llama Guard 2组件,这是种最先进的安全防护模型,开发者可以将其作为额外层来减少模型成与既定指导针不致的输出的可能性。更新了CyberSecEval
178、,该具旨在帮助开发者评估由型语模型成的代码可能带来的任何络安全险。推出了Code Shield,开发者可以使它来减少成潜在不安全代码的机会。分享了Llama Recipes,其中包含开源代码,使开发员可以更轻松地使Llama进构建,完成诸如组织和准备数据集、微调以教导模型执特定例、设置安全措施等任务通过RAG系统识别和处理模型成的潜在有害或不当内容,并部署模型并评估其性能以查看其是否按预期作。通过像GitHub这样的开源存储库以及Meta期运的漏洞赏计划,直接从开源开发者和研究员那接收反馈,帮助Meta更新他们的功能和模型。在与全球合作伙伴合作,创建有利于整个开源社区的业标准。Segment
179、AnythingLlamaLlama 2Llama 3数据集已发布+数据卡(脸&证件去标识)商可互联数据+委托数据暂未发布代码已发布(Apache许可证)向研究员发布已发布已发布模型已发布(Apache许可证)向研究员发布已发布已发布模型卡-已发布已发布已发布负责任使指南-已发布已发布已发布研究论已发布已发布已发布暂未发布演可公开访问未发布由合作伙伴发布可公开访问Meta AI项的发布策略对:安全/隐私与透明度之间的权衡141,142142Meta,“Introducing Meta Llama 3:The most capable openly available LLM to date”,
180、2024-04-18,https:/ Pineau,“A culture of open science,in the era of large AI foundation models,2023-06-18”,https:/ Meta Llama 3:The most capable openly available LLM to date”,2024-04-18,https:/ 开源vs闭源,是错误的分法3.6 负责任开源之:在封闭发布中探索实现开源等效收益的替代案开发者应考虑开源的替代案,在可以获得技术和社会效益的同时,没有太的险。Yoshua Bengio认为完全共享的替代案143包括
181、:1)为受信任的研究员提供结构化访问,以帮助识别安全或道德缺陷;2)独第三的审核;3)前沿AI实验室的主治理:AI的量掌握在社会中,不是少数公司中;4)财富再分配+Al向善。GovAI则在开源性能基础模型144报告中更系统地分析了开源的三收益:1)促进外部评测,2)加速有益的进步,3)分散对技术开发和利益的控制,并进步探讨了在封闭模型中可能有助于实现相同标的替代案。3.6.1 开源作为实现外部模型评估的机制持开源AI的论点透明多元促进安全:开源可以使更泛的开发者社区对项进独的模型评估。利更泛的AI社区可以帮助发现错误、偏和否则可能被忽略的安全问题,最终导致性能更好、更安全的AI产品收益评估适合
182、评估复杂的安全问题:开源模型允许泛的研究者和开发者接触并审核代码和算法,这样的集体智慧能更有效地识别和解决复杂的安全挑战识别离散错误的作较:离散错误通常是指那些明确、具体的错误,如某个具体功能的代码错误或是单个数据处理的问题。这类错误通常更依赖于详细的代码审查和专注的测试,不是开源的泛参与替代案受限下载或研究API:这些式可以控制谁可以访问模型,从在不完全公开源代码的情况下,向受信任的第三提供访问权增量分阶段发布:通过分阶段逐步公开模型,可以逐步观察和调整社会影响和安全问题,有助于在不完全暴露模型的情况下,逐步解决潜在问题红队测试:建由独选出的专业员组成的红队,这个团队可以在模型发布前对其进压
183、测试,确保其稳定性和安全性安全赏计划:通过激励公众参与发现和报告新的为和安全问题,可以增加社会各界对于AI安全性的监督和参与开源作为实现外部模型评估的机制(基于开源性能基础模型报告修改)1)增量分阶段发布模型开发员可以进分阶段发布影响测试,以收集有关模型在开源情况下可能如何被使144Elizabeth Seger,“Open-Sourcing Highly Capable Foundation Models”,2023-09-29,https:/www.governance.ai/research-paper/open-sourcing-highly-capable-foundation-mo
184、dels.143Yoshua Bengio,“以主治理管理智能险”,2023-12-09,https:/ Evals)与Anthropic和OpenAI建了公开的合作伙伴关系,并在GPT-?150和Claude151公开发布前合作进了测试,以便对具有危险能的模型提供早期预警,例如GPT-?成功欺骗众包。151MTER,“Update on ARCs recent eval efforts”,2023-03-17,https:/metr.org/blog/?-?-?-update-on-recent-evals/.150OpenAI,“GPT-?System Card”,2023-03-23,h
185、ttps:/ Mkander et al.,“Auditing large language models:a three-layered approach”,2023-06-27,https:/arxiv.org/abs/?.?.148Miles Brundage et al.,“Toward Trustworthy AI Development:Mechanisms for Supporting Verifiable Claims”,2020-04-15,https:/arxiv.org/abs/?.?.147OpenAI,“GPT-?:?.?B release”,2019-11-05,h
186、ttps:/ Shevlane,“The Artefacts of Intelligence:Governing scientists contribution to AI proliferation”,2022-04-22,https:/cdn.governance.ai/Shevlane,_Artefacts_of_Intelligence.pdf.145Irene Solaiman et al.,“Release Strategies and the Social Impacts of Language Models”,2019-08-24,https:/arxiv.org/abs/?.
187、?.503 开源vs闭源,是错误的分法尽管最佳实践仍在开发中,但诸如OpenAI和Anthropic所雇的红队越来越普遍。例如,例如,OpenAI在DALLE 2和GPT-?等模型上的红队测试就涉及到了与外部专家的合作,并宣布公开招募OpenAI红队络152,邀请有兴趣提OpenAI模型安全性的各领域专家合作,严格评测和红队测试其模型。Anthropic则了超过150时与顶级物安全专家起对其模型进了前沿威胁红队测试153,以评估模型输出有害物信息的能,如设计和获取物武器,并分享了相关发现、教训以及未来计划。展望未来,随着众多政府和研发机构开展外部审计和红队,需要为红队制定共享的规范、实践和技术
188、标准,以确保第三审计的质量和致性154。3)漏洞赏和安全赏安全赏计划,是帮助识别和揭型基础模型中的新安全和对问题的种利更泛的全球社区的法。赏“猎”不像选定的红队那样经过预先审查。与络安全中常的错误赏计划类似,安全赏计划将为发现并负责任地报告新的安全故障的公众提供经济和声誉奖励,例如新颖的越狱法,或超出内部测试所发现的新能。与红队样,赏“猎”可以通过与API背后的系统进交互。然,前尚不清楚这在多程度上阻碍了外部测试员发现和探测安全问题的能。但鉴于传统软件漏洞和AI模型漏洞之间的差异,漏洞赏模型法直接应于模型漏洞。与传统的软件漏洞相,模型漏洞旦被发现,如何修复可能不明确,这可能导致公开披露漏洞不太
189、合适。其次,与传统的软件漏洞相,提前指定什么构成模型漏洞可能特别困难。OpenAI为ChatGPT进的早期安全赏试验以有限的宣传和总共1万美元的API奖励155,获得了超过1500份提交。尽管OpenAI指出,除了内部红队已经注意到的安全问题之外,提交的内容似乎没有产什么新发现,但这次演习让OpenAI加深了对最常攻击路线的了解,并为未来公众参与提供了经验教训156。此外,微软也启动了AI漏洞赏计划,励外部研究员参与,将Al驱动的必应体验作为第个范围内的产品,奖达1.5万美元。微软还在与前沿模型论坛合作,制定与发现前沿模型中的漏洞或危险能相关的“负责任的披露”流程指南。156Patrick L
190、evermore,“AI Safety Bounties”,2023-08-10,https:/rethinkpriorities.org/publications/ai-safety-bounties.155OpenAI,“ChatGPT Feedback Contest:Official Rules”,2022-11-30,https:/ Ganguli,“Red Teaming Language Models to Reduce Harms:Methods,Scaling Behaviors,and LessonsLearned”,2022-11-22,https:/arxiv.org/
191、abs/?.?.153Anthropic,“Frontier Threats Red Teaming for AI Safety”,2023-07-26,https:/ Red Teaming Network”,2023-09-19,https:/ 开源作为加速AI进步的机制持开源AI的论点增强协作与多样性:开源能够让更多参与到AI开发中来,实现规模的协作。这种式带来了更多的专业知识和多样的视,以及更多的和创造的投推动创新与安全研究:多元化的参与可以推动新的和有的集成创新,同时促进AI安全研究,并推进AI技术的边界收益评估技术整合的进步:开源最有助于技术整合进步。模型访问使更多得以调整、创新和
192、优化以集成到新的下游应程序中。但也因“算法箱”,协同开发存在困难技术能的进步:尽管开源对技术能的提升有正影响,但实际效益受到才、算和数据资源等因素限制,这些资源是有助于前沿AI能研究安全研究的进步:学术安全研究往往因法获得能模型受到限制,开源的收益可能由于缺乏够的计算基础设施受到影响替代案技术整合的进步:通过使插件来探索新的应程序,以及提供受限的访问权限,并实施严格的客认证(KYC)流程技术能和安全研究的进步:向特定AI研究组提供特权模型访问权限,可能是通过结构化的研究API实现的;建与可信任伙伴的合作关系,并提供受限访问权限;建多利益相关者治理机构以确保访问权限公正,并持独的学术研究建激励机
193、制:通过设奖计划来激励使AI实现重要的科学发现或社会进步,如蛋质折叠、健康和公平应,以及AI安全的突破,如可解释性;承诺将定例的利润或研究时间投AI安全项开源作为加速AI进步的机制(基于开源性能基础模型报告修改)1)向特定的AI研究组提供特殊的模型访问权限,可能通过结构化的研究API前沿AI模型的最新发布版本多封闭,这为如何为外部各提供够的模型访问权限以开展重要的安全研究提出挑战。个潜在解决案是使基于API的“结构化访问”法,为外部研究员提供开展研究作所需的最低访问级别。津学和GovAI的研究员探讨了开展不同形式安全研究需要何种系统访问权限的,根据献研究和研究员访谈,他们发现模型访问权限不经常
194、限制了研究议程的选择或实验结论的得出,但所需的访问权限因具体研究领域有很差异。例如,评测和基准研究通常通过API从模型中采样就够了;对研究则通常要求能够通过微调来修改模型。虽然微调也可以通过API来进,但当前的接通常法提供有关底层模型的够信息,使他们法从研究中得523 开源vs闭源,是错误的分法出有意义的结论;可解释性研究进步要求研究员可以直接修改模型内部结构,例如学习参数和激活模式,需要完整或接近完整的模型访问权限。模型访问形式的分解:对于四个研究领域有价值且当前可项的必要访问权限157基于研究结果,他们对研究API的设计提出建议,以便于外部研究员对封闭前沿模型进研究和评测。除了当前API中
195、允许从模型中进泛采样的功能之外,建议实施以下四个功能作为此类服务应提供的核功能:提模型信息的透明度,例如:清楚地告知正在与哪个模型进交互、有关模型和微调过程的信息,以及有关预训练中使的数据集的信息。能够查看输出的logits,以及选择和修改不同的采样算法。版本稳定性和向后兼容性,以便在更新发布之后也能够对给定模型进持续研究。微调给定模型的能,少通过监督微调,同时提微调过程的算法细节的透明度。访问模型系列:沿给定维度系统地不同的相关模型的集合,例如参数数量,或者它们是否以及如何进微调。2)建多利益相关者治理机构即使已愿意向外部合作提供特殊的模型访问权限,具体决定向哪些参与者提供相应权限以进外部评
196、估和研究或进合作,也是个挑战。当AI研究机构被量的研究访问请求淹没时,可能会出现对个别团体或内部团体的偏向。AI研究机构还可能会优先考虑那些他们认为会持其市场利益的外部合作者。157Benjamin Bucknall,Robert Trager,“Structured access for third-party research on frontier AI models:Investigating researchers model access requirements”,2023-10-27,https:/www.oxfordmartin.ox.ac.uk/publications/s
197、tructured-access-for-third-party-research-on-frontier-ai-models-investigating-researchers-model-access-requirements/.53基础模型的负责任开源个可能的解决案可能是建个多利益相关者治理机构或系统,以调解研究者对前沿模型的访问。例如,英国158和美国159等国家新成的AI安全研究所正扮演类似的。3.6.3 开源作为分配AI控制权的机制持开源AI的论点影响分散和多样性增加:开源AI的个核优势在于能够通过赋能更的团体和独开发者,来分散AI技术的影响,从避免技术和市场的单化。同时,开源模型
198、的可定制性允许根据需求进调整,有助于避免在不同应中出现单化的险收益评估控制权的分配:开源有助于将技术进步中的控制权分配给开源社区,从增强社区的参与感和对AI发展的共同责任市场和化的多元化:开源AI有助于减少下游市场的集中度,更泛的模型访问渠道降低了开发不同类型基础模型的进壁垒。这不仅促进了市场内的竞争,也有助于化的多元化,减少了由单模型引起的系统性险上游资源集中问题:尽管开源促进了某种程度的平等和控制权分散,但实际上,对前沿AI系统的控制往往仍然集中在需要量算、数据和才资源的型实验室中,开源本可能难以彻底打破上游市场的集中度开发者的影响:开源虽然促进了技术的共享,但型模型的开发者可能仍能通过技
199、术集成,加强对AI态系统的影响。开源社区成员也可能变成开发者具和模型的熟练,从增强原开发者的市场地位。替代案多元包容磋商过程:提议通过参与式或代表性的磋商过程来指导有关AI的影响决策,确保决策过程公开透明并泛代表不同利益群体制度化主结构:在型实验室内部实施主治理结构,如选董事会或强制性磋商程序,以减少单决策者的权适当的监管预:需要适当的监管措施来预开发者的为,以防监管机构被特定利益群体操控励市场参与:持市场多样性的政策来解决上游市场集中的问题。例如推使多种基础模型的策略和持型实验室及初创企业的政策,可能有助于进步降低市场和技术的集中度开源作为分配AI控制权的机制(基于开源性能基础模型报告修改)
200、159NIST,“U.S.Artificial Intelligence Safety Institute”,2024-02-07,https:/www.nist.gov/artificial-intelligence/artificial-intelligence-safety-institute.158UK Government,“AI Safety Institute”,2024-04-02,https:/www.gov.uk/government/organisations/ai-safety-institute.543 开源vs闭源,是错误的分法1)公众参与与审议AI研发机构和政策制
201、定者可以建参与性和协商性的程序来指导有关AI复杂问题的决策。例如,Pol.is等参与式平台可于以低成本征求公众意并将其综合到有关AI的复杂规范决策中160。或者可以召集分层抽样选出的受影响群的代表性审议来探索AI治理问题161。型科技公司已开展了相关的探索。例如,Meta已开展了系列国家和跨国试点项162,以应对“复杂的规范挑战”,并已扩到近乎全球的审议过程163。Anthropic和集体智能项提出了种“集体宪法AI”(Collective Constitutional AI)164的概念,开展了项涉及约1000名美国的公众意征询流程,即通过泛的公众参与和反馈,来共同制定和维护套规则和原则,以
202、探索主进程如何影响AI的发展。OpenAI也启动了项“AI的主投”的资助计划165,以尝试建主流程来决定AI系统应在法律范围内遵循哪些规则。2)组织结构除了直接征求公众意来为关键决策提供信息之外,AI研发机构可以引更具主性质的组织结构。这些结构将有助于保持内部实践的透明度,并使控制权从单的决策者中分散开来,更好地反映利益相关者的利益。例如,AI研发机构可以作为公益企业(Public Benefit Corporations)注册。作为PBC的注册并不需要公众参与,但它确实为公司做出关于机构结构的决定提供了更清晰的法律场。传统的公司是为了股东利益最化存在的,公益企业在法律章程中规定了必须将公共利
203、益和其他利益相关(员、供应商、社区和环境等)放在和股东利益同等重要的位置,从机制上避免上传统企业先不惜代价赚钱然后再做慈善的路。两家领先的AI研发机构Anthropic和Inflection均为公益企业。此外,科技伦理(审查)委员会机制有助于确保AI研发机构在技术道德和合规性的为符合社会及法规要求。这委员会可以从伦理、法律和社会影响等多对AI技术的研发和部署进评审,从确保技术的应不仅追求经济效益,且符合伦理规范和社会期待。另外,也需要董事会或监督委员会对AI研发机构实施有效的治理。OpenAI的“董事会之争”折射出AI企业由单董事会控制营利公益组织与营利性公司时,治理标可能存在着165Open
204、AI,“Democratic inputs to AI”,2023-05-25,https:/ Constitutional AI:Aligning a Language Model with Public Input”,2023-10-17,https:/ Harris,“Improving Peoples Experiences Through Community Forums”,2022-11-16,https:/ Ran a Giant Experiment in Governance.Now Its Turning to AI”,2023-07-18,https:/ Collecti
205、ve Intelligence Project,“Alignment Assemblies”,2024-04-23(引期),https:/cip.org/alignmentassemblies.160Polis,“Input Crowd,Output Meaning”,2024-04-23(引期),https:/pol.is/home.55基础模型的负责任开源天然的盾166。在AI和灾难性险167中,Yoshua Bengio还讨论了创建“多边研究实验室络”的想法,该络专注于开发安全、防御性AI技术。该络将由独的营利实验室组成,主要由政府资助,但其运作不受政府直接控制,以防权集中,并确保这些实
206、验室专注于类福利和主稳定。3)多元互动的政府监管最后,AI研发机构可以励政府监管,限制其为和独决策的能,因为这种监管可能产重的社会影响。例如,政府可能需要授权型基础模型的发布,并成多利益相关者委员会来协调研究对前沿模型的访问。监管预措施的制定应针对开发者、开源社区、学术界和间社会参与的审议过程,以反映不同利益相关者的利益,并防AI业的监管捕获。通过这种式,适当的政府监管可以帮助系统地减少领先的私营研发机构对AI的单控制。4)数据本地化和化适应世界各地都需要适应当地市场和化的模型,东南亚、中亚、中东等地都出现开源模型对当地化的模型项。要确保基础模型在全球多样化环境中有效并适应当地化,可以通过在模
207、型开发的关键阶段实施数据本地化和化适应措施来实现。在预训练阶段,模型是通过量的数据来学习语和世界知识的。此阶段是确保数据多样性和泛性关重要的时刻。通过集中收集本地语和化数据,包括本、语和图像,可以帮助模型更好地理解和反映特定区域的化特性。此外,确保数据标注团队具备相应的化背景,可以提数据标注的准确性和化相关性。当模型转向特定任务时,微调阶段的标是优化模型以提其在特定领域的表现。在这阶段,构建专的数据集来反映当地的具体途和化环境尤为重要。例如,利本地新闻、社交媒体和专业档等内容,可以帮助模型更精准地服务于当地。同时,与本地化顾问合作,调整和优化模型输出,确保其为与地习俗和语境保持致。AI模型发布
208、后,持续学习和更新是确保模型与时俱进并有效应对新兴化趋势的关键。通过动态更新数据集来包括新出现的语和化现象,以及建反馈循环系统让直接参与报告和改进模型,可以极地增强模型的期适性和化敏感度。通过这些综合策略的实施,有助于构建更公平、包容的AI系统,尤其适合于化多样性显著的地区。167Yoshua Bengio,“AI and Catastrophic Risk”,2023-09,https:/www.journalofdemocracy.org/ai-and-catastrophic-risk/.166新华财经,“专家称OpenAI董事会之争根源在于AI企业的治理理念冲突”,2023-11-27
209、,https:/ 开源vs闭源,是错误的分法3.6.4 开源作为争取商业利益优势的机制竞争中暂时落后的企业可能会选择开源以取得些竞争优势。但超过了定的标准/能阈值的模型,需要兼顾商业竞争、创新和安全。持开源AI的论点品牌建与技术信誉:开源策略可以迅速提升品牌知名度和技术可信度。通过公开源代码,企业不仅展了其技术的透明度,还能够吸引更泛的开发者社区参与,这在技术领域尤其重要市场认可与技术创新:开源还有助于快速迭代产品和推动技术创新,因为它允许企业利来全球的智慧和资源。此外,早期的市场认可可以通过社区的正反馈和改进建议来加速获得业标准与市场地位:开源可以使企业通过社区的持推动业标准的建,尤其是对于
210、后起之秀,这可以帮助它们在业中占据席之地收益评估资源利与成本效益:开源使企业能够利全球开发者的资源,这不仅可以补充在技术和资源上的短缺,还能以较低的成本提升产品的市场竞争和适应性提知名度和关注度:开源项通常更容易获得媒体和业的关注,这对于提企业的知名度及吸引潜在的客和投资者极为重要替代案分阶段发布:对前沿模型进分阶段发布,确保每阶段都具有够的安全保障措施,这可以减少险同时促进技术的稳健发展特定访问权限:向特定的AI研究组提供特权模型访问权限,这可以通过预设的研究API来控制使式,既保护了技术,也利于科研合作建应态:通过建插件和扩展市场,促进态系统的繁荣,增加产品的可扩展性和定义能API试与反馈
211、:开放API试和提供免费试版,不仅可以吸引初期体验产品,还有助于潜在客了解产品的价值,收集反馈以优化产品定制演与沙盒环境:允许潜在客在沙盒环境中由探索和测试产品功能,既保护了核技术不被泄露,促进了客对产品的理解和兴趣,尤其适合复杂或新颖的技术产品开源作为分配AI控制权的机制(本报告制)1)DeepMind提供对AlphaFold 2的受限发布AlphaFold 2是由DeepMind开发的个命性的AI系统,它解决了物学中期存在的个巨挑战蛋质折叠问题。AlphaFold 2的算法可以预测蛋质的三维结构,这功能对于了解物学过程和疾病机制具有重意义。在2020年,该模型在“蛋质结构预测”领域的国际赛
212、CASP中取得了突破性成就,准确率远超过其他法。57基础模型的负责任开源尽管AlphaFold 2的算法细节和数据被DeepMind公开,但DeepMind对其具体的软件实现保持了定的控制。他们没有将整个系统作为个开源软件发布,是选择与科研机构和物医学领域的企业合作,通过特定的合作协议来使AlphaFold 2168。这种策略既保护了DeepMind的商业利益,也确保了技术的负责任使,促进了科学研究的进步。AlphaFold 2的应潜巨,可以帮助科学家更好地理解疾病机理,加速新药的开发,以及在农业和物技术等领域中创造新的解决案。DeepMind 的这步骤被看作是将AI的量于社会利益的个典范。2
213、)AI?Labs通过API试推动Jurassic-?模型的市场化和持续优化Jurassic-?是AI?Labs开发的款语模型,它旨在提供与OpenAI的GPT-?相竞争的性能。Jurassic-?的设计理念是提供更加细腻且多样化的语理解和成能,持泛的应,从动写作助到复杂的对话系统。AI?Labs推出了Jurassic-?的API服务,允许开发者和企业根据量付费,同时提供了限量的免费试。这种策略不仅降低了初期的试槛,还帮助AI?Labs收集了来不同使场景的反馈,这些反馈对于模型的迭代和优化极为重要。通过API,可以轻松集成Jurassic-?到他们的产品和服务中,从测试其性能和适性。通过API提
214、供的服务,AI?Labs能够建个有效的反馈循环。他们利这些反馈来持续优化模型,解决在真实世界应中遇到的具体问题,如偏减少和成控制的提。这样的反馈机制确保了模型在市场上的竞争和适应。3)需要警惕不符合传统开源许可证要求的“开源”在不符合传统开源许可证要求的情况下,使“开源”或“开放”术语也可能带来经济、战略和声誉的收益。以Llama 2模型为例,尽管Llama 2模型被Meta称为开源模型,但其许可证中包含了些限制性条款,例如不允许活跃超过7亿的开发者将其于商业的,且其输出不能于训练其他模型。这种使“开源”术语的策略可能为Meta带来了战略优势,因为它可以在定程度上控制模型的使和分发,同时避免了
215、完全放开可能带来的竞争险。与之类似,前的开源AI由于缺少严格定义,通常存在以下考量:市场营销和品牌推:通过将模型标记为“开源”,即使它们并不符合传统的开源定义,公司可以在市场上获得更多的关注和认可。这种做法可能会吸引开发者和研究者的注意,从增加公司的知名度和声誉。168Google Deepmind,“How our principles helped define AlphaFolds release”,2022-09-14,https:/deepmind.google/discover/blog/how-our-principles-helped-define-alphafolds-rel
216、ease/.583 开源vs闭源,是错误的分法吸引开源社区:即使某些模型的使受到限制,将它们标记为“开源”仍可能吸引开源社区的兴趣,因为他们可以下载和使这些模型进研究和实验。这有助于公司建个围绕其技术的开发者态系统,从为其产品和服务的开发和改进提供持。潜在的商业机会:通过开放模型(即使是在有限的许可证下),公司可能能够识别和开发新的商业机会。例如,它们可以提供额外的付费服务或具,以帮助开发者在其平台上更有效地使这些模型。规避开源许可证的法律险:通过使定义许可证,公司可以避免开源许可证可能带来的法律险,例如GPL许可证下的“传染性”要求,这可能要求任何基于开源代码的衍作品也必须以开源形式发布。“
217、开放清洗”(Openwashing)这术语就是是来形容那些公司为了市场营销的,表上打着开源和开放许可的旗号,实际上却继续实封闭做法的为169。3.7 结在当今AI领域,将AI模型简单地划分为开源或闭源是种过于简化的做法。开源AI的概念尚未得到清晰定义,与开源软件不同,AI模型的“源代码”可能包括多种组件,如推理代码、训练代码、模型权重和训练数据,这些组件的开放程度可以各异。此外,从“完全开放”到“完全封闭”的发布选项实际上是多样的,需要明确的标准和定义来权衡透明性、安全性和商业考量。在安全和治理,研究发现论是开源还是闭源模型,都存在对特定攻击的脆弱性,AI研发机构在安全政策和透明度的表现各异。
218、倾向于开放模型的机构在推动透明度和外部评估表现较好,倾向于封闭模型的机构则在安全政策实施更为优秀。为了推动负责任开源的实践,需要促进开放模型从构建到使的全流程负责任,建议对于不同能级别的AI模型,应有差异化的开源要求。另,需要探索在封闭模型中实现既可以获得开源的益处,没有太的险的替代案,如增量分阶段发布、结构化访问和研究API、独第三审核、数据本地化和化适应等。开源AI的负责任实践并成不变,是会随着技术发展和社会需求的变化不断演进。我们可以预,未来开源与闭源的讨论将更加深和细化,可能会出现更多创新的发布模式和治理机制,以适应不断变化的环境和挑战。在这个过程中,各的合作和对话将关重要,以确保AI
219、技术的健康发展和泛应。169Klint Finley,“How to Spot Openwashing”,2011-02-03,https:/ 对推动基础模型负责任开源的建议不论开源还是闭源,只要有作恶,总会找到途径。现有的各种技术,如果被滥,都可能对类社会造成破坏,物技术就是个例,它同样存在被滥的险。因此,更重要的是如何建套体系,来防范和制任何个或组织滥技术危害社会。薛澜170在报告整体讨论的基础上,结合我国AI的技术、产业、开源社区的发展现状,我们建议:4.1 基础模型研发机构1)根据模型的能和潜在影响,实施分层管理策略,并建相应的险缓解措施对于险较低的模型,励进模型开源并协助开源社区建设
220、。对于险/前沿AI模型,模型开源的决策应进严格的险评估和伦理审查。除了直接滥和危险能外,还应考虑模型微调或修改可引发的滥。允许受信任的外部评测在模型整个命周期进模型评测。加强对开放基础模型的边际险的评估和研究,应采险评估框架来明确阐明公开发布基础模型的边际险。引动态险评估框架,按模型性能和潜在险分级,定期更新评估准则。2)促进开放发布从构建到使的全流程负责任实践根据基础模型的命周期和流程阶段,分别设计构建和使阶段的负责任开源维度,并针对不同能级别的模型制定差异化的负责任开源要求对于多数的AI模型,负责任的实践主要通过提透明度、确保合规以及促进创新来实现。对于能更强的前沿模型,需要实施与模型的潜
221、在险相称的评估和安全缓解措施。开放基础模型的研发机构应明确已实施了哪些负责任AI实践,以及哪些负责任AI实践留给可能修改模型以在向消费者的应程序中使的下游开发者。开放基础模型应清晰的说明其具体开放程度,基于安全/隐私与透明度之间的权衡,适当发布数据集、代码、模型、模型卡、负责任使指南等。170薛澜等,“中国在这波智能浪潮中处于什么位置?”,2024-03-26,https:/ 对推动基础模型负责任开源的建议更多全流程负责任实践和案例,可参考前沿智能安全的最佳实践向中国机构的研发实践案例与政策制定指南171。3)在封闭发布中探索实现开源等效收益的替代案建议设计并实施结构化的研究API。根据研究员
222、、红队和审核机构的访问需求,分别授予其更灵活的微调权限,促进安全研究进步。其他替代案还包括增量分阶段发布、独第三审核、数据本地化和化适应等。4)建设科学系统的安全性评测体系与学术界和产业界伙伴合作,研究和推AI安全性的评测科学(Science of Evals)172,促进开源模型的安全评估法的研究,以填补当前的成熟评测体系的空,提升评测的科学性和可靠性。4.2 AI开源社区1)开发者、标准制定机构和开源社区应多协作,推动制定和推开源AI标准励定义模型组件发布的细粒度标准,标准应基于对发布不同组件特定组合所带来的险的理解,积极参与OSI对开源AI进明确定义的议程173。励制定新的适于开源AI协
223、议(类似于MIT、Apache许可证),对模型的传播、扩散作出规定。2)励分享促进科学研究和安全研究的数据集、基准和组件励分享更多适于各种语和多模态的安全提集和基准。励分享更多能够促进安全研究的组件和资源,例如安全对数据集和奖励模型。3)励社区进模型的安全性和公平性评测,通过集体智慧提模型的整体质量持社区对模型进独的安全评测,以及促进开放的讨论和协作。励与跨领域专家进持续的红队演练活动,例如针对模型安全的全球最规模AI客赛DEF CON 31174。174Hack the Future,“AI Village at DEF CON announces largest-ever public G
224、enerative AI Red Team”,2023-05-03,https:/ Source Initiative,“Join The Discussion on Open Source AI”,2024-04-23(引期),https:/opensource.org/deepdive.172Apollo Research,“We need a Science of Evals”,2024-01-22,https:/www.apolloresearch.ai/blog/we-need-a-science-of-evals.171安远AI,“前沿智能安全的最佳实践向中国机构的研发实践案例与政
225、策制定指南”,2024-01-17,https:/ AI治理、政策和法专家1)建敏捷治理体系,防范技术滥危害社会的同时,励负责任开源创新对于险较低的模型,制定政策励开源和开源社区建设,例如规定专的税收优惠和研发补贴办法、制订专的合规指引、明确责任减免规则175、设专项基和奖项认证等,同时明确开源过程中需要遵循的法律和伦理标准。对于险/前沿AI模型,确严格的险评估和伦理审查程序。政策法规应明确,只有在通过这些审查后,模型才能被考虑于开源或泛部署。引动态险评估框架,按模型性能和潜在险分级,定期更新评估准则。2)对超过定阈值的所有AI模型和系统建注册和许可制度为超过阈值的AI模型和系统进追溯和持续注
226、册,并建险评估、险缓解和独审计程序。标准可能包括但不限于:浮点运算次数、参数量、模型训练费或危险能等176。对达到发布前评测和合规标准的AI模型和系统颁发许可证。3)实施明确的责任制度要求基础模型研发机构进模型开源和部署前的险评估,引导负责任发布,推动业我监督。应明确开放基础模型研发机构与下游开发者和之间的责任划分。基础模型研发机构与下游开发者应对其系统造成的“合理可预的滥”承担法律责任177。强制性事件披露,当开发员获悉其基础模型中的漏洞或故障时,必须依法要求其向指定的政府机构报告。4)由政府牵头成专的AI安全研究机构集合AI、社会学、管理学等多学科专家,共同监督、审查和研究现有的AI系统。
227、机构的主要职责包括:开发和实施AI安全研究,建AI安全评估体系,创新治理技术,包括预测和应对险AI技术的法。177European Parliament,“Artificial Intelligence Act”,2024-04-23(引期),https:/www.europarl.europa.eu/doceo/document/TA-?-?-?_EN.pdf.176David Harris,“How to Regulate Unsecured Open-Source AI:No Exemptions”,2023-12-04,https:/www.techpolicy.press/how-t
228、o-regulate-unsecured-opensource-ai-no-exemptions/.175冯恋阁,“智能范法2.0(专家建议稿)重磅发布 重视AI开源发展、构建知识产权创新规则”,2024-04-16,https:/m.? 对推动基础模型负责任开源的建议持和推进国内负责任的AI开源社区和态系统建设。与国家监管和标准机构合作,分享研究成果,持AI治理和法规制定。加强与国际AI安全研究机构的合作,促进技术交流和知识共享,提升我国在AI安全领域国际影响。4.4 AI投资和资助1)AI开发者和政府资助者:在AI安全和负责任开源研究上投更多的资源多位图灵奖的主和顶尖专家呼吁AI开发者和政
229、府资助者少将他们AI研发预算的三分之投到安全领域178,179,180。励持开放基础模型险进研究的项。2)AI投资和其他资:投资于评估开放性对创新和社会的影响励投资于更系统地衡量不同程度的开放性对基础模型收益的影响,以及AI监管对开放基础模型创新态的潜在影响,为政策制定和资投提供指导。励投资于那些能够平衡技术创新和社会价值的研发项。4.5 负责任开源的国际合作1)通过负责任开源,助发展中国家提升AI技术和治理能,不断弥合智能鸿沟和治理能差距通过国际合作加强基础设施建设和技术研发,创建公共AI基础设施和安全的AI模型,提供平等的技术访问机会,不断弥合智能鸿沟和治理能差距181,182。持质量数据
230、集的收集和本地参与,提升本地模型的性能和跨化价值对183,184。促进AI伦理、安全和治理的国际合作,共享最佳实践,共同应对全球挑战。184鹏城实验室,“鹏城脑海”通智能模型创新之路正式启程”,2023-09-21,https:/ Singapore,“Southeast Asian Languages In One Network Data(SEALD)”,2024-03-11,”https:/aisingapore.org/aiproducts/southeast-asian-languages-in-one-network-data-seald/182中央络安全和信息化办公室,“全球智能治理倡议”,2023-10-18,https:/ Bengio et al.,“北京AI安全国际共识”,2024-03-11,https:/idais- Dialogues on AI Safety”,2024-03-11,https:/idais.ai/.178安远AI,“授权中译版三位图灵奖和中外多位顶尖AI专家的次政策建议共识:呼吁研发预算1/3以上投AI安全,及若亟需落实的治理措施”,2023-10-24,https:/