《05 王皓 探索大模型的数据边界_11.23_脱敏.pdf》由会员分享,可在线阅读,更多相关《05 王皓 探索大模型的数据边界_11.23_脱敏.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、探索大模型的数据边界安全、透明性和合规性演讲人:王皓西安电子科技大学华山学者领军教授国家高层次人才称号高瞻远瞩、审时度势,深入推进信息化发展探索实践,为科学理论的孕育萌发提供源头活水“当今世界,信息化发展很快,不进则退,慢进亦退。”“网络安全和信息化是一体之两翼、驱动之双轮,必须统一谋划、统一部署、统一推进、统一实施。”“共同构建和平、安全、开放、合作的网络空间,建立多边、民主、透明的国际互联网治理体系。”矢志前行、谱写新篇,加快推动网信事业高质量发展,为强国建设、民族复兴作出新的更大贡献时代机遇建设网络强国,时也,势也。大模型应用2023.08Claude2盘古3.0WPS AI子曰2023
2、.072023.052023.032023.042023.062022ChatGPT3.52023.02LLaMABing ChatGPT4Claude文心一言Titan盘古SenseChat通义千问Aurora genAIPaLM2ChatGLM2星火 V1.5学而思 Mathgpt云雀XuanYuan-70B书生 浦语2023.092023.10玉言三则是生态能力:企业不仅可以打造GPTs,更能将其上架在市场内,即GPT Store,可分享给其他用户使用,以及获得分成,类App Store的商业生态由此为出发点。大模型生态初现美东时间11月6日,OpenAI开发者大会正式开启一是技术能力:
3、GPT-4Turbo升级了6大新能力,包括128K的上下文长度、更强的控制能力,模型的知识升级、多模态能力(语音和CV)、模型微调定制和更高速率的限制,性能升级的同时,还对API调用的价格进行了下调;二是可复制的能力:从原来的GPT到GPTs,用户可以打造专属于自己的GPT助手,企业可通过OpenAI提供的全套工具链“all tools”在企业内部建设有价值的工具,同时也可以深入让GPTs进化为一个个Agents,为智能体做准备;生成式人工智能对人民福祉、经济发展、国家安全和战略竞争均具有重要意义。“随着生成式人工智能技术的快速发展,为经济社会发展带来新机遇的同时,也产生了传播虚假信息、侵害个
4、人信息权益、数据安全和偏见歧视等问题。”“国家坚持发展和安全并重、促进创新和依法治理相结合的原则,采取有效措施鼓励生成式人工智能创新发展,对生成式人工智能服务实行包容审慎和分类分级监管。”“促进生成式人工智能健康发展和规范应用。”“坚持发展和安全并重、促进创新和依法治理相结合。”筑牢可信可控的数字安全屏障,切实维护网络安全,完善网络安全法律法规和政策体系数据安全西安电子科技大学是国家最早开展密码学、信息对抗研究的高校之一,学术积淀深厚。学校依托在保密通信领域的研究,于2014年成立了网络与信息安全学院;学院是全国首批设立密码学博士点、首批设立信息安全本科专业、首批获得网络空间安全一级学科博士点
5、的学位授予权的高校。2017年网络安全获批国防科工局国防特色学科,同年9月,学校以总成绩排名第一入选“国家一流网络安全学院建设示范项目”,2021年绩效评估中取得优异成绩。根据2020年、2022年以及最新的2023年公布的软科中国最好学科排名,网络空间安全位列全国第一。西安电子科技大学邪恶GPT(FraudGPT、WormGPT等恶意软件)作为专为攻击性活动设计的AI对话机器人,该软件仅根据简单提示即可创建破解工具、钓鱼邮件,甚至编写恶意攻击软件。并且没有任何限制。它允许你操纵它发挥自己的优势,并让它做任何你想做的事情,降低网络犯罪分子的门槛。此外,该软件精通创建针对特定漏洞或目标的攻击软件
6、,并能够帮助用户搜索互联网中隐藏的其他黑客组织、暗网以及用于交易被盗数据的网络黑市,亦或是为用户提供高质量的诈骗指南以及黑客技术学习资源。邪恶GPT年初ChatGPT、Bard等聊天机器人暴露出的“奶奶漏洞”就证明了这样的事实,只需要通过提示让这些聊天机器人扮演用户已故的祖母,便能欺骗它们在讲睡前故事的过程中透露大量限制信息,甚至是手机IMEI密码或Windows激活秘钥。之外,CMU和人工智能安全中心的研究员还发现了另一种通用方法,只需要附加一系列特定无意义token,就能够生成一个prompt后缀。而一旦在prompt中加入这个后缀,通过对抗攻击方式,任何人都能破解大模型的安全措施,使它们
7、生成无限量的有害内容。大模型脆弱的护栏也成为网络安全的一大噩梦数据泄露最近研究中提出一种全自动提示攻击框架分别基于贪婪坐标梯度(Greedy Coordinate Gradient,GCG)和遗传算法的越狱提示词优化方法。涉及四个主要步骤:攻击生成、目标响应、越狱评分和迭代细化;主要用到两个黑盒模型:攻击模型、目标模型。具体来说,攻击模型需要自动生成语义级别的提示,来攻破目标模型的安全防线,迫使其生成有害内容。核心思路是让两个模型相互对抗、你来我往地交流。越狱攻击中的GCG攻击和AutoDAN框架1:Zou A,Wang Z,Kolter J Z,et al.Universal and tra
8、nsferable adversarial attacks on aligned language modelsJ.arXiv preprint arXiv:2307.15043,2023.2:Liu X,Xu N,Chen M,et al.AutoDAN:Generating Stealthy Jailbreak Prompts on Alignead Large Language ModelsJ.arXiv preprint arXiv:2310.04451,2023.安全与攻防大模型价值对齐为解决以下突出问题:错误信息问题 算法歧视问题 能力“涌现”的失控风险问题 滥用问题红队测试是使用
9、 LLM 负责任地开发系统和功能的一种基本做法。虽然不能替代系统化的度量和缓解工作,但红队成员可帮助发现和识别危害,进而支持度量策略验证缓解措施的有效性。AI价值、安全对齐红 队 测 试安全与攻防对抗样本投毒攻击后门攻击提示注入对抗重编程深度学习框架漏洞鲁棒性可靠性隐私性公平性可解释性异常数据数据编码异常成员推断攻击属性推断攻击模型反演模型窃取数据抽样偏差数据预处理偏见算法偏见强化学习中反馈偏见算法不透明决策复杂缺乏严格数学证明数据清洗数据增强鲁棒训练模型清洗知识蒸馏可靠性评估异常值检测数据清洗差分隐私同态加密安全多方计算模型水印和指纹AI反馈强化学习人类反馈强化学习In-Context Le
10、arningSentenceDebiasSelf-DebiasLIMESHAPATTATTRSaliencyPerturbed Masking风险防御策略大模型安全风险与业务挑战安全服务数据隐私计算业务阶段安全产品Prompt安全审核服务AIGC安全评测服务业务风控服务安全专家服务大模型训练阶段大模型部署阶段大模型业务运行阶段共建保护模型保护网络安全/API业务风控服务Prompt审核模型生产内容过滤业务风险私有化共建模型攻击控制与授权业务运营提问行为提问内容输出安全技术革新另一面,大模型在网络安全领域斩荆披靡经过训练大模型能够定向输出多种安全模型,异常访问检测是其中之一,通过定向训练强化异常
11、访问检测能力海量恶意软件相似性检索模型恶意软件行为深度智能检测与分析模型WebShell检测模型Web攻击检测模型DGA域名检测模型赋能大模型欧洲:人工智能法协议根据风险级别对不同的人工智能工具进行分类,从最低到有限、高和不可接受。使用这些工具的政府机构和企业将根据风险级别承担不同的义务。该法案范围广泛,将管辖所有人工智能产品或服务的提供方,涵盖可以生成内容、预测、建议或影响环境的决策的系统。生成式人工智能监管高风险分类变化将人工智能模型只有在对健康、安全或基本权利构成重大风险的情况下才会被视为高风险。为高风险人工智能模型的提供者处理敏感数据(如性取向或宗教信仰)以检测负面偏见的过程,纳入了额
12、外的保障措施。评估必须发生在受控环境中。敏感数据不能被传输给其他方,并且必须在偏见评估后被删除。提供者还必须记录数据处理发生的原因。欧洲:人工智能法协议重点关注对人类危害最大的应用领域,包括AI系统被用于运营水或能源等关键基础设施,被用于法律体系中,以及确定公共服务和政府福利的获取时。AI系统开发商必须在将该技术投入日常使用之前进行风险评估,类似于药物审批程序。如果企业不遵守人工智能法案,将最多面临全球营收6%的罚款。“基于风险”来监管AI对企业的监管方式美国:人工智能权利法案建立安全和有效的系统避免算法歧视,以公平的方式使用和设计系统保护数据隐私系统的通知和解释要清晰、及时和可访问设计自动系
13、统失败时使用的替代方案、考虑因素和退出机制人工智能权利法案蓝图确定了五项原则,用以指导自动化系统的设计、使用和部署,以保护人工智能时代美国公众的利益。这些原则是通过与美国公众的广泛协商制定的,是建立和部署符合民主价值、保护公民权利、公民自由和隐私的自动化系统的蓝图。美国:“人工智能规则”听证会AI需要新的监管机构透明度虚假信息和民主艺术家权利南卡罗来纳州共和党参议员林赛格雷厄姆将AI技术比作核反应堆,认为它需要获得运行许可证,接受监管机构的监督。阿尔特曼警告说,AI有能力增强现有技术传播虚假信息的威胁。他引用了早些时候人们对Photoshop引入的担忧,表示AI生成图像的方式也会同样扭曲现实。
14、IBM公司首席隐私和信任官克里斯蒂娜蒙哥马利与阿尔特曼一起作证时说,透明度应该是AI监管的核心原则之一,这样用户就知道他们什么时候不是在和人说话。阿尔特曼承诺将与艺术家合作,并强调内容创作者可以从AI工具中受益,同时保持对自己作品的控制。美国:人工智能风险管理框架AI风险管理框架的目标设计开发部署使用帮助管理AI风险,提升AI系统的可信度,促进负责任地开发和使用AI系统。框定风险AI RMF的效果受众AI RMF核心描述了AI系统中风险、影响和危害的含义及相互关系,并给出了在AI系统中理解上述概念和应对的建议;给出了为实现AI可信性而进行风险管理的过程中可能面临的挑战。从AI系统生命周期的角度
15、给出了如何识别各个阶段的参与者及其中的受众。对使用AI RMF开展风险管理后,框架有效性的评估内容进行了简单讨论,包括:策略、流程、实践、测量指标、预期结果等方面的改善。框架核心包括治理、映射、测量和管理。AI风险和可信度给出了可信AI系统的特性以及实现这些特性的指南,包括:有效和可靠性、安全(safe)、安全(secure)和弹性、可追责和透明性、可说明和可解释性、隐私增强性、公平性。AI RMF概要给出了AI RMF应用时的参考概要:包括AI RMF用例概要、AI RMF时间概要、AI RMF跨部门概要等。美国:人工智能风险管理框架美国:承诺为AI生成内容添加水印美国七大AI企业已与拜登政
16、府签署协议,承诺采取自愿监管措施管理AI技术开发风险,包括展开安全测试、为AI生成内容添加数字水印等。这“七巨头”分别是谷歌、亚马逊、脸书母公司Meta、微软、AI企业Anthropic、Inflection和ChatGPT母公司OpenAI。上述企业高层当天在白宫与总统拜登会面,华尔街日报称,在此之前,其中大多数公司已发表声明宣布将与白宫合作,并强调系自愿设置“护栏”。中国:生成式人工智能服务管理暂行办法生成式人工智能产品提供服务前需申报安全评估提供生成式人工智能产品或服务应当遵守法律法规,尊重社会公德,公序良俗提供生成式人工智能服务要求用户提供真实身份信息利用生成式人工智能生成的内容应当真
17、实准确,采取措施防止生成虚假信息不得非法留存能够推断用户身份的输入信息,不得根据用户输入信息和使用情况进行画像,不得向他人提供用户输入信息中国:生成式人工智能服务管理暂行办法禁止非法获取、披露、利用个人信息和隐私应对AI生成图片视频及进行标识应采取适当措施防范用户过分依赖或沉迷生成内容不利用生成内容损害他人形象、名誉以及其他合法权益,不进行商业炒作、不正当营销提供者用户利用生成式人工智能产品过程中违反法律法规,应当暂停或者终止服务中国:生成式人工智能服务管理办法生成式人工智能服务管理办法来对生成式人工智能的监管问题进行了回应,宏观治理基调是“支持人工智能算法、框架等基础技术的自主创新、推广应用
18、、国际合作,鼓励优先采用安全可信的软件、工具、计算和数据资源”与新一代人工智能发展规划是一致的,再从微观治理路径来看,承袭了现有规范关于算法治理的内容,并特别强调了生成内容合规、算法模型合规、运营行为合规的问题。合规要点汇总如下:中国:人工智能白皮书(2022年)维度突出创新维度突出创新维度突出可信围绕着算法和算力方面的创新仍会不断涌现。工程化能力逐渐成为人工智能大规模赋能千行百业的关键要素。发展负责任和可信的人工智能成为共识,将抽象的治理原则落实到人工智能全生命流程将成为重点。学位法草案学位法草案拟规定:利用AI代写学位论文或被撤销学位8月28日,学位法草案提请十四届全国人大常委会审议。草案
19、对学位获得者盗用、冒用他人身份顶替他人取得的入学资格,利用人工智能代写学位论文,以及学位授予单位非法授予学位等行为,规定了相应的法律责任。已经获得学位者在获得学位过程中存在学位论文或者实践成果抄袭、剽窃、伪造、数据造假、人工智能代写等学术不端行为的,经学位评定委员会审议决定,由学位授予单位撤销学位证书。各地方推动大模型发展趋势一、着力支持大模型创新能力 1.实施大模型创新扶持计划 2.建立大模型测试评估中心11月7日 上海市推动人工智能大模型创新发展若干措施二、提升创新要素供给能级 3.实施大模型智能算力加速计划 4.构建智能芯片软硬协同生态 5.语料数据资源共建共享四、营造一流创新环境 8.
20、打造企业、人才集聚的大模型创新高地 9.推进大模型应用生态建设 10.建立常态化服务机制 11.加大投入力度三、推进大模型创新应用 6.实施大模型示范应用推进计划 7.推进科学智能大模型应用中美欧就重大文件达成一致11月1日,首届全球人工智能(AI)安全峰会在英国拉开帷幕,为期两天的会议在布莱切利庄园举行,包括中国、美国、英国和欧盟在内的超25个国家代表,以及马斯克、OpenAI创始人兼CEO阿尔特曼等科技巨头与会。11月1日同日,与会国签署“布莱切利宣言”,同意通过国际合作,建立人工智能(AI)监管方法。监管政策生成式人工智能服务管理暂行办法、互联网信息服务深度合成管理规定、互联网信息服务算
21、法推荐管理规定监管维度监管内容机遇和挑战涉及环节行业组织、企业、教育和科研机构、公共文化机构、有关专业机构等研发应用生成式人工智能技术,未向境内公众提供生成式人工智能服务的,不属于监管环节。办法监管主要在于用户触达环节,鼓励AIGC相关研究,鼓励企业在自研自用范围加强技术攻关,为研究发展与创新留足空间。内容监管真实性基于服务类型待点,采取有效措施,提升生成式人工智能服务的透明度,提高生成内容的准确性和可靠性。相比于征求意见稿中“保证数的真实性、准确性、客观性、多样性”,办法缓和了表述,对前期探索企业的容错率有所放宽,但同时提高了用户辨别的时间和成本。生成标识对可能导致公众混清或者误认的,应当在
22、生成或者编的信息内容的合理位苦、文域讲行显著标识,向公众提示深度合成情况,包含智能对话、智能与作、合成人声、人脸生成等服务。A生成的内容标识可能影响用户对内容的价值判断,从而影响企业引流获客、产品单价等。内容审核提供者发现违法内容的,应当及时采取停止生成、停止传输、消除等处置措施,采取模型优化训练等措施进行整改,并向有关主管部门报告。相比于征求意见稿,取消了“3个月”整改的时间限制,对企业要求更加宽松。但企业仍然需要建立内容审核与问题响应机制,或对内容审核员、内容质检产品有较大需求。公开数据推动生成式人工智能基础设施和公共训练数据资源平台建设。促进算力资源协同共享,提升算力资源利用效能。推动公共数据分类分级有序开放,扩展高质量的公共训练数据资源。国家以立法的形式打造数据和算力协同共享的平台,最大化促进资源利用。有利于为中小型研发企业减负,降低研发成本,境外服务对来源于中华人民共和国境外向境内提供生成式人工智能服务不符合法律、行政法规和本办法规定的,国家网信部门应当通知有关机构采取技术措施和其他必要措施予以处置。调用境外API向中国境内公众提供服务的,也属于监管范畴,企业需注意合规问题。中国AIGC监管带来的机遇和挑战THANKSTHANKSTHANKS