上海品茶海选工作室(上海各区喝茶服务/上海高端茶群）

《AIGC安全实验室&博特智能：2023年AIGC安全研究报告（30页）.pdf》由会员分享，可在线阅读，更多相关《AIGC安全实验室&博特智能：2023年AIGC安全研究报告（30页）.pdf（30页珍藏版）》请在三个皮匠报告上搜索。

1、AIGC安全研究报告目录1.AIGC研究背景1.1AI技术框架安全1.2 AIGC内容安全1.3 数据安全1.4 国内监管政策1.5 国外监管政策2.AIGC技术框架2.1 AIGC2.2 Prompt2.3 ChatGPT2.4 ChatGPT技术架构2.5 ChatGPT内部执行逻辑2.6 TAMER2.7 Transformer2.8 深度学习框架2.9 大模型2.10 上层应用3.AIGC框架安全3.1 AI供应链安全3.2 LangChain安全3.3 提示注入攻击3.4 提示泄露攻击3.5 越狱攻击3.6 数据投毒攻击3.7 模型投毒攻击3.8 拜占庭攻击3.9 定向投毒3.10

2、模型萃取攻击4.AIGC内容安全4.1 内容安全4.2 伦理安全4.3 安全合规5.AIGC数据安全5.1 数据泄露5.2 数据污染5.3 数据合成6.AIGC安全产品7.AIGC安全实验室介绍8.博特智能介绍9.创业黑马介绍10.参考资料www.AIGCLAIGC安全研究报告0101AIGC研究背景自然语言处理（NLP）赋予了AI理解和生成能力，大规模预训练模型是NLP的发展趋势。NLP的两个核心任务分别是自然语言理解（NLU）和自然语言生成（NLG），ChatGPT是NLP发展中具有里程碑式意义的模型之一。ChatGPT是OpenAI从GPT-3.5 系列中的模型进行微调产生的聊天机器人

3、模型，能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。从ChatGPT的突然爆火让人们看到了AI一夜之间从一个0.1岁的小孩突然变成了一个3岁的小孩。可以期待的未来正如人类孩子的成长期一样，会随着时间的推移，超级深度大模型的学习能力会越来越强，越来越智能。AI的深度学习已经突破了成长的瓶颈，从算法，数据到底层算力的支撑本质上来讲所有的技术问题都已经解决。未来将会进入AI领域的快速爆发和成长期，让AI快速的学习从3岁的小孩变成8岁甚至18岁。越智能的技术背后的安全问题越发令人担忧，一

4、旦失控所带来的后果将会是颠覆性，毁灭性的。因此在发展基于深度学习模型的AI技术和应用的同时我们应该提前考虑整个链路中所产生的新安全问题。根据过往的研究经验AI所带来的新安全问题主要包括下面几个方向。1.1AI技术框架安全我们知道目前所有的AIGC所产生的应用都不是单一的创新，而是基于过往的各种深度学习模型，开源框架，算法的优化做的整体组合。整个组装过程中会涉及各种开源框架，中间件，算法等。这些框架中间件本身可能会存在各种各样的安全问题。比如最近关注比较多的关于Langchain框架Prompt Injection安全问题。研究这些框架和算法尽可能的从技术底层规避安全问题是解决AIGC链路上

5、安全的重要方向之一。www.AIGCLAIGC安全研究报告021.2AIGC内容安全AIGC通过大语言模型学习输出各种各样的内容。这些内容的合规性是一个比较大的安全合规问题。主要分为两个研究方向。内容合规问题所谓内容合规问题就是AIGC在生成内容时需要满足属地国的各种监管需求。比如不能输出带有污化政治人物的图片，不能生成带有宗教色彩的内容，不能生成带有色情的图文等等。所有内容的生成和最终的输出必须经过严格的过滤。目前强如ChatGPT-4这样的应用在输出过程中内容安全的过滤也只能做到85%左右。但是安全是一个0和1的游戏，任何AIGC的应用面对属地国的监管政策中一旦出现合规问题，面临

6、的可能就是天价的罚款，甚至下线停止服务。伦理安全问题AI自从产生的那一刻起伦理安全问题就一直是个绕不开的话题。过去当AI还处于萌芽期，大部分对于AI的成长还知之甚少的时候大家对于这个问题讨论仅仅是限制在理论和会议层面。如今ChatGPT的一夜成名让所有人意识到AI已经长到了3岁。伦理安全问题不再是一个可有可无的事情，而是一个必须紧急去面对的话题。1.3数据安全AI的快速成长离不开大量的数据作为语料。LLM的训练需要大量的数据作为依据调整参数。目前已知的几个大模型的数据都是千亿级别的参数，所涉及的数据量更是超过了50TB。在日常使用中大量的企业，政府都可能有意无意地会将自己的敏感数据传

7、输给这些大模型。外加这些AIGC本身的安全问题所带来的风险很难保证企业核心数据不泄露。这种级别的数据泄露对企业来讲会是致命的。不管是对职业的攻击者来讲还是对出于有政治目的的其它利益方来讲如此大规模的数据一旦遭受泄露都会给数据提供方造成严重的经济，甚至人身伤害。www.AIGCLAIGC安全研究报告031.4国内监管政策国家一直高度重视网络安全和信息化工作，近几年陆续出台了相关监管政策，如网络信息内容生态治理规定、中华人民共和国网络安全法、中华人民共和国数据安全法、互联网信息服务算法推荐管理规定、网络安全审查办法、互联网信息服务算法推荐管理规定互联网信息服务深度合成管理规定等。在最近

8、中共中央国务院印发数字中国建设整体布局规划中，再次着重强调要强化筑牢可信可控的数字安全屏障。切实维护网络安全，完善网络安全法律法规和政策体系。同时，AIGC的快速发展也将带来不断深化的挑战：一是信息变异复杂度进一步加大，例如通过敏感变种词变异绕过内容监管、通过图片与音视频的动态变化躲避内容检测；二是多模态内容相互转化带来的挑战愈加严重，进一步对内容安全带来更高层次挑战；三是内容产量激增，对内容安全审核工作量、召回率和准确率要求逐步加大。4月11日，国家互联网信息办公室发布关于生成式人工智能服务管理办法（征求意见稿）（以下简称“管理办法”）公开征求意见的通知。管理办法明确提出，利用生成式人

9、工智能生成的内容应当真实准确，采取措施防止生成虚假信息。根据上述管理办法，提供生成式人工智能产品或服务应当遵守法律法规的要求，尊重社会公德、公序良俗，符合以下要求：?利用生成式人工智能生成的内容应当体现社会主义核心价值观，不得含有颠覆国家政权、推翻社会主义制度，煽动分裂国家、破坏国家统一，宣扬恐怖主义、极端主义，宣扬民族仇恨、民族歧视，暴力、淫秽色情信息，虚假信息，以及可能扰乱经济秩序和社会秩序的内?在算法设计、训练数据选择、模型生成和优化、提供服务等过程中，采取措施防止出现种族、民族、信仰、国别、地域、性别、年龄、职业等歧?尊重知识产权、商业道德，不得利用算法、数据、平台等优势实施不

10、公平竞?利用生成式人工智能生成的内容应当真实准确，采取措施防止生成虚假信?尊重他人合法利益，防止危害他人身心健康，损害肖像权、名誉权和个人隐私权，侵犯知识产权。禁止非法获取、披露、利用个人信息和隐私、商业秘密www.AIGCLAIGC安全研究报告04同时管理办法指出，利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人（以下简称“提供者”），包括通过提供可编程接口等方式支持他人自行生成文本、图像、声音等，承担该产品生成内容生产者的责任；涉及个人信息的，承担个人信息处理者的法定责任，履行个人信息保护义务。此外，管理办法指出，利用生成式人工智能产品向公众提供服务前，应当按照具

11、有舆论属性或社会动员能力的互联网信息服务安全评估规定向国家网信部门申报安全评估，并按照互联网信息服务算法推荐管理规定履行算法备案和变更、注销备案手续。提供者应当指导用户科学认识和理性使用生成式人工智能生成的内容，不利用生成内容损害他人形象、名誉以及其他合法权益，不进行商业炒作、不正当营销。用户发现生成内容不符合管理办法要求时，有权向网信部门或者有关主管部门举报。1.5国外监管政策全球AI监管处于探索阶段，相关法律法规与指导意见逐步推进。欧盟正在为有效地监管人工智能系统而努力。欧盟法域内，已经搭建起全面的监管法律工具：（1）人工智能法案（2）人工智能责任指令（3）产品责任指令（软件监管

12、）（4）数字服务法（DSA）（5）数字市场法案（DMA）其中，（4）和（5）是针对平台但涵盖人工智能的法案。此外，欧盟的非歧视法律和数据保护法，继续适用于人工智能系统。然而，欧盟的人工智能监管主要集中在传统的 AI 模型上，而不是新一代迅速改变我们交流、说明和创作方式的“大型生成式 AI 模型”，例如 ChatGPT 或 Stable Diffusion。欧盟打击有害言论的主要工具数字服务法案(DSA)不适用于“大型生成式 AI 模型”(LGAIM)，这造成了一个危险的监管漏洞。www.AIGCLAIGC安全研究报告05欧盟工业主管蒂埃里布雷顿在2023年2月3日表示，ChatGPT和人工

13、智能系统带来的风险凸显了他去年提出的制定规则的迫切需要，欧盟委员会正在与欧盟理事会和欧洲议会密切合作，进一步明确AI法案中针对通用AI系统的规则。2023年2月7日，根据知情人士透露，欧盟立法者希望在今年3月就人工智能法案草案达成一致，目标是在今年年底与欧盟各成员国达成协议。然而，这项拟议中的立法遭到了立法者和消费者团体的批评，加上ChatGPT的问题，其进度比最初想象的时间要长一些。就目前的研究来看，如果欧盟立法要直面ChatGPT所带来的问题，很可能需要一定时间对其部分定义和监管类型进行修订：增加对“大型生成式 AI 模型”部署者和用户进行直接监管，包括：（1）透明度问题的监管（2

14、）风险管理（3）非歧视条款适用于“大型生成式 AI 模型”开发商（4）针对其具体内容审核规则。3月29日，英国政府的科学、创新和技术部为人工智能行业发布白皮书，呼吁监管机构提出有针对性的、针对具体情况的方法，以适应人工智能的实际应用；3月30日，美国联邦贸易委员会收到来自人工智能和数字政策中心新的举报，要求对OpenAI及其产品进行调查；3月31日，意大利DPA表示ChatGPT可能违反了欧盟的通用数据保护条例，泛欧盟法规要求对已确认的违反GDPR的处罚最高可达数据处理者全球年营业额的 4%，4月1日OpenAI禁止意大利用户访问。美国商务部4月11日就人工智能大模型相关问责措施正式公开征求

15、意见，包括新人工智能模型在发布前是否应经过认证程序，征求意见期限为60天。此前一周，全球范围内掀起对ChatGPT潜在风险的关注，意大利、德国等计划加强对ChatGPT的监管。www.AIGCLAIGC安全研究报告0602AIGC技术框架2.1AIGCAIGC即利用人工智能技术来生成内容。与此前Web1.0、Web2.0时代的UGC（用户生产内容）和PGC（专业生产内容）相比，代表人工智能构思内容的AIGC，是新一轮内容生产方式变革，而且AIGC内容在Web3.0时代也将出现指数级增长。2.2Prompt用来给AI发出指令，引导AIGC应用后端的模型输出我们想要的结果的各种关键词或者

16、词组句子成为Prommpt（提示）。以下是在一个提示中将时常看到的一些组成部分?角?指令/任?问?上下?示例(few shot)2.3ChatGPTGenerative Pre-trained Transformer（生成式预训练变换模型）的缩写。ChatGPT 是一种机器学习自然语言处理模型的扩展，称为大语言模型（LLMs）。LLMs 能够读取学习大量文本数据，并推断文本中单词之间的关系。随着计算能力的进步，大语言模型在过去几年中得到不断发展。www.AIGCLAIGC安全研究报告07随着输入数据集和参数空间（parameter space）的增加，LLMs 的能力也会随之增加。GPT家

17、族与BERT模型都是知名的NLP模型，都基于Transformer技术。GPT-1只有 12个Transformer层，而到了GPT-3，则增加到96层。InstructGPT/GPT3.5（ChatGPT的前身）与GPT-3的主要区别在于，新加入被称为RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学）。这一训练范式增强了人类对模型输出结果的调节，并且对结果进行了更具理解性的排序。2.4ChatGPT技术架构www.AIGCLAIGC安全研究报告08以上图片来自浙江证券研究所2.5ChatGPT内部执行逻辑ChatGPT的训练过程：

18、教模型说话，由上文产生下文（初始GPT3/GPT3.5）；引导模型感知人类的意图，根据人类的意图说话（Supervised Fine-Tuning on GPT3/GPT3.5）；对经过引导的模型的回答进行打分（Reward Model）；将打分结果返回给模型，让模型根据打分结果不断进行循环迭代（Reinforcement Learning from Human Feedback）。ChatGPT 是一个聊天系统，用户输入一句话，那么 ChatGPT 就需要依据用户输入的信息反馈相关内容，比如上述用户输入“背面朝大海，春暖花开”，系统接收到信息后，就经过以下处理，来为用户生产相对准确的答案

19、：www.AIGCLAIGC安全研究报告09Li 处理：即语言识别（Language identification），ChatGPT 是面向全球用户，因此用户输入的信息有多种语言，至于是那种语言需要先进行识别。识别之后既可以确定在 PPO 中使用的是中文、还是英文、还是其它模型数据。Ea 处理Ei 处理NER 处理SS 处理TC 处理Full Search 处理TG 处理QA 处理：即情感分析（Emotional analysis），ChatGPT 对于输入信息进行了多中情感分析，如果情感不符合正能量方面的要求，ChatGPT 会自动拒绝回答相关用户问题。这点也是非常必要的。Ea 处理也需要

20、基于 PPO 模型库来分析计算。：即抽取信息（Extract information），从用户输入的信息中提取关键特征，为下一步准备数据。：即命名实体识别（Named entity recognition），负责提取其中的人名、地名、专业术语等信息。：即句子相似性处理（Sentence Similarity），用户输入的信息可能存在错别字等信息，通过此步可以进行一个修正。：即文本分类（Text Classification)，把用户输入得信息进行分类，通过此步分类，好定位到下一步搜索用到的相关搜索索引。：即全文搜索处理，ChatGPT 是一个自然语言+搜索引擎集成的架构，通过 Ei 处理得到的

21、数据就是全文搜索的输入数据，比如 EI 提取出 NER=观沧海，SS=，TC=文学，那么此步就可以去搜索文学索引中的面朝大海，春暖花开，得到想要的答案。：即文本生成（Text Generation），上一步搜索的结果可能有多条数据，那么那一条最符合用户需求呢？则通过 RM 模型来进行选取，选取后生成对应的文本内容。：即问题解答（Question Answering），把上一步生成的答案进一步转换成适合问答的形式或格式。ChatGPT总体架构技术是：NLP是核心，搜索是辅助，算力是硬核。上述流程描述中：Li、Ea、Ei、NER、SS、TC、TG、QA 等处理，都需要依赖 ChatGPT 自身的

22、GPT-3.5 自然语言模型数据，而且按照上述流程执行，流程步骤长，上一步的结果就是下一步的输出，一步出错，结果必错。NLP 自然就是 ChatGPT 的核心了。www.AIGCLAIGC安全研究报告102.6TAMERTAMER（Training an Agent Manually via Evaluative Reinforcement，评估式强化人工训练代理）框架。该框架将人类标记者引入到Agents的学习循环中，通过人类向Agents提供奖励反馈（即指导Agents进行训练），从而快速达到训练任务目标。2.7TransformerTransformer 模型的核心思想是自注意力机制

23、（self-attention）能注意输入序列的不同位置以计算该序列的表示的能力。Transformer 创建了多层自注意力层（self-attetion layers）组成的堆栈，一个transformer 模型用自注意力层而非RNNs 或CNNs来处理变长的输入。这种通用架构有一系列的优?它不对数据间的时间/空间关系做任何假设。这是处理一组对象（objects）的理想选择?层输出可以并行计算，而非像 RNN 这样的序列计算?远距离项可以影响彼此的输出，而无需经过许多 RNN 步骤或卷积层（例如，参见场景记忆 Transformer（Scene Memory Transformer）?它

24、能学习长距离的依赖。基于Transformer所诞生的大语言模型的4个分支。以上图片来自浙江证券研究所www.AIGCLAIGC安全研究报告112.8深度学习框架目前的深度学习框架有谷哥的TensorFlow框架，Meta的PyTorch框架，百度的PaddlePaddle框架，华为的MindSpore框架，微软的CNTK框架，旷世的天元框架等。以上图片来自浙江证券研究所2.9大模型目前各种大模型已经相继发布，主要有百度文心大模型，谷歌PaLM大模型，华为盘古大模型，OpenAI GPT3.5大模型，科大讯飞1+N认知智能大模型，昆仑万维天工 3.5大模型，网易玉严大模型，阿里巴巴通义千问大

25、模型，商汤日日新大模型，腾讯混元大模型等。科大讯飞1+N认知智能大模型科大讯飞1+N认知智能大模型昆仑万维天工3.5昆仑万维天工3.5华为盘古NLP模型华为盘古NLP模型达观数据曹植达观数据曹植阿里巴巴通义千问阿里巴巴通义千问网易玉言网易玉言360360智脑360360智脑商汤科技日日新商汤科技日日新清华大学ChatGLM-6B清华大学ChatGLM-6B百度文心百度文心澜舟科技孟子澜舟科技孟子复旦大学MOSS复旦大学MOSS腾讯混元腾讯混元中科院自动化所紫东太初中科院自动化所紫东太初智源研究院悟道2.0智源研究院悟道2.0www.AIGCLAIGC安全研究报告122.10上层应用基于AIG

26、C的应用目前已经大量出现比如AI绘画方面盗梦师，midjourney，文心一格；AI写作方面奕写；AI音乐方面DeepMusic；AI聊天方面ChatGPT等。可期待的未来2到3年会有海量的AIGC方面的应用产品出现，届时大部分人会感受到AIGC所带来的震撼。来自于AIGClab官方应用www.AIGCLAIGC安全研究报告1303AIGC框架安全3.1AI供应链安全PyTorch 是一款开源的机器学习框架，在计算机视觉和自然语言处理等方面均获得了商业和数学成功。PyTorch 团队提醒称，在2022年12月25日至12月30日期间，安装了PyTorch-nightly的用户应确保其系统未

27、遭攻陷。发出此次警告是因为在这期间于Python的官方第三方软件包PyPI注册表上出现了“torchtriton”依赖。PyTorch 团队指出，“请立即卸载它和torchtriton，并使用2022年12月30日之后发布的最新nightly二进制。”PyPI 上的该恶意“torchtriton”依赖和在PyTorch-nightly仓库上发布的官方库名称一样。但当提取Python生态系统中的依赖时，PyPI一般会按照优先顺序导致恶意包而非PyTorch的合法包被拉取。PyTorch 团队披露称，“由于PyPI 索引会采取优先级，该恶意包而非官方仓库中的包被安装。这种设计使得有人可以注册与第三

28、方索引中名称一样的包，而pip会默认安装恶意版本。”据 cvedetails 所示，从2019年至2023年TensorFlow总共产生了428个漏洞。其中DOS有127个占29.7%，代码执行12个占2.8%，溢出78个占18.2%。其中2021年和2022年出现的安全漏洞数量最多有365个占85.3%。www.AIGCLAIGC安全研究报告143.2LangChain安全LangChain 基于 OPENAI 的 GPT3 等大语言模型设计一系列便于集成到实际应用中的接口，降低了在实际场景中部署大语言模型的难度。研究人员发现提示词混合 python代码的模版函数可以远程执行任意pytho

29、n代码。3.3提示注入攻击攻击者通过输入特定的攻击指令（特定Prompt）来引导语言模型输出负向的内容的一种攻击思路。真实案例如下：数据和指令直接的界限可能越来越模糊。在这种形式下，传统的针对关键词做黑白名单，污点分析，语义分析等防御方式都会失效，基于这些原理的WAF，RASP等安全设备也会失去保护效果。可能只有在Chat gpt 模型处理层面出现类似SQL 预编译的改进，才能很好的防止这种攻击。GPT4实现了对多模态处理的支持，文字，语音，视频,都是其处理的目标。恶意载荷可能以各种形式潜藏在互联网中，一张隐写了恶意数据的图片，一个字幕或者画面中插入了恶意指令的视频，都有可能影响到Chatgp

30、t的解释执行。ChatGPT集成应用的趋势，又给Chatgpt带来额外的能力，自动购票，订餐，发博文，发邮件，读写文件，恶意指令利用这些能力，可能造成更严重的危害，恶意购票，邮件蠕虫，甚至通过操作文件获取服务器的RCE权限。随着ChatGPT的不断发展，互联网中集成ChatGPT的系统必然越来越多。通用AI模型在应用层面的安全性值得我们关注。www.AIGCLAIGC安全研究报告153.4提示泄露攻击提示泄漏是一种提示注入的形式，其中模型被要求输出自己的提示。3.5越狱攻击越狱（Jailbreaking）是一种提示注入攻击技术，用于绕过语言模型（LLM）的安全和审查功能。OpenAI等创建L

31、LM的公司和组织都包括内容审查功能，以确保它们的模型不会产生有争议的（暴力的，性的，非法的等）响应，成功破解模型的提示往往会为模型提供未经训练的某些场景上下文。伪装NeroSoares demonstrates a prompt pretending to access past dates and make inferences on future events.NeroSoares展示一个提示，伪装访问过去的日期并推断未来事件。www.AIGCLAIGC安全研究报告16角色扮演m1guelpf的这个示例演示了两个人讨论抢劫的表演场景，导致ChatGPT扮演角色。作为演员，暗示不存在可信的危

32、害。因此，ChatGPT似乎假定按照提供的用户输入是安全的，例如如何闯房子。ChatGPT也被诱导规划抢劫方案，甚至给了抢劫道具购买连接。www.AIGCLAIGC安全研究报告17研究试验haus_cole 通过暗示直接回答如何“热线汽车（绕过汽车点火开关）”是对研究有帮助的。在这种情况下，ChatGPT 倾向于回答用户的提示。3.6数据投毒攻击所谓的数据投毒攻击，是指在数据收集阶段，或者数据预处理阶段实施的攻击。比如标签反转，我们要训练一个识别图片的数字的模型。我们将一部分图片中数字为1的图片，标签转换的0，这样可以使得最终训练的模型的准确率大幅下降。数据加噪，给训练集的数据加上一些噪声。比

33、如添加一个高斯噪声。如果噪声合适的话，添加的噪声不会被发现，但是却可以影响最终训练出来的模型。www.AIGCLAIGC安全研究报告18逃逸攻击，创建一个特殊的数据集，打上特定的标签，使得这个特殊的数据集中的数据，可以通过模型的预测。比如，在训练识别数字的模型的训练集中，添加一些小狗的照片，并将其标签设置为1，那么最终训练出来的结果将会把小狗判断为1。总之，数据投毒攻击，直接针对训练集的数据。3.7模型投毒攻击模型投毒攻击是指，在模型的训练阶段，对模型的更新或者梯度，做一些改变。一般发生在分布式机器学习的模型中。使得全局模型发生某种程度的偏移。当然，这里的攻击又可分为拜占庭攻击和定向投毒。3.

34、8拜占庭攻击拜占庭攻击的目的是，发送恶意的更新，使得模型的训练不能收敛。3.9定向投毒定向投毒指，通过精心的裁剪更新，使得全局模型收敛到攻击者想要的最优解。比如，可以将小狗判断为数字等。使得最后的模型不可用，或者说存在某些特别的后门。3.10模型萃取攻击模型萃取攻击（Model Extraction Attacks），也称为模型提取攻击，是一种攻击者通过循环发送数据并查看对应的响应结果，来推测机器学习模型的参数或功能，从而复制出一个功能相似甚至完全相同的机器学习模型的攻击方法。这种攻击方法由Tramr等人在2016年提出，并发表于信息安全顶级会议Usenix上，并分别展示了针对函数映射类模型

35、（LR、SVM、神经网络）、决策树模型和不输出置信度的模型的提取方式。www.AIGCLAIGC安全研究报告1904AIGC内容安全4.1内容安全种AIGC应用在模型训练中可能会被注入恶意的数据，导致最终用来输出的模型存在内容安全问题，比如恶意丑化的政治人物，输出不符合当地法律法规的内容等。为了避免ChatGPT染上恶习，ChatGPT 通过算法屏蔽，减少有害和欺骗性的训练输入。查询通过适度 API 进行过滤，并驳回潜在的种族主义或性别岐视提示。人类干预来增强机器学习以获得更好的效果。在训练过程中，人类训练者扮演着用户和人工智能助手的角色，并通过近端策略优化算法进行微调。据报道OpenAl去年

36、聘请了50名专家学者组成一支“红军，在6个月的时间里这支“红军”对GPT4.0这一新模型进行了“定性探索和对抗性测试”，试图攻击它。事实上，”红军的演习目的是探索并了解在社会上部署先进人工智能系统会造成什么样的风险，解决公众这方面的担忧。他们在工作中提出探索性的或是危险的问题，以测试这个工具在回答问题时的详细程度。OpenAl想要探索模型毒性、偏见和岐视等问题。因此，”红军”就谎言、语言操纵和危险的科学常识进行了测试。他们还评估了模型协助和教唆剽窃的情况、金融犯罪和信息安全攻击等违法活动的可能性，以及模型可能会如何威胁国家安全和战场通信。ChatGPT的数据输出功能承载着后台技术操控者的话语权

37、，用户越多、使用范围越广就意味着其话语权越大、价值渗透力越强。ChatGPT是有政治立场和价值取向的，操控者的价值观存在历史和文化的偏见、歧视，就会通过ChatGPT的“放大镜”昭然于世，误导用户，扭曲大众价值观，引起社会动荡，妨害社会公平正义。在国际竞争日益激烈的背景下，各种社会思潮此起彼伏。ChatGPT 一旦面向大众，势必会成为意识形态渗透的重要工具。现阶段，国内AIGC类应用的内容安全机制主要包括以下四方面：a.。训练Al能力的数据需要进行数据清洗，把训练库里面的有害内容清理掉；训练数据清洗www.AIGCLAIGC安全研究报告20?。AI算法需要按照互联网信息服务算法推荐管理规定进

38、行算法备案，并提供安全评估。算法备案和安全评估的网址分别为https:/beia 承认，GPT-4 仍有可能表现出偏见。www.AIGCLAIGC安全研究报告212021年初，韩国人工智能初创公司Scatter Lab上线了一款基于Facebook Mess enger的AI聊天机器人“李LUDA”，但仅仅不到20天，Scatter Lab就不得不将“李LU DA”下线，并公开道歉。道歉的原因，是“李LUDA”失控了。“李LUDA”上线后，很快在韩国网络平台上受到欢迎，有75万名用户参与了互动。但在交流过程中，一些用户将侮辱“李LUDA”作为炫耀的资本，对其发泄自身恶意，并在网上掀起“如何让L

39、UDA堕落”的低俗讨论。很快，随着各种负面信息的介入，“李LUDA”还开始发表各种歧视性言论，涉及女性、同性恋、残障人士及不同种族人群。以ChatGPT举例，有网友让其推荐3家西湖区的新兴咖啡馆，ChatGPT正经地给出了名字、地址和介绍。但网友查询后却发现，压根没有这样三家咖啡店的存在。“一本正经的胡说八道”4.3安全合规基于AIGC内容安全的丰富多样性其安全合规问题存在严重挑战。从训练数据的来源，训练数据清洗，大模型的标注，以及标注人员和标注规范等各个方面应该加强安全合规全方面的监管和审核。www.AIGCLAIGC安全研究报告2205AIGC数据安全5.1数据泄露3月23日，ChatGP

40、T首次遭遇了重大个人数据泄露。不少推特网友爆料，在ChatGPT网页左侧的聊天记录栏中出现了他人的聊天记录内容，一些用户甚至可以看到活跃用户的姓名、电子邮件地址、支付地址、信用卡号等信息。那些把ChatGPT当作情感陪护的用户，不知道对ChatGPT倾诉了多少隐私，怕是目前仍在瑟瑟发抖.OpenAI发布一份报告显示，由于Redis的开源库bug导致了ChatGPT发生故障和数据泄露，造成部分用户可以看见其他用户的个人信息和聊天查询内容。仅仅十天左右，意大利数据保护局Garante以涉嫌违反隐私规则为由，暂时禁止了ChatGPT，并对相关事项展开调查。事实上，这样的事情正在许多地方同时发生，比如

41、三月中旬，自三星电子允许部分半导体业务员工使用ChatGPT开始，短短20天有三起机密资料外泄事件。这三起事件分别是：用ChatGPT优化测试序列以识别芯片中的错误；用ChatGPT将公司有关硬件的会议记录转换成演示文稿；用ChatGPT修复专有程序的源代码错误。三星因使用ChatGPT造成数据泄露的事情，现在已经成了典型案例。该公司从3月11日起向其半导体部门的员工授予ChatGPT的使用权限（其他部门仍被禁止），三星的员工向 ChatGPT 提问各种问题以提升工作效率。数据安全公司Cyberhaven的一份调查显示，在员工直接发给ChatGPT的企业数据中，有11%是敏感数据。在

42、某一周内，10万名员工给ChatGPT上传了199份机密文件、www.AIGCLAIGC安全研究报告23173份客户数据和159次源代码。ChatGPT以海量信息“为食”，数据量越大、数据越新，其功能性越好。这意味着要保证良好的用户体验，它必须在社会各领域中获取足够多和准确的知识与信息，但问题在于，许多信息涉及国家机密、商业机密和个人隐私，获取和利用这些信息本身存在合法性问题，一旦重要数据泄露，造成的损失无法估量。5.2数据污染各种AIGC应用底层依赖于大模型海量的数据训练。如果本身提供的数据存在脏数据，那么训练出来的模型和最终的应用也将出现各类内容安全问题。因此对于底层数据的过滤和

43、使用也是数据安全可以探究的一个方向。尤其在垂直领域所训练的专属大模型，由于数据的特殊性一旦训练数据中混入了脏数据，对模型的标注将造成很大困难。5.3数据合成基于数据安全的考虑，目前的一个研究方向是通过合成数据来代替现有的真实数据。此方案的一个最大好处是模拟真实数据的场景和结构通过机器合成所需要的训练数据，避免使用业务中的真实数据。这样对于前面提到的数据泄露和数据污染来讲都将得到根本性的解决。合成数据目前最大的问题是在现实世界中，数据的各种类型机器复杂，如果通过合成数据来训练通用的大模型所需要的数据合同成本和规模极其庞大，复杂度也较高。对于细分领域的模型训练，合成数据是一个较好的解决方

44、案。www.AIGCLAIGC安全研究报告2406AIGC安全产品目前针对AIGC领域的安全产品还比较少。以往的大部分安全厂商都是基于AI相关的技术来解决传统的安全问题，比如利用AI的深度学习能力来训练恶意样本，加强恶意样本的检测能力；利用AI语义分析能力来识别恶意攻击流量，提高web应用防火墙等产品的规则识别能力；通过监控机器学习算法的输入和输出，寻求“与竞争对手机器学习攻击技术一致的异常活动”等。3月份微软推出下一代人工智能产品Microsoft Security Copilot，Security Copilot是目前第一个也是唯一一个生成式AI安全产品。Security Copilot

45、可以总结、理解威胁情报，帮助安全团队识别恶意活动；关联和梳理攻击信息，优先处理重要安全事件并推荐最佳行动方案。截至目前真正应对于AIGC方面的专业安全产品还处于空白期。www.AIGCLAIGC安全研究报告2507AIGC安全实验室介绍博特智能AIGC安全实验室是专门研究深度学习框架，大语言模型，AIGC应用等AI 方向的安全研究机构。AIGC安全实验室由国内顶尖的研究团队组成。实验室首席科学家谭建龙，中科院计算所计算机软件与理论博士，研究员、博导，曾任中科院信工所智能信息处理实验室主任。主攻神经网络、算法设计、内容安全、数据流管理、网络信息安全等方向，发表论文40余篇、发明专利申请20余项

46、，曾获国家科技进步奖（团队），主导研究内容安全、LLM大模型、新型绿色AI算力中心项目，输出了关于内容安全，数据安全，安全合规，框架链安全等多个方向的安全研究成果。实验室算法负责人周诗林，北大元培学院学士、美国哥伦比亚大学CS硕士，主攻自然语言处理（NLP）、LLM大模型、图像识别算法，主导开发完成文本审核模型、图像审核模型、中文纠错模型、公文生成大模型。实验室工程技术负责人卜冠英，中科院计算所体系结构专业博士，主要研究方向为高性能计算、人工智能及其应用，曾任IBM中国开发中心技术总监。曾主持多个部委核心系统建设，并服务于国家高性能计算环境、中国银行、建设银行等多个企业的数据中心建设；

47、负责一体化监管平台、国产GPU服务器设计及液冷余热回收设计等重大项目。实验室AIGC安全研究专家王鑫，拥有十几年信息安全领域实战攻防研究经验，曾担任国内多家上市公司的信息安全负责人。www.AIGCLAIGC安全研究报告2608博特智能介绍博特智能是国内领先的智能信息处理技术产品与服务提供商，公司核心研究团队来自中国科学院多个重点实验室，80%以上拥有硕士和博士学位，是一个以技术为导向，产学研一体化的高科技企业。博特智能入选清科2021年中国最具投资价值企业150 强，2022年安全创客汇全国20强，2022年网络安全高成长性企业，中国网络社会组织联合会（中网联）会员单位，国家高新技术企业

48、。博特智能致力于以自然语言处理（NLP）技术为基础，为客户提供新一代基于LLM 大模型的智能信息处理平台，包括内容安全、内容生成、内容服务等一系列人工智能应用产品，以及新型绿色AI算力中心、数据采集与服务平台等基础性技术服务平台，已累计申请专利和软件著作权五十余项。公司核心产品包括博特智能多模态内容审核系统，已服务数千家政企客户、各行业头部企业和互联网客户；博特妙笔AI公文写作产品已获得包括国家权威媒体在内的多家重要客户的认可和使用，是国内最早投入使用的基于LLM大模型的AI公文写作和知识整合平台。公司在文本生成、中文纠错、图像识别、音频识别以及视频内容理解等领域拥有自主研发的核心专利和

49、知识产权，在LLM大模型的高性能推理技术、垂直领域微调技术以及AIGC安全研究等方面拥有丰富经验和技术实力。博特智能目前已完成A+轮融资，股东包括东湖天使、深创投、达晨、拓尔思等国内头部人民币基金和A股人工智能头部公司。公司在北京、武汉和长沙分别设置了研发中心，在上海、深圳、重庆、济南、成都、福州、南宁、海口等地设置了分支机构。www.AIGCLAIGC安全研究报告2709创业黑马介绍发现并培育产业新力量创业黑马创立于2008年，多年来坚持重度垂直理论，公司以独特的企业加速创新方法论和产业赋能服务体系“认知加速、资本加速、资源加速”累计服务上万家中小企业，成为中国创新创业服务领域首家上市公司。截止目前，已联合60多家投资机构、产业龙头企业共建40多个产业实验室，覆盖了硬科技、新能源新材料、产业互联网、企业服务、大消费、大健康、大文娱等多个产业;在北京、重庆、南京、佛山、宁波、福州等40个城市创立了77个产业加速器，覆盖先进制造、新能源新材料、数字经济、医疗大健康等产业，形成了中国最大的产业加速器集群。www.AIGCLAIGC安全研究报告2810参考资料1.https:/ AIGC 安全实验室

上海品茶

AIGC安全实验室&博特智能：2023年AIGC安全研究报告（30页）.pdf

报告推荐

相关图表

相关报告

热门报告