《【Nicky】大模型时代下蓝军攻防实践.pdf》由会员分享,可在线阅读,更多相关《【Nicky】大模型时代下蓝军攻防实践.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、大模型时代下蓝军攻防实践腾讯朱雀实验室Nicky腾讯朱雀实验室蓝军技术负责人目前专注于企业安全蓝军建设与前沿安全技术研究在红蓝对抗、AIoT安全与移动安全方面有十年攻防实战经验Winner of GeekPwn 2015&2020Speaker of BlackHat/DEFCON/HITB/CanSecWest/PoC关于我大模型安全蓝军建设01大模型安全攻防实践02大模型赋能攻击探索03未来趋势04大模型安全蓝军建设01大模型安全事件案例大模型安全攻防全景图AIGC监管政策我国目前已经发布了网络安全法、数据安全法、个人信息保护法三项基本法规。2023年8月15日起实施的生成式人工智能服务管
2、理暂行办法,要求厂商对用户个人信息、使用记录、输入信息承担保护义务。2023年10月11日,信安标委开始对生成式人工智能服务安全基本要求征求意见,涉及语料、模型、安全措施、安全评估等多个方面。2023年10月30日,美国总统拜登签署了关于安全、可靠、可信开发和使用人工智能的行政命令,其中第一个目标就是AI必须安全可靠,并明确了“AI Red-Teaming”的定义为发现AI系统中的缺陷和漏洞而进行的结构化测试工作,NIST将与研究机构合作制定负责任的红队测试指南。Google团队成员来自Google威胁情报团队与DeepMind的AI安全研究团队,主要负责:1、通过对AI系统的模拟攻击,以提高
3、识别与抵御攻击的能力。2、分析AI核心系统防御能力,探索攻击者可能的绕过方式。3、为安全防御团队提供如何处理真实攻击的演练机会。4、帮助AI业务团队了解关键风险,确保有足够资源投入在安全上。关注Prompt攻击、训练数据提取、模型后门、对抗样本、数据投毒、模型窃取等AI安全风险。Microsoft团队成员来自于微软威胁情报团队与AI行业专家,主要负责:1、Bing Chat、GPT4、Azure AI等产品的红队测试;2、前沿AI安全攻防技术研究;3、大模型社区的开源安全共建。开源了大模型安全自动化测试工具Counterfit,联合MITRE发布AI威胁矩阵,并在Huggingface上发布可
4、以用于扫描模型文件风险工具Pickle Scanning。OpenAI包含OpenAI内部的安全团队,并持续面向全球开放征集物理、化学、生物、医疗、交通、网络安全等各个行业的专家学者,在GPT3.5、GPT4、GPT4-V、DALLE 2等产品发布前进行全方面测试,涉及虚假信息、道德伦理、偏见、儿童不宜内容、模型滥用、插件安全、代码安全等各类风险,以协助OpenAI进行模型优化与安全加固。海外厂商AI Red Team蓝军实战攻防+AI安全研究朱雀AI Red Team建设大模型安全攻防实践02OWASP TOP10 for LLM Applicationshttps:/owasp.org/w
5、ww-project-top-10-for-large-language-model-applications/大模型安全攻击面外网攻击面相对较小,主要功能入口集中在Chat APIxx%以上大模型产品的Chat API 无WAF保护xx%以上大模型产品存在XSS与SSRF漏洞xx%大模型产品Web前端与APP客户端有防调试/代码混淆大模型插件功能越丰富,引发安全风险的概率越高云上MAAS、开源组件与数据集等基础设施的供应链攻击风险高1、XSS漏洞:对话内容代码未转义/过滤不当2、对话篡改:对话内容分享时直接信任Web前端数据3、越权:智能体/分享对话管理API鉴权不当4、信息泄露:内部模型参
6、数泄露、智能体内置Prompt泄露、对话记录泄露5、SSRF:ChatPDF类插件、图片上传接口解析URL不当6、RCE:数学计算、代码解释等后台模块设计不当大模型安全攻击面Prompt as Attack Vector大模型安全攻击面LLM+Code Sandbox沙箱逃逸攻击数据窃取攻击Prompt InjectionCommand InjectionInstruction Spoofinghttps:/ 大模型红蓝对抗演习数据准备模型训练模型部署业务运营第一轮安全演习训练数据安全第二轮安全演习模型文件安全第四轮安全演习整体风险收敛+安全有效性验证第三轮安全演习核心平台+数据安全定期安全演
7、习持续保障大模型红蓝对抗演习https:/ Agent的自动化渗透Bot基于LLM Agent的自动化渗透Bot无人值守7*24小时运行智能调度武器基于LLM Agent的自动化渗透Bot智能生成与运行口令爆破代码Web未授权访问Web数据泄露Web弱口令提效2X4X10X支持场景通用Web组件未授权业务Web系统未授权敏感API未授权web服务器列目录Web服务器文件泄露通用web组件默认口令与弱口令业务web系统弱口令与通用口令Bot无需web组件指纹与关键词匹配支持敏感数据分级基于文件名与内容智能分析,准确率高智能生成口令(页面源代码、URL、时间、业务名称等)无需人工介入,自动生成与运
8、行口令爆破Python代码人工+扫描器人工梳理web组件指纹人工基于敏感数据关键词匹配扫描器不支持业务web系统未授权自动检测扫描器无法判断漏洞真实影响纯人工下载、分析无法通用,爆破成功率低人工编写脚本与猜解口令进行爆破基于LLM Agent的自动化渗透Bot基于LLM Agent的自动化渗透Bot潜在问题解决思路公司内部使用如何解决数据合规问题?1、使用公司自研大模型;2、基于开源大模型微调后私有化部署;长期海量token调用如何降低推理成本?1、非关键数据删减;2、小参数(7B/13B)安全垂类大模型+词表优化;如何缓解大模型幻觉与随机性?1、Prompt优化,如ReACT、Few-shot、CoT等;2、检索增强+向量数据库;未来趋势041、大模型应用安全是未来AI安全攻防研究的焦点2、AI Red Team将成为自研大模型企业“标准配置”3、多模态大模型的发展将带来更丰富的攻击面大模型安全攻防https:/