《04 熊春霖Knowledge is all you need_1123_脱敏.pdf》由会员分享,可在线阅读,更多相关《04 熊春霖Knowledge is all you need_1123_脱敏.pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、Knowledge is all you need安全知识图谱&安全大模型熊春霖联通(广东)产业互联网有限公司 AI安全专家浙江大学网络空间安全博士,师从 Yan Chen(IEEE会士&美国西北大学终身教授&国家千人计划)作为主要成员参与美国国防部高级研究计划局透明计算项目、国家自然科学基金重点项目等国家级课题(APT+AI)曾任杭州奇盾信息技术有限公司(终端、云安全创业公司)联合创始人/CTO深信服XDR 首席算法专家/技术规划专家,负责深信服战略产品部门的技术规划和前沿探索(AI+)中国科学院深圳先进技术研究院、深信服联合培养 博士后在CCS、Usenix Security、TDSC等世
2、界顶级会议期刊发表论文9篇,专利10+项,主要研究终端安全个人介绍01 Knowledge 知识图谱02 is all you need大语言模型当前企业安全运营的困境132检测效果检出率、误报率。提升检测效果,一般会降低告警时效性和增加成本时效性攻击越早被发现和处置,造成的损失就越小。提升时效性,一般会降低检测效果,提升运营成本。运营成本当前安全运营主要依赖专家,现有工具很难满足需求。运营成本降低,一般会同时影响检测效果和时效性。网络安全人才缺口高达327万*1、echo labkGz&COMMAND&echo ILSFYJ:常见黑客工具特征,通过随机字符串定位命令返回内容;威胁研判需要什么
3、?1/3攻击特征sh-c sudo-u#-1sudo-u#4294967295 id-uCVE-、cmd/c cd/d C:&cd/d tmp apache等web server执行命令的特征;3、ipconfig是微软操作系统的电脑上用来控制网络连线的一个命令行工具,黑客常用它来收集网络信息。*1、AppDataLocalTemp7ZipSfx.000目录下的可执行文件为Sfx(SelF-eXtracting,自解压文件);攻击者常使用自解压文件来隐藏真正的payload和攻击意图;威胁研判需要什么?2/3合法应用行为KMS2、该命令行通过WMIC将OInstallLi
4、te加入Windows Defender的白名单;攻击者常使用这种方法让恶意文件免杀;*1、PowerShell常被攻击者用于下载、执行无文件攻击;2、DownloadFile为PowerShell下载文件的功能;3、temp目录常被用于存储恶意文件。威胁研判需要什么?3/3威胁情报传统方法:规则引擎黑白名单威胁情报异常分析AI?威胁研判需要什么?专家需要综合分析,而引擎常常各自为营。因此自动检测引擎效果不佳威胁研判需要什么?安全相关知识十分重要,但碎片且繁多。威胁研判需要什么?安全图谱Chronicle Security:Unified Data Model Provenance Graph
5、DARPA TC:Common Data ModelSecurity Ontology Graph(StrikeReady)Security intelligence Graph(Recorded Furture)01 Knowledge 知识图谱02 is all you need大语言模型垂直领域大模型的一般构造方法许愿机通过微调,赋予大模型新的能力;给定一个input,期望获得预期output。智能体作为智能决策体,负责代替人类作出关键性决策。(1)端到端训练:使用通用数据和垂直领域数据混合,从零训练,训练成本极大;(2)全参数再训练:在一个通用模型的基础上做二次预训练,可以调整任何模型
6、参数,训练成本较大;(3)有监督微调(SFT,部分参数微调):在一个通用模型的基础上做有监督微调,这是开源社区最普遍的做法,方法包括prompt微调、Lora等,可以快速出效果,但可能造成灾难性遗忘,且上限有限,训练成本较低;(4)零样本学习(zero-shot Learning):以上三种方法也都是遵循传统NLP预训练模型的思路,但大模型最厉害的点在于其对多个下游任务都可以通过一个预训练模型解决,对于新任务可以通过少样本学习(few-shot learning)甚至于零样本学习(zero-shot learning)的方式解决;需要有一个足够好的大模型,prompt工程以及知识库;成本不高,
7、见效快;(5)向量数据库:预置常见问题和对应答案/行为,通过匹配用户问题和预置问题的嵌入向量相似度,返回对应结果。仅使用大模型语句嵌入的能力解决语意相似度问题。无训练成本,数据库构造成本也不高,但适用范围小。垂直领域大模型的一般构造方法大模型用于安全领域的问题:到底有多少需要用到的安全知识?(碎片化)增量知识怎么解决?高质量标记数据极度匮乏如何保证知识能被训练到模型里面?如何能保证训练进去后,知识能被符合人类理解的方式使用性能/性价比如何平衡大模型用于安全领域的挑战数据分布:在非安全领域,一般假定模型发布后,需要预测的数据分布是保持不变的;然而,在安全领域,恶意程序的作者不停地创造与之前大相径
8、庭的恶意文件、各式的白样本也不停地产生。需要有对样本的运营、周期地训练等。模型训练流水线比模型本身更重要目前来讲:通过重新训练/二次训练的方式通过微调大模型的方式通过向量数据库查询的方式实现安全领域大模型可能不是最优路径。安全大模型演进思路实现上,分为多阶段冷启动:人工标记数据,生产知识,大小模型结合,平衡性能和效果;持续运营:AI辅助人工,提升效率,积攒更多高质量数据;逐步提升自动化程度;统一安全大模型训练:替代绝大部分人工劳动,实现真正的智能化判断。传统安全厂商数据积累:对象:流量包、文件规则:主动防御、IOA规则剧本:响应流程安全大模型需要的数据:理解:流量、样本、攻击过程有什么特征,为
9、什么是黑/白的?响应流程为什么要这么设计?“Unifying Large Language Models and Knowledge Graphs:A Roadmap”解读Demo命令行GPT3.5解读知识富化后的GPT3.5*这是一条Linux命令,它的作用是从指定的URL下载一个名为core.png的文件,并将其作为标准输入传递给bash shell进行执行。具体来说,该命令首先将环境变量src设置为rds,然后使用curl命令从https:/ shell进行执行。这个URL中的?rds*2.0可能是一个参数,用于指定下载的文件版本或其他信息。需要注意的是,这个命令中使用了-f和-k选项,它们分别表示禁止显示进度条和允许不安全的SSL连接。由于这个命令中使用了curl和bash,因此需要确保这两个工具已经安装并且可用。该命令行通过curl从指定网站下载了一个名为core.png的文件,并使用bash命令执行该文件。这种行为是可疑的,因为它可能会导致恶意软件的执行。为了确定是否存在威胁,需要查询有关该网站的威胁情报。根据恶意威胁情报(Malicious CTI),是柠檬鸭恶意软件家族使用的服务器。因此,从该网站下载并执行脚本的行为可能会导致系统受到柠檬鸭等恶意软件的感染。综上所述,建议不要执行该命令行,并采取适当的安全措施来保护系统免受潜在的恶意软件威胁。THANKS