《中国电子技术标准化研究院:2023知识图谱与大模型融合实践研究报告(72页).pdf》由会员分享,可在线阅读,更多相关《中国电子技术标准化研究院:2023知识图谱与大模型融合实践研究报告(72页).pdf(72页珍藏版)》请在三个皮匠报告上搜索。
1、中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院前言为推进知识图谱与大模型在企业级的落地应用,分析知识图谱与大模型融合技术路径,研究报告从知识图谱与大模型落地面临的瓶颈出发,分析了知识图谱与大模型的主要特征、知识图谱与大模型擅长的主要场景和核心基础能力,对比了知识图谱与大模型的优劣势,进而从技术演化层面、技术互补层面、知识库建设层面探讨了知识图谱与大模型融合的可行性及收益。同时,研究报告分析了知识图谱与大模型融合的技术路径及其关键技术,研究了知识图谱与大模型融合系统评测体系,
2、对比了实际融合系统与大模型的性能测试结果。最终,通过梳理已有11个领域的实践案例,给出了技术挑战与发展展望。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明来源为“中国电子技术标准化研究院”或对应案例提供单位,且不得对本报告进行有悖原意的删减与修改。由于知识图谱与大模型技术发展迅速,研究报告编制时间和作者学识限制,恐有纰漏或不严谨之处,敬请谅解和批评指正。研究报告编写组中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院参编单位及人员中国电子技术标准化研究院郭楠、韩丽、李
3、瑞琪、李湘、胡成林、陈艳利中国电信股份有限公司研究院石晓东、赵龙刚、孙佩霞南京柯基数据科技有限公司杨成彪、吴刚、魏爱梅北京海致科技集团有限公司瞿珂、李思宇、胡嘉彦中译语通科技股份有限公司陈自岩、彭旋沈阳东软智能医疗科技研究院有限公司程万军北京文因互联科技有限公司张屹、李亚军中电科大数据研究院有限公司曹扬、孔德智、熊子奇、尹杨、闫盈盈北京京航计算通讯研究所马静、郝创博、白洋、张彤中科知道(北京)科技有限公司吴章生、李海英、王海波北京中企智造科技有限公司蔡志伟、张燕浪潮软件科技有限公司张峰、王珂琛杭州海康威视数字技术股份有限公司姜伟浩、赵宏、吴炎、吴鹏亮广州柏视医疗科技有限公司刘涛、颜子夜豪尔赛科
4、技集团股份有限公司张丰、刘姝、戴聪棋电科云(北京)科技有限公司方正、王尚帅云从科技集团股份有限公司李军网智天元科技集团股份有限公司贾承斌厦门渊亭信息科技有限公司洪万福、潘璐阳、朱成忠国际商业机器(中国)有限公司(IBM)初德高青岛海尔科技有限公司王先庆、鄂磊、鞠剑伟浪潮电子信息产业股份有限公司李仁刚、贾麒、范宝余北京三快在线科技有限公司黄坤、刘瑾、李轩深圳市矽赫科技有限公司洪鹏辉、洪宝璇、林叠守同方知网数字出版技术股份有限公司万敏锋、相生昌、周永中国电力科学研究院有限公司徐建南、徐会芳、张英强浙江创邻科技有限公司周研、马超湖北汽车工业学院龚家元泰瑞数创科技(北京)股份有限公司刘俊伟、罗伊莎 国
5、电南瑞科技股份有限公司张万才 石超 施雨南京航空航天大学周福辉、袁璐、宋熙富泰华工业(深圳)有限公司史喆、张学琴各章节编辑中国南方电网超高压输电公司李强:第一章中国电信股份有限公司研究院 石晓东第二章网智天元科技集团股份有限公司 贾承斌第三章南京柯基数据科技有限公司 杨成彪第四章厦门渊亭信息科技有限公司 潘璐阳第五章中国电子技术标准化研究院 李瑞琪第六章青岛海尔科技有限公司 王先庆中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院参编单位及人员中国电子技术标准化研究院中国电子技
6、术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院第一章 背景中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院知识图谱Knowledge Graph-KG国家标准及研究报告学者/机构以结构化形式描述的知识元素及其联系的集合。1知识图谱以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。2知识图谱本质
7、上是一种叫作语义网络的知识库,即一个具有有向图结构的知识库。3维基百科:对事实和数字的组合,谷歌将其用于为搜索提供了上下文意义。谷歌于2012年推出,使用维基百科、维基数据和其他来源的数据。百科百度百科:在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。图结构化形式可呈现为有向图结构化的形式谷歌:知识图谱是一个知识库,其使用语义检索从多种来源收集信息,以提高Google搜索的质量。61GB/T 42131-2022信息技术 人工智能 知识图谱技术框架2中国中
8、文信息学会语言与知识计算专委会,知识图谱发展报告(2018)3漆桂林,高桓,吴天星.知识图谱研究进展J.情报工程,2017,3(1):004-0254王昊奋,漆桂林,陈华钧.知识图谱:方法,实践与应用J.自动化博览,2020(1).DOI:CNKI:SUN:ZDBN.0.2020-01-014.5 L.Ehrlinger and W.Wo,“Towards a definition of knowledge graphs,”SEMANTiCS(Posters,Demos,SuCCESS),vol.48,pp.14,2016.6https:/blog.google/products/search
9、/introducing-knowledge-graph-things-not/Farber:知识图谱是一种资源描述框架(RDF)图,可用于描述任何基于图的知识库。5知识图谱旨在建模、识别、发现和推断事物、概念之间的复杂关系,是事物关系的可计算模型。4高效的检索能力可将概念、实体及其关系结构化组织起来,具有高效检索能力智能化推理能力可从已有知识中挖掘和推理多维的隐含知识附1:海外学者在知识图谱领域相关研究1.知识图谱的定义与发展历程知识图谱的定义知识图谱与传统知识库相比具有的三大特征中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准
10、化研究院中国电子技术标准化研究院中国电子技术标准化研究院加菲尔德提出引文索引的思想1955普莱斯引文网络分析1965Quillian语义网络提出最早的表达人类知识1968Feigenbaum知识工程提出专家系统开始广泛研究与应用1977Douglas Lenat建立Cyc知识库1984Tim Berners Lee提出语义网概念,是后续知识图谱的基础1998首届国际语义网大会(ISWC)召开,该会议延续至今,在国际上具有很高的学术影响力2002W3C将RDF和OWL纳入标准,并在后续不断更新,包括RDFS、SPAQL等逐渐填充进入,形成丰富的语义网技术栈 2004Tim Berners Lee
11、提出linked Open Data2006Dbpedia知识库建立2007Schema.org建立2011Google正式提出知识图谱(Knowledge Graph,KG)概念同年,Wikidata项目启动2012首个KG嵌入方法TransE提出,推动了后续包括图神经网络等KG推理方法飞速发展2013OpenKG组织成立2015首届CCKS大会召开2016事理图谱概念提出,强调了KG对事件的顺承、因果等复杂认知能力的建模2018RichPedia作为多模态KG发布,代表KG进入新时代2020首个知识图谱国标发布20221.知识图谱的定义与发展历程知识图谱发展历程中国电子技术标准化研究院中国
12、电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院具有涌现能力在特定任务上,随着模型规模提升模型性能突然出现显著提升大模型与传统模型相比具有三大特征2参数规模庞大参数规模不少于十亿(1B),严格意义上需超过一百亿(10B)2权威论文中大模型的定义具有通用性能够仅通过提示、微调适应广泛的下游任务2.大模型的定义与发展历程大模型的定义大模型通常是指参数规模在一百亿(10B)以上,使用大规模的训练数据,具有良好的涌现能力,并在各种任务上达到较高性能水平的模型。2狭 义 上:大模型是指参数数量大、结构复杂的深度学
13、习模型,具备涌现能力、通用能力,并能够处理复杂的下游任务,如自然语言处理、图像识别等。广 义 上:中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院AlexNet为代表的新一代模型在规模和性能上超越传统方法2012年自然语言处理模型Word2Vec诞生2013年Google提出Transformer架构,奠定了大模型预训练算法架构的基础2017年 OpenAI发布GPT-1(Decoder)Google发布BERT(Encoder)预训练大模型成为自然语言处理领域的主流2018
14、年RLHF算法被提出2022年3月2023年5月2023年7月OpenAI公司推出GPT-2,模型参数规模15亿,Decoder技术路线优势显现2019年OpenAI公司推出GPT-3,模型参数规模1750亿,在零样本学习任务上实现了巨大性能提升2020年微软发布BEiT-3模型,标志多模态大模型时代到来2022年8月搭载GPT3.5的ChatGPT正式发布2022年11月 GPT4正式发布,包含1.8 万亿参数,采用混合专家模型 百度发布“文心一言”,国内大模型研发热潮涌现2023年3月 国家人工智能标准化总体组下设立大模型标准化专题组,启动标准编制工作 生成式人工智能服务管理暂行办法公布C
15、NN为代表的传统神经网络模型占主导地位2005年中国发布的10亿以上参数大模型超过79个,“百模大战”态势初步形成2.大模型的定义与发展历程大模型的发展历程中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院4.本体构建难度大本体构建对领域专业知识和构建经验要求高,实体与关系的标识和对齐、本体扩展和更新、本体评估和质控、不同本体融合等方面仍面临技术挑战6.知识完备性不足企业级知识图谱构建中通常面临领域边界限制、企业内数据规模有限、数据中知识稀疏等问题,导致其知识完备性不足5.知识
16、通用性不足企业级知识图谱平台及其知识内容具有较强的行业属性和领域专业性,通用性和迁移泛化能力尚有不足,跨行业、跨领域规模化应用有待提升3.语义理解和自然语言处理难度大知识图谱在面对自然语言中的语义歧义、上下文理解、语言常识推理等问题时,仍缺乏有效的解决办法2.知识抽取质量,难以保证知识抽取规则的构建仍主要依赖人工,主观性强,导致可移植性差和误差传播,使得知识抽取质量难以保证1.语料数据标注效率低、主观性强语料数据标注仍大量依靠人工,存在标注效率低、主观性强等问题3.知识图谱落地面临的瓶颈中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术
17、标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院大模型的训练和优化需要大量的算力资源和海量的数据资源,涉及高性能硬件设备、强大的分布式计算能力、数据治理与融合等,投入成本巨大大模型的开放性导致其存在信息泄露、数据攻击的风险,影响输出结果的鲁棒性和安全性大模型的输出结果是根据概率推理而生成,具有随机性和不稳定性,导致其正确性的验证难度大,难以保证结果的准确可信面向特定领域、多应用场景的高质量中文语料规模和质量不足1.训练大模型的成本高2.训练数据的规模和质量不足3.训练过程的可控性差4.输出的可信度不足5.输出的安全性不足6.知识更新的实时性不足7.领域知识的覆盖率不足8.社会和伦理
18、问题隐现大模型的黑盒问题使得其推理过程很难得到合理的解释和有效的控制,增加了大模型优化的难度,并限制了其在部分领域的应用大模型训练新数据、获取新知识的周期较长,且成本较高,导致其数据更新的滞后和知识时效性的不足GPT等大模型对各领域专业知识的覆盖仍不足,对专业问题的回答尚无法令人满意大模型的输出可能存在与社会和伦理要求相悖的内容,如:生成内容消极、负面,具有破坏性等4.大模型落地面临的瓶颈中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院附附1 1:知知识识图图谱谱领领域域国国
19、内内外外学学者者及及相相关关研研究究知知识识图图谱谱国国内内外外研研究究学学者者:G Ge er rh ha ar rd d W We ei ik ku um m,德德国国萨萨尔尔布布吕吕肯肯M Ma ax x-P Pl la an nc ck k信信息息学学研研究究所所T To om m M M.M Mi it tc ch he el ll l,卡卡内内基基梅梅隆隆大大学学计计算算机机科科学学学学院院最最高高级级别别 E E.F Fr re ed dk ki in n 讲讲席席教教授授I Ia an n H Ho or rr ro oc ck ks s,英英国国牛牛津津大大学学计计算算机机专
20、专业业教教授授唐唐杰杰,清清华华大大学学教教授授李李涓涓子子,清清华华大大学学教教授授漆漆桂桂林林,东东南南大大学学教教授授陈陈华华钧钧 ,浙浙江江大大学学教教授授王王昊昊奋奋,同同济济大大学学教教授授刘刘峤峤 ,电电子子科科技技大大学学教教授授G Ge er rh ha ar rd dW We ei ik ku um m研研究究知知识识获获取取表表示示、分分布布式式信信息息系系统统、数数据据库库性性能能优优化化与与自自主主计计;算算、信信息息检检索索与与信信息息提提取取等等;T To om m M M.M Mi it tc ch he el ll l 的的研研究究涵涵盖盖知知识识表表示示、知
21、知识识库库构构建建、机机器器学学习习、人人工工智智能能,机机器器人人和和认认知知神神经经科科学学等等;I Ia an n H Ho or rr ro oc ck ks s 的的研研究究涵涵盖盖述述述述逻逻辑辑、语语义义网网络络、知知识识表表达达、知知识识库库、网网络络本本体体语语言言等等方方向向;唐唐杰杰研研发发出出研研究究者者社社会会网网络络 A Ar rn ne et tM Mi in ne er r 系系统统,唐唐杰杰的的高高引引用用论论文文是是 2 20 00 08 8 年年在在 K KD DD D 会会议议上上发发表表的的“A Ar rn ne et tM Mi in ne er r
22、:e ex xt tr ra ac ct ti io on n a an nd d m mi in ni in ng g o of f a ac ca ad de em mi ic c s so oc ci ia al l n ne et tw wo or rk ks s”对对其其负负责责的的知知识识工工程程实实验验室室 A Ar rn ne et tM Mi in ne er r 系系统统关关键键问问题题进进行行讨讨论论,整整合合来来自自在在线线 W We eb b 数数据据库库的的出出版版物物并并 出出一一个个概概率率框框架架来来处处理理名名称称歧歧义义问问题题;中国电子技术标准化研究院中
23、国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院第二章中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院场景名称场景描述大模型知识图谱智能对话内容生成内容加工作品创作机器翻译意图识别智能检索智能推荐辅助决策知识管理代表对此场景有较好的支撑能力。1.知识图谱与大模型的对比典型应用场景层面 知识图谱与大模型分别拥有相对擅长的应用场景。中国电子技术标准化研究院中国电子技术标准化研究院中国电子
24、技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院应用场景大模型的基础能力知识图谱的基础能力智能对话语义理解、指令遵循、思维链、基础常识支持上下文理解、情感分析、推理规划语义理解、知识融合、知识查询、知识推理内容生成语义理解、指令遵循、思维链、基础常识支持上下文理解、情感分析、数据可视化语义理解、知识融合、知识查询知识推理、知识可视化内容加工语义理解、指令遵循、思维链、基础常识支持上下文理解、语义分割-作品创作语义理解、指令遵循、思维链基础常识支持、上下文理解、情感分析-机器翻译语义理解、指令遵循-意图识别语义理解、上下文理解支持、
25、情感分析-智能检索语义理解、指令遵循、基础常识上下文理解、情感分析语义理解、知识查询、知识推理智能推荐语义理解、推理规划语义理解、知识查询、知识查询辅助决策语义理解、指令遵循基础常识、上下文理解语义理解、知识融合、知识查询知识推理、知识溯源知识管理-知识融合、知识存储、知识补全、知识查询知识推理、知识溯源、知识共享与交换、知识更新与维护1.知识图谱与大模型的对比核心基础能力层面 知识图谱与大模型通过自身的核心基础能力支撑了对应的应用场景,难以简单替代。中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院
26、中国电子技术标准化研究院大大模模型型的的优优势势大大模模型型的的不不足足知知识识图图谱谱的的优优势势知知识识图图谱谱的的不不足足通用性:模型具有指令遵循能力,能处理多种任务,并支持多语言、多模态、多领域的应用。可生成性:模型能生成各种形式和风格的文本,也能生成多模态的内容,如图像、音频等。学习能力:基于大量语料的训练,能对新输入产生合理的响应,也能从多模态数据中进行学习。创作能力:能生成新颖、连贯和通顺的文本,也能生成多模态作品,如图片、歌曲等。常识能力:基于海量通用训练数据中的知识,具有常识理解能力。语义理解能力:能根据文本、多模态数据中出现的内容,理解其含义和关系。可解释性:模型的决策过程
27、是黑箱的,难以解释。可信赖性:模型的输出可能存在错误或有偏见的信息。可溯源性:模型的输出是基于训练的数据,而不是特定的数据点或知识点,较难追溯其输出的来源。可校验性:模型的输出和推理结果有赖于通过人工或者其他系统进行校验。可评价性:模型的性能和输出可通过一些标准任务进行评价,尚不成熟。常识能力:无法处理超出训练语料范围的常识问题。领域能力:缺乏丰富全面的领域知识,领域服务能力一般。语义理解能力:可能出现理解错误或歧义等问题。通用性:知识图谱通常面向特定领域,在通用性上可能较弱。可生成性:知识图谱主要用于查询和分析,而非生成新的内容。学习能力:缺乏自主学习能力。创作能力:缺乏自主创作能力。常识能
28、力:局限于知识图谱中的信息,常识能力较弱。语义理解能力:语义理解能力主要局限于知识图谱中的知识内容,理解能力较弱。可解释性:知识图谱可基于基于明确的语义结构进行查询和分析,具有较好的可解释性。可信赖性:知识图谱通常是由专家创建和维护,因此其可信赖性较高。可溯源性:知识图谱中的每个实体和关系都可以追溯到其来源。可校验性:知识图谱中的信息可以通过专家进行校验。可评价性:知识图谱的质量可通过查询的准确性和完整性来评价。领域能力:具有较强的领域知识支持,支撑了其领域服务能力。推理能力:可根据图谱中的精确知识内容和关联结构,进行高可信度的推理。1.知识图谱与大模型的对比技术特性层面中国电子技术标准化研究
29、院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院过去在技术发展中交替演进由知识工程而提出的语义网络网络式表达人类知识构造,以此为基础构建专家系统以解决实际问题由Google提出的知识图谱系统表达常识知识,补充现有深度学习模型缺乏的认知能力,推理更精准多模态知识图谱利用多模态信息补充符号语义表达的不足,强化知识的表征能力,支撑多模态理解、推理和元认知等能力。知识高度依赖人工定义,难以进行扩展通过图拓扑建立的隐式的复杂语义以模拟人类认知,但表征能力不足知识异构模态语义对齐难,在不同模态间映射关系多样A
30、lexNet代表的深度学习出现由硬件发展推动而产生的新一代AI方法,模型规模和性能超越传统方法需要大量标注数据支持,完全没有知识建模的能力Transformer架构推动大模型发展BERT,Vision Transfomer等依靠预训练模型,以参数化形式建模知识,进一步发展为以GPT系列为代表的大模型技术需要大量数据、大量算力支持,存在幻觉、高层认知能力等缺点多模态大模型利用丰富的多模态数据,强化相互之间语义对齐约束,提升高级认知能力,异构模态之间的数据对齐难,模态间映射关系复杂未来面临共同的挑战与目标相互支持大模型和知识图谱是相互依赖的知识处理与应用技术,知识图谱发展激发了深度学习的需求和发展
31、,深度学习和大模型也成为知识图谱构建的基础能力,并共同面对未来多模态知识相关的挑战。2.知识图谱与大模型融合的可行性技术演化层面中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院融合方向互补大模型擅长处理自然语言和模糊知识,而知识图谱擅长表示结构化知识并进行推理。相互结合,可以充分发挥它们的优势,解决更复杂的问题。互动大模型可以用于从文本中提取知识、从而扩展和丰富知识图谱的内容。知识图谱可以为大模型提供结构化知识进行语义补充和生成引导。增强知识图谱和大模型融合可以相互增强各自的
32、能力。知识图谱可以提高大模型的语义理解和准确性,而大模型可以为知识图谱提供更丰富的语言知识和生成能力。知识图谱大模型知识图谱能够为通用大模型的工业化应用,弥补通用大模型语料里专业领域知识的不足。,可对大模型的生成能力进行各方面的评估,降低事实性错误的发生概率。,适度控制内容生成,大模型可以利用语义理解和生成等能力抽取知识,也可以抽取出隐含的、复杂的、多模态的知识,降低图谱构建成本。大模型可以利用其语义理解和指令遵循等能力增加知识的全面性和覆盖度,生成更加合理、连贯、有创新性的内容,例如文本、图像、音频等。2.知识图谱与大模型融合的可行性技术互补层面中国电子技术标准化研究院中国电子技术标准化研究
33、院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院大模型知识图谱动态、概率知识库静态知识库参数化知识库,通过网络参数存储知识,不易理解形式化知识库,通过三元组存储知识,结构清晰,查询简单,易于理解隐式知识库,隐式的存储知识,决策的过程难归因、解释、溯源显性知识库,显式地存储知识,有助于归因溯源,提高模型行为的可解释性更新难度大,忘记特定的知识更加困难便于更新、修改、迁移知识知识的通用性更强,适合于高通用知识密度,高专业知识密度(专业语料少)的应用场景知识的领域性更强,适合于高专业知识密度,低通用知识密度场景具有上下文感知能
34、力、深层语义表示能力和少样本学习能力图结构表达能力强。多模态内容采用模型参数存储,有语义对齐和不可解释性。多模态知识按照知识表示形式存储。知识图谱可以通过prompt,来执行相应信息提取以及思维链的推理任务,形式化成不同形式的知识,例如三元组,多元组或者事件链条。可以利用prompt,参与到大模型的训练前的数据构造,训练中的任务,以及训练后推理结果的约束生成,提升大模型的性能。大模型2.知识图谱与大模型融合的可行性知识库建设层面中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院
35、通过将知识图谱作为训练目标、模型输入、专门知识融合模块,增强大模型预训练效果;通过动态知识融合、检索增强的知识融合方法,增强大模型推理能力;通过基于知识图谱的探针、分析技术,增强大模型可解释性。通过将大模型作为编码器或者通过大模型的生成能力,增强知识图谱表征;将大模型作为解码器、生成器,作用于知识补全;利用大模型的生成能力,增强图谱构建,对图谱交互、图谱问答等任务提供支持和提升将大模型与知识图谱进行统一表征,增强结果准确性;将大模型和知识图谱结合,运用于推理过程,弥合文本和结构信息之间的差距并提升推理可解释性。2023,Shirui Pan et.al,大型语言模型与知识图谱协同研究(Unif
36、ying Large Language Models and Knowledge Graphs:A Roadmap)3.知识图谱与大模型融合的现有研究工作0 01 1 知知识识图图谱谱赋赋能能大大模模型型0 02 2 大大模模型型赋赋能能知知识识图图谱谱0 03 3 大大模模型型和和知知识识图图谱谱协协同同中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院知知识识图图谱谱+大大模模型型 降低算力:可减少大模型对无结构化文本的依赖,从而降低大模型的预训练或推理所需的算力和时间。提
37、高知识可信度:依托知识图谱中经质量评估的知识,可帮助大模型提高信息的质量和可信度,并保障知识的正确性和时效性。增强通用性、领域能力、认知能力:可帮助大模型获得跨领域和跨语言的知识,并更好地适应不同的领域任务和场景。降低构建成本:依托知识图谱中的结构化知识,可减少大模型对标注数据或专家知识的需求,从而降低大模型的构建成本和难度。提高可生成性:可帮助大模型可生成更贴近实际、更具有解释性的内容。提高创作能力:通过知识图谱的知识增强,可帮助大模型创作内容更具逻辑、一致性和创新性等。增强理解能力:大模型的语义理解能力可帮助知识图谱更好地理解和分类非结构化信息。降低构建成本:大模型的上下文理解能力、基础常
38、识支持能力等可帮助知识图谱提升非结构化数据的知识获取、知识建模、知识融合等能力,降低其构建和维护成本。丰富输出形式:大模型的生成能力可帮助知识图谱获得多元化的知识输出和服务形式,增强知识图谱系统的服务效果,并提升人机交互水平。提高知识完备性:大模型中涵盖的知识及其对新数据的理解能力,可帮助知识图谱进行知识补全和知识校验,提高知识的完备性。提高可解释性:知识图谱的显性知识与大模型的隐性知识相结合,可提高知识应用的可解释性。实现交叉验证:知识图谱的输出与大模型的输出相结合,可为知识应用提供交叉验证/比对的手段,提高服务的可信赖性。优化知识存储:知识图谱的结构化信息存储和大模型的非结构化信息处理相结
39、合,可优化知识存储和检索效率。提高决策能力:知识图谱推理结果与大模型推理结果的结合,可进一步丰富辅助决策的知识背景,并提供更精确的决策建议。增强隐私保护:知识图谱中数据加密和保护能力与大模型数据调用能力相结合,可降低大模型对个人隐私数据的依赖,有利于保障隐私安全。确保知识产权保护:知识管理机制与本地化部署方式相结合,可更好地保护知识产权,防止知识的滥用或盗用。增强伦理边界:通过优化知识图谱中的知识结构及大模型训练样本结构,构建约束规则类知识并降低数据偏见,强化输出边界。4.知识图谱与大模型融合的收益中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院
40、中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院2023第三章中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院图谱2图谱1大模型1大模型2大模型3结构化数据/半结构化数据/非结构化数据数据大模型集合知识图谱集合知识图谱赋能大模型:以知识图谱为工具提升大模型的能力大模型赋能知识图谱:以大模型为工具提升知识图谱的能力知识图谱与大模型协同?利用知识图谱与大模型各自的优势相互赋能(1+1),并结合上层应用集成,实现两者技术的互补。?利用知识图谱间的互联互通及大
41、模型间的集成调度(N+N),实现融合后系统能力的持续增强。1.知识图谱与大模型融合的总体技术路线中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院2.大模型赋能知识图谱的技术路径利用大模型在语义理解、内容生成等方面的技术优势,实现大模型对知识图谱构建至应用全生命周期各环节的增强,提升效率和质量。中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院1)用大模型增强数
42、据标注利用大模型对原始数据进行实体、关系、事件等标注。2)用大模型增强知识抽取利用大模型进行实体抽取、关系抽取、事件抽取、因果关系抽取等,例如:DeepKE-LLM。3)用大模型增强知识建模利用大模型进行实体类型提取、关系类型提取、事件类型提取、知识体系提取等。4)用大模型增强知识图谱嵌入与表示学习利用大模型作为知识图谱嵌入的文本和图结构编码器,解决结构连通性有限的问题,提升知识抽取的能力。5)用大模型增强知识图谱补全利用大模型作为编码器或生成器来补全知识图谱数据,提升知识补全的能力。6)用大模型增强知识图谱构建利用大模型开展实体发现、共指解析和关系提取,构建特定领域内的知识图谱结构。采用知识
43、蒸馏等技术实现端到端的图谱构建。参考文献 2023 Yunjie Ji,etc.Exploring ChatGPTs Ability to Rank Content:A Preliminary Study on Consistency with Human Preferences2021 Shirui Pan,etc.Unifying Large Language Models and Knowledge Graphs:A Roadmap2023 Xiang Wei,etc.Zero-Shot Information Extraction via Chatting with ChatGPT2.
44、大模型赋能知识图谱的技术路径关键技术示例中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院7)用大模型增强知识融合利用大模型进行术语定义补全、术语对齐和标准化、实体标准化对齐、同义词提取与融合等8)用大模型增强知识推理利用大模型进行关系推理、事件推理等9)用大模型增强知识图谱可视化利用大模型进行多种形式的知识可视化10)用大模型增强知识图谱文本生成利用大模型自然语言理解方面的优势能够提升从知识图谱中生成文本的质量,提高语言的准确性和在现实场景中的可用性。11)用大模型增强知识图
45、谱问答利用大模型抽取自然语言问题中的实体、关系,进入结构化的知识图谱寻找问题答案,再通过大模型组合答案并结合大模型自身的知识广度将更充实的答案以自然语言的方式输出,增强知识图谱问答的广度、自然性和准确性。12)用大模型增强知识图谱多模态知识对齐利用大模型的通用性和对多类型数据统一处理的能力,能够增强多模态知识对齐,赋能多模态知识图谱的构建、表示、推理和应用的全流程。2.大模型赋能知识图谱的技术路径关键技术示例参考文献 2021 Shirui Pan,etc.Unifying Large Language Models and Knowledge Graphs:A Roadmap中国电子技术标准
46、化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院3.知识图谱赋能大模型的技术路径 应用场景实现示例:基于大模型增强的知识抽取Gitee地址:https:/ apiPrompt意图识别知识图谱分类、实体识别、翻译123实体别称补全实体上下位推理行业背景知识补全知识修正知识溯源3.知识图谱赋能大模型的技术路径 应用场景实现示例:基于知识图谱增强大模型的文档问答1.离线部分,对文档进行预处理,构建段落级索引,包括全文索引和向量索引2.在线部分,使用知识图谱增强大 模型的问答效果:在意图识别阶段,用
47、知识图谱进行实体别称补全和上下位推理;在Prompt组装阶段,从知识图谱中查询背景知识放入上下文;在结果封装阶段,用知识图谱进行知识修正和知识溯源中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院分别发挥知识图谱与大模型两者的技术优势,通过统一知识表征、动态协同知识推理等技术手段,实现企业级认知决策智能水平的升级发展。3.知识图谱与大模型协同应用的技术路径中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国
48、电子技术标准化研究院中国电子技术标准化研究院3.知识图谱与大模型协同应用的技术路径1)知识图谱与大模型统一表征技术通过对大模型与知识图谱进行知识统一表征,增强结果的准确性。2)知识图谱与大模型统一构建技术通过融合知识图谱的训练目标和大模型的训练目标,构建统一模型,使得统一模型同时具备大模型的通用知识、语言理解、知识涌现能力和知识图谱的显性知识、限定域知识、可靠性、可解释性能力。3)知识图谱与大模型串行推理技术通过知识图谱与大模型的串行应用,原始信息首先经过知识图谱进行结构化抽取关联信息,将检索结果输入大模型进行预测推理,从而提高知识推理预测的准确性。4)知识图谱与大模型并行推理技术大模型与知识
49、图谱并行召回答案,动态协同进行知识推理,完成答案融合,即能提高推理结果的准确性,又能拓展推理的知识边界。参考文献 2021 Shirui Pan,etc.Unifying Large Language Models and Knowledge Graphs:A Roadmap中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院5)6)7)3.知识图谱与大模型协同应用的技术路径关键技术示例知识图谱与大模型交互接口标准化规定和明确知识图谱与大模型之间交互接口的标准格式,提升不同厂商间
50、产品集成的便捷性。知识图谱与大模型间任务编排与调度技术知识图谱与大模型协同的过程中,需要基于企业内业务流进行任务的编排和调度,以保证协同过程的流畅性和可操作性。知识图谱与大模型协同中隐私保护技术知识图谱与大模型协同过程中,知识图谱内容仍将被用于大模型的输入或输出中,如何保护知识图谱中的隐私数据不泄漏是系统建设的重要环节。中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院1.在为用户推荐美食信息的同时,以“知识图谱+大模型”的应用范式智能生成更加触动人心的文案来触达用户。3.知识
51、图谱与大模型协同应用的技术路径 应用场景实现示例:基于大模型和知识图谱融合的文案生成中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院第 四 章中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院参考:IEEE P2807.1知识图谱技术要求与测试评估规范知识图谱系统测评体系知识图谱构建知识图谱应用知识建模知识抽取知识融合知识表示知识存储知识检索智能问答智能推荐智
52、能检索辅助决策知识管理1.知识图谱和大模型系统的测评体系概述中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院大模型系统测评体系大模型开发大模型应用数据构建模型训练模型部署模型管理大模型能力大模型安全语义理解内容生成基础常识智能对话智能检索内容生成智能推荐情感分析可解释性可信耐性可溯源性可评价性可校验性上下文理解推理规划内容加工辅助决策作品创作机器翻译1.知识图谱和大模型的测评体系概述中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究
53、院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院大模型赋能/增强知识图谱系统测评体系知识图谱构建知识图谱应用融合成本计算资源响应速度融合增益存储资源知识规模知识复杂度推理能力知识完备度同知识图谱系统测评构建成本理解能力2.知识图谱与大模型融合系统测评体系中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院知识图谱赋能/增强大模型系统测评体系大模型开发大模型应用大模型能力大模型安全融合成本计算资源响应速度存储资源融合增益训练数据知识可信度知识准确度知识实时
54、性知识运维能力常识能力可解释性认知能力同大模型系统测评2.知识图谱与大模型融合系统测评体系中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院数据集名称规模子任务描述entity-medical-200200条实体识别基于疾病诊疗指南标注的实体识别数据,包含7类实体relation-medical-200200条关系抽取基于疾病诊疗指南标注的关系抽取数据,包含5种关系 任务类型:知识抽取 数据集 测评结果0.730.650.860.510.880.770.470.380.520.
55、4400.10.20.30.40.50.60.70.80.91实体识别关系抽取CasRel传统方法ChatGPTKG+ChatGPTChatGLM-6BKG+ChatGLM-6Bbert+bilstm+crf 结果样例KG+ChatGPT显著提升了关系抽取的召回率3.知识图谱与大模型融合系统测评结果中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院数据集名称规模子任务描述医药百科图谱200W三元组柯基数据基于开源数据构建的医药领域的全科知识图谱医药常识问题集100条常识问答医学
56、专家人工编辑的常识问题糖尿病问题集100条糖尿病问答医学专家人工编辑的糖尿病领域的诊疗问题肺癌问题集100条肺癌问答医学专家人工编辑的肺癌领域的诊疗问题 任务类型:智能问答 数据集 测评结果(注:每个问题的答案由医学专家打分,0-3分)252329570500300常识问答糖尿病问答肺癌问答总得分ChatGPTKG+ChatGPTChatGLM-6BKG+ChatGLM-6B文心一言KG+文心一言3.知识图谱与大模型融合系统测评结果中国电子技术标准化研究院中国电子技术标准化研究院中国电
57、子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院 任务类型:智能问答 结果样例肺癌非小细胞肺癌小细胞肺癌肺腺癌鳞状上皮癌大细胞癌80%至85%占比属于属于属于属于属于3.知识图谱与大模型融合系统测评结果中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院数据集名称规模子任务描述event-100100条文本分类-单层级警情数据,单层分类的数据case-1k1000条文本分类-多层级案件数据,有父子三层级分类的数据子
58、任务准确率LLMKG+LLM文本分类-单层级67%93%文本分类-多层级31%56%任务类型:文本分类 数据集 测评结果 结果样例3.知识图谱与大模型融合系统测评结果中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院第五章知识图谱与大模型融合 实践案例 ZHI SHI TU PU YU DA MO XING 中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院行业
59、需求:1、网络运维工作压力大,人员不足,亟需智能化运维工具提高效率;2、运维人员人工判障效率低,客户体验和满意度难以得到保障,亟需通过智能化手段压降运维时长;3、海量的运维知识检索利用难度大,需智能助手帮助运维人员准确快速找到匹配解决方案,提升效率。解决方案:面向生产一线运维人员,基于意图理解和网络大模型技术,打造具有丰富运维知识的运维助手面向运维专家,利用运维助手进行交互问答,提供查询故障现象,故障原因,故障解决方案,解决效果等,随时在线的运维客服助手关键技术:1、基于网络大模型和运维知识图谱技术打造智能运维助手;2、基于意图理解和运维知识图谱打造运维智能问答机器人提升效果:1.电信行业实践
60、案例:网络运维数字员工中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院2.电力行业实践案例:电力智能客服行业需求1、传统智能客服机器人机械化、条目式的知识检索与问答服务存在用户诉求识别率低、泛化性差等问题,无法满足当前电力客服深度智慧化的需求2、为解决话务量大且座席业务繁重问题,亟需开展智能客服的适应性升级改造,建立智能服务一体化运营管理体系,分流缓解话务高峰,降低客服业务运营培训成本,提升电力客服业务服务水平关键技术:1、电力客服领域语言大模型微调优化技术2、基于领域知识图
61、谱的大模型知识增强技术解决方案:利用客服知识图谱、知识库等语料资源以及LLM大语言模型,构建深度智慧、安全可信的电力客服大模型,满足精准的用户诉求分析、多样化的问答任务响应、实时高效的多轮对话等需求,实现客服问题生成式应答和多样化业务的灵活响应。提升效果:提升客服多轮对话内容生成准确率、用户诉求智能客服应答率等性能。中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院1、行业数据量庞大且多样化,数据呈分散态势,难以高效整合和分析;2、行业特点较强,数据包含较多专业术语及领域知识,
62、传统NLP技术难以准确理解分析;3、文本数据存在复杂的结构和语法,对处理系统要求较高。信通小数应用基于电力领域特性和通用语料训练而成的面向电力行业的智能交互应用,为电力行业安监、营销、基建等八大领域提供文本处理、信息提取和智能决策等多种需求的产品。1、自然语言处理;2、领域智能交互;3、语义及情感分析。1、在视频会议的转录及提纲环节减轻记录员相关工作量约90%;2、在综合办公的公文写作及大纲编制环节,提升工作人员60%工作效率;3、应急处理缩短45%处理时间。2.电力行业实践案例:信通小数应用0 01 10 02 20 03 30 04 4中国电子技术标准化研究院中国电子技术标准化研究院中国电
63、子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院行业需求1)基于数据资产的血缘链路、下游应用级别等维度,构建特殊数据资产识别规则2)在特殊数据资产状态出现异常(变化)时,基于不同的异常(变化)情况,对相对应的管理节点(人员)进行预警解决方案基于知识图谱,构建数据资产的全链路血缘,将应用级别、资产状态等信息作为属性存储,为特殊数据资产识别提供底层支撑基于大模型,从图结构信息和节点属性中提取必要特征,智能的为用户进行特殊数据资产的推荐及相关异常预警提升效果已部署于华东某国网,基于大模型和知识图谱的特殊数据资产识别及管理系统,基于用户
64、不同业务场景,推荐不同类别的特殊数据资产(如核心数据资产、边缘数据资产、冗余数据资产等),帮助用户对数据资产进行管理。且在特殊数据资产发生变化时,对受影响的部门或责任人进行自动预警 关键技术主动元数据、元数据血缘、特征子图、预训练模型2.电力行业实践案例:基于大模型和知识图谱的特殊数据资产识别及管理中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院行业需求:1.营销领域知识图谱构建费时费力。2.知识图谱的现有展现形式难以快速获取复杂知识和实体关系。解决方案:1.将银行的营销业务
65、知识图谱与大模型相结合,利用大模型实现知识图谱数据的快速提取和分析。2.采用便捷的自然语言交互方式,降低传统图谱分析的复杂性,提升分析效率。关键技术:1.利用大模型进行实体、属性、关系等知识图谱要素提取,辅助知识图谱内容生成。2.训练大模型符合知识图谱内容结构的指令模版。3.利用大模型检索知识图谱进行内容分析。4.调用外部接口进行进一步的业务分析。5.利用大模型整合内容生成最终的回答。提升效果:实现了基于营销知识图谱的分析问答,助力营销业务高效推进。3.金融行业实践案例:银行智能营销助手中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术
66、标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院3.金融行业实践案例:基于大模型的智能图分析平台反欺诈场景应用行业需求:1)根据监管可疑特征构建单规则、复杂规则;规则指标维度较少;预警量大、准确率低;2)基于涉案名单作为样本构建机器学习模型,提升了召回率、准确率,但可解释性低。解决方案:1)基于知识图谱,建立以图算法和机器学习为核心的团伙反欺诈模型,能够挖掘客户关系网络和账户间的隐藏资金链,并提升对可疑团伙的识别能力,无论是静态的还是动态的关系;2)基于大模型,从图结构信息、节点属性和模型特征中提取关键信息,生成智能风险报告,并通过基于特征的联动图谱可视化展示,使得风险分析更加智能
67、化和直观化。提升效果:在银行内反欺诈平台进行了业务可行性评估,智能解读欺诈团伙的行为特征所生成的风险报告,以及提供团伙关系和模型特征的图谱可视化展示,能够提升反欺诈作业人员的研判效率。关键技术:图算法、机器学习、图结构信息抽取、预训练模型中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院4.医药行业实践案例:Clinical lnsight临床试验情报平台行业需求:1、加速药物上市前的临床试验设计和临床试验招募,以及上市后的产品上市教育、药品渠道销售、患者全流程管理和数字化诊疗
68、等多种场景;2、整合多源异构信息为医药场景提供高效、客观、科学的循证支持,实现降本增效。关键技术:1、医药会议摘要的智能问答;2、临床知识报告生成。解决方案:利用知识图谱及LLM大语言模型进行数据的关联分析及内容生成,为企业提供药物试验的潜在竞争情报,并关联临床试验结果,为试验设计提供循证参考。提升效果:1、临床试验的入排标准设计和试验中心筛选环节周期缩短60%;2、实现遵循医学规范,实现医学知识的复用,进一步提高数据的价值和应用。中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研
69、究院1、知识分散,没有有效整合,耗费人工去找寻答案;2、医学问询邮件没办法保证立即回复,无法快速地帮助医生/患者等解决问题;3、整合所有资料的知识点,有局限性,还是会出现无回答的情况。全球化医学Chatbot平台是一个为医药企业打造的面向外部医生、护士、药剂师等医学专业人士,基于知识图谱和LLM大语言模型能力可循证的疾病用药的应用产品。提升医学部/市场部的效率达到50%1、基于知识图谱的知识增强能力;2、文档解析、问答和自动报告的流程自动化。4.医药行业实践案例:医学学术营销平台中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研
70、究院中国电子技术标准化研究院中国电子技术标准化研究院行业需求:1)购车是许多人生活中的重大决策之一,人们希望能够获取针对个人需求的准确且全面的汽车推荐信息,包括车型、价格、性能等方面的细节。2)提供购车过程中的相关指导和建议,以便做出明智的选择。解决方案:通过智能问答系统,结合知识图谱与自然语言处理技术,为用户提供车型、参数、技术规格、价格、预算、性能和购车推荐和指导。提升效果:?提供个性化的购车推荐和指导,使用户更容易找到适合自己需求的汽车。?通过价格预测模型,为用户提供参考的价格范围,帮助他们在合理的预算范围内做出选择。?减少用户的购车时间和不必要的试错,提高购车效率和满意度。?构建良好的
71、用户体验,提高用户留存和口碑,为汽车销售商带来更多潜在客户。关键技术:自然语言处理(NLP),智能问答。推推荐荐方方案案一一推推荐荐方方案案二二5.汽车行业实践案例:购车攻略平台1234中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院用户输入 问题:北京地区今年第一季度大众新能源车的销量Prompt 问题:北京地区今年第一季度大众新能源车的销量数据表:汽车月度销量表列名:月份,城市,品牌,型号,动力燃料,销量Prompt 问题:北京地区今年第一季度大众新能源车的销量数据表:汽
72、车月度销量表列名:月份,城市,品牌,型号,动力燃料,销量名词解释:新能源车的动力燃料包括有纯电力,插电混动和燃料电池Prompt 问题:北京地区今年第一季度大众新能源车的销量数据表:汽车月度销量表列名:月份,城市,品牌,型号,动力燃料,销量名词解释:新能源车的动力燃料包括有纯电力,插电混动和燃料电池examples:“广州市去年6月比亚迪新能源车的销量”=“SELECT SUM(sale_amount)FROM car_monthly_sales WHERE city=广州 AND brand=比亚迪 AND month=202206 AND motor_fuel in(纯电力,插电混动,燃料
73、电池)Natural Language to SQLSQL SELECT SUM(sale_amount)FROM car_monthly_sales WHERE city=北京 AND brand=比亚迪 AND month=202301 and month=202303 AND motor_fuel in(纯电力,插电混动,燃料电池)结果是否合理输入结果Reask Prompt generator数据表结构提取信息增强FewshotExamplesLLMYESDBMS查询结果Guardrails基于bert微调的NLP模型用来提取用户提问中涉及的数据表和数据列从车辆信息知识图谱中提取补充信
74、息使用向量相似度检索算法搜索案例使用基于规则的栏栅系统来识别结果的合理性以及是否会暴漏数据隐私NO5.汽车行业实践案例:购车攻略平台中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院行业需求:1)进一步提升智能家居用户的交互体验,包括交互过程中的连续对话、语义理解、生成人性化回复;2)解决研发人员面对的家电知识零散、知识库建设效率等现实问题,实现降本增效。解决方案:1)利用大模型进行知识泛化,解决知识有限、获取难、知识库构建效率低等问题;2)基于泛化后的语料,实现“任意说”(指
75、令换说法,仍然听得懂);3)利用大模型的理解与生成能力,实现上下文理解、连续对话、拟人化回复。关键技术:智能家居知识图谱、智能家居行业大模型、安全计算、场景生成等。提升效果:1)智能家居知识图谱的量级从千万提升到亿级,形成高效知识管理平台;2)用户交互体验大幅提升,从以往控制指令说法受限、回复不精准,进化为连续交互、随意交互和引导交互。6.智能家居行业实践案例:智能家居知识泛化及交互提升01020304中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院行业需求1、智能生成内容:
76、辅助编者和教师用户内容生成;2、高效内容处理:通过智能系统辅助翻译、转录、汇集、润饰、评估等内容处理工作,大幅提升编辑们的工作效率;3、智能推荐:用人工智能进行信息推荐,扩大其数字营销能力。关键技术:1、大纲和内容的自动生成;2、精准用户画像自动分析与推荐。解决方案:1)基于领域知识等构建跨领域知识图谱,用大模型技术实现知识自动抽取;2)在生成式大模型提升知识图谱的知识创作能力;提升效果:通过基于智能AI系统的数字教材编创系统,为编者、编辑、教员、学生提升智能知识服务7.教育出版行业实践案例:数字教材智能编创与应用系统01030204中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术
77、标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院行业需求:1)在数字孪生城市行业非结构化数据急剧增多的情况下,构建知识图谱需要依赖人工或者半自动方式进行知识抽取和建模,信息利用效率低,数据分析能力不强。2)现有数字孪生城市知识图谱大部分是针对特定领域或任务定制,扩展性差。解决方案:基于矢量数据、影像数据、模型数据、IOT数据、专题数据等构建数字孪生城市知识图谱,结合大模型预训练提升知识图谱的知识抽取和图谱构建能力,并将知识图谱作为大模型输入,提升大模型专业性和可信性,从而利用知识图谱+大模型提升城市运营以及各领域的指挥决策能力以及准确
78、度。提升效果:数字孪生城市服务平台性能优化,数字孪生城市各领域的信息获取以及利用效率增大,数据分析能力有了很大的提升。关键技术:知识注入辅助模型预训练、基于大模型的知识抽取能力8.智慧城市实践案例:数字孪生城市服务平台中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院行业需求:社交领域的智能交互机器人难点在于对社交机器人进行成长式的个性化训练,来生成语义连贯自然、富带感情观点、千人千面的多模态内容。基本属性五大人格人物标签体系关系图谱角色内在特征塑造深度强化学习适应策略激励智能
79、感知?阅读?交流?协作?对抗机器人A机器人B知识和数据双驱动预训练社交数据 个性化生成适配多语传播智能网评话题感知生成式对话大模型+人物知识库在指令和上下文中嵌入个性化解决方案:大模型以百万级人物知识库和社交媒体信息作为个性化指令数据进行精调,具备千人千面的角色学习能力。采用内在特征塑造和强化学习对抗反馈的方式不断加强与人类性格、价值的对齐。9.社交领域实践案例:成长式个性化社交机器人中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院提升效果:采用内在特征塑造和深度强化学习的方
80、式训练社交机器人,能够生成语义连贯自然、富带感情观点、千人千面的多模态内容。以Reddit为媒体平台,实现认知舆论战的贴文生产系统,根据热点、关键词进行流畅的本地化的贴文批量生成,拟人通顺度80%,连续生成1200条的可用度80%,重复率20%,具备根据不断变化的热点进行准实时的模型训练更新。关键技术:个性化训练、指令精调、强化学习9.社交领域实践案例:成长式个性化社交机器人中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院行业需求:1、搜索是信息时代的通用性刚需,可以提升用户
81、日常行为的效率;2、提高短文本查询Query和长文本Item的语义表达能力与理解能力,给用户提供更好的搜索体验。解决方案:利用知识图谱及LLM大语言模型,识别用户查询意图、生成语义向量,并进行向量检索,同时基于知识图谱进行关联分析,得到关联推荐结果。关键技术:1、面向指标数据、文献数据的查询意图精准识别;2、面向指标数据、文献数据的语义向量检索提升效果:1、基于大模型的搜索系统的准确率,相比原系统同比提升13%,且大幅降低了人工维护成本;2、大模型赋予搜索更强的自我学习能力,能够持续优化输出结果,更好贴合用户使用习惯,更具个性化。10.科学文献行业实践案例:基于大数据的智能检索01#ONE02
82、#TOW03#THREE04#FOUR中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院基于大模型和知识图谱的知识平台是智慧水利的智能支撑,通过构建水利领域大模型,融合知识图谱技术,面向水务领域知识,形成以知识引擎为核心的事理推演,支撑服务及应用场景包括:场景一:政务(水务方向)智能问答11.水务行业实践案例:基于大模型和知识图谱的智慧水利知识平台关关键键技技术术大模型语义相似度计算、信息抽取、预训练模型语义相似度计算技术。行行业业需需求求各种关于水务相关的在线咨询需要人工解答
83、,查找答案时费力,人工客服容易面临相同问题回答不一致或者回答不及时的问题。中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院解决方案:基于应急预案、政策等构建水务知识图谱,并构建基于大模型的智能问答系统,从而利用预训练模型语义计算技术智能识别用户的意图,给出针对性的解决思路或答案,并实现从水务知识图谱中快速检索出准确的答案,提升客服服务效率。提升效果:基于智能AI机器人(硬件)和大屏的水务方向政务智能问答系统,在线回答时效性提升60%,回答准确率显著提高,且已支持多层问答,语音
84、输入,并基于在线文字及语音理解的生成式多模态图表技术,实现了机器人和大屏的在线联动,数字化大屏展示等效果。11.水务行业实践案例:基于大模型和知识图谱的智慧水利知识平台中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院水务相关政策公文面临素材搜寻难、政策发布难、政策宣传难、政策申报难、政策统计繁等问题。基于NLP、知识图谱、大模型技术,构建融合政策、法规、公文、解读、机构、主题等要素构建全域政策关系网络知识图谱,将经验/知识转换为规则政策。政策公文语义搜索、文档解析信息抽取、政
85、策文本关联技术水务政策知识平台(知文智用)智能提供政策语义搜索、公文标引、智能审核等应用,实现公文辅助写作,公文写作联想,相关插件可集成WPS等办公软件,支持公文初稿拟制、河长制日报周报、预警事件处置报告、应急预案等多种文体的自动生成。场景二:水务政策公文服务11.水务行业实践案例:基于大模型和知识图谱的智慧水利知识平台中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院11.水务行业实践案例:基于大模型和知识图谱的智慧水利知识平台场景三:基于大模型的数字孪生水利防洪推演预测系统
86、行业需求:山洪流域防洪需要:精准的预报预测分析、预警消息及时触发并发布、水利应用场景仿真推演、应急预案快速形成并择优。关键技术:水利数据演算分析技术、基于仿真引擎及可视化模型双向渲染技术、数字孪生提升效果:结合大模型技术驱动水利防洪,实现山洪“四预”解决方案:利用大模型技术驱动水利行业专项业务更精准的预报预测分析,结合数字孪生场景实现水利工程实体及单元部件预警消息的空间关联绑定及消息查看,结合大模型技术实现基于仿真引擎及可视化模型双向渲染驱动下的数字孪生水利应用场景仿真推演,基于场景预演结果,实现以知识平台驱动下的调度方案推送,辅助最优预案决策。精准超前预报快速直达预警前瞻科学预演细化实化预案
87、中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院第六章中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院1.基于知识图谱与大模型的融合,实现知识图谱的自动构建、架构动态拓展与自动运维。2.通过知识图谱与大模型的融合,降低对算力、存储等资源的需求,优化运行效率。3.利用知识图谱与大模型的融合,提升知识更新效率。4.通过知识图谱与大模型的融合,实现行业大模型的高效
88、构建。5.基于知识图谱的结构化知识与逻辑推理能力,增强大模型的可解释性与推理能力。6.基于知识图谱增强的大模型,优化解决不确定性问题,提升决策的准确性和效率。0102知知识识图图谱谱与与大大模模型型的的应应用用和和安安全全保保障障知知识识图图谱谱与与大大模模型型的的增增强强和和效效能能提提升升1.利用知识图谱与大模型的融合,实现对复杂业务场景的深度理解和精准响应。2.通过大模型与知识图谱的构建及融合,实现更广泛的多模态应用。3.利用知识图谱增强的大模型,实现内容的自动化审查机制。4.通过知识图谱与大模型的融合应用,实现面向特定领域的安全保障机制。技术挑战中国电子技术标准化研究院中国电子技术标准
89、化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院发展展望1.建议围绕大模型,加大建设投入与政策保障,纳入国家新型基础设施;2.建议针对大模型,建立国家级的研发中心/基地,提供公开的计算资源、研发资源等,推动中小企业开展研发工作;3.建议围绕知识图谱和大模型融合的数据安全、隐私保护、知识产权保护、伦理等,完善相关法规;4.建议从政策层面,针对国产大模型,开展研发与推广应用的支持。1.建议针对产业需求,开展知识增强大模型的建设,以促进大模型的产业应用;2.建议围绕大模型与知识图谱融合应用,开展行业数据库的打造;3.建议
90、根据产业需求,开展开源训练数据集和知识图谱的建设。1.建议围绕互操作、数据传输与共享、计算资源等技术领域,开展通用标准制订工作;2.建议针对行业应用需求,开展行业标准规范的制订工作。中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院2知 识 图 谱 产 业 推 进 方 阵 简 介知 识 图 谱 标 准 化 工 作 组 简 介1全国信标委人工智能分委会知识图谱工作组及IEEE知识图谱标准化工作组,由中国电子技术标准化研究院牵头,联合知识图谱相关企事业单位、研究院所、高校、机构,旨
91、在运用标准化的理念、方法和技术梳理分析知识图谱领域核心标准化需求,共同推动知识图谱关键标准的研制等工作,支撑知识图谱技术的高质量推广与应用。工作组现有清华大学、阿里巴巴、联想、华为、百度、腾讯、东软、蚂蚁科技、依图等70余家知识图谱领域相关单位共同参与标准编制工作。目前,已发布GB/T 42131-2022人工智能 知识图谱技术框架等国家标准、IEEE标准3项,在研标准10项。知识图谱产业推进方阵旨在培育和壮大知识图谱领域供应商、集成商、服务商与用户企业,以标准化为纽带,共同促进知识要素在各行业领域的挖掘、富集、流动和应用,推动构建跨行业、跨领域的知识挖掘与应用服务新型基础设施。方阵成员包括理
92、事长单位、成员单位,并设置轮值主席、专家委员会、秘书处及必要的工作组。方阵将通过供需对接、诊断评估、测试认证、标准宣贯、教育培训、知识交换协议开发等手段服务产业,不定期开展技术沙龙、案例征集、成果发布、专题竞赛、产业峰会等活动,推动知识图谱的技术创新和产业深化应用。请有意向的单位填写方阵成员单位申请表提交至,经秘书处形式审核及理事长会议审议通过后,将颁发成员单位证书。申请表下载链接如下:https:/ 42131-2022人工智能 知识图谱技术框架等系列国家标准和团体标准,中国电子技术标准化研究院联合北京赛西认证公 司 等 4 0 余 家 单 位 研 制 了 知 识 图 谱 构 建 平 台 认
93、 证 技 术 规 范 、知识图谱应用平台认证技术规范等基础知识图谱产品认证技术规 范,并 研 制 了 金 融 领 域 知 识 图 谱 构 建 能 力 认 证 技 术 规 范 、医疗领域知识图谱应用能力认证技术规范等领域知识图谱认证技术规范,共设置300余项测评指标。现已有联想、华为、百度、蚂蚁科技、清华大学、中国医学科学院医学信息研究所、科大讯飞等30余家单位的知识图谱系统通过首批、第二批和第三批基础知识图谱产品认证,首批医疗领域知识图谱产品认证。获批使用的认证标识如下:序号 标准类型标准名称状态1国际标准ISO/IEC DIS 5392Information technology Artif
94、icial intelligence Reference architecture of knowledge engineering信息技术 人工智能 知识工程参考架构在研2国家标准人工智能 知识图谱技术框架国家标准号:GB/T 42131-2022已发布3IEEE标准Framework of Knowledge Graphs知识图谱架构IEEE标准号:IEEE Std 2807-2022已发布4IEEE标准Standard for Technical Requirements and Evaluating Knowledge Graphs知识图谱技术要求及测试评估规范 项目号:P2807.1
95、在研5IEEE标准Guide for Application of Knowledge Graphs for Financial Services金融服务领域知识图谱应用指南 项目号:P2807.2已冻结6IEEE标准Guide for Electric-Power-Oriented Knowledge Graph面向电力行业的知识图谱指南IEEE标准号:IEEE Std 2807.3-2022已发布7IEEE标准Guide for Scientific Knowledge Graphs科技知识图谱指南项目号:P2807.4在研8IEEE标准Guide for Medical Clinical
96、 Diagnosis and Treatment Oriented Knowledge Graphs面向临床诊疗的知识图谱指南项目号:P2807.5在研9IEEE标准Guide for Open domain Knowledge Graph Publishing and Crowdsourcing Service开放域知识图谱发布与众包服务指南项目号:P2807.7在研10IEEE标准Standard for knowledge exchange and fusion protocol among knowledge graphs知识图谱间知识交换与融合协议项目号:P2807.8在研11团体标
97、准人工智能 知识图谱 分类分级规范项目号:CESA-2020-019在研12团体标准人工智能 知识图谱 性能评估与测试规范项目号:CESA-2020-020在研13团体标准人工智能 医疗知识图谱 构建要求项目号:CESA-2023-023在研14团体标准人工智能 医疗知识图谱 测试评估要求项目号:CESA-2023-024在研15白皮书知识图谱标准化白皮书已发布16案例集知识图谱赋能疫情防控与复工复产案例集已发布17案例集认知智能时代:知识图谱实践案例集已发布18白皮书知识图谱选型与实施指南已发布19白皮书知识图谱互联互通白皮书已发布20研究报告知识图谱与大模型融合实践研究报告已发布基础知识图谱产品测评与认证介绍:https:/ 系 人:李瑞琪联系方式:电子邮箱:中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院