《知识图谱产业推进方阵:2023知识图谱互联互通白皮书(334页).pdf》由会员分享,可在线阅读,更多相关《知识图谱产业推进方阵:2023知识图谱互联互通白皮书(334页).pdf(334页珍藏版)》请在三个皮匠报告上搜索。
1、?I目 录目 录前 言.IV第一章 知识图谱互联互通的背景.1一、技术层面.1(一)基础共性技术问题.1(二)行业应用技术问题.3二、产业层面.6三、政策层面.11(一)国际层面.11(二)国家层面.17(三)行业政策层面.23第二章 知识图谱互联互通的内涵与外延.27一、知识图谱互联互通的内涵.27(一)定义.27(二)知识图谱互联互通互操作等级.31二、知识图谱互联互通的外延.33(一)存在的利益相关方.33(二)潜在的影响.35第三章 知识图谱互联互通的任务与约束.39一、互联互通的模式.39二、互联互通的活动构成.41(一)活动流程框架.41(二)任务流构成.42三、互联互通的质量评估
2、维度.45四、互联互通的实现类型.46五、互联互通约束条件.50(一)技术层面约束条件.50(二)非技术层面约束条件.53第四章 知识图谱互联互通的典型应用场景.56一、知识融合与计算.56二、知识联合检索.61三、知识发现.66四、知识生成.73五、综合应用服务.79第五章 知识图谱互联互通的实践案例.91第六章 互联互通的难点与挑战.93第七章 知识图谱互联互通的统一架构.108一、知识图谱互联互通架构.108(一)互联互通交互模型.108(二)互联互通逻辑架构.113II(三)知识消息描述与处理框架.115二、知识图谱互联互通安全保障.128第八章 面向知识图谱互联互通的知识表示框架.1
3、32一、整体表示框架.132二、知识表示规范化.133(一)概念模型.133(二)实体模型.134(三)事件模型.135三、谓词表示规范化.135(一)谓词框架.136(二)实体谓词规范化.136(三)谓词结构规范化.137(四)谓词语义规范化.137四、知识交换格式表示规范化.137第九章 面向知识图谱互联互通的本体模型注册流程.142一、本体涵义及其分类.142二、本体构建工具.142三、本体模型构建流程.143四、开放本体模型注册流程.145(一)总体原则.145(二)注册流程.146(三)注册平台结构.147(四)本体模型实例.148第十章 基于知识图谱互联互通的知识融合与知识计算流程
4、.150一、基于互联互通的知识融合流程.150(一)知识融合分类.150(二)知识融合流程.151二、基于互联互通的知识联合查询/计算流程.153(一)概述.153(二)知识联合查询/计算流程.154(三)任务构成.155第十一章 展望与建议.159一、技术发展展望.159(一)知识图谱互联互通支持大规模预训练模型的发展.159(二)知识图谱互联互通支持智能问答/对话的发展.166(三)知识图谱互联互通支持智能内容生成的发展.169(四)知识图谱互联互通支持智能推荐的发展.172二、政策支持建议.175(一)国家政策支持.175(二)行业政策支持.177三、标准化需求建议.178四、产业推广措
5、施建议.179III附录 A:知识消息编码示例.182一、基于段的知识消息编码.182二、基于 XML 的知识消息编码.183附录 B:知识图谱互联互通的实践案例详情.187一、智慧纪检:知识共享实践案例.187二、智慧纪检:知识关联分析实践案例.192三、智慧金融:反洗钱实践案例.198四、智慧金融:声誉风险金融知识融合实践案例.202五、智慧金融:金融领域知识图谱数据和服务融合案例.208六、智能金融:新一代银行知识管理系统.214七、智慧金融:金融机构客户尽职调查.222八、智慧能源:油气勘探开发知识中心.230九、智慧医疗:共享平台实践案例.238十、智慧医疗:智能医保审核实践案例.2
6、49十一、智慧医疗:基于知识图谱的医药智能知识平台.254十二、智能通信:知识共享实践案例.259十三、智慧情报:智慧情报知识图谱互联互通实践案例.266十四、智慧情报:科技情报智能分析与监测实践案例.269十五、智慧汽车:智能售后服务实践案例.280十六、智慧能源:电力设备缺陷知识图谱知识共享实践案例.285十七、算力:服务器智能运维知识互联互通实践案例.293十八、智慧家居:家电知识互联互通实践案例.301十九、智慧城市:新型基础测绘知识图谱互联互通实践案例.309二十、轨道交通:智能运维知识互联互通实践案例.313IV前 言前 言尊敬的读者:我们很高兴向您介绍知识图谱互联互通白皮书。本白
7、皮书旨在探讨知识图谱互联互通的重要性和实现方法,以及它对于推动人工智能技术发展和应用的意义。知识图谱是人工智能技术的重要组成部分,它是将各种数据和信息进行结构化、标准化、语义化处理后形成的一种知识表示形式。知识图谱的建立和应用可以帮助我们更好地理解和利用数据,从而推动人工智能技术的发展和应用。然而,由于不同领域、不同机构、不同国家之间的数据格式、标准、语义等方面存在差异,知识图谱之间的互联互通面临着很大的挑战。本白皮书旨在探讨这些挑战,并提出了一些实现知识图谱互联互通的方法和建议。我们希望,本白皮书能够为各位读者提供有价值的思路和启示,推动知识图谱互联互通的实现,进一步促进人工智能技术的发展和
8、应用。祝愿您阅读愉快!知识图谱互联互通白皮书编写组知识图谱互联互通白皮书编写组注:该前言由 ChatGPT 生成。由于知识图谱技术发展迅速,白皮书编制时间和注:该前言由 ChatGPT 生成。由于知识图谱技术发展迅速,白皮书编制时间和作者学识限制,恐有纰漏或不严谨之处,敬请谅解和批评指正。作者学识限制,恐有纰漏或不严谨之处,敬请谅解和批评指正。V编写组成员编写组成员单位名称参编人员中国电子技术标准化研究院郭楠、韩丽、李瑞琪、李湘、胡成林、陈艳利东软集团股份有限公司、沈阳东软智能医疗科技研究院有限公司王伟光、汤一凡、赵耕弘、蔡巍深圳市矽赫科技有限公司洪鹏达、洪宝璇、林叠守蚂蚁科技集团股份有限公司
9、郭智慧、梁磊、周俊、廖博森郑州中业科技股份有限公司李介、张恒星、刘向宇网智天元科技集团股份有限公司贾承斌、艾青中国医学科学院生物医学工程研究所蒲江波、姚博、李婷北京智通云联科技有限公司高艳、谭培波、张学龙北京京航计算通讯研究所宋明艳、马静、白洋、姚帅中电科大数据研究院有限公司曹扬、王华、蔡惠民、闫盈盈、熊子奇华为云计算技术有限公司薛海威、周玉晶、金斌斌中译语通科技股份有限公司陈自岩、程国艮、彭旋中国电力科学研究院有限公司马震媛、张英强、何可嘉、谈元鹏中国电子科技集团公司第十研究所崔莹、代翔中国兵工物资集团有限公司吴波、张烜通深圳工业总会黄永衡中国电子科技集团公司第二十八研究所严红上海合合信息科
10、技股份有限公司徐升上海市人工智能行业协会王逸浩、陈曦、钟俊浩中国医学科学院医学信息研究所李姣、吴萌星环信息科技(上海)股份有限公司伊人、杨一帆、唐剑飞、夏正勋河北大学张彬北京中企智造科技有限公司蔡志伟、张燕南京航空航天大学周福辉、袁璐广州拓尔思大数据有限公司马谅、岳松深圳市洲明科技股份有限公司白莹杰富泰华工业(深圳)有限公司张学琴、史喆浙江创邻科技有限公司周研、马超昆明市儿童医院刘晓梅、敖凌翔北京海致星图科技有限公司杨娟、邵伯仲、熊蕙国际商业机器(中国)有限公司(IBM)程海旭、陈栋、孙腾北京大学医学信息学中心于娜、李毅泰瑞数创科技(北京)股份有限公司刘俊伟、王金兰、罗伊莎浙商银行股份有限公司
11、陈嘉俊、钟礼斌、汪雷领美的集团(上海)有限公司牟小峰、蔡亚森重庆警察学院刘彦飞云知声智能科技股份有限公司史亚飞、刘升平北京文因互联科技有限公司张玉洁、余姗、段文静、贺余龙超聚变数字技术有限公司吴施楷、梁永贵VI同方知网数字出版技术股份有限公司尹青云、刘剑兰海乂知信息科技(南京)有限公司胡芳槐、李一斌南瑞集团有限公司高若寒、于聪、张万才、施雨、石超中国南方电网有限责任公司超高压输电公司李强达观数据有限公司王文广、贺梦洁暗链科技(深圳)有限公司吴刚、蔺静茹深圳思谋信息科技有限公司刘枢、张驰、陈鹏光嘉信达资产管理有限公司吴凯棋、童庆广州柏视医疗科技有限公司颜子夜绿盟科技集团股份有限公司袁军、顾杜鹃中
12、电莱斯信息系统有限公司宋文韬山东亿云信息技术有限公司李成梁各章节编辑:各章节编辑:第一章中国医学科学院生物医学工程研究所 蒲江波第二章郑州中业科技股份有限公司 李介第三章北京京航计算通讯研究所 马静第四章北京中企智造科技有限公司 张燕第五章深圳市矽赫科技有限公司 洪鹏达、洪宝璇第六章中国电力科学研究院有限公司 马震媛、张英强第七章沈阳东软智能医疗科技研究院有限公司 王伟光第八章蚂蚁科技集团股份有限公司 郭智慧第九章中电科大数据研究院有限公司 闫盈盈第十章华为云计算技术有限公司 薛海威第十一章网智天元科技集团股份有限公司 贾承斌附录深圳市矽赫科技有限公司 洪鹏达、洪宝璇星环信息科技(上海)股份有
13、限公司 唐剑飞之江实验室王海涛1知识图谱互联互通知识图谱互联互通第一章 知识图谱互联互通的背景第一章 知识图谱互联互通的背景一、技术层面一、技术层面(一)基础共性技术问题(一)基础共性技术问题1、知识多样性1、知识多样性知识资源是通过智力劳动发现和创造的,进入经济系统的人类知识。现今,知识已经成为社会变革的核心。每个人的发展、组织结构和形态的变化、社会生活方式,甚至包括人们的价值观念,都需要从工业时代机械的方式向有利于知识潜力的开发方式转变。知识不等同于信息,而是从噪音中分拣出来数据,转化为信息,升级为知识。这是信息从无序到有序的管理和分类过程1(图 1-1)。在广义上,数据要素包括知识资产和
14、知识要素等,在数据驱动时代,数据要素的价值越来越被重视。通过收集、存储和分析数据,可以发现其中的模式、趋势和关联性,进而提取知识并应用于实际问题中。知识资产和知识要素在数据中扮演着重要的角色,帮助组织和个人做出更明智的决策,创造更大的价值。图 1-1 从数据到智慧的层次等级知识资源的类型多种多样,涵盖多个行业、领域并体现了学科间的交叉融合。其中,显性知识是可以明确、清晰地表达和传递的知识,它是形式化和结构化的,易于记录、编码和共享的知识形式,通常以文字、图像、音频、视频等可见或可感知的形式存在。显性知识可以通过书籍、1叶继元,成颖.情报的概念及其与信息链、DIKW 链的关系探讨J.中国图书馆学
15、报,2022,48(04):39-51.第 一 章 知 识 图 谱 互 联 互 通 的 背 景第 一 章 知 识 图 谱 互 联 互 通 的 背 景2文件、数据库、培训课程等形式进行传递。科学原理、法律条款、技术规范等都属于显性知识。这种知识相对容易被传递和学习,可以通过教育和培训来获取。与显性知识相对,隐性知识往往是直觉性的、难以定义的、主要基于经验的知识,是个人经验、洞察、直觉、技能和专业知识的一部分,通常是非结构化的、内化于个人思维和行动方式中的知识。隐性知识难以用语言或符号直接表达。例如,骑自行车、游泳、驾驶汽车等技能都属于隐性知识。转换隐性知识为显性知识的过程称为知识转移或外显化。显
16、性知识和隐性知识相互依存,共同构成了知识的完整体系。合理管理和整合这两种知识类型对于组织和个人的发展和竞争力提升至关重要。在企业的发展过程中,涉及到各种不同类型和不同模态的知识,包括业务系统数据、公司制度文档、合同文档、标准规范等。这些知识在组织内部以及与外部环境的互动中起着关键作用。然而,随着企业发展,这些知识不断增加,对知识管理提出了挑战。另外,这些知识往往分散在不同的地点和业务系统中,没有进行有效的挖掘和关联,降低了知识的可利用价值。这导致了知识的孤立和碎片化,使得企业无法充分利用这些宝贵的资源。因此,有效的知识管理变得至关重要。它涉及对知识进行收集、整理、存储、分析和共享的过程。通过建
17、立知识管理系统,企业可以将分散的知识整合起来,建立知识库或知识图谱,以便更好地组织和查找知识,提高知识的可访问性和可利用性,促进跨部门和跨系统的知识共享和合作。同时,采用技术手段如数据挖掘、自然语言处理和人工智能等,可帮助企业发现隐藏在大量数据和文档中的知识,提供洞察和决策支持。通过实施知识管理,企业可以更好地利用各种类型和模态的知识,加强内部的学习和创新能力,适应快速变化的商业环境,提高竞争力。2、知识适用性2、知识适用性3知识图谱互联互通知识图谱互联互通知识是在具体场景下的应用,知识不一定放之四海皆准。适用性是指知识在不同场景和情境中的适用能力。适用性是依赖于领域的,适用性越高的知识信息能
18、得到越广泛的应用。知识图谱帮助企业自动构建行业图谱,摆脱原始的人工输入,可以应用于智能搜索、文本分析、机器阅读理解、异常监控、风险控制等场景,达到真正的智能和自动2。3、知识归一化3、知识归一化为了实现知识体系的互联互通,需要对多种渠道来源和不同行业领域的知识进行归一化。知识的归一化是指通过汇聚、组织和融合有效资源,使用匹配规则或相似度等方式对不同信息进行对齐。这可以通过建立信息名称库来实现,将抽取的信息统一对应到库中,并统一表述方式。归一化的主要原因是知识库中存在实体的同义词、同义异形、简写、缩写等情况,而实体归一化后,具有相同或相近意义的实体将映射为知识库中的统一实体。实现语义的互操作性是
19、知识体系互联互通的另一个关键。这意味着通过使用一套通用标准,各个系统能够自主交换和整合具有普遍意义的数据。在语义化的过程中,数据被赋予了一种正规的通用表示方法,使其能够描述自身的含义。数据的消费者可以通过查找特定的词汇表来从数据中获取真正的含义。这些通用的表示方法主要围绕知识图谱展开,包括本体、RDF(资源描述框架)和语义图等。通过归一化和语义互操作性,不同来源和领域的知识可以更好地交流、整合和共享,从而促进知识的传播和创新。这为企业和组织提供了更广阔的知识基础,加强了合作和决策的基础,推动了业务发展和创新的进程。(二)行业应用技术问题(二)行业应用技术问题1、知识孤岛1、知识孤岛知识孤岛是指
20、在组织中由于信息资源得不到有效的交叉融合,知识2金岩.网络信息计量学方法研究D.中国科学院文献情报中心,2001.第 一 章 知 识 图 谱 互 联 互 通 的 背 景第 一 章 知 识 图 谱 互 联 互 通 的 背 景4板块之间相互割裂而形成的无序状态,仿佛大海中的一个个“孤岛”。在我国,当前存在许多“知识孤岛”的现象。社会中知识共享性、知识扩散性、知识传播性、技术扩散性和网络创新性都不发达,部门所有、地方所有、单位所有、条块分割、各自为战,“创造”了一个个“科研知识孤岛”、“产业群知识孤岛”和“企业知识孤岛”等。大学虽然知识丰富,却同当地经济、企业联系不强,以基础性知识文化传播为主,校企
21、合作性差,知识产业化水平低。行业之间、机构之间和部门之间或多或少存在着信息和知识孤岛,而知识孤岛直接导致机构整体利益受损、效率低下、透明度差和资源浪费。在市场经济中,企业要适应市场的变化,快速调整战略并采取协调行动,必须具备有较高透明度的知识交流系统。面对知识孤岛所造成的瓶颈,必须实现知识关联:通过知识求助和协作,整合来自组织内外的专家经验和最佳实践等,实现知识互联互通。然而,大多数企业的数据信息往往只停留在归档整理阶段,未能得到充分的挖掘和利用。孤岛现象是企业和政府部门在信息化、数字化发展过程中普遍存在的,通常可分为物理性和逻辑性两种形式。物理性的孤岛指的是数据在不同部门之间相互独立存储和维
22、护,彼此之间缺乏互联互通,形成了物理上的隔离。逻辑性的数据孤岛则是指不同部门从各自的角度理解和定义数据,导致相同的数据被赋予不同的含义,增加了跨部门数据合作的沟通成本。在许多传统行业中,专家经验传承通常仅限于口述传递,未能有效沉淀。而员工离职、调动往往会导致专家经验和企业专业知识的中断或缺失。此外,企业员工普遍缺乏知识共享意识,文档和案例难以有效传递,知识难以被有效复用,进一步形成了知识孤岛。随着企业的不断发展壮大,档案资料不断膨胀,相关数据未能及时更新,进一步加剧了孤岛效应。解决数据孤岛问题需要企业采取积极的措施。这包括建立统一的数5知识图谱互联互通知识图谱互联互通据管理平台,促进部门间的数
23、据共享和协作,制定统一的数据标准和定义,以及推行知识共享文化,鼓励员工之间的交流和合作。同时,利用先进的技术工具,如数据挖掘和人工智能,可以帮助企业发现和利用数据中的潜在价值。通过打破数据孤岛,企业可以更好地利用自身的信息资源,加强内部协同和创新能力,提高决策的准确性和效率,从而在竞争激烈的市场中获得竞争优势。2、知识标准化2、知识标准化标准化的目的是为了在既定范围内实现最佳秩序,促进共同效益,并确立共同使用和重复使用条款以及编制、发布和应用文件的活动。随着知识经济时代的到来,知识管理的重要性和复杂性不断增加,如何有效地促进不同行业和部门之间的知识共享成为知识管理的核心主题和目标。知识管理的目
24、标在于实现知识的共享和创新,因为只有通过共享,知识才能不断创新,产生更大的价值。在知识共享的过程中,知识体系向着标准化的方向发展。标准化在知识管理中具有重要作用。知识图谱是一种将知识以图形结构的形式进行建模和表示的方法。它通过连接不同的知识元素,形成一个网络,使得知识之间的关系和联系得以清晰展现。通过标准化的方法,可以对知识图谱中的知识进行统一的表示、分类和交互,从而实现不同行业、不同部门之间的知识互联互通。标准化可以确保知识的一致性和可共享性。通过制定统一的标准,不同的组织和个体可以使用相同的语义和结构来表示和交流知识。这样,知识图谱中的知识可以在不同系统和平台之间无缝地共享和集成,避免了信
25、息孤岛和数据隔离的问题。此外,标准化还有助于推动知识创新和发现。通过建立共享的知识标准,不同行业和部门之间可以更加便捷地发现和利用彼此的知识,促进知识的交叉融合和创新。标准化还可以促进知识的持续更新和演化,使得知识体系能够与时俱进,适应不断变化的环境。第 一 章 知 识 图 谱 互 联 互 通 的 背 景第 一 章 知 识 图 谱 互 联 互 通 的 背 景6因此,通过知识图谱的标准化互联互通,可以实现知识共享、知识创新和知识持续发展。这将为组织和行业带来更高效的知识管理和创新能力,推动知识经济的持续发展。为了实现知识互联互通和广泛共享,需要通过制定和遵守统一的标准,使不同组织和部门之间的知识
26、能够实现一致地表示和交流,消除语义差异和沟通障碍,加强知识的互通性和可理解性,促进知识的共享和合作,提高整体效率和协同能力并充分发挥知识的作用。二、产业层面二、产业层面图 1-2 知识图谱互联互通在产业层面的作用(一)知识图谱互联互通推动知识服务生态建设(一)知识图谱互联互通推动知识服务生态建设知识服务生态系统是一种以移动互联网和社交网络为技术基础,由知识服务商和学习型社群共同组成的知识传播系统。大数据时代每天产生海量数据,用户的需求更趋于个性化、定制化以及扁平化,需要构建开放的知识服务生态,以平台化、网络化、协同化模式,实现数据发布,知识共享,知识发现,思想交流,成果管理及情报分析的集成服务
27、。目前,我国知识服务生态存在知识供给与需求不平衡的问题,主要体现在:一是特色数据、专题数据、科研实体知识资源无法快速供给;二是面对7知识图谱互联互通知识图谱互联互通专题等不同特征的知识需求时,仍然以人工为主开展数据源遴选、数据收集、数据分析、报告撰写,导致知识服务响应速度慢,可以处理的任务非常有限。知识服务商作为知识服务生态的重要组成要素,其自身知识处理、计算能力,以及跨服务商/服务平台之间缺乏互联互通是导致上述问题的主要原因之一。知识图谱的互联互通,将对开放智慧知识服务生态建设起到积极作用。目前,一些专业出版机构借助数据优势,利用知识图谱、深度学习等技术进行数据增值,推出了新型知识服务,已初
28、见成效。一方面,通过知识图谱互联互通实现更多更广泛的连接,更多更广泛的连接意味着更多的数据和知识。这是服务智能化和组织智慧化的基础。知识库不应是一个封闭的孤岛系统,不应是一个简单的导入和分析处理的文件系统,而应该是开放的知识服务平台,动态地连接所有产生数据和信息的来源并形成不断自演变的知识生态,如医学知识与化学、生物等领域的知识连接,形成跨领域的知识服务,为医学研究和诊疗提供更广泛的支持。另一方面,基于知识图谱的互联互通,形成融合的语义网络,不仅有助于更多数据和信息的采集,而且可以充分挖掘、利用、共享知识,从而实现价值创造和传递,形成更具有竞争力和创新性的知识产品和服务,从而更好地推动知识服务
29、生态建设。(二)知识图谱互联互通推动知识成果共享(二)知识图谱互联互通推动知识成果共享传统意义上的知识共享,一般是指在一个机构内部,成员彼此之间相互交流,使自身的知识由个人的层次提升总结到组织结构的层次,形成一套组织内部的知识系统;而广义上的知识共享是指场合不局限地产生知识流动与交互的过程。知识共享是由社会文化、组织架构、经济博弈学和 IT 技术等因素共同影响的社会活动。不同的组织架构下知识共享的方式不同,同时经济博弈的方式以及进行知识分享的技术手段也随之不同。知识共享的方式可以分为两种:编码化方法和个人化方法。编码化第 一 章 知 识 图 谱 互 联 互 通 的 背 景第 一 章 知 识 图
30、 谱 互 联 互 通 的 背 景8方法指个人的知识通过一定的管理规则或者方式复制为显式易管理的表现方式。在组织内部,将经过统一格式化的知识进一步整合为工作流程或者以内部知识库的形式进行表现。这种方法其实就是将不同的个人知识通过信息化手段标准化,以便更好的存储以及后续的管理。知识图谱作为知识共享的一种技术,在组织架构和社会文化确定的情况下,是知识共享过程中极为重要的手段。特别是知识图谱的互联互通,也为同一组织、跨组织,乃至全行业、全社会的知识共享提供助力。个人化方法是某种知识的拥有者将自己的知识通过点对点方式传播或者分享给没有掌握该项知识的个人或组织,也就是人与人之间的直接交流。其中,移动互联网
31、上碎片化的知识的组织共享是一个重要议题。移动互联网的发展带来了多源数据的爆发式增长,加快了知识的传播与应用,其中,用户生成内容(user-generated content,UGC)作为一类典型的大数据,正在成为人们获取知识的重要来源。然而,UGC 中的知识大多以碎片化知识形式存在,人们虽然可以容易地获取或者传播知识,但知识碎片化导致知识资源零碎、知识迭代速度快且缺乏权威验证,不利于学习者搭建合理的知识框架以及开展深度学习。UGC 平台内完整知识体系的形成得益于用户个体进行知识共享的过程,源于平台中个体的知识贡献。用户个体拥有的知识经过个体在平台中的交互行为进行知识的互动,这种互动不仅能够实现
32、知识的共享,也有利于平台知识体系的完善,最终通过用户个体共同建立的知识体系,以系统推荐的方式反馈给平台用户,促进用户个体知识的提升。由此可见,完整知识体系的形成是基于个体知识的整合,这一过程可以用知识图谱进行可视化表示,首先是通过对个体知识集进行知识挖掘,收集包含个体智慧的碎片化知识点,并构建这些知识点之间的关联关系,由此形成个体知识图谱。然后对个体知识图谱集合采用有效的融合策略进行知识整合,形成具有群体智慧的知识图谱。9知识图谱互联互通知识图谱互联互通(三)知识图谱互联互通推动知识价值变现(三)知识图谱互联互通推动知识价值变现随着知识共享 3.0 时代的到来,人们的知识价值意识越来越强,对知
33、识需求的一次性消费也逐渐转向长期消费。这种知识消费方式的转变,开启了知识付费新纪元。目前,知识拥有者的知识价值意识普遍增强,将知识集中到统一的大数据平台变得越来越难以实现,比如医疗数据这种具有独立隐私特性的领域知识。在此背景下,知识图谱间互通互联,结合区块链等技术结合起来形成的一种去中心化思想,为目前中心化系统对数据的组织维护成本高以及数据安全方面一损俱损的现状提供解决思路,特别是对具有知识保密性且需要实现有偿共享的领域知识研究具有重大意义。与此同时,随着知识付费行业地不断发展,各种前沿技术也不断在知识付费行业落地应用,不仅知识产品形态、载体以及应用场景发生变化,知识付费平台的生态建设、运营方
34、式也随之发生变化。知识图谱及其互联互通在知识付费产业中应用,不仅可以提供更加精准地供需匹配,提高改善知识的整体管理效率,减少重复性工作,在智能运营方面发挥作用;而且可以融合不同知识载体,丰富、深化知识服务内容和形式,促进知识创新,带来更高的知识价值,进一步扩大市场。(四)知识图谱互联互通推动知识资产计量与管理(四)知识图谱互联互通推动知识资产计量与管理知识资产是企业的核心资产,但企业往往面临知识标准不一致、知识安全没保障、知识应用难协调、知识集成打不通等一系列问题,阻碍了知识价值的发挥。以知识图谱,及其互联互通为技术基础开展知识治理,建立以业务应用为目标的知识管理体系,对进行知识资产计量与管理
35、的有积极作用。首先,在企业知识管理体系建设中,开展知识资源盘点,建立知识资产目录往往是基础。但经常遇到企业建了知识资产目录却应用不好的情况,其中很重要的一个原因是元数据的业务属性维护不全面或者不完第 一 章 知 识 图 谱 互 联 互 通 的 背 景第 一 章 知 识 图 谱 互 联 互 通 的 背 景10整,影响业务应用效果。基于知识图谱及其互联互通的资产目录的建立,则可以实现知识资源的智能搜索、可视化展示,并提升集成服务能力,一方面可以盘活企业知识资产,明确当前分布情况和资产质量,同时还能帮助企业识别潜在的知识资产,提高知识资产的完备性和准确性;另一方面也可以作为一种语义层抽象,用于驱动整
36、个企业知识资产的加工处理过程。与此同时,知识资源要成为知识资产应具备可审计性和可跟踪性。可审计性解决知识的产权问题;可跟踪性了解知识资产是如何在企业内部流动。企业的知识资产不仅包括通过数据挖掘获得的知识、人的隐性知识,而且也有模型、算法、程序、服务和产品等,这些知识资产之间形成了多种多样的依赖关系,基于知识图谱互联互通,可以理清知识间的血缘关系和影响关系,同时透视知识间的计算逻辑和业务逻辑,为后续的知识协同创新及知识资产变现打下坚实的基础。(五)知识图谱互联互通推动知识服务新模式/新业态建设(五)知识图谱互联互通推动知识服务新模式/新业态建设知识服务的本质是基于海量的、权威的、系统的科技内容资
37、源,通过对内容资源的碎片化、标引、语义关联、深度挖掘和统计分析,为科研用户提供面向科研立项、文献检索分析、实验模拟、文献撰写与成果发表、学术传播交流、生涯评价等整个科研生命周期的多元化、立体化、定制化服务。在智能化的助力下知识服务将呈现出全新的生态模式。它将海量的数据资源变为更具个性、更有价值的知识内容,提供具有交叉性和创新性的知识服务,打造以智能服务为核心的全新模式。基于知识图谱互联互通,在知识服务内容产品、服务产品等方面,均可发展多种更为全面、精准、智能的新模式、新业态。在内容产品创新上,可提供更加定制化的内容购买服务,通过集聚相关内容,建成专业/专题知识库;在服务产品创新上,通过基于知识
38、图谱互联互通的语义关联、知识挖掘等,可以将各类科研内容、信息转化11知识图谱互联互通知识图谱互联互通为针对每个科研个体的科研智能服务,帮助科研工作者确定研究方向,找寻最佳项目,智能推送最需要的文献等。例如标准服务机构,同样可以基于知识图谱互联互通提供更加智能化的标准服务,例如标准检验服务,可自动验证标准的符合性。(六)知识图谱互联互通推动知识服务平台分级评测建设(六)知识图谱互联互通推动知识服务平台分级评测建设随着大数据、人工智能等技术的发展,知识服务平台正在演进到智能化的知识整合、挖掘、计算,并将其直接转化为生产力的新阶段,知识集成共享与智能服务能力也成为评估知识服务平台能力的重要指标。在一
39、些行业领域的知识服务或者数据资源共享平台中,也将其作为重要的考核对象。例如在医疗领域,国家卫生健康标准委员会推进的电子病历系统应用水平分级评价、互联互通标准化测评等,成为主导中国医疗卫生信息化建设应用成效评价的主要标准体系。知识集成与智能服务是知识主体在一定的环境支撑下,根据知识集成的需求,利用合理有效的方法、技术或手段,将相关领域中单一的、分散的、不同层面的知识(即知识客体,包括显性知识和隐性知识),通过主体之间在一定时间、空间里的协同交互,进行知识的融合、重构、集成,并产生新的判断,形成新的知识,为决策提供支撑或引导决策。知识图谱通过对知识的概念、关系和属性进行定义和描述,为知识服务平台的
40、分级评测提供更为科学精细的依据;其互联互通可以从知识资源保障、知识交互共享、知识分析判断、知识协同服务等方面提高知识服务平台的集成共享与智能服务能力。通过对知识图谱互联互通概念、体系架构、实现方式、成熟度等的研究与推广,将有助于推动知识服务平台分级评测建设。三、政策层面三、政策层面(一)国际层面(一)国际层面1、数据的治理与共享变革1、数据的治理与共享变革第 一 章 知 识 图 谱 互 联 互 通 的 背 景第 一 章 知 识 图 谱 互 联 互 通 的 背 景12数据是数字经济的核心组成部分,也是保障绿色和数字转型的重要资源。近年来,人类和机器产生的数据量呈指数级增长。然而,大多数数据未被使
41、用,或者其价值集中在相对少数的大公司手中。低信任水平、相互冲突的经济激励和技术障碍阻碍了数据驱动的创新潜力充分发挥。数据治理是指通过制定政策、规范和流程,确保数据在组织或国家内部得到有效管理和利用的过程。它涉及数据的收集、存储、处理、共享和保护等方面,旨在保障数据质量、隐私保护和合规性。政策制定是数据治理的重要基础。政策层面的变革是确保数据治理能够顺利进行的关键环节。在不同国家和不同阶段,政策层面的重点可能有所不同。以欧盟为例,欧盟于 2018 年 5 月 25 日实施了通用数据保护条例(GDPR),GDPR 强调了个人数据的保护和隐私权利,并对数据处理者和数据控制者施加了更严格的责任和义务。
42、欧盟通过 GDPR 的实施,推动了数据治理的变革过程,重点关注了个人隐私保护和数据使用的合规性。欧盟后续于 2021 年 11 月公布数据治理法案(Data GovernanceAct),2022 年 2 月 23 日正式公布的数据法案(Data Act),不断完善数据共享制度,为数据流转扫清障碍,引导和促进更多的数据利用。从立法宗旨上看,数据法案草案旨在通过促进企业间数据的共享和流通,打破巨头企业对于数据的垄断,从而帮助中小企业获得竞争力。通过该法案,欧盟希望确保在数字经济参与者之间公平地分配数据的价值,并促进对数据的访问和使用,推动个人和企业自愿共享数据,协调某些公共部门数据的使用条件,而
43、不改变数据的实质性权利或已建立的数据访问和使用权限。其明确了从产品和相关服务的使用中获得或产生的数据共享的法律确定性,以及确保数据共享合同公平的操作规则。草案为各领域行业设定数据访问和使用的框架,以解决数据访问和共享的操作问题。草案规定了公共机构获取企业数据的权利。草案对公共机构获取企业数据提出明确的限制,例如仅可在自然灾害、传染病防治等公共紧急情况下才可以要求企业提供数据。草案为行业间重复使用的数13知识图谱互联互通知识图谱互联互通据制定互操作性标准,以消除在特定领域欧洲共享数据的障碍,与行业的互操作性要求保持一致。草案支持为“智能合约”设定标准,使得通过“智能合约”共享数据成为可能。2、数
44、据的机器可读变革2、数据的机器可读变革当前,三大国际标准组织(ISO、IEC、ITU)、欧洲标准化组织(CEN/CENELEC)以及美国、德国、英国、俄罗斯等国家已经启动了机器可读标准的研制和实施工作。其中,国际标准化组织(InternationalOrganization for Standardization,ISO)将数字技术作为要点纳入ISO 2030 战略,在 2018 年成立了 SAG/MRS(机器可读标准战略咨询组),发布了机器可读标准实施路线图,并启动了新型数字化标准项目,以研究与用例、业务模式和支撑技术等相关的内容。此外,ISO 还建立了国际标准在线浏览平台,可检索符号、编码
45、、术语、定义等,并在地理字典、脚本转换系统编码、日历系统编码、标准文件元数据、产品属性数据库等领域开展了试点项目。国际电工委员会(International Electro Technical Commission,IEC)将机器可读标准纳入IEC 总体规划实施方案目标,重组了IEC/SMB SG12 数字化转型战略与系统方法战略组,统筹开展 IEC 及其标准化活动相关的数字化转型工作,开展数字化工作、机器可读标准、语义互操作、系统方法等内容研究;在 IEC 市场战略局(Market StrategyBoard,MSB)已发布语义互操作性:数字化转型时代的挑战白皮书;已建立数据库型式标准平台,
46、可在线制定、发布、维护、下载 IEC 国际标准,并在工业自动化、电力等领域已开展机器可读相关标准制定。国际电信联盟(International Telecommunication Union,ITU)于 2022 年 3 月召开的世界电信标准化全会中确定了 ITU 标准化工作未来的方向,即构建生态系统,包括以 5G 为核心的新的信息通信系统和应用。随着全球 5G 建设步伐加快,垂直行业的 5G 应用不断增多,越来越多的多元化合作伙伴进入国际电信联盟标准化工作中。这些新成员来自能源、第 一 章 知 识 图 谱 互 联 互 通 的 背 景第 一 章 知 识 图 谱 互 联 互 通 的 背 景14公
47、用事业、航运和物流、汽车生产以及人工智能、机器学习、金融科技、OTT 应用程序、区块链和量子通信等技术领域。此外,也有越来越多的初创企业和中小微企业加入了国际电联标准化工作。美国、德国、英国、俄罗斯等发达国家均高度重视标准数字化转型工作,纷纷在其最新的标准化战略及数据战略中聚焦机器可读标准发展标准数字化。ISO/IEC 提出的机器可读标准分为 04 级模型,其中 34 级也被称为“SMART”标准。各级模型的基本解释如下:0 级-纸质格式;1 级-机器可显示格式(如 PDF):可显示或搜索相关内容;2 级-机器可识别文件(如 XML):包含标准文本结构化的内容,可利用软件识别文件结构并执行基本
48、操作;3 级-机器可执行内容(如 eClss 标准):可根据应用场景选择性访问赋有语义的标准内容,可利用应用程序接口(API)对标准内容执行复杂操作;4 级-完全机器可决策标准:机器可以通过复杂的操作方式处理或解析文件。文件中包含表示标准内容及元素之间相互关系的信息模型,可以实现无断点、无歧义的数据流。机器还具备自学习和验证的能力,以及自主询问、应答、预测提供内容的能力。例如,机器可以响应产业链采购、销售环节的需求,并不断优化内容的访问和处理方式。在知识互联互通的过程中,不同级别的模型阶段具有不同的特征和优势。在 0 级模型阶段,纸质格式文档无法满足机器处理的需求,因此难以作为知识互联互通的媒
49、介。在 1 级模型阶段,机器可读的元数据如文件路径和数字化文件名称可以被用作知识互联互通的元素。在 2 级模型阶段,结构化的标准文本字符和可以匹配公共数据字典的数据成为了知识互联互通的元素。在第 3 级模型阶段,标准化的结构化数据和最小的语义单元被视为知识互联互通的元素。在第 4 级模型阶段,标准知识15知识图谱互联互通知识图谱互联互通图谱中的实体和关系被用作知识互联互通的元素,从而实现了更高级别的知识互联互通。3、标准文本数字化变革3、标准文本数字化变革随着数字化技术的迅猛发展,传统领域通过数字化技术赋能正在经历着翻天覆地的变革和新生。相应地,在标准化领域,数字化与标准化工作相结合已成为未来
50、发展的重要议题之一。在此背景下,国际标准化组织纷纷开展相关的研究与实践。(1)IEC国际电工委员会(IEC)积极研究和部署数字化转型的战略和方案。据 IEC 研究成果,标准数字化可以分为五个阶段或层级,详细内容见前面“数据机器可读变革”章节。为实现标准数字化,标准技术内容需要进行结构化并赋予语义。当前,IEC 国际标准处于 2 级模型阶段,为进一步推进数字化转型工作,IEC 局(Board,IB)、市场战略局(MarketStrategy Board,MSB)、标准化管理局(Standardization ManagementBoard,SMB)以及相关技术委员会(Technology Com
51、mittee,TC)等均已制定战略规划并建立相关工作组。其中,IEC 局将“机器可读标准”纳入 IEC 总体规划实施方案目标(Master Planning Implementation Plan,MPIP),IEC 市场战略局发布了语义互操作:数字化转型时代的挑战白皮书,分析了语义信息模型在数字化转型中的重要作用。IEC 标准化管理局已于 2021 年重启 SG12 工作组,并规定其工作范围,为 IEC 提供数字化转型方面的咨询服务和专家知识,并为 IEC 相关工作的研究、交付和使用识别新兴趋势、技术和实践,同时提供协作平台。IEC 技术委员会已在测控及自动化、能源电力等领域优先开展机器可读
52、标准的实践工作,包括数据库形式标准和标准图等。(2)ISOISO 标准数字化转型可划分为两个阶段。第一阶段实施标准标签集(STS),第 二 阶 段 推 进 SMART(Standards Machine Applicable,第 一 章 知 识 图 谱 互 联 互 通 的 背 景第 一 章 知 识 图 谱 互 联 互 通 的 背 景16Readable and Transferable,Working in the System without HumanEffort)标准,实现标准的机器可用、可读、可解析。相关工作主要包括以下方面:1)将“数字技术”作为要点纳入ISO 2030 战略。2)开
53、发 ISO STS,用于定义和规范标准结构、文本、表格、公式、图形、图像、术语、引用等的标记和规则,并改进了 ISO 标准出版系统。3)根据TMB 94/2018 号决议,于 2018 年成立 ISO 机器可读标准战略咨询组(SAG-MRS),旨在研究机器可读标准的定义,并制定 ISO 采用和实施机器可读标准的路线图,将标准由文本格式转换为机器可读格式。该咨询组还制定了 ISO 机器可读标准指南,就机器可读标准的优先工作次序和实施形成一致性意见。4)确定了 6 个 SMART 标准的优先试点项目,涉及地理字典、脚本转换系统编码、日历系统编码、标准文件元数据、产品属性数据库等领域。(3)国家或区
54、域标准化组织各发达国家和地区的标准化组织已开始着手研究和实施新型标准,数字化、开源化和系统化发展迅速。例如,欧洲标准化委员会/欧洲电工委员会(CEN/CENELEC)在其CEN/CENELEC 战略(2030)中提出了让客户从最先进的数字化解决方案中受益的目标,并制定了数字化转型战略计划,在“标准在线协作编写”平台、“未来标准”等方面进行试点工作。德国标准化学会(DIN)和德国电工委员会(DKE)则被视为标准化领域数字变革的催化剂,积极探索开源项目,并有效利用开源技术和方法。俄罗斯在其俄罗斯标准化战略(2019-2027)中明确提出了制定“机器可读标准”的要求,将国家标准转换为“机器可读格式”
55、,并通过自动化系统提供标准文本的创建、编辑和应用,以及在不同系统间交换文本的能力。美国则在无人机系统、5G、商业航天工业、先进材料等 6 个领域开展 SMART 标准研究工作。此外,2018 年美国国际战略研究中心(CSIS)发布的美国机器智能国家战略报告认为,美国政府可以从协调其自身的数据结构和标签标准入手,与企业合作制定标准,17知识图谱互联互通知识图谱互联互通以实现政府与行业之间的数据共享来推动标准数字化工作。英国则开发了新型标准形式 BSI Flex,具有灵活制定、快速迭代、迅速响应市场需求、提供开放性咨询等新型数字化标准特点。4、语义互操作变革(语义通信)4、语义互操作变革(语义通信
56、)IEC 市场战略局(MSB)发布了社会与技术趋势报告,对未来 10 年可能影响 IEC 的新技术、市场和社会趋势进行了梳理和分析。在语义互操作:数字化转型时代的挑战白皮书中,IEC 分析了语义信息模型对于数字化转型的重要作用,强调了标准及其与语义互操作性的关系对于评估机器理解如何工作以及确定如何连接行业相关标准以有效解决上述问题至关重要。近期,IEC/MSB 成立了机器可读/SMART 标准社会与技术趋势报告研究项目,该项目从市场和行业需求角度出发,分析机器可读/SMART 标准的价值链,评估其对产业数字化的影响,调研技术和能力需求,构建新型业务模式。同时,IEC 的部分 TC 在测控及自动
57、化、电力等领域已优先开展机器可读标准的实践项目。ISO/IEC JTC 1/SC 41 正 在 研 制 有 关 语 义 互 操 作 性 的 ISO/IEC21823-3 标准,并已发布 ISO/IEC 21823-1:2019,提供了适用于物联网系统的互操作性概述和物联网系统互操作性框架。各类电工和 ICT 标准化委员会正在联合开展标准化工作,旨在开发基于本体的语义互操作性标准。IEC 在关于语义互操作性的白皮书数字转型时代的挑战中概述了未来标准化的发展方向。(二)国家层面(二)国家层面1、数据资产流转、交易与融合获得关注1、数据资产流转、交易与融合获得关注2020 年 4 月,中共中央、国务
58、院发布了关于构建更加完善的要素市场化配置体制机制的意见,其中将数据与土地、资本、劳动力、技术并列为五大生产要素。这意味着“流转”、“交易”、“融合”将成为数据资产未来的关键词,进而推动数据互联互通的持续发展。第 一 章 知 识 图 谱 互 联 互 通 的 背 景第 一 章 知 识 图 谱 互 联 互 通 的 背 景182021 年 12 月初,工业和信息化部发布的“十四五”大数据产业发展规划提出了加快数据“大体量”汇聚、强化数据“多样性”处理、推动数据“时效性”流动、加强数据“高质量”治理和促进数据“高价值”转化的企业实践方法论,并对大数据服务商提出了加快向专业化、工程化、平台化发展,培育场景
59、化大数据解决方案,推动行业数据资产化、产品化的要求,为数据智能的未来发展指明了方向。政策发布促进了知识图谱互通互联的发展,知识图谱各方将更偏向开放基础设施,打破封闭的知识图谱系统壁垒。知识实体已逐渐成为可复制、可传播、可共享的资产和生产资料,与国家安全、发展密切相关,成为重要资产。从长远看,政策对互联互通进行有效干预,在解决知识图谱封闭化和分裂化的有助于社会稳定和谐。2、数据资产开放与管理获得关注2、数据资产开放与管理获得关注近年来,国家相关部门出台了一系列政策,以鼓励大数据共享、管理和应用方面的建设和发展。其中,中央网信办、发展改革委员会和工业和信息化部于 2018 年 1 月联合印发了公共
60、信息资源开放试点工作方案,将北京市、上海市、浙江省、福建省和贵州省列为公共信息资源开放的试点地区。该政策旨在促进公共信息资源共享,提高信息资源利用效率,推动信息化建设和发展。知识图谱作为大数据融合共享的技术手段,已多次在国家和地方相关政策文件中被提及。例如,“十四五”大数据产业发展规划提出了“探索基于知识图谱的新形态数字教学资源建设”的目标;北京市发布的北京市数字经济全产业链开放行动方案中提出“引导建设基于海量数据信息的知识库、新一代智能化的知识检索和知识图谱服务平台,积极探索基于大数据和人工智能应用的跨学科知识创新和知识生产新模式,全面赋能新药开发、新材料研制、新产品设计等研发活动。”这些政
61、策旨在促进知识图谱技术的应用和发展,促进其在教育、医疗、工业19知识图谱互联互通知识图谱互联互通和其他领域的广泛应用。2020 年 4 月 10 日,中共中央和国务院联合发布了关于构建更加完善的要素市场化配置体制机制的意见。该文件首次将“数据”与传统要素包括土地、劳动力、资本和技术并列为要素之一,强调要加快培育数据要素市场,并要求推进政府数据的开放共享,提升社会数据资源的价值,加强数据资源的整合和安全保护。该文件发布前,国家相关部门已颁布了一系列政策,旨在促进大数据共享、管理和应用方面的建设与发展。例如,2018 年 1 月中央网信办、发展改革委和工业和信息化部联合发布了公共信息资源开放试点工
62、作方案。该方案将北京、上海、贵州等五个地区作为公共信息资源开放试点地区。2021 年 5 月,国家发改委发布了全国一体化大数据中心协同创新体系算力枢纽实施方案。该方案根据绿色、集约的原则,加强对数据中心的统筹规划布局,结合市场需求、能源供给、网络条件等实际情况,推动各行业领域的数据中心有序发展。方案规定,大型和超大型数据中心原则上应布局到可再生能源等资源相对丰富的区域,以优化网络、能源等资源保障。在城市城区范围内,应为规模适中且具有极低时延要求的边缘数据中心留出发展空间,以确保城市资源高效利用。2021 年 12 月,国家发改委发布了关于加快构建全国一体化大数据中心协同创新体系的指导意见,旨在
63、到 2025 年全国范围内数据中心形成布局合理、绿色集约的基础设施一体化格局。该政策要求东西部数据中心实现结构性平衡,大型、超大型数据中心运行电能利用效率降至 1.3以下。数据中心集约化、规模化和绿色化水平显著提高,使用率明显提高。此外,公共云服务体系将初步形成,全社会算力获取成本显著降低。政府部门间和政企间的数据壁垒将进一步打破,数据资源流通活力明显增强。大数据协同应用效果凸显,全国范围内将形成一批行业数据大脑和城市数据大脑,全社会算力资源和数据资源向智力资源高效转化的态势基本形成,同时数据安全保障能力也将稳步提升。第 一 章 知 识 图 谱 互 联 互 通 的 背 景第 一 章 知 识 图
64、 谱 互 联 互 通 的 背 景20综上,知识图谱是实现数据和知识共享交流的重要工具,而知识图谱的互联互通则是实现本领域和领域间数据和知识共享交流的重要课题。3、标准数字化智能化转型获得关注3、标准数字化智能化转型获得关注我国在国家标准化发展纲要明确提出要发展机器可读标准和开源标准,推动标准化工作向数字化、网络化、智能化转型。目前,我国国家标准、行业标准、团体标准等多以纸质文本或电子版 PDF 格式进行发布,尚未建立类似 ISO/IEC 数据库形式标准、标准图等标准在线制修订和发布的模式。然而,在技术研究、科研项目和企业应用中,已进行有效探索:积极委派专家参与 ISO/IEC 数字化转型战略研
65、究工作,以及相关技术委员会机器可读标准的研制工作。采标 ISO/IEC 数据库形式等机器可读标准,并基于我国标准建立数据库平台。在优先领域开展试点项目,研制机器可读国家标准或行业标准,如工业自动化领域、航空领域。国家和省部级科研项目支持研究标准数字化转型,以及研制应用领域机器可读标准,如国家重点研发计划 NQI 专项、国家重点研发计划制造基础技术与关键部件专项、工信部智能制造专项等。基于机器可读标准构建企业数据信息平台,开展验证和示范应用。与 DIN、DKE、ECLASS 协会等开展机器可读标准方面国际合作。2022 年 3 月,市场监管总局标准创新司关于同意机器可读标准国际合作组工作方案的复
66、函(市监标创(司)函20227 号)批复了机械工业仪器仪表综合技术经济研究所(以下简称仪综所)承担机器可读标准国际合作组(以下简称国际合作组)组长单位及秘书处单位的职责,并组织国内有关方面,负责机器可读标准国际合作相关工作。国际合作组将负责组织各方积极参与 ISO、IEC 机器可读标准国际标准化活动,开21知识图谱互联互通知识图谱互联互通展机器可读标准的双多边合作和技术交流,研究国际和国外机器可读标准的最新进展和工作成果,收集典型用例,编写 IEC 白皮书,研制机器可读相关国际标准,并促进机器可读标准与应用领域的深度融合等工作。根据前文所述的分级标准,从 2 级数字标准向 3 级乃至 4 级数
67、字标准的转变,需要将现有标准进行结构化,并对标准中的范围、术语和定义,以及具体技术要求赋予明确的语义,以将标准内容与现实世界做出联系。在此背景下,为了实现标准知识图谱之间的互联互通,特别是在语义层面的互联互通,可以从数字标准应用的角度出发,通过构建标准与标准之间相互交叉、引用关系,并实现互联互通,将人类的先进知识和经验数字化,通过互联互通共享知识、应用知识,从而使得标准发挥更大的价值。4、数据安全防护获得关注4、数据安全防护获得关注中华人民共和国数据安全法已于 2021 年 6 月 10 日由中华人民共和国第十三届全国人民代表大会常务委员会第二十九次会议通过,并自 2021 年 9 月 1 日
68、起生效。安全法中明确指出,大数据是一种具有容量大、类型多、存取速度快、应用价值高等特征的数据集合,以及对数据进行收集、存储和关联分析,发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。此外,自然人、法人和其他组织在数据收集、汇聚等过程中,应当对数据存储环境进行分域分级管理,选择安全性能、防护级别与其安全等级相匹配的存储载体,并对重要数据进行加密存储。这表明,知识图谱互联互通也可能成为实现国家大数据知识共享交换的重要手段之一。与此同时,中国的数据立法体系正在不断完善。以数据安全法、个人信息保护法和网络安全法为基础,辅之以相关配套法规,已初步构建了中国数据治理的法律框架。各地方和各部门
69、也在积极探讨数据治理的模式,并出台了深圳经济特区数据条例、上海市数据条例、工业和信息化领域数据安全管理办法(试行)(征求意见第 一 章 知 识 图 谱 互 联 互 通 的 背 景第 一 章 知 识 图 谱 互 联 互 通 的 背 景22稿)等法规。这些法规在数据权益、数据交易、公共数据开放及利用等方面的制度设计都有所创新。目前,数据安全法和个人信息保护法各自侧重于数据保护的不同方面。其中,数据安全法从广义的国家安全角度出发,构建了核心数据、重要数据保护、数据安全保护义务等保护体系。而个人信息保护法则规定了个人信息保护的具体规则,对于个人信息的可携带权(复制权)仅作了原则性的要求。目前全球已有近
70、 100 个国家和地区制定了数据安全保护的法律,数据安全保护专项立法已成为国际惯例。我国也在不断发布数据安全相关的系列政策,为大数据行业的发展保驾护航。中华人民网络安全法要求网络运营者采取数据分类、重要数据备份和加密等措施,防止网络数据被窃取或篡改,加强对公民个人信息的保护,防止公民个人信息被非法获取、泄露或非法使用。该法还要求关键信息基础设施的运营者在境内存储公民个人信息等重要数据。网络数据确实需要传输时,需要经过安全评估和审批。国家健康医疗大数据标准、安全和服务管理办法加强健康医疗大数据服务管理,促进“互联网+医疗健康发展,充分发挥健康医疗大数据作为国家重要基础性战略资源的作用。关于加快推
71、进国有企业数字化转型工作的通知要求国有企业进行数字化转型,建设态势感知平台,加强平台、系统、数据等安全管理。使用安全可靠的设备设施、工具软件、信息系统和服务平台,提升本质安全。汽车数据安全管理若干规定(试行)规范汽车数据处理活动,保护个人、组织的合法权益,维护国家安全和社会公共利益,促进汽车数据合理开发和发布。中华人民共和国数据安全法提出国家将对数据实行分级分类23知识图谱互联互通知识图谱互联互通保护,开展数据活动必须履行数据安全保护义务并承担社会责任。这些政策和法律的出台,有助于促进数据安全、保护数据权益,推动数字化转型和大数据产业的健康发展。(三)行业政策层面(三)行业政策层面从管理共享和
72、标准体系建设角度来看,这些都是实现大数据发挥作用的重要前提。但只有将大数据与各行业、不同场景相结合,才能真正发挥其应用潜力。因此,各行业也纷纷展开相关研究和实践,探索大数据在实际场景中的应用。1、政务领域数字化转型1、政务领域数字化转型随着信息化时代的到来,政务数据共享与开放已经成为政府服务数字化转型的重要途径。中共中央 国务院关于构建更加完善的要素市场化配置的体制机制的意见要求推进政府数据开放共享,中央网信办、发展改革委、工业和信息化部联合印发的公共信息资源开放试点工作方案则将北京、上海、贵州等五地作为公共信息资源开放的试点,为大数据开放共享标准体系建设提供了试验场。同时,各地政府也积极推动
73、部门间信息共享。例如,云南省发布的“十四五”数字云南规划提出了“集约共享,共建共用”原则,要求加强“数字云南”统筹建设,推进基础设施与应用系统集成建设,加速实现网络互连、信息互通、资源共享,最大限度避免“信息技术壁垒”和“软件系统各自为政”,努力实现数字资源社会效益的最大化。政府数据的开放共享是大数据发展的重要支撑和推动力量,同时也是促进政务公开、提升政府治理水平的必要手段。在具体措施和任务上,政府部门应当建设一体化的政务数据资源体系,加快构建并完善人口、法人、自然资源和空间地理、社会信用信息库、电子证照库等基础库以及各地各部门业务主题库和有关专题库,动态更新、叠加、关联数据,形成多维度的人、
74、事、物信息体系。此外,政府部门还应当加快完善可第 一 章 知 识 图 谱 互 联 互 通 的 背 景第 一 章 知 识 图 谱 互 联 互 通 的 背 景24信数据共享交换体系,建设统一的政务数据共享交换平台、数据资源目录,实现各类政务数据共享。为数据治理、数据管理、数据分析等提供依据,政府部门应建立全省统一数据标准和重点行业数据标准,并落实数据质量保障责任,建立数据质量管理闭环,加强共享数据使用全过程管理,确保共享数据按需依法依规使用。政府部门应当编制政务数据开放目录,建设统一的政务数据开放平台,向社会提供开放政务数据的查询、下载、应用接口等服务,开展创新应用。例如,2021 年 12 月,
75、广西省百色市建成数字政务及数据共享交换平台,主要包括数据目录管理系统、数据资源管理系统、数据治理、知识图谱、数据资源发布库以及级联对接系统,实现了百色数据目录的编目和管理、数据资源注册、维护、审核、发布的全生命周期管理。该平台形成了跨地区、跨部门、跨层级的数据共享交换体系,全面覆盖全市 355个部门的数据资源需求,支撑各级部门 90 套存量政务信息系统以及未来新增政务信息系统的数据归集及治理格局。与自治区数据共享交换平台级联,实现本市数据目录、数据资源的上报、下发及调度;生成本市数据清洗质检报告,数据清洗完成率高于 20%;基于本市各部门的权责事项的梳理,生成本市各部门权责事项数据图谱。这些具
76、体措施和任务的实施,为政府数据开放共享提供了有力保障和支持,促进了数字化转型和智慧政务建设的加速推进。2、金融领域数字化转型2、金融领域数字化转型在金融领域,数据资产的优化配置对于促进产业升级至关重要,而金融行业作为数据密集型和科技驱动型行业,数据共享机制则成为未来发展的趋势和方向。然而,由于金融数据分布不均衡和数据信息不对称等问题,数据无法充分发挥其价值。数据共享机制能够打破数据壁垒和垄断,实现数据的充分利用。通过数据共享,金融机构可以全面掌握客户信息和需求,制定全面且精准的智能风控、智能营销、以及智能运营25知识图谱互联互通知识图谱互联互通策略,最大限度降低风控成本,为企业带来更大的经济效
77、益,并提升客户体验,为用户选择定制化金融服务。当前金融领域出现多种知识图谱,包括监管知识图谱,如集团派系知识图谱、产业链知识图谱、担保链知识图谱、反洗钱知识图谱等;银行知识图谱,如对公知识图谱、社交画像知识图谱、风险传递图谱、信贷资金图谱、供应链知识图谱等;证券知识图谱,如智能投研知识图谱、债券风险知识图谱等;基金知识图谱,如资管知识图谱、债券风险知识图谱、FOF 投研知识图谱等;期货知识图谱,包括大宗商品知识图谱、政策链知识图谱等。3、医疗领域数字化转型3、医疗领域数字化转型各医院医疗业务信息化系统由不同的应用程序开发商在不同时间设计、安装部署,数据定义及存储方式各有特点,导致医疗业务数据共
78、享与交换存在一定阻碍。医疗业务系统数据庞大、内容繁杂、业务规则复杂等特点,医院面临更多互联互通需求,需要对多源数据进行集成与整合,实现预约挂号与分级诊疗、检验结果共享、医联体、监管数据上报、临床辅助决策支持等。医疗信息标准的建立是互联互通的重要内容,医疗信息标准是不同医疗信息系统之间数据交换和互操作的基础,包括安全性、数据传输、数据格式、术语标准、安全隐私等方面。通过医疗信息标准的应用,实现医疗信息在含义、格式和内容上的统一,促进医疗信息有效互联互通、医疗服务规范化。居民电子健康档案和电子病历作为核心,实现跨机构、跨地域健康诊疗信息交互共享和医疗服务协同,改善就医环境,提升就医感受,为人民群众
79、提供安全、有效、方便、价廉的基本医疗卫生服务。在医疗领域,卫生信息化建设是逐步演变的过程,医疗业务系统之间存在着种种的差异,这些都给医疗业务数据的共享与交换带来了一定阻碍。中共中央、国务院于 2009 年发布了关于深化医药卫生体制改革的意见和国务院关于印发医药卫生体制改革近期重点实施方案第 一 章 知 识 图 谱 互 联 互 通 的 背 景第 一 章 知 识 图 谱 互 联 互 通 的 背 景26(2009-2011)的通知,明确提出卫生信息化建设作为深化医改的八大支撑之一,要求大力推进医药卫生信息化建设,以推进公共卫生、医疗、医保、药品、财务监管信息化建设为着力点,整合资源,加强信息标准化和
80、公共服务信息平台建设,逐步实现统一高效、互联互通。为此,卫生部于 2011 年印发了基于电子病历的医院信息平台建设技术解决方案1.0 版以指导建设互联互通的医院信息系统。通过信息化的手段提高医疗质量和医院管理水平,缓解“看病难、看病贵”问题,实现各级卫生行政部门对医院的电子监管,进一步推动卫生信息化建设发展。2013 年,国家卫生健康委员会统计信息中心在卫生健康委规划发展与信息化司的领导下,开始实施国家医疗健康信息互联互通标准化成熟度测评,并每年进行一次。作为国家级评审,该测评主要从医院数据资源标准化建设、互联互通标准化建设、基础设施建设和互联互通应用效果等四个方面对区域卫生信息平台和医院信息
81、平台进行综合测试和评估,促进跨机构、跨地域信息互联互通和信息共享。综上所述,数据和信息的共享交换在各个行业数字化转型和高质量发展中扮演着至关重要的角色。同行业知识图谱、甚至跨行业知识图谱的互联互通,为数据、信息和知识的共享交换提供了一个有效的途径。27知识图谱互联互通知识图谱互联互通第二章 知识图谱互联互通的内涵与外延第二章 知识图谱互联互通的内涵与外延一、知识图谱互联互通的内涵一、知识图谱互联互通的内涵(一)定义(一)定义1、数据互联互通1、数据互联互通“互联互通”概念最早在 1934 年于美国电信领域提出,本意是两个通信网络之间是否能够兼容。国际电信联盟(ITU)将“互联互通”定义为“网络
82、运营商之间的一套法律规则、技术和操作安排,使连接到一个网络的客户能够与另一个网络的客户进行通信”。世界银行将其定义为“同一企业或不同企业使用的公共电子通信网络的物理和逻辑连接,以允许一个企业的用户与同一企业或另一企业的用户通信,能够访问有关各方或其他各方提供的服务有权访问网络的人”。在美国监管法中,“互联互通”明确定义为“连接两个或多个网络以相互交换流量”。在互联网时代,“互联互通”被赋予了新的意义。应用到软件平台领域,“互联互通”在操作层面主要涉及平台的“互操作”与数据的“可携带”问题。前者主要是指不同软件应用之间具备进行相互通信和协同工作的能力,后者则是指平台根据用户要求向指定的第三方传输
83、相关数据的问题。整体而言,“互联互通”通常已被视为一种 IT 战略,契合了互联网及软件生态“开放、共享”的核心特质,与平台生态开放共享的目标导向一致。典型的数据互联互通概念模型包括 TCP/IP 4 层模型、TCP/IP 5 层模型、OSI 7 层模型,如图 2-1 所示。其中,OSI 7 层模型将互联互通分为了物理层、数据链路层、网络层、传输层、会话层、表示层和应用层,如图 2-2 所示,通过不同层级间的协议和嵌套关系,最终实现数据在不同系统间的流通,如图 2-3 所示。第 二 章 知 识 图 谱 互 联 互 通 的 内 涵 与 外 延第 二 章 知 识 图 谱 互 联 互 通 的 内 涵
84、与 外 延28图 2-1 数据互联互通概念模型图图 2-2 OSI 7 层模型图 2-3 数据流通图29知识图谱互联互通知识图谱互联互通在数据互联互通的基础上,还可以进一步实现数据的互操作,提升系统间的协同和集成效率。对于数据互操作,Tolk 和 Muguira 于 2003 年提 出 了 5 级 概 念 互 操 作 模 型 等 级(LevelsofConceptualInteroperability Model,LCIM),Turnitsa,C.D 于 2005 年将其扩展为 7 级,如图 2-4 所示。各等级的描述如下:0 级(No Interoperability):独立系统,不共享任何
85、数据。1 级(Technical Interoperability):建立了通信基础设施,底层网络和通信协议是明确定义的。2 级(Syntactical Interoperability):使用通用协议来构建数据,信息交换的格式是明确定义的。3 级(Semantic Interoperability 语义互操作性):通过使用公共参考模型来共享数据的含义,并且明确定义了信息交换请求的内容。4 级(Pragmatic Interoperability 程序互操作性):数据的含义及其使用的上下文由参与系统“理解”,数据交换的上下文是明确定义的。5 级(Dynamic Interoperability
86、 动态互操作性):随着时间的推移,系统能够理解发生在彼此系统的假设和约束中的状态变化;因此,信息交换的效果得到了明确的定义 6 级(Conceptual Interoperability 概念互操作性):每个系统中数据的基础概念模型是一致的。第 二 章 知 识 图 谱 互 联 互 通 的 内 涵 与 外 延第 二 章 知 识 图 谱 互 联 互 通 的 内 涵 与 外 延30图 2-4 数据互操作等级模型图2、知识图谱互联互通与数据互联互通的区别和联系2、知识图谱互联互通与数据互联互通的区别和联系知识图谱互联互通是在数据互联互通的基础上,进一步实现知识内容的流通。因此,知识图谱互联互通概念模型
87、的基础层级与数据互联互通的基础层级一致,但对 OSI 层的应用层可根据知识图谱互联互通需求和衔接关系的差异进一步细化为“本体层”、“实例层”、“知识计算层”、“业务应用层”等层级。知识图谱互联互通模型架构与数据互联互通模型架构的对比如图 2-6 所示。其中,知识图谱互联互通内容构成如图 2-7 所示。图 2-5 知识图谱概念模型31知识图谱互联互通知识图谱互联互通图 2-6 知识图谱互联互通与数据互联互通模型的对比图 2-7 知识图谱互联互通内容构成在本体层,系统主要进行本体模型(如:实体类型、关系类型、属性类型、约束等)的联通,如图 2-5 所示;在实例层,系统主要基于本体层中约定的本体模型
88、进一步实现实体、关系及其属性的联通;在知识计算层,系统主要是面向本体模型和实例进行知识计算任务指令的联通;在业务应用层,系统主要是根据系统间业务场景及业务需求进行业务指令的联通。同时,部分层级可根据知识内容交换的需求不同进行裁剪。(二)知识图谱互联互通互操作等级(二)知识图谱互联互通互操作等级第 二 章 知 识 图 谱 互 联 互 通 的 内 涵 与 外 延第 二 章 知 识 图 谱 互 联 互 通 的 内 涵 与 外 延32图 2-8 知识图谱互联互通的级别划分受限于系统间知识交换需求、协同集成深度、安全管理约束等因素的影响,知识图谱互联互通根据可联通内容和共享水平的差异划分为 0-6级,并
89、可在高级别支持知识图谱系统间的互操作,如图 2-8 所示。具体层级包括:0 级 未联通级:未建立共享链路,孤立系统;1 级 可对接级:建立共享链路,实现实例与本体的交换;2 级 可识别级:两个系统中实例与本体的描述文件格式的统一,可基于标准的文件格式,识别外部系统的知识单元或知识图谱文件;3 级 可融合级:可实现对外部系统或文件共享的知识单元与自有知识图谱的融合;4 级 可同步级:建立可理解的语义基础,实现本体的动态同步;5 级 可分析级:建立计算任务的分发与协同,支持对单一或多个知识图谱进行简单知识计算或联合计算6 级 可决策级:建立业务应用的集成衔接,实现计算结果驱动应用系统的执行根据图
90、2-8 所提出的数据互操作层级划分,知识图谱互联互通互操作中”可识别级“对应其”符号互操作级“,”可融合级“对应其”语义互操作级“,“可同步级”对应其“程序互操作级”,“可分析级”33知识图谱互联互通知识图谱互联互通对应其“动态互操作级”,“可决策级”对应其”概念互操作级“。具体对应关系如图 2-9 所示。图 2-9 知识图谱互联互通互操作等级与数据互操作等级间的关系二、知识图谱互联互通的外延二、知识图谱互联互通的外延(一)存在的利益相关方(一)存在的利益相关方1、政府1、政府知识图谱的互联互通可以帮助政府跨行业跨领域研究社会热点问题,并通过互联互通的支撑数据辅助政府制定相应的法律法规、意见办
91、法,使政府更有针对性地解决人民群众的切实问题和需求。另一方面,互联互通带来的数据多样性可以避免消息蔽塞和数据不全面等情况,让政府在海量数据中准确找到其所需要的数据进行分析,监察事件发生动向,保证社会的和谐稳定。知识图谱互联互通可以打通各个政府机构系统之间的数据共享,促进信息数据的交流和共享,从而挖掘到更全面的知识和有用信息,依据数据分析为基础,制定更加科学完善的政策,对整个区域社会治理具有重要意义。2、组织2、组织不同组织间知识图谱的互联互通建立在数据格式和数据交换标准化、数据保护规范化、平台接口统一化等基础上,需要依赖数据加密、差分隐私、数据标识、区块链、安全多方计算、群签名等多种技术。通常
92、情第 二 章 知 识 图 谱 互 联 互 通 的 内 涵 与 外 延第 二 章 知 识 图 谱 互 联 互 通 的 内 涵 与 外 延34况下,超大型平台拥有支持数据流通和互操作的成熟技术,中小型平台则需要付出更多的成本才能满足互联互通的标准和技术要求,短期内会增加中小型平台的研发成本,因此需要制定合适的规则。知识图谱的互联互通有助于不同组织之间的交流与合作,组织可以通过知识图谱的互联互通在相异数据中寻找和其他组织的相同点,为本组织的横向发展提供方向和目标,为本组织的纵向发展提供理论基础。另一方面,作为知识图谱互联互通的组织监管方,互联网协会、互联网治理联盟等组织,需要负责制定规则、执行监管,
93、促使知识图谱互联互通的相关受益方按照技术可行、经济合理、公平公正、相互配合的原则,实现互联互通。知识图谱互联互通组织者应该制定好互联互通的行业执行标准规范,在图谱使用者之间形成规模和相应的生态圈,使图谱互联互通的实现在实际操作层面更加高效、方便、门槛更低。3、企业3、企业对企业而言,知识图谱互联互通需要其与竞争对手互相开放,企业在承担被替代风险的同时,更可能带来直观的收益增长。例如制造业和服务业相关图谱的互联互通有助于完善产品、升级服务,工业和运输业知识图谱的互联互通有助于产业进行降本增效,在规范知识图谱互通互联规则的基础上,企业可以在规避数据泄露风险的同时,在互通互联中打破信息壁垒和技术隔断
94、,获得更好的发展机会。此外,知识图谱的互联互通督促企业进行自我约束,营造出一个倡导科学精神和互联网精神的商业环境,有助于企业提升自身的使命感和社会责任感。企业知识图谱之间的互联互通涉及到数据安全、技术壁垒、利益分配等各种现实问题,在企业之间进行知识图谱之间的互联互通,要做到求同存异,公平公正,进而推动各个企业之间图谱的互联互通。4、个人4、个人在个人数据权利配置上,基于平衡保障数据安全和促进数据开发利用的目的,用户对原始数据享有所有权和控制权,数据控制者对原始数据只享有有限的使用权而非独家使用权。基于用户同意的前提下,数据35知识图谱互联互通知识图谱互联互通经营者需要遵循“合法、正当、必要和用
95、户同意”的原则,对原始数据进行抓取和利用,以提高数据的开放和共享效率。对于个人而言,用户会衡量知识图谱互联互通带来的便捷性提升等积极因素,以及信息安全隐患等消极因素,根据私人边际成本与收益选择开放信息等权限的边界。个人信息保护法首次规定个人信息可携带权,个人请求将个人信息转移至其指定的个人信息处理者,符合国家网信部门规定条件的,个人信息处理者应当提供转移的途径。在规范知识图谱互联互通时,需要根据私人边际成本与收益选择开放信息等权限的边界。(二)潜在的影响(二)潜在的影响1、商业层面1、商业层面链接封禁成为商业活动中的新常态,链接封禁易造成垄断行为,推动互联互通对多方商业从业者长期利好。一方面,
96、互联互通可以将含有不同领域、方向的知识图谱有序结合起来,商业各方可以在分享己方数据的同时,获取其他领域的辅助性数据,帮助商业方更好地对市场、产品等方面进行研判。另一方面,互联互通将商业各方链接在一起,各方既是受益者也是监督者,有损消费者或不利于本行业发展的性质可被及时响应。由此可见,知识图谱的互联互通可降低企业成本、增加自主选择权、提升用户体验感,既为中小企业的发展与创新疏通管路,也更好维护了消费者权益。在知识图谱互联互通的同时,也要为中小企业和个人开放接入方式,其既是图谱的使用者,也是图谱构建和信息更新的建设者,同时为公众和社会奠定信息发展的基石,满足其相应的需求。随着经济全球化进程的不断推
97、进,跨国公司逐渐兴起,众多商品建立起全球化生产链条,但由于各国环境、经济、宗教等因素的差异化,信息闭塞的企业难以打开海外市场,限制其商业发展,而随着知识图谱互联互通的进行,企业可以获取全球环境、经济、宗教的相关数据,为其产品布局进行辅助决策,因此,知识图谱的互联互通对商业活动的技术创新、资本投入、优势互补、经济规模效应以及劳动力素质的提升和强化具有十分重要的意义。第 二 章 知 识 图 谱 互 联 互 通 的 内 涵 与 外 延第 二 章 知 识 图 谱 互 联 互 通 的 内 涵 与 外 延362、法律层面2、法律层面知识图谱互联互通不能“一刀切”,需要尊重用户的互联互通需求,区分平台在互联
98、网行业中的地位、保障网络安全和社会公共利益以及权衡互联互通的成本和收益。在立法过程中要考虑如下因素:第一,用户对平台互联互通的需求情况。第二,平台在互联网行业中的地位。第三,保障网络安全和社会公共利益。第四,互联互通的成本和收益。平台互联互通不仅是一个安全问题,也是一个经济问题。第五,不得与法律、行政法规的强制性规定相冲突。网络安全法、数据安全法、信息网络传播权保护条例、关键信息基础设施安全保护条例、互联网药品信息服务管理办法、互联网医疗保健信息服务管理办法、互联网新闻信息服务管理规定等法律法规的颁布,是国家越来越重视互联网行业秩序的体现,也为互联互通的发展提供了基础。在法律层面,针对知识图谱
99、的互联互通,同时也要加入对人的隐私保护,完善相应的法律法规,避免个人隐私信息被不法商业活动所利用,给相应的个人带来不必要的麻烦。知识图谱互联互通的根本目的和价值在于打破图谱壁垒,实现开放和共享。知识图谱之中汇集了大量的知识实体,这对其他人工智能领域应用场景提供帮助,只有相互开放、互联互通,才能实现政府、组织、企业和个人等各方主体的最大共同利益。而知识图谱是否通与联以及如何通与联,虽然在大部分情况下属于知识图谱所有者的自由和权利,但对于行业发展和社会稳定来说,如果所有者拒绝与其他图谱互联互通,不利于技术创新和效益提升,显然会损害行业的发展和社会的稳定。知识图谱领域业态复杂、产业多样,互联互通将不
100、同领域、不同方向的知识实体串联起来,这一过程需要通过法律法规、制度规范的引导和约束。互联互通最后的底线是法律,通过强制性的法律,构建互联互通的合规标准,形成红线和高压线。一方面,法律对垄断、不正当竞争等行为具有处置权,为知识图谱互联互通扫清障碍;另一方面,法律严37知识图谱互联互通知识图谱互联互通格限定了知识图谱互联互通的方向和目标,确保知识图谱互联互通的健康发展。法律同时要加强主体责任和个人责任的区分,明确犯罪依据,对一些不法行为进行监管和惩罚。3、监管层面3、监管层面知识图谱互联互通的本质是将图谱权属方的各个环节实现全部的信息共享,在一定程度上扩大了权属方的信任需求及信息走向不确定性,容易
101、引发信任危机。互联互通涉及外链开放、数据开放两方面。外链接入方会承担异常数据入侵的风险,数据开放端数据泄露的可能性会增加。同时,互联互通的媒介是数据链,链与链间流动的是流量。流量收益如何合理分配,需要制订明晰的监管共享规则。知识图谱的互联互通需要监管,要将互联互通的优点和作用真正落地,应该坚持多元共治的思路。政府监管部门加强指导、监督,在实施过程中,逐步建立互联互通的标准、规范,形成良好的互联互通的发展环境,可由政府主导建立知识图谱互联互通共享平台,各个行业知识图谱通过接入共享平台进行交互,从而实现政府对知识图谱数据交互信息的监管;建立规范的检查体系和监督管理办法,让各个平台加强数据生命周期的
102、管理和保障能力。同时,充分发挥图谱提供方的业内治理作用,让提供方参与,协同监管部门治理互通互联,知识图谱的互联互通在推动时,需要有操作指南和标准规范进行指导。在这个过程中,要防范图谱垄断,对恶劣行为进行有效监管。同时,建立长效的管理保障措施,让图谱提供方的合法权利得到保障。4、伦理互认层面4、伦理互认层面人工智能尤其是知识图谱技术的发展,可能引发出新的伦理问题。2017 年 7 月 8 日,国务院在新一代人工智能发展规划中提出,建立人工智能法律法规、伦理规范和政策体系,形成人工智能安全评估和管控能力。人民日报于 2019 年 7 月 12 日刊发人工智能,以法律和伦理为界一文对人工智能伦理进行
103、了探讨,文章指出,伦理应当为智能社会划出法律和伦理道德的边界,让人工智能服务人类社会。欧盟委第 二 章 知 识 图 谱 互 联 互 通 的 内 涵 与 外 延第 二 章 知 识 图 谱 互 联 互 通 的 内 涵 与 外 延38员会于 2019 年 4 月 8 日发布了值得信赖的人工智能伦理准则,期望建立以人为本、值得信任的人工智能伦理标准。此外,在 2021 年 9 月25 日,国家新一代人工智能治理专业委员会发布了新一代人工智能伦理规范,旨在将伦理道德融入人工智能全生命周期,为从事人工智能相关活动的自然人、法人和其他相关机构等提供伦理指引。人工智能可能引发的新的伦理问题和困境受到国内外业界
104、人士和重要机构的重视。在这之中,隶属于人工智能重要分支的知识图谱互联互通与伦理之间的关系显得格外重要,互联互通是一种客观的科学知识体系,无法对伦理进行一一解释,互联互通无法直接归纳活演绎出伦理问题,但是伦理和互联互通也存在着一定的关系:伦理基于其在道德、情感、直觉、自我约束等方面的权威性,规范、引导和制约着互联互通的研究和发展,帮助互联互通完善其知识体系;互联互通基于其观察、实验、归纳的科学技巧,提供伦理思考和道德发现的方法,分析总结不同的伦理体系,帮助伦理发展,扩大影响。知识图谱的互联互通将不同类型、不同领域的知识图谱基于某种规则联系在一起,将原本毫无关系的两种实体通过互联互通建立联系,在不
105、同行业有些实体定义会有明显的感情倾向、思想观念的不同,会产生冲突和矛盾,这会冲击伦理世界的传统价值观念,重塑人们的精神世界和德性生活,为包括哲学在内的伦理体系带来一些新课题和新实践,推动伦理体系的变革。39知识图谱互联互通知识图谱互联互通第三章 知识图谱互联互通的任务与约束第三章 知识图谱互联互通的任务与约束一、互联互通的模式一、互联互通的模式知识图谱互联互通按照任务流的形式可以分为中心化的互联互通和去中心化的互联互通。中心化的知识图谱互联互通主要依赖中心节点进行互联互通,中心节点负责任务定义、互联互通知识整合和计算,形成成果后分发给各个知识图谱节点。图 3-1 所示为中心化知识图谱互联互通示
106、意图。去中心化的知识图谱互联互通将分布式知识节点联通成一个大的互联互通网络,每个节点都具有高度自治的特征。节点之间彼此可以自由连接,形成新的连接单元。任何一个节点都可能成为阶段性的中心,但不具备强制性的中心控制功能。节点与节点之间的影响,会通过网络而形成非线性因果关系。各个节点本着开源、开放的共享精神实现知识、算法和资源的共用与相互支撑,共同推进行业的整合和应用。图 3-2 为去中心化知识图谱互联互通示意图。第 三 章 知 识 图 谱 互 联 互 通 的 任 务 与 约 束第 三 章 知 识 图 谱 互 联 互 通 的 任 务 与 约 束40图 3-1 中心化知识图谱互联互通示意图图 3-2
107、去中心化知识图谱互联互通示意图41知识图谱互联互通知识图谱互联互通二、互联互通的活动构成二、互联互通的活动构成(一)活动流程框架(一)活动流程框架知识图谱互联互通过程需要一个复杂的任务流转,经过知识内容定义、知识内容构建和标准化映射,形成可以互联互通的分布式知识集合,然后通过知识校验、安全性检查、法律层面检查等手段对分布式知识集合进行审核检查,保障知识的质量、安全和合规,接着通过知识推送、知识内容解析和知识计算,将分布式知识汇集整合与计算,最终将计算成果进行共享共用。根据任务类型的不同,可将知识图谱的互联互通分为知识共享方和知识消费方,图 3-3 所示的知识图谱互联互通任务类型示意。中心化的互
108、联互通和去中心化的互联互通任务流示意图见图 3-4。图 3-3 知识图谱互联互通任务类型示意图第 三 章 知 识 图 谱 互 联 互 通 的 任 务 与 约 束第 三 章 知 识 图 谱 互 联 互 通 的 任 务 与 约 束42图 3-4 知识图谱互联互通任务流示意图(二)任务流构成(二)任务流构成(1)知识内容定义(1)知识内容定义43知识图谱互联互通知识图谱互联互通知识内容定义是对本体定义、查询规则定义、推理模式定义以及互联互通中各种约束条件和规则的定义,目的是确定互联互通的参与者、知识内容和通联目标。在知识内容定义阶段,中心节点或者需求方需要根据互联互通的任务和目的发起任务,定义其他知
109、识方提供的本体知识结构、查询规则定义和推理模式定义。在中心化的知识图谱互联互通中,各个认领节点根据任务分别进行知识筛选和知识推理,遴选出符合要求的知识数据,并对涉及本体进行抽象归纳,同时实现本体匹配,将各计算渠道整合的本体体系推送给中心节点进行本体融合,从而完成整个本体体系的定义。在去中心化的互联互通中,知识定义较为直接,通过本体定义、查询规则定义和推理模式定义形成任务定义,并将任务进行广播,其他网络节点可以本着开源、开放精神认领任务协助互联互通式的协同。(2)知识内容构建(2)知识内容构建知识内容构建主要是在互联互通的各个节点中构建与知识内容定义相符的知识图谱。知识内容构建主要通过两种方式,
110、一种方式是在知识内容定义本体体系、查询规则和推理模式下实现对已有知识的整合与筛选,从而快速遴选出高质量的相关知识数据;另一种方式是利用中心节点分发数据或者自有数据,基于自身积累的知识抽取算法进行结构化或者非结构化的知识构建,从而实现新的知识数据构建。(3)标准化映射(3)标准化映射标准化映射是针对在知识内容构建中,由于各家知识体系定义形式和内容上的不同而存在较大的知识歧义和割裂问题,对互联互通节点上的知识进行标准化映射,从而为互联互通的知识融合提供便利。对于已经构建的知识,首先利用知识融合的手段将独立节点下的自由知识数据和新构建数据进行整合,然后进行标准化映射,一是可以通过知识内容定义的本体体
111、系进行本体匹配和映射,将自由知识体系与任务本体体系进行对齐;二是在知识构建和知识表示时尽量采用标准化的知识描述语第 三 章 知 识 图 谱 互 联 互 通 的 任 务 与 约 束第 三 章 知 识 图 谱 互 联 互 通 的 任 务 与 约 束44言,如 RDF、OWL 等,并遵从行业规范,减轻标准化映射的难度。(4)知识校验(4)知识校验知识校验是针对已经构建的标准化知识图谱,需要进一步对知识进行校验,确保知识的正确性、一致性和完整性。知识校验有两种方式,一种是通过知识内容定义中定义的知识校验规则进行校验,评估需求满足度。另一种则是利用知识自校验算法,通过知识计算推理等手段进行检验,如知识的
112、反常识性、相互矛盾性以及缺失程度等。最后,通过可信度计算对每一条知识进行可信度溯源和评分,形成可信性较强的知识图谱。此外,由于知识图谱构建是一个动态的过程,需要及时更新动态知识,需要判断新知识是否正确,与已有知识是否一致,通常主要从权威度、冗余度、多样性等方面进行知识校验。(5)知识安全性检查(5)知识安全性检查知识安全性检查是对互联互通各节点图谱内容和传输等方面的检查,确保知识内容和传输的安全性。知识内容的安全性检查主要包括对知识本身的密级、权限进行检查,对于不同密级的知识采用不同的手段进行加密或者专有手段传输。根据知识本身存在的隐私性、产权性和特定权限要求,对知识按照角色进行安全检查和封装
113、,确保在传输和解析中的安全保护。(6)知识法律层面检查(6)知识法律层面检查知识法律层面的检查主要是检查互联互通各节点图谱生成的内容是否合规。知识法律层面检查包括知识内容的合法性检查以及互联互通方式的合法性检查。知识内容的合法性检查主要是识别知识是否涉及政治敏感、色情、暴力等违规内容,是否包括明显不合情理、伦理的知识内容。互联互通方式的合法性检查主要是检查是否利用非法或者不正规的方式进行数据传输。(7)知识推送(7)知识推送知识推送是将互联互通的知识进行反馈传输到统一节点,实现知识45知识图谱互联互通知识图谱互联互通的汇聚。知识推送方式主要有加密推送、权限控制推送和开放式推送等。其中,加密推送
114、需要对推送知识进行加密处理,在知识内容解析时确保按照一定密钥进行正常解析。权限控制推送旨在按照不同的知识权限进行分包传输推送,不同包对应不同的传输通道和推送对象,对于特殊权限的知识分包需要进行专人传输传送。开放式推送是针对无敏感知识数据采用公开的网络渠道进行传输推送。(8)知识内容解析(8)知识内容解析知识内容解析是将知识推送汇聚的知识进行解析融合处理,主要包括知识解析、知识解密、知识整合等。知识解析是按照互联互通知识节点指定的封装方式对知识进行标准化还原;知识解密是对加密的知识进行解密处理;知识整合是将互联互通的各个知识节点图谱进行融合,形成完整的知识图谱,主要解决本体级融合、实体级对齐、属
115、性冲突解决等问题。另外,知识内容解析还需要解决不同节点图谱之间存在跨语言、跨模态和跨行业割裂问题,实现统一语言、统一模态的知识整合。(9)知识计算(9)知识计算知识计算是将互联互通形成的统一知识图谱进行统一计算,按照模板形成满足任务目标定义的成果,接着将成果分发给需求用户或者在参与互联互通节点间进行共享共用,为行业应用提供支撑,最终实现整个任务流的闭环。通过知识计算,实现在多种来源、多种形式及多种场景下的知识图谱上进行多种类型的知识发现和智能应用,挖掘潜藏在各种数据中的智能信息,实现知识的协同创新。三、互联互通的质量评估维度三、互联互通的质量评估维度知识图谱互联互通的核心目标是将知识图谱中携带
116、的知识内容传递到接收系统及其使用者。因此,可将该目标完成的质量划分为如下维度,并作为知识图谱互联互通的整体评估特性。根据优先级由高到低排列,包括:第 三 章 知 识 图 谱 互 联 互 通 的 任 务 与 约 束第 三 章 知 识 图 谱 互 联 互 通 的 任 务 与 约 束46 完整性:完整性:用于衡量知识图谱携带/交换共享的知识内容是否完整无误地到达接收方。在无容错能力的场景下,要求有最高的完整性,即数据应没有任何缺失和错误。在部分有容错能力的场景下,可设定允许发生缺失和错误的比例阈值,并在阈值范围内使用评估算法,统计并输出完整性指数。安全性:安全性:用于衡量知识图谱中的知识内容抵御非授
117、权获取的能力。实际评估过程中,需依据可用性、透明、隐私、伦理等若干细分维度分等级评估,输出分类和综合安全性指数。若知识图谱的知识内容可完全公开,则可忽略该要求。可得性:可得性:衡量所选择的知识图谱系统间互联互通方式可正常运行的概率,可以细分为获得成本和获得时间两个方面。其中,获得成本是指该互联互通方式能够正常运行所需花费的设备、专业人员以及其他必要的成本;获得时间是指该互联互通方式在可以正常运行时实际被允许工作的时间占比,该时间统计需排除由需求方自由意志决定的部分。高效性:高效性:衡量所选择的知识图谱系统间互联互通方式的执行效率,包括响应速度、丢包率、传输规模、并发数、匹配速度、接入速度、融合
118、速度、解析速度等指标。易用性:易用性:衡量所选择的知识图谱系统间互联互通方式的使用体验,包括使用成本、便捷性、易维护性、友好性、可视化界面的丰富度、参数配置的便捷度、可同时联通的系统数量、可支持的联通模式(如:内容广播、点对点传输、多方传输等)等。四、互联互通的实现类型四、互联互通的实现类型互联互通的实现类型可按照对网络联结的依赖度分类为线下交换和线上交换的方式;按照对内容的加密分类为明文和密文方式。1、按对网络联结的依赖度分类1、按对网络联结的依赖度分类知识图谱互联互通可根据是否使用互联网等即时高效通讯的手段或47知识图谱互联互通知识图谱互联互通措施分为线下交换和线上交换的方式。(1)线下交
119、换形式(1)线下交换形式线下交换方式指通过非互联网通讯渠道进行知识图谱间互联互通的方式。通常,以知识图谱文件传递为主,部分情况也涉及图像、音频、视频等多媒体或多模态内容的传递。该形式包括知识图谱文件的构建和知识图谱文件的导入导出两个环节。1)知识图谱文件的构建1)知识图谱文件的构建知识图谱的拥有方和获取方通过提前约定知识图谱文档格式及内容描述格式,如 XML、CSV、JSON 等,创建可相互识别的知识图谱文件。根据知识内容构成的差异,创建的知识图谱文件既可包括文本内容,也可包括多媒体内容。在文件创建过程中,针对包含影像等多媒体知识内容较多的知识图谱,还需根据需求进行一定程度的无损或有损压缩,以
120、降低文件占用的存储空间并提升交换效率。通过知识图谱文件进行知识交换或共享的相关方较多时,标准化和结构化的知识图谱文件不仅有利于降低各方间的沟通成本,提升互联互通的难度,同时有利于压缩和解压缩、加密和解密等方面要求,保障原始知识图谱的完整性、安全性和准确性。2)知识图谱文件的导入导出2)知识图谱文件的导入导出知识图谱文件中知识内容的分享离不开知识图谱相关系统或平台对文件准确的导入和导出操作。当基于相同知识图谱文件格式时,各参与方无需按照特殊识别和操作流程进行文件读取。当设计多种知识图谱文件格式时,各参与方需在系统中建设相应的文件格式转化模块,以提升对多种格式的兼容性。图 3-5 为知识图谱文件的
121、导入导出示意图。图 3-5 知识图谱文件的导入导出(2)线上交换方式(2)线上交换方式第 三 章 知 识 图 谱 互 联 互 通 的 任 务 与 约 束第 三 章 知 识 图 谱 互 联 互 通 的 任 务 与 约 束48线上交换方式指通过互联网或局域网通讯渠道进行知识图谱间互联互通的方式,图 3-6 所示为知识图谱线上交换示意图。线上交换方式具体可分为:页面(应用)集成、数据库交换、接口交互等方式。图 3-6 知识图谱线上交换示意图1)页面集成方式1)页面集成方式页面集成方式允许外部链接可打开并访问页面,并将可公开的信息或知识图谱内容存储至页面中,以便供外部使用方访问。其中,需实现在不同页面
122、间的数据交互及动作响应。因此,页面集成方式一般要求有相应的后台系统作为支撑,该形式可进一步分为同源页面之间的跨页面通信和非同源页面之间的通信。由于页面集成方式更倾向于对知识图谱的在线直接使用,对以该形式进行的知识图谱互联互通性能可重点评估以下特性:可得性:页面是否随时可得;数据是否都可以在页面获得;易用性:是否提供便捷的源数据下载;从页面抓取数据的难度;是否提供查询、过滤、排序等使用者自定制能力。2)数据库集成方式2)数据库集成方式为达到高效可控和便于管理的目的,也可通过数据库集成的形式实现知识图谱的互联互通,例如:在多个不同系统中,通过共享的中央数据库来进行数据的分发、集成和管理。从使用者的
123、角度来看,获取到的信息和数据都是来自于统一的中央数据库,是相对透明和可信的。此外,49知识图谱互联互通知识图谱互联互通当前数据库的技术路线也是多样的,如 SQL SERVER 的 linked server 和Oracle 的 Db-link 技术及 Mysql 的 FEDERATED table 等技术。3)接口方式3)接口方式基于接口方式的知识图谱互联互通是以软件程序为访问目标建立的通讯方式。在定义的规范接口协议的前提下,各系统间或者各使用者间通过定义的标准接口,各自实现接口开发,并利用基础设施或者传输系统,进而完成知识传输和收发。接口的具体呈现形式丰富,可包括 HTTP接口、RPC 接口
124、、Web Service 接口等。对以该形式进行的知识图谱互联互通性能,可重点评估以下特性:完整性,如支持使用哈希核验码(hashing)等;安全性,如支持防泄露(对称加密)、防伪(非对称加密)、防重放(nonce)、防延展(SHA3 以上)、防资源占用(过滤限流)等措施;高效性,如支持分片(sharding)、源分布式、平行传输、对象化、缓存等措施。2、按对内容的加密分类2、按对内容的加密分类(1)明文(1)明文明文是未经加密的原文或者原文的变体。加密是指在密码学上通过算法改变原文呈现形式,在不掌握密钥的情况下实现文件内容解密较为困难。明文可以与原文不同,对原文进行简单可逆的变换也可被视为明
125、文,例如:转变为机器码的文字。对于知识图谱互联互通过程而言,明文是指进行联通的知识内容或待共享的知识图谱文件未进行加密,实现过程较为简单。(2)密文(2)密文密文是对原文加密后的呈现形式。在不掌握密钥的情况下,从密文计算得到原文较为困难。然而,一些过时的密码源语对于基于其为核心的加密算法的安全性存在影响,如 DES、3DES 算法由于其加密密钥长度第 三 章 知 识 图 谱 互 联 互 通 的 任 务 与 约 束第 三 章 知 识 图 谱 互 联 互 通 的 任 务 与 约 束50短使得暴力破解变得很容易已被弃用,MD5 等算法存在安全风险等。在使用密文进行知识图谱互联互通时,宜使用 SHA-
126、3 以上的哈希算法和 RSA、ECC 等新一代的非对称加密算法,以及 SM3、SM4 等国产密码算法,并在GB/T 39786-2021信息安全技术 信息系统密码应用基本要求等标准层面进行推广。此外,对于知识图谱本身而言,还可对概念类型、关系类型等本体层知识单元和实体、关系、属性等实例层知识单元根据场景不同分别进行加密,进而控制知识内容的共享范围。五、互联互通约束条件五、互联互通约束条件(一)技术层面约束条件(一)技术层面约束条件知识图谱互联互通能够充分利用不同来源、不同行业之间的知识数据来提升知识共享共用能力,提升整个社会应用发展的水平。然而,知识图谱互联互通技术由于受限于当前技术发展水平,
127、互联互通能力仍然不够充分,完全意义上的、无约束的互联互通仍然是一个远期愿景。互联互通在技术上的主要约束条件有:1、标准化约束1、标准化约束随着大数据时代和数字经济时代的到来,知识本身呈现出爆炸式的增长,尤其深入到行业领域内。由于,不同行业和应用需求不同,对知识图谱的定义也不同,在知识表示上存在形式和内容上不标准、不统一的问题,这导致在知识图谱互联互通时,各家知识异向性明显、形式繁杂,严重约束了各家知识图谱的整合。因此,在知识图谱互联互通中,基于目前知识融合的技术水平,难以自适应所有知识标准,需要在知识标准化上对不同知识体系进行约束,在知识表达形式和内容上做到尽量一致性和标准化,以实现高质量的互
128、联互通。2、知识内容形式约束2、知识内容形式约束从知识内容形式的互联互通角度上,主要存在跨语言、跨模态和跨行业的约束。从目前技术水平以及未来技术发展趋势看,跨语言、跨模51知识图谱互联互通知识图谱互联互通态和跨行业都是知识图谱互联互通中的严峻考验。(1)跨语言约束(1)跨语言约束由于语言语系种类的不同,知识图谱在不同语言互联互通融合、计算过程中存在语言之间的隔阂问题。机器翻译作为实现不同语言对齐的一种有效方式已经得到了应用级的突破,但是在知识图谱领域,需要针对孤立无上下文的知识实体进行翻译,而专业术语和实体的翻译是目前机器翻译中比较困难的问题,因此单纯依赖机器翻译实现跨语言的互联互通面临诸多挑
129、战。随着多语言预训练技术的发展,跨语言对齐技术得到突破性进展,尤其在高资源语言上取得较大进步,但是在低资源上仍然存在与真实需求差距较大的问题。因此,受跨语言技术的发展约束,知识图谱往往限制在单一语种或者高资源跨语言上进行互联互通,缓解语言之间语义隔阂带来的图谱割裂问题。(2)跨模态约束(2)跨模态约束由于不同模态存在较大差异,知识图谱在不同模态互联互通融合、计算过程中存在模态之间的语义割裂问题。传统方法上,多模态往往采用模态转换的方式,通过单一模态转换实现模态上的一致性,如通过语音识别将语音转化为文本等。随着多模态预训练技术的发展,通过在大规模数据上的预训练学到不同模态之间的语义对应关系,跨模
130、态知识构建和融合取得突破性进展,能够在统一语义空间中对不同模态知识进行向量对齐,促进了跨模态知识图谱的融合和计算。但是跨模态本身仍然存在不同模态之间信息分布不均、稀疏等问题,且目前跨模态知识表示和对齐准确率较低。因此,受跨模态技术的发展约束,知识图谱往往限制在单一模态或者特定场景的多模态上进行互联互通。(3)跨行业约束(3)跨行业约束目前,知识图谱已广泛应用于金融、能源、医疗、国防、制造、政务等领域,形成了一系列典型的行业应用。由于不同行业之间的知识体系不同,当前知识图谱的应用模式主要是面向垂直领域,利用行业知识第 三 章 知 识 图 谱 互 联 互 通 的 任 务 与 约 束第 三 章 知
131、识 图 谱 互 联 互 通 的 任 务 与 约 束52数据构建特定场景的应用。在跨行业互联互通中,不同行业之间的本体体系和知识内容存在行业隔阂,甚至不同行业存在知识模式完全相反的逻辑,这严重约束了跨行业知识图谱的互联互通能力。因此,在跨行业知识图谱互联互通中,受行业之间的对齐技术约束,知识图谱往往在相同或者相似行业中进行互联互通。3、知识质量约束3、知识质量约束在知识图谱互联互通中,各个知识图谱存在质量不一的问题,低质量的图谱会严重降低互联互通后图谱的计算和应用,因此需要对不同知识图谱进行质量评估、互相印证和约束,从而保障知识图谱质量。知识图谱测试与评估涉及知识图谱数据、平台和算法等多个层次,
132、目前德国Philipp Cimiano、OpenKG 等国内外专家和机构已经提出了诸多知识图谱质量评估方法。因此,可以在知识图谱互联互通过程中,利用评估指标约束知识的来源质量,以提高知识图谱互联互通的融合质量。4、时效性约束4、时效性约束时效性指信息的最新程度,知识图谱的时效性可以指知识更新的程度。知识图谱中存在一成不变的常识或者真理,但更多的是动态演变的知识,对知识的时效性进行约束可以提高互联互通知识图谱的质量。尤其是在动态知识图谱分析应用中,对知识的时效性具有较高的要求。知识图谱的时效性的需求取决于具体的应用场景,例如航空公司的数据集需要较强的时效性,用户在预定某趟航班时,如果该系统的时效
133、性较差,可能会导致用户预定已经售罄的航班,从而造成对双方都不利的影响。可使用自上一次更新或最后一次验证报表以来的时间范围来评估知识时效性。5、技术可行性约束5、技术可行性约束技术可行性约束旨在建立一系列知识图谱互联互通技术指标体系,明确定义当前技术达到的指标水平,从而在技术约束下实现合理的互联互通需求。知识图谱互联互通技术指标体系主要分为功能性指标和性能53知识图谱互联互通知识图谱互联互通指标体系,比如知识抽取准确率、知识融合准确率和计算推理的性能等。技术指标体系的约束,可以使互联互通更加高效,能够快速遴选出满足指标的知识图谱进行互联互通,从而减少大量图谱传输、融合和计算的成本。6、硬件资源约
134、束6、硬件资源约束知识图谱互联互通需要一定的网络、存储、计算资源等保障条件,但由于知识图谱互联互通面对的是不同的自治、异构系统,和每个系统相对应的硬件资源可能是在不同的需求背景、不同的技术条件下建立的,构建的硬件环境存在操作系统差异、底层数据库差异、网络环境差异和计算资源环等环境差异,且不同厂商的设备之间互不兼容,难以实现信息共享和互联互通。同时,在硬件部署上,需求能够支持单机、集群化部署,根据实际业务调整硬件资源的投入。因此,知识图谱的互通互通必须满足硬件资源的约束条件。(二)非技术层面约束条件(二)非技术层面约束条件知识图谱互联互通除了在技术上的约束外,非技术层面的约束更加隐晦和重要,主要
135、包括安全性约束、法律合规性约束、隐私保护性约束。1、安全性约束1、安全性约束知识图谱的安全性主要包括知识本身和互联互通方式上的安全。在知识本身,主要是从知识本身的秘密性和权限角度。具有一定密级的知识必须在密级约束条件下进行传输,如机密知识需要通过专线或者专人互联互通。对于不同的知识图谱,出于对知识产权或者保护性的考虑,往往会设置不同的安全权限,仅限部分角色人员进行解析和计算,因此在互联互通中需要对不同知识进行权限约束,从而保证知识的可保护性。在互联互通方式上,主要是通过网络、物理等方式进行互联互通,需要在一些安全措施的保障下进行互联互通,如在网络中安装特殊的传输软件等。2、法律合规约束2、法律
136、合规约束第 三 章 知 识 图 谱 互 联 互 通 的 任 务 与 约 束第 三 章 知 识 图 谱 互 联 互 通 的 任 务 与 约 束54知识图谱互联互通必须在法律约束范围内进行,包括知识内容的合法性以及互联互通方式的合法性。知识内容的合法性主要是知识本身是否涉及政治敏感、色情、暴力等内容,是否包括明显不合情理、伦理的知识内容。互联互通方式的合法性指的是知识图谱互联互通渠道合法,不能利用非法的方式进行传输。此外,还需考虑伦理约束。知识图谱的互联互通将原本毫无关系的两种实体通过互联互通建立联系,在不同行业有些实体定义会有明显的感情倾向、思想观念的不同,会产生冲突和矛盾,伦理约束基于其在道德
137、、情感、直觉、自我约束等方面的权威性,规范、引导和制约着互联互通的研究和发展,帮助互联互通完善其知识体系。3、隐私保护约束3、隐私保护约束知识图谱在互联互通过程中,涉及知识的产权或者隐私性,知识图谱的产权者往往不想别人看到知识本身内容。因此需要对知识进行加密保护,主要是从知识本身、传输方式和解析计算方式等层面进行约束。对于知识本身,采用加密的方式对知识进行加工处理,传输方式上采用加密通道,在解析计算方式上实现加密计算。联邦学习和边缘计算也是互联互通的典型隐私保护性约束下的有效方式,知识本身仍掌握在本地,仅实现模型参数和中间不可读结果的互联互通,从而增强隐私保护性。55知识图谱互联互通知识图谱互
138、联互通第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景56第四章 知识图谱互联互通的典型应用场景第四章 知识图谱互联互通的典型应用场景一、知识融合与计算一、知识融合与计算(一)多方知识计算(一)多方知识计算1、应用需求1、应用需求多方知识计算能够在保证数据安全前提下,解决互不信任的参与方之间协同计算的问题。在知识图谱互联互通实施过程中,部分机构或企业既要实现数据的共享,又要考虑数据的隐私。而且,在知识互联互通应用中,不同知识图谱对同一实体的刻画和描述不尽相同,知识图谱互联互通可提取多个图谱之间对同一实体
139、的描述信息。通过多方知识计算,可以构建出更加全面的实体表示信息,从而对实体进行全面的评估和评价。这将有助于实现知识的协同创新,构建完整的知识产品,构建多方协同的知识图谱集群系统。2、应用路径2、应用路径以金融反欺诈场景为例,金融和保险机构可通过各自的知识图谱进行互联互通达到数据共享的目的。知识图谱互联互通克服了单个图谱信息描述单一的缺陷,可获得客户更全面的描述信息,进而提高欺诈识别的准确性。但出于数据隐私、商业机密以及合规安全等方面约束,金融和保险机构并不能将上述风险信息主动公开。多方知识计算作为一种安全可信的信息共享方案,可以消除机构对于数据隐私和商业泄密的担忧,提高反欺诈的效率。应用方案如
140、图 4-1 所示。57知识图谱互联互通知识图谱互联互通图 4-1 应用方案反欺诈需求方作为调度方发起多方计算任务,同步需要查询的主体身份信息,同时也作为多方计算节点参与运算。各金融机构根据主体身份信息匹配本地查询到的结果,并将此结果作为多方安全计算的输入因子。各金融机构和反欺诈需求方的计算节点之间利用多方安全计算协议完成风险信息的聚合计算,反欺诈需求方可得到最终的风险信息聚合计算结果。知识图谱互联互通在多方知识计算中的应用场景还包括使用联邦统计方法对同一集团下多个子公司的运营状况进行统计,分析集团的盈亏状况;金融机构间通过各自的风控数据进行风险管控、联合授信;产业联盟中的产品定价分析等。(二)
141、开放知识融合(二)开放知识融合1、应用需求1、应用需求伴随互联网以及移动互联网发展,客观世界中的海量知识由线下涌入互联网,并且每时每刻都有新知识的产生,由此而产生了独特、巨大且丰富的开放知识价值。开放知识融合应用场景是指通过知识互联互通技术将来源于开放域的知识进行汇聚,从而解决知识应用场景需求。常见的场景包括开源情报分析、金融风险分析等。第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景582、应用路径2、应用路径然而,由于开放知识融合的开放性和分散性,互联互通的知识内容和互联对象较为复杂。另外,开放知识
142、应用场景对待融合的知识内容具有选择性和时效性要求。知识互联互通在开放知识融合应用场景中的应用过程可抽象为如图 4-2 所示的概念模型:图 4-2 开放知识融合应用场景概念模型概念模型整体分为两个阶段:构建阶段是根据场景需求,确认应用场景的开放知识需求,从本体模型到实体关系数据进行基础的知识图谱构建。其中,由于开放知识应用场景并非需要所有的知识内容,涉及多源知识进行合并、置信度检查、择优、抽取和清洗等。更新阶段是一个持续的阶段,可能贯穿应用场景的整过生命周期,涉及新开放知识的接入、已对接知识的更新,如:事件时间序列更新。知识图谱互联互通可辅助开放知识融合及其应用场景的搭建,进而降低单场景知识图谱
143、构建的复杂度和构建流程,大幅提升效率。可包括如下方面:提供开放知识服务提供开放知识服务:以往开放数据服务方式,通常基于处理好的结构化数据或者基于非结构化源数据等方式。如果将知识图谱互联互通应用于源数据侧,将简化应用场景的接入效率,节省大量的知识识别和抽取工作,也有利于知识的商业化。此外,当场景知识图谱构建完成,59知识图谱互联互通知识图谱互联互通基于互联互通也可将场景知识进行对外服务。辅助知识图谱构建辅助知识图谱构建:通过知识图谱互联互通,可在场景知识图谱构建过程中节省大量的接入工作。尤其是在达到标准化的情况下,此过程可能实现半自动化或全自动化。另外,由于开放知识可能分布在不同的领域,通过以知
144、识为基础的互联互通,也可减少场景构建方的学习成本,避免错误和歧义的产生。辅助知识图谱更新辅助知识图谱更新:当作为源数据的开放知识图谱中发生实体、关系变化或本体模型更新时,通过互联互通可高效地实现关联场景知识图谱的同步更新,无需再次通过知识图谱构建流程。3、应用价值3、应用价值知识图谱互联互通在开放知识融合场景中的应用价值包括:首先,知识图谱互联互通提高了开放知识的可用性、复用性,可将不同来源的开放知识快捷地组织到知识图谱应用中,使不同知识能够共享和互通。其次,知识图谱互联互通提高了开放知识的价值,可在不同来源的开放知识间建立联系并实现知识融合,也可形成一个跨系统和跨领域的知识网络。进而,使用户
145、可以从多个知识源获得更丰富的知识,实现知识价值最大化。此外,知识图谱互联互通有助于提高开放知识的准确性,可对不同来源的开放知识进行校验和验证,使用户就可以获得更可靠的知识,减少因错误知识造成的误导。(三)知识溯源与可信验证(知识存证)(三)知识溯源与可信验证(知识存证)1、应用需求1、应用需求随着社会的发展,各类信息素材的产生量及质量迅速提升,其中携带的海量知识在收集、存储、共享和应用过程中的来源识别和管理难度第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景60与日俱增。知识图谱互联互通不仅可以提升知识
146、的获取效率,还可以准确地定位知识的来源,并记录知识流转过程。此外,知识图谱互联互通可应用于知识真实性的识别和可信程度验证,提高知识库的质量,保障知识图谱后续应用过程的安全性。2、应用路径2、应用路径知识溯源可有效地验证不同知识图谱间的信息流转完整性,并分析数据来源的准确性和可信度。以金融领域为例,知识图谱互联互通可通过知识溯源支撑反洗钱的资金溯源。各金融机构的交易知识图谱相互独立,由于隐私性和数据安全性要求,导致资金交易追踪可能无法实现。知识图谱互联互通后,可有效地查询多个知识图谱间资金的变动和流转情况,从而获得完整的资金流。同时,可对资金源头和流转状况进行分析和查询,实现有效的管控和风险预警
147、。可信验证即真实性验证,是指知识流动过程中对原始数据准确性和真实性的验证。在金融监管审计中,知识图谱互联互通的可信验证可以有效的帮助金融监管机构审计金融监管数据,有效的识别异常信息,确保监管数据的准确无误等。基于区块链的知识图谱互联互通示意图如图所示,可通过区块链技术串联多个知识图谱图谱,将知识上链存证并实现多个图谱间知识的互联互通。图 4-3 图谱上链存证逻辑图61知识图谱互联互通知识图谱互联互通如图 4-3,应用区块链技术实现知识图谱互联互通时,各类知识图谱相互独立,但同时与同一条区块链交互。当某个知识图谱有新知识产生时,可及时将该知识发布上链。其他知识图谱则利用类似于区块链共识机制的算法
148、对该知识进行准确性验证,并对验证通过的知识允许上链登记和追溯,对验证不通过的知识则予以驳回。当某个知识图谱需要对知识进行验证时,可将该知识发布至区块链上,其他知识图谱可通过区块链获取该知识,并结合自身知识图谱进行推理和验证。此外,对于纠正错误知识的纠错者,可利用区块链的激励机制进行 Token 激励。图 4-4 知识溯源与可信验证逻辑图二、知识联合检索二、知识联合检索(一)公安系统多中心协同检索(一)公安系统多中心协同检索1、应用需求1、应用需求各个层级公安系统在开展日常业务的过程中,采集汇聚了各种社会数据、互联网数据、其他政府部门数据以及内部数据。这些数据来源多,种类杂(多达上千类数据)、数
149、据量大(PB 级别)、数据分散(分散在各第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景62个层级、各业务单位)。由于公安系统实行的是“条块结合、以块为主”的管理体制,而且出于部分业务数据私有保护的需要,无法做到大范围全量数据的统一汇聚、存储和利用。因此,形成了多数据中心的局面,难以发挥数据的最大效能。在对复杂案件侦查时,需要在不同部门、不同数据中心查找数据后再人工进行关联分析,并经过多个重复的步骤才能形成完整的证据链。因此,亟需构建多数据中心的协同检索机制,基于各数据中心的海量多源异构数据构建统一的知
150、识图谱。进而,支持跨中心的协同检索,实现在此基础上进行相关人员、事件、组织、时间、空间等多维度分析。用户只需在一个平台就能完成所有数据的关联挖掘分析,方便重点对象管理、风险预警和案件调查等业务的开展,提高公安部门侦查破案的效率。图 4-5 多中心协同检索逻辑图2、应用路径2、应用路径通过以统一本体模型为基础管理各中心数据,每个数据中心可独立部署运行,可在数据中心之间根据权限设置共享模型和数据种类。在多中心之间的本体模型保持一致的前提下,任一个数据中心均可发起本体63知识图谱互联互通知识图谱互联互通模型修改请求,并由主中心审批各个分中心的修改请求。在主中心允许发布后,系统同步更新所有数据中心的本
151、体模型。各个数据中心当需要把数据共享给其它中心访问时,可向管理系统注册数据并在获得共享许可后,供其它数据中心查看共享的数据。多中心检索的分布式架构如图4-6 所示:图 4-6 多中心协同检索架构图图中,多中心分布式服务分为服务端与客户端两个部分。其中,服务端也称为分布式配置中心,可作为一个独立的服务应用连接配置仓库,并为客户端提供获取配置信息、加密/解密信息等访问接口。客户端则是架构中的服务应用或基础设施,可通过指定的配置中心来管理应用资源与业务相关的配置内容,并在启动时从配置中心获取和加载配置信息。多中心检索的分布式结构中设置了一个服务注册监管中心。各中心通过部署级联管理模块,可基于分布式服
152、务框架将本地服务资源目录统一注册。同时,自动同步异地的服务资源目录。在注册之后,实现管理数据通道和业务数据通道分离。各中心间通过管理数据通道调用服务后,即可通过点对点的方式进行具体的目标数据传输,避免单点瓶颈问题。第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景64分布式服务调用过程如图 4-7 所示:图 4-7 分布式服务调用示意图调用关系包括:1)服务容器负责启动,加载,运行服务提供者;2)服务提供者在启动时,向注册中心注册自己提供的服务;3)服务消费者在启动时,向注册中心订阅自己所需的服务;4)注
153、册中心返回服务提供者地址列表给消费者。如果有变更,注册中心将基于长连接推送变更数据给消费者。3、应用价值3、应用价值通过构建统一知识图谱,支持跨中心协同检索不同公安部门数据,既保持各部门私有数据的相互隔离,又能实现组织内部知识共享和分析协同。主要实现方式是通过部署多套知识图谱应用,在多中心模式下的支持统一本体构建。在统一本体下支持不同中心访问和共享,从而实现中心间的数据既能隔离又能共享,支持多人、异地、跨部门的协同分享,实现相关组织间的情报传递和知识共享。进而,通过知识图谱将大规模、65知识图谱互联互通知识图谱互联互通碎片化的多源异构政务数据进行关联,以实体为基本单位对数据进行挖掘分析,揭示各
154、实体间的复杂关系,实现知识层面的数据融合与集成,更大程度释放数据价值。(二)金融系统跨机构联合检索(二)金融系统跨机构联合检索1、应用需求1、应用需求伴随着网络技术的迅猛发展,传统犯罪加速向网上蔓延。目前,电信网络诈骗犯罪案件处于高发多发态势,形势依然严峻复杂,如何有效地应对和预防以电信网络诈骗为代表的新型网络犯罪,已成为社会生态治理的重大课题。而且,电信网络诈骗和跨境赌博犯罪的“资金链”治理已步入“深水区”,犯罪形式更加多样,呈现出隐蔽性、规模性、动态性的作案趋势。然而,单个金融机构或者运营商因不具备完整数据,无法进行有效的反欺诈打击,这就需要建立知识图谱间的互联互通,实现他们间的操作。2、
155、应用路径2、应用路径基于图数据库技术的反欺诈方案能够有效发掘犯罪团伙主要是基于“物以类聚人以群分”这一社会型原理。即,同类的东西常聚在一起,志同道合的人相聚成群,反之就分开。欺诈团伙涉及的不仅是人与人、物与物之间的聚类群分,而且人与物之间也是紧密关联的。例如:不具备社交关系的人群之间不会轻易借手机(私人信息/物品)给对方,一旦借出即代表他们之间有着某些社会型关系,关系的桥梁/佐证就是该手机。以标签传播算法为例,基于“物以聚类人以群分”原理,即人以群分的底层社会学原理就是传染。志同道合的朋友既可以先天有相同的兴趣,也可以后天互相影响。在同一个社交网络里,或者该人群一开始就是同一类人,又或者他们互
156、相影响,成为了同一类人。电信网络诈骗犯罪是一个链条式的犯罪,一旦已知某个账户为诈骗账户,多次频繁与该账户发生交易的账户也高概率为诈骗账户。根据给第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景66定账户与风险账户不同的交易频次、不同的交易链条长度,加以权重,可以辅助判断给定账户是诈骗账户的风险。无论犯罪嫌疑人怎么更新手段隐藏自己的个体账户特征,只要嫌疑账户与社会网产生联系,形成了交易网络,图技术利用知识图谱的互联互通就可以进行迅速地发掘。3、应用价值3、应用价值图数据库作为知识图谱互联互通的底层存储形式
157、之一,以原生属性图(数据以实体和边的形式存储,并且实体和边上都支持属性)的方式存储数据,最大化地发挥原生属性图模型的免索引邻接。因此,每个顶点都相当于与它相邻的顶点维护一个微索引。这比使用全局索引的代价要小得多,也意味着查询时间和图的整体规模无关,只与它附近的顶点数量成正比。而且,使得业务查询不会像关系型数据库那样因为图的变大而同比例或指数级变慢,解决了与实时研判对查询需求的矛盾,提高了分析效率,降低了人工成本。此外,图的深链分析、查询、计算效率能极大地提升诈骗全链条治理的实时性、有效性,解决专家规则3实效性、动态性不足的难点,较好地响应了反电信网络诈骗法(草案二次审议稿)中“依法收集用户信息
158、,提升资金拦截时效”的要求。三、知识发现三、知识发现(一)热点发现/热点分析应用(一)热点发现/热点分析应用1、应用需求1、应用需求随着以智能手机为代表的移动互联网的普及,互联网和社交网络上的数据急速增长。据 IDC 报告,2022 年全球产生 80ZB 的数据,每天产生数据 230EB 的数据,而且人们对数据的使用提出了开放化、个性化、自主化、扁平化的要求。从海量数据中分析出所关注的行业或者技术热点3针对账户信息,利用现有规则模拟专家的决策行为进行欺诈识别。但是无法实时跟踪犯罪团伙的手段演变,犯罪分子往往通过试错的手段避开专家规则。67知识图谱互联互通知识图谱互联互通与发展态势,对抓住行业发
159、展的重大战略机遇与构筑先发优势具有重要意义。在热点技术研究中遇到如下困难:一是热点的粒度大小不一导致热点漏失。一般热点是与专业分类相连,但由于分类体系粒度过大,难以描述技术细节。后者存在一词多义或一义多词、词间缺乏语义关系等问题,会造成分析误差。此外,如果以词为基础进行热点聚类,粒度太小,语义刻画不准确。二是跨行业跨专业的热点相互隔绝,导致冷热不均。由于跨行业在内容上的隔离,导致了特定行业内的热点对其他行业的影响很小,无法发挥出行业之间协同的作用。2、应用路径2、应用路径通过将不同行业、不同领域、不同专业的知识图谱互联互通,将一个知识图谱中的热点转移到另外一个知识图谱中去,可以实现跨知识图谱的
160、热点迁移。基于知识图谱互联互通的热点分析示意图如图 4-8 所示。图 4-8 基于知识图谱互联互通的热点分析示意图(1)同一领域多层知识图谱的构建(1)同一领域多层知识图谱的构建工程领域通常是多专业多技术融合的领域,包含时间、空间、业务之间的复杂关联关系。如果将它们完全融合在一起进行知识图谱识别,则对语料标注和算法提出了严峻挑战,在工程上是不易实现。考虑到不同专业都有成熟的知识分类体系,因此将知识图谱按照专第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景68业进行分层,分别建立各专业的知识图谱,则在工程
161、上是一个可行的方法。而且依据各专业人士对语料进行独立标注,能够保证语料的正确性。对于同样一组语料,每一层进行知识图谱构建。对于整个行业的知识图谱,可通过不同层次的知识图谱融合和互联互通实现,依据关联的概念定义,将不同层之间存在的实体进行关联填充。(2)按领域进行热点识别和分析(2)按领域进行热点识别和分析热点作为一个事件或者功能,在知识图谱上通常表现为两点一线。但是由于热点具有偶然性,知识图谱并没有预先为热点位置,可将识别出的热点挂载到知识图谱的实体上。热点识别可以分为两种模式:出现频次较多的热点;刚刚进入分析视野的新热点。热点确认可按照热点从无到有的增长趋势进行热点识别,例如,按照时间分布具
162、有突变性质的事件,可认为热点;而平稳增加的事件可不认为是热点。基于知识图谱间的互联互通可进一步分析更为完整的热点路径,并分析获取热点路径上的关联物。(3)不同领域之间热点转移(3)不同领域之间热点转移由于热点出现的随机性,互联网、自媒体或者舆情现象所形成的热点容易淹没工程技术领域的热点。通过知识图谱的互联互通可进行热点转移,进而能够辅助激活和发现工程领域的热点。但是,由于知识图谱通常以使用者为中心进行构建,因此,当其他领域的热点传到另一领域关注的热点时,其热度还需按照离原图热点位置的距离进行适度衰减。(4)同一领域热点知识图谱融合(4)同一领域热点知识图谱融合当同一领域的知识图谱融合时,可将领
163、域内不同专业的知识图谱统一集成融合至某一选定专业的知识图谱上,从而在形式上使图谱成为一个有机的整体结构。对于出现的热点,可以让使用者整体、全面了解其在整个知识图谱的位置和影响。69知识图谱互联互通知识图谱互联互通3、应用价值3、应用价值行业知识图谱的互联互通实现了热点在不同图谱之间的传递,使得研究成果可在不用领域之间共享。热点往往代表了技术、资金、人才长期投入后获得的突变式关注,其背后的技术突破往往具有革命性、代表性。因此,热点在不同知识图谱之间的迁移,可以获得对本领域的最新认知,对于提高本领域的研究水平具有重要的意义。(二)知识分析与推理(二)知识分析与推理1、应用需求1、应用需求随着企业知
164、识图谱的不断扩展,实体和关系的数量快速增长,随之而来的问题就是图谱数据质量和完备性的保证。知识图谱的质量问题主要是指在图谱中存在错误的实体或关系数据,可能是引用的原始数据错误,也可能是构建时引入的问题。知识图谱的不完备性主要是指图谱中的实体属性或关系缺失,可能是原始数据或抽取算法缺陷。同时,由于数据量巨大,知识图谱中潜在的关系和模式也变得模糊且难以探查。在这样的情况下,通过人工方式已经无法进行有效操作和处理,需要在多个知识图谱基础上使用统计分析、模式挖掘和逻辑推理等知识分析和推理技术,来满足不同的业务场景需求。2、应用路径2、应用路径在多个知识图谱上进行的分析和推理,根据数据实时性要求的不同,
165、通常会以在线服务或离线计算的方式,将结果提供给上层应用。具体来说,在应用路径上可以分为两个方向:(1)知识统计分析和特征提取(1)知识统计分析和特征提取通过知识图谱间的互联互通,对多个知识图谱进行基础性查询、统计分析和图挖掘计算,例如实体关系检索、特征统计、关联分析、异常检测等。特征统计是指对图谱中单一节点、或多个节点的图特征以及属第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景70性特征进行统计计算的过程,包括出入度、中心性、相似度和社区检测。出入度主要是统计一个节点发出和接收到的边的数量,中心性是计
166、算一个节点在图谱中的重要性和关键程度,相似性是计算一个节点和其他节点的相似度高低,社区检测是探查一个节点和其他节点的连通关系。(2)知识的推理和新知识发现(2)知识的推理和新知识发现基于知识图谱互联互通的推理与基础推理相同,是按照某种策略,根据已有的知识信息,推断出未知的事实或关系的过程,包括基于符号推理和基于统计的推理。基于符号的推理包括基于本体的推理和基于规则的推理,前者包括概念的定义和分类,以及实例的推断等推理,后者是将规则应用于多个知识图谱,实现多知识图谱上新的关系推断以及基于多知识图谱的决策支持。可以被应用到业务领域概念定义和分类、数据的不一致检测和智能问答中的知识扩充等。基于统计的
167、推理包括模式归纳和实体关系学习,前者是从多知识图谱中挖掘概念的关系,后者是通过统计方法推断出两个实体之间的关系。可以应用于知识图谱补全、智能推荐等场景。3、应用价值3、应用价值通过对多知识图谱中实体关系的统计分析和模式识别,可以帮助分析人员对多知识图谱的网络特征有更加清楚的认识和了解,对于关键实体、关系和子图能够进行聚焦分析,利用图算法对潜在的模式进行探查。在金融领域中使用异常检测发现欺诈和风险交易,以及社区检测分析潜在利益集团。此外,将已经建立的多知识图谱看作先验知识,通过少量高质量样本进行快速学习和整合,可以减少构建大规模高质量图谱的人力和时间成本。在故障诊断和根因分析中,可以基于多知识图
168、谱的知识推理来降低知识图谱的稀疏性和不连通性,使得分析结果趋向于完备。71知识图谱互联互通知识图谱互联互通(三)网络通信频谱资源管理(三)网络通信频谱资源管理1、应用需求1、应用需求随着无线数据业务的不断增长,电磁频谱紧缺问题日益突出,成为制约通信系统发展的瓶颈。由于大数据时代下通信技术较为繁琐、内容复杂,网络信息非法使用、数据资料丢失等常见的安全问题使网络通信的整体安全性及可靠性受到影响。因此,打通各业务间的数据、模态、标准、流程等技术壁垒,实现一体化信息网络频谱资源的动态共享是推动未来通信系统发展的关键。为满足未来多层次多业务一体化信息网络频谱共享、无线电秩序高效管理以及通信网络安全可靠等
169、需求,需要构建包含多业务高可靠的通信领域知识图谱。同时,基于知识图谱互联互通技术打破多业务间的技术壁垒,提高资源利用效率,实现高度自动化、智能化且可提供更贴近人类用户需求和体验的万物智联的全新通信系统。基于知识图谱互联互通的空天地一体通信系统应用场景概念模型如图 4-9 所示。图 4-9 基于知识图谱互联互通的空天地一体通信系统应用场景概念模型第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景722、应用路径2、应用路径通过知识的异构异质融合,形成集成统一的知识图谱,并将其应用到不同的通信系统中,以实现各
170、个通信系统间的知识互联,可使整个通信系统更智能、更高效、更广泛连接。例如:单一的频谱知识图谱可以解决无线电监测数据未规范化的问题,但难以直接表示频谱资源的动态分布情况。根据不同通信系统的频谱资源分配需求,改变电磁频谱资源请求意图模糊、频谱管控无法全覆盖的现状,可将频段划分、业务分配、调制方式、接入方式、干扰方式等多个细分主题域知识图谱进行互联互通,实现电磁频谱精准认知,便于频谱资源的分配和管控,从而提升电磁频谱资源效率。3、应用价值3、应用价值(1)(1)资源智能调度随着空天地一体、云-边计算、大规模多接入等通信系统的广泛研究,资源调度将包含时间、频率、空间、功率、缓存和计算等多域异质资源的调
171、度。多域异质资源调度引起的变量增加、维度扩大、变量间的紧耦合等问题,都增加了资源调度难度。为此,可将经典信道模型、常见通信场景、经典资源调度案例、用户服务质量类型等知识图谱关联,实现基于知识图谱的多域资源智能调度,以提升通信系统性能和保障用户服务质量。(2)(2)大规模接入针对未来通信对象的大规模特性以及其应用场景和接入业务的多样性和复杂性,通信系统接入技术的混合业务支撑能力和资源的利用效率需要得到提升。通过构建不同接入技术的知识图谱,并利用知识图谱互联互通等方法,将多种技术有机融合,挖掘不同业务体征,适应不同通信场景,以实现大规模、差异化的灵活接入。(3)(3)通信安全与保密73知识图谱互联
172、互通知识图谱互联互通为了保护用户隐私,最大化将数据控制在用户终端层面,利用基于知识图谱的联邦学习框架,可构建面向隐私安全的联邦边缘智能的通信网络架构。其中,知识图谱由全局知识型库与私有知识库构成。全局知识主要由云计算中心或者分布式边缘计算服务器维护,并可供不同的用户查询和调用。因不同用户可能拥有私有信息,用户可将私有知识和模型存储在指定的边缘计算服务器中。通过云边端的架构实现知识图谱的互联互通,并在此基础上协调多个边缘服务器之间的知识建模并保护本地语义数据避免泄露,以实现安全高效的通信。四、知识生成四、知识生成(一)内容辅助生成(一)内容辅助生成1、应用需求1、应用需求随着人工智能的发展,部分
173、人类重复性的工作逐渐被人工智能相关系统替代。但是,目前人工智能系统的认知能力依然有限,在基于大模型、知识图谱等技术的内容辅助生成或辅助撰写过程中面临如下问题:(1)文献格式不符合专业习惯完全靠生成式人工智能(AIGC)按照固定格式生成的文献,通常难以符合专业文献撰写习惯。此外,由于专业文献有限、人数有限及专业文献的安全性等限制条件,尚难以生成专业性很强的文章。(2)文献的事实不真实和数据错误在语料足够多的情况下,AIGC 能够生成结构合理的文献,但这些文献主要是信息世界中数据重新组合形成,与现实世界的真实情况可能存在差异。基于知识图谱互联互通的内容生成,可以将真实世界的场景和数据植入文献中。基
174、于互联互通的文献生成示意图见图 4-10。第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景74图 4-10 互联互通逻辑示意图2、应用路径2、应用路径以如下应用路径为例,可通过将真实业务数据构建形成多个主题域业务知识图谱,并面向专业文献构建对应的文献模版。此后,通过基于业务的知识图谱间互联互通,生成更加符合阅读习惯和具备真实数据的专业文献。具体步骤如下:(1)业务知识图谱融合(1)业务知识图谱融合业务知识图谱主要解决的问题是业务的真实性问题,因此要用业务人员真实使用的数据构建知识图谱,将现场中使用的各种
175、业务表单通过实体对齐、实体融合等方法,构建出一张整个领域的知识图谱。从而,使得业务人员从该知识图谱中获得熟悉业务数据,同时使知识加工人员从该知识图谱中看到知识之间的关联。(2)文献模版设计与编制(2)文献模版设计与编制文献是个非结构化的层次结构,由篇章节段句构成一个完整的知识体系。专业文献必须符合专业习惯。文献模板也是专业性的具体体现之一,通过对模板的填充可以辅助生成专业文献。在实际操作中,撰写文献的过程是一个多次选择、多轮对话、多次修改的精进过程。如果业务已经有了业务模板,其中的段落都已经空格化,则只需要从图谱中关联出相应的数据,就能生成一个较为专业的辅助文本。如果业务中没有业务模板,则需要
176、将整个文献通过实体识别成为模板。为了实现图谱的互联互通,需要对各层都打上业务标签,层次75知识图谱互联互通知识图谱互联互通越低标签越具体。此外,通过 fasttext、bert 模型将文本进行向量化,并通过有监督标注等方式得到更为可信的文本标签。(3)构建多业务知识图谱间的互联互通通道(3)构建多业务知识图谱间的互联互通通道围绕真实的业务场景,通过业务逻辑和任务可以进行多业务知识图谱的互联互通,以获取更加丰富的业务数据和计算结果。此外,为了支持更加丰富的文献描述形式,可在知识图谱的相应层叠加业务分类标签,以通过业务标签实现真实业务数据和语句描述间的关联。(4)文本格式生成(4)文本格式生成最后
177、,将填充了真实数据的知识图谱,按照给定的文献模版中文本格式进行输出,从而得到一个具有较高真实性又能够符合专业习惯的文献,实现内容辅助生成。3、应用价值3、应用价值通过知识图谱互联互通可以为文献内容生成带来如下价值:(1)加快了文本的撰写速度:撰写文献大部分时间在于准备数据和素材,通过知识图谱互联互通将真实数据融合在一起,节省了专业人员查找数据和确认数据的时间,加快了形成文本的速度。同时,使得人们从很多重复性的搜索整理工作中解放出来,将人的创造性集中于技术突破点和专业问题本身。(2)提升了文本的专业性:由于采用基于专业模板和真实数据的互联,因而保证了生成内容的专业性,以克服 AIGC 的局限性,
178、使得其能更好地辅助文本编制类的工作。(二)知识完善与更新(二)知识完善与更新知识图谱的主要目标是用来描述各种实体和概念及其相互之间的关系。对于一个实例而言,与其关联的实体越多,知识越丰富,知识图谱越完善,则潜在的应用价值越高。因此,通过互联互通技术可将不同行业、产业、领域、企业机构的知识图谱充分共享与融合,实现知识的复第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景76用,提高数据验证效率。从而,最大化挖掘和发挥知识图谱的价值。1、知识完善1、知识完善将具有一定关联的多个知识图谱进行融合,扩充实体和关系
179、数量,可大幅提高实体表示与分析的完整性和准确性,从而完善特定实体对应的相关知识。以海关税管商品、企业和纪检监察对象的数字画像完善为例,展示基于知识图谱互联互通的知识完善相关应用场景。(1)海关税管商品画像完善(1)海关税管商品画像完善面向海关商品税收征管风险识别的知识图谱将商品条码作为知识图谱关联结构中的重要索引,以识别报关清单中同一条码商品归类及定价异常,如多税号商品条码、价格波动大、税率异常等风险。尽管海关系统庞大复杂,分支机构众多,税管所涉商品种类繁多且常有重复交叉。但,根据 GS1 商品条码管理标准,同一生产者出品的属性特征相同的商品使用同一条码。因此,只要采用标准化的知识图谱本体,各
180、地海关机构就可以将本地掌握的商品信息数据进行统一上报,从而构建全国唯一的海关商品知识图谱。然而,仅仅依靠海关系统自建知识图谱,难免成本高、效率低,且知识不够丰富。为此,通过连接国内外商品信息管理机构、商品数据池、大型零售商、跨国电商平台的商品知识图谱,进行知识共享和融合,可以快速完善商品的相关知识,构建更加完整、准确的商品画像。从而,形成申报、备案及税收征管的统一商品知识库,串联海关各业务信息,形成统一整体的数字化监管体系,为海关风险防控改革提供高效的技术支撑。该应用场景的业务流程如图 4-11 所示。海关连通其他知识图谱,通过知识融合,补充所缺的商品信息,使商品数字画像更加完善。77知识图谱
181、互联互通知识图谱互联互通图 4-11 应用场景的业务流程图 4-12 应用场景知识图谱第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景78除此之外,商品知识图谱的互联互通完善商品数字画像,对于提高海关系统税管业务效率具有很强的支持作用:一是可以自动识别商品报关单上的异常信息,智能预警税管风险;二是可以通过数字画像快速鉴别商品真伪,协助海关打假;三是大大地提高税收征管的标准化,推进海关建设国际贸易供应链治理体系,促进商品智慧管理。(2)企业画像完善(2)企业画像完善当前,国内已有数个知名的企业征信机构或企
182、业信用信息查询系统通过各种渠道收集企业信息,并构建企业知识图谱,以便于个人或机构进行企业信息查询、商业研究、企业监管等。企业知识图谱通常体现企业架构、股权结构、企业关系、受益股东、知识产权、司法风险、经营风险等各方面的信息,但不同征信机构或查询系统收集的信息通常既有重叠,也有差异。因此,将不同的企业知识图谱连接起来,进行知识共享和融合,有助于完善企业的数字画像。进而,提高企业信息完整度和透明度,实现全方位监督和预警,提升企业数字化监管力度和水平。(3)纪检监察对象画像完善(3)纪检监察对象画像完善为辅助监察办案,提高监察效率,各政府机构、企事业单位的纪检监察部门采用知识图谱技术构建监察对象的数
183、字画像,监察异常行为,并进行预警。但单个部门或系统构建的知识图谱不足以全面反映监察对象的背景、思想、作风、履职等情况,利用知识图谱的互联互通,可连接司法、执法、交通、金融、工商、住建等其他系统的相关知识图谱,进行知识共享与融合,完善纪检监察对象的数字画像。进而,填补纪检监察漏洞,促进全方位监督,及时发现潜在的廉政风险,为纪检监察工作提供有力支撑。2、知识验证2、知识验证当前,知识图谱技术的一大难点就是如何验证生成的三元组准确性。尤其当抽取的实体、属性、关系等来源于非结构化数据时,如果靠人工来完成验证,将极为耗时耗力。而且在数据规模超大的情况下,靠人工79知识图谱互联互通知识图谱互联互通验证难以
184、实现。此外,如果单靠算法来进行推理验证,也难以预估验证的准确率。通过互联互通技术,将同类知识图谱中的知识进行共享与融合,再采用算法技术进行验证,将大大提高验证的准确性。例如,将不同百科系统的知识图谱进行融合,可以得到一个新的知识图谱。此后,再对旧知识图谱和新知识图谱分别进行推理验证,基于验证结果对比,可自动检测出差异之处,并针对差异进行特殊核查,从而避免全量核查,大大降低成本和提升效率,最终快速提升各个知识图谱的质量。五、综合应用服务五、综合应用服务(一)业务系统集成应用场景(一)业务系统集成应用场景1、应用需求1、应用需求目前,各企业重点业务系统在企业数字化转型进程中承担着重要角色。然而,各
185、系统的业务标准与功能差异巨大,是制约企业数字化转型的掣肘因素之一。如何打通各系统间数据、标准、流程等系统壁垒,并助推企业数字化增效赋能成为关键。此外,企业内业务系统的壁垒也会引起业务数据更新同步的壁垒,例如:组织内部经常会有成员信息变化,如企业名称的改变、企业经营范围的变更、企业外交人员的变更等,这些信息需要长期投入大量人员管理,而其时效性往往是组织需要攻克的一大难题。数据实体、标准规范、处理流程等信息天然成为企业知识图谱核心要素,基于知识图谱的互联互通能够为企业顺利完成数字化转型带来正向反馈,助力其吸纳各类业务优势。通过从多样化数据中挖掘更多数据红利,提升整体运行效率,为企业数字化转型夯基筑
186、台。基于知识图谱互联互通的系统集成应用场景概念示意图见图 4-13:第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景80图 4-13 基于知识图谱互联互通的系统集成应用场景概念示意图2、应用路径2、应用路径针对多个业务系统集成面临的接口标准不统一、跨域共享难、共享交换安全等问题,以知识图谱作为各系统间交互的媒介,可通过知识图谱间互联互通,促进各业务系统间的集成。一是开展知识标准体系建设,切实解决多来源业务知识和异构业务知识关联与运用难题;二是开展知识资源组织与管理,通过知识梳理、知识编目、知识核查等工作
187、,实现跨业务域知识资源的综合利用;三是开展知识共享交换与知识安全保障体系建设,通过知识确权、知识溯源、知识可信评估等,实现多业务系统知识资产的安全可信交换。(1)业务知识互联互通标准体系构建(1)业务知识互联互通标准体系构建在国家相关政策、技术标准指导意见基础上,梳理机构内部业务系统集成中的知识特点与要素特征,制定业务系统间知识互联互通的集成内容、边界及规范表达,如:知识资源结构、知识技术标准、知识管理要求、知识服务要求等。81知识图谱互联互通知识图谱互联互通(2)多来源业务知识数据采集(2)多来源业务知识数据采集针对业务部门、跨业务系统间的知识结构和要素特征,可通过调度中心、决策中心相结合的
188、分布式知识采集处理架构,开展多样化的知识采集策略和知识抽取方式。例如:针对结构化资源和非结构化资源,以知识映射、知识裁剪、知识过滤等工具化手段进行预处理。(3)异构业务知识关联与融合(3)异构业务知识关联与融合针对知识来源和知识领域不同导致的知识图谱质量参差不齐问题,围绕业务线分析不同类型、不同业务领域知识间的多维聚合、统一关联、融合互补等机制。通过开展基于嵌入表示的实体对齐、基于潜入表示的知识融合等技术,完成以知识对象为中心的知识重组、融合和补全。(4)跨域业务知识统一管理(4)跨域业务知识统一管理各类业务知识是机构内部的重要资产,围绕类型多、领域多等特点开展知识资源的组织、存储和管理,通过
189、知识的发布、查询、定位和管理机制,实现业务系统知识资源目录内容的共享与共用。例如:知识资源目录管理方式,涵盖知识梳理、编目、目录管理、目录服务等,并通过知识质量核查和知识血缘分析完成集中式的知识质量管控。(5)知识数据共享与交换服务(5)知识数据共享与交换服务以知识问答、检索、推荐、订阅等方式进行互联互通能力的封装,提供更为统一的业务系统间知识共享形式。针对安全可信交换要求高的场景,还可以引入基于区块链的知识共享智能合约协议、基于共识算法的知识资产溯源等技术,强化关键系统的知识保护层级。此外,针对知识安全保障方面,可以采用技术和管理手段,建立知识安全管理体系,确保知识安全和系统安全,如保护知识
190、的安全接入、不可篡改等。3、应用价值3、应用价值随着信息化建设的快速发展,企业各类信息系统平台较为丰富,普遍面临众多系统平台的分隔封闭问题。在企业综合集成各类业务系统过程中,通过知识图谱互联互通能够带来以下几方面益处:第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景82(1)实现跨系统数据的关联融合:(1)实现跨系统数据的关联融合:多信息化系统或设备应用,常导致同一条数据以不同的形态存在于多业务系统中,在系统集成运用中造成数据表述不一致,有效信息无法关联。在互联互通过程中,通过对各类数据概念、业务系统术
191、语体系的融合消歧,可以实现系统间同一数据的关联融合,进而为数据价值的进一步释放提供统一的数据环境。(2)实现跨系统数据的统一管理:(2)实现跨系统数据的统一管理:由于现存各类业务系统主要由多业务部门参与和多角色管理,从而导致数据多重管理,且数据源头不统一等问题。业务系统用户角色、数据源管理、数据血缘等信息作为系统基础知识,在知识图谱互联互通过程中,可以实现相互间的校对和映射,进而在企业整体层面实现同一类型用户角色、数据源的统一管理。(3)实现跨系统需求的一致性管理:(3)实现跨系统需求的一致性管理:系统集成过程面临设备与设备、设备与系统、系统与系统之间的数据交互需求较大等问题。然而,相关数据交
192、互需求沉淀固化后往往存在多种形态,可借助知识图谱互联互通过程中异构知识的关联与融合,对各类形态需求进行关联融合,最终达到对跨系统需求的一致性管理。(4)实现跨系统复杂流程的综合集成:(4)实现跨系统复杂流程的综合集成:在业务流程的驱动下,系统集成还需打通设计、工艺、采购、物流、制造、检测与服务等产品全生命周期的业务过程。利用知识共享与交换服务,能够有效支撑实现企业层面跨系统的复杂流程综合集成和贯通。(二)标准数字化(二)标准数字化1、应用需求1、应用需求标准文献是十大科技文献资源之一,蕴含着丰富的科技知识,既是标准的重要载体和表现形式,也是科研人员收集标准情报的主要来源口。随着数字化进程的加快
193、,标准机器可读的研究也出现了很多的技术研究和信息化解决方案,比如基于光学字符识别和版面分析等技术的文档分析、基于自然语言处理的标准内容解析、基于正则提取与反向索引技术83知识图谱互联互通知识图谱互联互通的标准文献的碎片挖掘与片段检索、标准领域的知识库构建等。但是,在标准管理和机器可读领域的标准关联分析、标准术语库构建、标准关键参数挖掘提取、知识图谱构建以及认知推理等方面还处在初始研究阶段,一系列问题亟待解决:一是标准索引结果效果欠佳,智能检索需求迫切。一是标准索引结果效果欠佳,智能检索需求迫切。由于标准文件体量众多,领域比较多元,在标准检索过程中,如何精准查找相关标准,获取全面详尽的标准信息非
194、常重要。在检索中,依靠传统索引方式非常低效且匹配精准度不够,迫切需要基于自然语言理解和知识图谱使标准检索更加智能、准确有效地反馈用户需要的标准列表。二是标准指定重复情况频发,查重问题亟待解决。二是标准指定重复情况频发,查重问题亟待解决。由于标准重复编制不仅造成资源的浪费,也损害了标准的科学性、有效性。在企业和机构内部标准主管部门对标准重复问题也十分重视,研究了一些标准查重的方法和机制问题,取得了一定的进展,但总体效果并不明显,问题集中在:(1)标准数量呈现逐年快速增长的态势,数量庞大的标准为查重工作带来很大挑战;(2)项目相似性判别方法单一;(3)历史项目信息分散存储,标准数据收集缺少规范化和
195、系统化的数据收集手段和统一管理标准,导致标准查重所需要的信息比较碎片化,无法有效支撑标准查重的信息需求。三是标准评审专家甄选困难,匹配效果需要提升。三是标准评审专家甄选困难,匹配效果需要提升。由于标准文件体系多元、管理主体众多,在标准评审过程中,如何获取详尽的专家资源并加以有效利用(即如何构建专家库)成为支撑标准评审的基础。在评审中,凭借历史经验人工匹配专家的方式耗费大量人力,且时有标准和专家失配的情况发生,匹配精准度不稳定,迫切需要信息化手段实现专家优选,以及评审标准和评审专家之间的高效精准匹配。2、应用路径2、应用路径面向当前标准的检索、查重、专家优选等需求,针对标准文献数据,实现标准语料
196、的采集和初步分析管理,并通过实体关系识别等,完成多第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景84领域标准知识图谱的构建和互联互通;基于文本词向量语义分析、文本特征提取、相似度比对等,实现多标准的查重和比对;根据专家专业信息,通过策略-算法双驱动的推荐技术实现标准评审专家的精准推荐。(1)标准结构要素(1)标准结构要素标准是为各项活动及其结果提供规则、指南或特性,共同使用和重复使用的文件,标准的起草和编写需要按照统一的规则和规范,以便于起草者编订适用性更好的标准,更好地服务于标准使用者。标准文本的知
197、识单元和知识关联模式是识别、研究和应用标准知识的基本出发点。构建标准文本知识图谱,需要对标准文本的组成要素、层次和知识关联逻辑进行分析,进而确定标准文本特征的知识切片和重组方法。因此,标准文献的结构解析是采用知识图谱对其进行表达的基础。国家标准 GB/T1.12020标准化工作导则第 1 部分:标准化文件的结构和起草规则对标准文本的组成要素进行了详细的规定,可获得标准文献的共性结构要素如图 4-14 所示。图 4-14 标准结构要素(2)标准文献本体模型(2)标准文献本体模型构建标准文献知识图谱时,需对标准文献内容进行知识粒度细加工,获取标准文献内部的语义知识单元,挖掘标准文献知识单元之间的关
198、联关系。同时,统一的标准文献本体模型时标准文献知识图谱间进行互联互通的基石。通过解析标准文献的结构特征并整合其中的实体类型、属性和关系类型,选取自顶向下的方式可分析标准文献本体模型结构,如图 4-15 所示。85知识图谱互联互通知识图谱互联互通图 4-15 标准文献知识图谱模型标准化领域知识图谱构建及应用的整体技术路线如下图所示。第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景86图 4-16 标准化领域知识图谱构建及应用的整体技术路线(3)标准智能检索和查重(3)标准智能检索和查重通过标准文献间的互联
199、互通,可实现所需标准在更广范围、更宽专业领域的精准检索,如:国际标准、国家标准、行业标准、团体标准等,并实现多元化、更智能的检索结果列表展示。此外,将待查标准与多个标准知识图谱中标准名称、标准条款的对比,可以得出待查标准是否涉嫌重复,并给出明确结果。(4)标准专家优选(4)标准专家优选利用多知识图谱的搜索,并结合论文文献分析、共引分析等方式,可以分析待评审标准所在领域的学术专家和擅长方向。在标准体系编织、87知识图谱互联互通知识图谱互联互通标准需求论证、标准评审等环节,可基于跨知识图谱的精准推荐模型,实现评审专家的推荐,提升效率。(5)标准知识更新(5)标准知识更新面向标准制修订及应用,多个知
200、识图谱的互联互通融合,可以促进标准知识的完善,提升知识验证效率。例如,通过将不同学科或领域的知识图谱与已有标准知识图谱进行互联互通和知识融合,可进一步挖掘不同知识之间的内在联系,从而获得新的知识并更新完善标准知识图谱中存在确实的内容,构建新的知识图谱或推动新标准的需求论证。例如,在医疗领域,通过融合医疗知识图谱、气象知识图谱、地理知识图谱、人口统计知识图谱、饮食风俗知识图谱、产业知识图谱、医疗领域标准知识图谱等,可能发现某些疾病的种类和发病概率与气候、地理环境、人口特征、饮食偏好、产业分布等因素之间的联系及现有标准对于关键因素的覆盖度等,从而推理出新的知识图谱,助力研制创新的医疗康养方案。又如
201、,在政务领域,通过融合政务领域标准知识图谱与农业知识图谱、工业知识图谱、产业知识图谱、金融知识图谱、教育知识图谱、科研知识图谱、民生知识图谱、政策公文知识图谱、纪检知识图谱、气象知识图谱、地理知识图谱、人口统计知识图谱等,挖掘发现标准、产业、金融、教育、科技、民生发展与政府出台的政策公文、官员执政纪律、气候地理条件、人口特征等因素之间的联系,确定标准的覆盖度和活跃度,推动标准的完善和修订。3、应用价值3、应用价值各行各业在发展过程中均离不开标准的支撑,涉及产品、技术、流程、管理、安全等多个层面和纬度。这样也导致单一的标准文献知识图谱通常难以覆盖所有的行业和领域,通过知识图谱间的互联互通可以建立
202、更加广泛、更大规模、更深层次的标准知识图谱及知识体系。进而,能够支撑标准的精准检索、关联分析、更新完善等。此外,标准文献知识图谱与专业领域知识图谱或企业内部业务知识图谱进行互联互通,还第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景88可以进一步促进企业的贯标、用标,并促进关键和核心标准的识别以及缺失标准的论证。(三)语义互操作(三)语义互操作语义互操作性,又称为语义协同工作能力或者语义互用性,是互操作性的一种层次。IEEE 对互操作性的定义为:“两个或多个系统或组成部分之间交换信息并对已交换信息加以使
203、用的能力”。在语义化的系统实现中,数据与它的上下文需要打包在一起。同时,这些上下文通过使用预制的通用词汇表,赋予了数据描述自己语义的能力。依托知识图谱间的互联互通,可通过本体模型及多元组为数据赋予语义信息,进而实现系统间的语义互操作。通常,只有当参与方计算机系统之间所交换的数据能够得到对方正确处理和使用的情况下,才能称为实现了语义协同工作能力。语义互操作性可以实现以下功能:数据交换:数据交换:语义系统能够自动解释传入数据的含义,使数据可以供任何主体使用。语义数据交换对于机器之间的通信是必不可少的。数据集成:数据集成:语义数据集成提供了一种让多个数据源自主无缝的组合方式,并呈现给应用程序。数据推
204、理:数据推理:语义互操作性可以在现有数据中发现隐藏的关系,并根据规则在数据中自动填充关系。根据 IEC 发布的白皮书语义互操作:数字化转型中的挑战(Semanticinteroperability:challengesinthedigitaltransformation age),系统间语义互操作的简要结构和两台工业设备间基于语义互操作的协同示意图见图 4-17、图 4-18。可以看出,知识图谱互联互通同样依托了本体层的统一及实例层的交互,在语义互操作过程中为信息模型的统一和语义数据的交换提供了可行的技术路径。89知识图谱互联互通知识图谱互联互通图 4-17 语义互操作的典型场景及基础框架图
205、4-18 基于语义互操作的系统间协作场景示例4(四)辅助决策(四)辅助决策当单一领域知识无法满足或解决当前领域的现实问题时,辅助决策系统通常难以给出理想的决策方案和依据。通过融合其相关领域的知识,形成集成、增强和统一知识图谱,并将其输出应用到辅助决策系统,可以使系统的辅助决策范围和结果更准确和更可持续。以地理学领域知识为例,测绘地理信息是经济社会发展和国防建设的重要基础,基础地理知识是面向领域需求,所形成的对地理环境要素空间格局、相互关联和时空变化规律的系统性认识。当地理知识作为补充知识,与智慧医疗、智慧公安、城市规划、自然灾害等单一领域知识图谱融合后,将更有利于分析各领域实体的时空特征和时空
206、趋势,从而增强决策的科学性、准确性。4IEC 白皮书语义互操作:数字化转型中的挑战(Semantic interoperability:challenges in the digitaltransformation age)第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景第 四 章 知 识 图 谱 互 联 互 通 的 典 型 应 用 场 景90在医疗领域,单一的 COVID-19 知识图谱可以解决医疗资源追溯、疫情知识问答,但难以直观表示疫情态势的空间分布和扩散态势。蒋秉川等人提出了一种利用地理知识图谱结合交互式可视分析 COVID19 疫情态势的方法,将地理知识图谱语义
207、网和时空信息可视分析模型相结合,基于地理知识图谱相关技术构建 COVID-19 病患时空信息知识图谱,设计交互式协同可视分析方法,进行 COVID-19 疫情态势监控和病患关系分析,为精准防疫抗疫探索了一条高效可循的思路与方法。在智慧公安领域,通过公安知识图谱与地理知识融合,形成人、事、地、物、组织、虚拟身份等不同实体,构建其属性联系、时空联系、语义联系、特征联系、位置联系等,实现更加准确的查询分析和更加智能的信息挖掘。单一的公安知识图谱仅能够分析实体间(如人员、场所)之间的关联分析,而融合地理知识后,可以通过实体间的地理位置、活动路径挖掘其隐藏重要人物/地点等,从而提高警务工作效率、缩短警务
208、工作办案过程。在城市规划领域,通过城市规划知识图谱与地理知识融合,可实现城市指标智能计算、城市演进趋势分析等,有利于决策者进行更有针对性的城市规划建设,解决城市问题,提升城市品质和人居环境质量。91知识图谱互联互通知识图谱互联互通第五章 知识图谱互联互通的实践案例第五章 知识图谱互联互通的实践案例知识图谱互联互通白皮书案例实践汇集了金融、医疗、能源、纪检、通信、汽车和智慧家居等 11 个行业领域的 20 个实践案例,每个案例从各自行业的需求背景、应用场景、实践案例、运用成效、优劣势以及性能指标等维度详实阐述,为知识图谱互通互联赋能数实融合提供了具体实践指导。各案例的领域分布及所对应的知识图谱互
209、联互通应用场景如图 5-1 和表 5-1 所示,详情见附录 B。图 5-1 白皮书实践案例行业分布图表 5-1 实践案例与应用场景对应关系序号案例名称应用场景一智慧纪检:知识共享实践案例知识完善与更新二智慧纪检:知识关联分析实践案例知识完善与更新三智慧金融:反洗钱实践案例多方知识计算四智慧金融:声誉风险金融知识融合实践案例知识分析与推理五智慧金融:金融领域知识图谱数据和服务融合案例业务系统集成六智能金融:新一代银行知识管理系统业务系统集成第 五 章 知 识 图 谱 互 联 互 通 的 实 践 案 例第 五 章 知 识 图 谱 互 联 互 通 的 实 践 案 例92序号案例名称应用场景七智慧金融
210、:金融机构客户尽职调查知识联合检索八智慧能源:油气勘探开发知识中心热点发现/分析、内容辅助生成九智慧医疗:共享平台实践案例开放知识融合十智慧医疗:智能医保审核实践案例业务系统集成、知识完善与更新十一智慧医疗:基于知识图谱的医药智能知识平台开放知识融合十二智能通信:知识共享实践案例业务系统集成十三智慧情报:智慧情报知识图谱互联互通实践案例开放知识融合十四智慧情报:科技情报智能分析与监测实践案例热点发现/分析、知识分析与推理十五智慧汽车:智能售后服务实践案例知识分析与推理十六智慧能源:电力设备缺陷知识图谱知识共享实践案例知识完善与更新十七算力:服务器智能运维知识互联互通实践案例知识分析与推理十八智
211、慧家居:家电知识互联互通实践案例语义互操作十九智慧城市:新型基础测绘知识图谱互联互通实践案例知识完善与更新二十轨道交通:智能运维知识互联互通实践案例业务系统集成93知识图谱互联互通知识图谱互联互通第六章 知识图谱互联互通的难点与挑战第六章 知识图谱互联互通的难点与挑战根据第五章节中梳理的各领域现有解决方案,目前已有部分企业或机构针对知识图谱互联互通围绕具体应用需求开展了方案探索,并取得了一定成效。然而,各领域解决方案整体呈现出技术路径差异较大的问题,在迁移过程中面临一系列的难点与挑战,包括:语义表示规范性不足、专业和权威的术语库缺失、统一和规范的本体库缺失、知识建模标准化不足、统一的跨领域知识
212、交换协议缺失、知识图谱文件描述格式缺失、多知识图谱间协同计算与隐私保护困难、知识鉴权与收益保护机制有待探索等。一、语义表示规范性不足一、语义表示规范性不足由于同领域多个知识图谱或不同领域知识图谱之间存在一定的差异和不一致性,在语义信息交换过程中如何达成对语义信息的规范性表示,进而实现跨领域知识的整合和融合,提高知识图谱的覆盖范围和应用价值,是知识图谱互联互通面临的首要挑战。具体难点包括以下几个方面:数据来源异构性:不同来源的知识图谱可能采用不同的数据结构、领域语言和实体关系描述方式,这给知识图谱互联互通带来了极大的困难。例如,同一领域内的某个实体在不同的知识图谱中可能采用了不同的命名方式或是拥
213、有完全不同的标识符,此时需对同一领域相同实体的知识表示、知识结构和存储样式进行规范化统一。多语言语义差异:受输入知识源的影响,由中文、英文等不同语言进行知识表示的知识图谱在互联互通时还需解决不同语言间的语义差异,第 六 章 知 识 图 谱 互 联 互 通 的 难 点 与 挑 战第 六 章 知 识 图 谱 互 联 互 通 的 难 点 与 挑 战94这有赖于有效的多语言支持保障内容的转换。不同语言间的语义差异纷繁复杂,部分实体在其他语言中没有对应的语义,或者只是部分语义相同,需通过实体定义与描述性解释缩减多语言间的语义差异。语义表达不一致:由于不同组织或机构之间的业务场景和知识体系存在差异,导致各
214、自对于概念和关系的定义及实体、属性及关系的语义表达存在不一致,进而使同一领域不同知识图谱间的信息交互受到限制,需进行语义表示的映射来解决此类问题。语义互操作模型缺失:统一的信息资源语义互操作模型可以为知识图谱互联互通提供支撑。目前尚未提出一个统一、明确的语义互操作建设模型,但已从语义互操作的某个层面展开了研究应用,例如:建立基于某种元数据方案之上的映射机制,应用特定语义描述语言来提高语义互操作性,从自然语义角度构建本体模型进行语义解析等。二、专业和权威的术语库缺失二、专业和权威的术语库缺失术语是领域专家用来刻画、描写领域知识的基本信息承载单元,是信息检索和信息抽取的重要基础。同时,术语作为本体
215、构成的基本单元,对于知识图谱构建具有重要意义。术语相比于普通实体来说具有更强的专业性和系统性,有助于快速了解领域知识,并有助于把握对应领域的发展现状与趋势。因此,通过收集形成完备的领域术语词表,构建专业和权威的术语库,对于支撑更加完备的领域知识图谱构建及实现领域知识图谱互联互通具有重要意义。然而,目前专业和权威的术语库缺失严重,主要存在以下两个难点:一是大多数专业领域的信息多以文本形式存在,尚无完善的专业术语词库,且领域术语词复杂多变,在不同语境下可能有不同的含义且多为复合词,缺乏专业和成体系的描述,这也限制了专业和权威术语库的规模化建设;二是针对医疗领域、司法领域等专业性要求较高的领域,在领
216、95知识图谱互联互通知识图谱互联互通域术语抽取中存在术语结构复杂、边界难以划分、有效标注语料匮乏等影响因素,进一步增加了上述领域术语的抽取难度。三、统一和规范的本体库缺失三、统一和规范的本体库缺失本体模型用于表示实体类型、实体类型之间的关系、实体类型属性类型及其之间关系,往往表述为一组概念定义和概念之间的层级关系。本体框架形成的树状结构通常被用来为知识图谱定义 Schema(图式)。明确、一致的本体模型可以全面、精准地表达领域概念内涵,不仅可以作为不同背景下产生不同观点的人员之间的沟通基础,也可用于在不同的建模方法、语言和软件工具建造的系统之间进行互操作。然而,受本体构建时的需求背景、技术背景
217、、构建者认识角度等因素影响,同类或同领域知识图谱的本体存在异构的问题。本体异构通常表现以下三个方面:一是概念层异构,即建模异构;二是语义层异构,即对本体描述语言的差异以及描述语法的差异;三是词汇异构,如同一个本体可以表达多个实体和概念。例如胰岛素、肾上腺素等词汇,即可表示一种身体激素,也可以指代胰岛素、肾上腺素等药物。此外,也存在同一个实体可能对应不同的本体,例如甲氰咪胍和西咪替丁表示同一种药物。解决本体异构可考虑以下方法:首先要确定本体的领域和范围,所建本体应该覆盖其领域的所有知识;其次可以考虑复用现有本体,从而可以减少大量本体互操工作;最后可以列出本体的重要术语,如医疗领域中药品、诊断、医
218、嘱、疾病名称、检验类型等共同术语。由于领域内业务的关联性,不同知识图谱系统可能使用部分相同的术语或相同的实体类型、关系类型等,导致异构本体间存在紧密联系。如何将各个语义孤岛上现有的领域本体库进行集成或对齐,形成一个更大的、相似或相同领域的具有统一规范的本体库,是消除语义孤岛,使各领域本体库彼此能够互相“理解”,实现本体之间的互操作,实现知识共享融合和知识图谱互联互通的重要方式。通过探索建设规范和可扩第 六 章 知 识 图 谱 互 联 互 通 的 难 点 与 挑 战第 六 章 知 识 图 谱 互 联 互 通 的 难 点 与 挑 战96展的公共本体库,依托注册机制对公共本体库中的实体类型、关系类型
219、等进行唯一编码标识和维护,可为私有本体间的对齐提供支撑,进而形成不同本体间的映射和信息转换,破解多方间本体的异构问题。知识图谱语言交换过程示意图如图 6-1 所示。图 6-1 知识图谱语言交换过程四、知识建模标准化不足四、知识建模标准化不足当前主流的知识建模框架一般以 OWL、RDF、属性图 LPG(LabeledProperty Graph)为主。对于 OWL/RDF 而言,存在学习曲线高、建模过程复杂、专家人工成本高等问题,并且在企业应用场景上难以支撑知识建模的持续迭代过程。同时,OWL/RDF 的扩展难以满足复杂的领域概念、事件超图等场景下的知识表达。对于属性图而言,其点和边的模型虽然能
220、够与大数据处理架构进行较好的衔接,但实体的属性值是以文本为主,而且实体之间无法通过属性进行语义传播,需单独对关系进行定义和构建来实现实体之间的连接,导致知识的维护成本较高。此外,在企业级的知识图谱构建中,为快速实现业务价值的落地,97知识图谱互联互通知识图谱互联互通往往以属性图的建模方式为主。虽然前期建设的成本低,但是随着业务的快速发展和知识体量的大幅提升,后续知识模型的变更演化将越来越困难,并导致难以维持错综复杂关系间的逻辑一致性和合理性。因此,属性图的种种弊端严重阻碍了知识图谱在企业场景下的深入应用。为此,需要探索建设一套规范化的工业级知识管理框架,通过完备的形式化描述和明确的构建框架支撑
221、,既可实现与传统大数据处理架构间较好的衔接,又能大幅提效知识的构建过程,丰富实体之间的语义关联。同时,在此基础上通过不断提升领域知识表达的标准化程度和知识内容的质量,支撑不同业务知识间的互连互通和融合的需求,并推动领域知识和大规模预训练模型的有效结合。五、统一的跨领域知识交换协议缺失五、统一的跨领域知识交换协议缺失在企业信息化建设过程中,不同的系统或平台因建设方遵循的技术接口、行业指南、开发原则、应用对象等差异,导致其内部存储的信息资源在语义表达中存在区别,进而难以实现多个平台或系统间直接的数据交换。以医疗系统为例,医疗信息数据量大、数据类型复杂的特点,医院使用不同的信息系统,包括电子病例系统
222、(EMR),放射影像和通信管理(PACS)、实验室信息管理系统(LIS)等,通常由不同的软件开发公司开发、运营,采用不同的数据库、语言表达及规范指南,具备所属学科的特色,而信息资源在格式、术语的含义等多方面存在表达的差异性,难以实现在数据在不同平台表达的准确性和有效性,难以实现资源的共享。针对上述问题,目前有许多技术应用,如虚拟数据库技术、XML、DCOM 等。以信息系统间的语义互操作三层架构规范为例,构建对应的三层规范,以实现异构信息系统间的数据交换。数据层:包含了各个临床信息系统已有的数据资源。信息系统数据多以关系型数据库的方式储存,包括 Oracle、MySQL、MS Access 等。
223、中间层:实现语义互操作的核心层。该层模糊了各技术平台系统的差第 六 章 知 识 图 谱 互 联 互 通 的 难 点 与 挑 战第 六 章 知 识 图 谱 互 联 互 通 的 难 点 与 挑 战98异性,便于各系统相互粘合,提高了系统的可扩展性、可操作性、可重用性和可维护性。中间层包括各类知识库和 Jena 语义框架等。首先,各类知识库包含了各类信息系统所涉及到的所有领域知识,为了各类信息系统提供了语义转换的依据和标准,使得各系统交换的数据能准备的被理解和使用。其次,Jena 语义框架等通过检索引擎提供对各类知识库中概念和关系的检索、调用、推理等应用。应用层:包括对 PACS、LIS、EMR 等
224、实际应用信息系统。如医疗系统中每个临床信息系统根据临床需求,如查看患者基本信息、诊断信息、医疗信息、检验检查信息等,通过调用 Web Service,获得所需临床数据。通过临床信息系统数据的三层架构模型的应用,可以实现不同的临床信息系统间的数据交换,从而提高了医疗诊断质量和效率。具体结构如下图 6-2 所示。通过建立统一的知识交换协议及配套软件包,可大幅降低各系统间的通信复杂度,并削减各系统或平台开发中的难度。99知识图谱互联互通知识图谱互联互通图 6-2 医疗领域信息系统间的语义互操作三层架构规范六、知识图谱文件描述格式缺失六、知识图谱文件描述格式缺失当前,部分行业或领域知识图谱的构建已开始
225、依托于服务商开发的商业知识图谱平台类产品。然而,各服务商提供的知识图谱平台底层对知识图谱中数据的存储技术体系和存储机制存在较大差异,常见知识图谱数据存储方式详见表 6-1,其中包括:图数据库:图数据库:专门用于存储和管理图数据的数据库,例如 Neo4j、ArangoDB、OrientDB 等。它们将节点和边作为实体和关系存储,并提供了强大的查询和分析功能。关系型数据库:关系型数据库:使用表格的形式存储数据,通常需要将图谱数据转化为关系型数据模型,然后再存储到数据库中。如 MySQL、PostgreSQL 等。第 六 章 知 识 图 谱 互 联 互 通 的 难 点 与 挑 战第 六 章 知 识
226、图 谱 互 联 互 通 的 难 点 与 挑 战100文档型数据库:文档型数据库:使用文档的形式存储数据,可将图谱数据以 JSON 或XML 格式存储在数据库中。例如 MongoDB、Couchbase 等。文件系统:文件系统:将图谱数据以文件的形式存储在磁盘上,例如 CSV、XML、JSON 格式的文件等。表 6-1 常见知识图谱数据存储方式类型类型名称名称存储方案存储方案特点描述特点描述基于关系3store三元组表早期系统,三元组存储代表DLDB水平表早期系统,水平表存储代表Jena属性表主流语义 Web 框架与数据库SW-Store垂直划分科研原型系统,垂直划分代表IBM DB2DB2RD
227、F支持 RDF 的主流商业数据库Oracle 12c关系存储支持 RDF 的主流商业数据库RDF三元组库RDF4JSAIL API主流语义 Web 框架与数据库RDF-3X六重索引科研原型系统,六重索引代表gStoreVS 树科研原型系统,原生图存储Virtuoso多模型混合语义 Web 项目常用 RDF 数据库AllegroGraph三元组索引擅长语义推理功能GraphDB三元组索引支持 SAIL 层推理功能Blazegraph三元组索引基于 RDF 三元组库的图数据库StarDog三元组索引支持 OWL2 推理机制图数据库Neo4j原生图存储最流行的图数据库JanusGraph分布式存储分
228、布式图数据库OrientDB原生图存储支持多模型数据管理Cayley外部存储轻量级开源图数据库文档数据库MongoDB面向集合存储分布式文件系统Couchbase分布式存储分布式 NoSQL 文档数据库尽管不同的存储方式拥有各自的优缺点,但不同服务商的知识图谱平台对于知识图谱文件描述格式差异较大并缺乏规范,导致用户企业在进行知识图谱相关平台迭代升级、平台分期或分包建设时面临知识图谱文件交换困难、知识图谱内容解析耗时等问题。目前,亟需探索和明确统一的知识图谱文件描述格式,缩短知识图谱互联互通过程中知识内容迁移和解析的时间,提升互联互通效率。表 6-2 给出了一个知识图谱文件101知识图谱互联互通
229、知识图谱互联互通描述示例。表 6-2 统一知识图谱文件描述格式-json 示例序号序号示例示例1 label:label:装备:美军装备:海基平台:航空母舰:尼米兹级航空母舰,name:name:CVN-76/里根号/Ronald Reagan 航空母舰,type:type:实体节点,服役时间:2001 年,舰长:迈克尔.唐纳利,现状:现役,满载排水量:101600 吨,满排吨位:50000 吨以上,型宽:40.8 米,下水时间:2000 年,制造厂:纽波特纽斯船厂,舰长:332.9 米,航速:30 节,编制:5680 人,建造时间:1998 年,续航距离:无限距离;20-25 年,产国:美国
230、2label:label:人物:美国:军界,type:type:实体节点,name:name:迈克尔.唐纳利,国家:美国,军衔:上将,性别:男,出生地:马里兰州,出生时间:1880 年 5 月3label:label:目标:军事基地:美军基地,type:type:实体节点,name:name:横须贺海军基地,国家地区:美国,地点:日本,坐标:35-29-N 139-66-E,label:军事基地,类型:海军表 6-2 所示知识图谱数据描述格式主要由“label”、“type”、“name”组成。其中,“label”为该条数据的节点标签,可用于表示知识概念;“name”为该节点的名称,可用于表示
231、知识实例,其余键值对为该节点的属性信息;“type”为该节点的类型,可用于表示实体节点。平台将知识图谱整体存储为 json 文件用于数据接入交换。此类型格式文件在知识图谱互联互通中能够对交换的知识内容提供较为友好的可扩展性支撑。七、多知识图谱间协同计算与隐私保护困难七、多知识图谱间协同计算与隐私保护困难受限于来源、领域、语言、粒度等因素影响,单个知识图谱通常无法第 六 章 知 识 图 谱 互 联 互 通 的 难 点 与 挑 战第 六 章 知 识 图 谱 互 联 互 通 的 难 点 与 挑 战102覆盖所有的知识领域,也无法满足所有的应用需求。因此,多知识图谱协同计算(Multi-Knowled
232、ge Graph Collaborative Computing)已成为一个重要的研究方向。多知识图谱协同计算是指在多个知识图谱之间建立联系,并利用这些联系进行有效的数据交换、信息共享、知识融合和应用协作。多知识图谱协同计算可以提高知识图谱的覆盖率、质量和可用性,从而为各种智能应用提供更加全面、准确和丰富的知识支持。多知识图谱协同计算的典型应用可以根据其依赖的信息类型和技术手段进行分类,一般可以分为基于多知识图谱的问答系统、推荐系统、文本生成系统等。以问答系统为例,可利用多知识图谱的以下信息支撑多轮问答:1)1)结构或语义信息,用以回答用户的自然语言问题。例如,采用基于逻辑推理或基于深度学习的
233、方法来检索或生成答案,可以提高问答的准确性和多样性;2)2)用户或商品信息,用以进行个性化推荐。例如,采用基于协同过滤或内容的方法,计算用户和商品之间的相似度或偏好,可以提高推荐的精准度和多样性;3)3)实体或关系信息,用以生成自然语言文本。例如,采用基于模板或神经网络的方法,生成描述、摘要、评论等,可以提高文本生成的质量和多样性。多知识图谱协同计算框架示例如图 6-3 所示,是一种采用面向搜索任务的多知识图谱混合式协同方法。其中,协同分为有层级协同和局部协同。首先,可基于对用户搜索意图的理解,对需求进行解析,并生成对目标的搜索任务,从而按需部署到各图谱计算节点。任务规划模式采用“层层获取知识
234、”的形式,下层的知识图谱首先从知识源进行面向特征的知识抽取,然后中间层知识图谱进行局部知识的融合与推理,最后汇集到上层知识图谱成为用户需要的知识。多知识图谱的协同既有上下层图谱间的协同,即下层图谱向上层图谱提交知识,也有同层之间的协同,103知识图谱互联互通知识图谱互联互通如对某一知识源的抽取进行分工合作。多知识图谱的协同计算也可作为一种动态的协同,在任务执行期间根据系统的负载情况或者知识源的变化情况,动态地加入或退出部分知识图谱,最终由最上层图谱组装知识并提交。图 6-3 多知识图谱协同计算通用框架由于多知识图谱协同计算是一个跨学科、跨领域、跨语言、跨层次的综合性问题,涉及多种技术和方法,包
235、括数据集成、本体对齐、实体链接、关系抽取、知识融合、语义搜索、知识问答等。目前,多知识图谱协同计算面临着诸多难点和挑战,如:1)1)处理不同来源、不同格式、不同质量的数据;2)2)在海量异构的实体之间进行准确的对齐和链接;3)3)从多个知识图谱中抽取出有价值的关系和知识;4)4)同频、同步协作进行有效查询和推理并保证图谱(包括多模态)一致性、完整性与可信度。同时,知识图谱在构建和应用过程中始终面临着隐私和安全相关的挑战。在知识图谱构建中,存在敏感数据脱敏、数据安全和风险评估实施等难题;在知识图谱应用中,需考虑应用接口的安全风险管理、模型与知识内容的质量安全控制等问题。除上述问题外,在实现知识图
236、谱互联互通过程中,还需注意如下安全隐私保护的难点和挑战:(1)(1)隐私数据泄露:互联互通可能导致存放于单一机构或单一图谱第 六 章 知 识 图 谱 互 联 互 通 的 难 点 与 挑 战第 六 章 知 识 图 谱 互 联 互 通 的 难 点 与 挑 战104的数据被多机构或多图谱之间共享,引起信息泄露。(2)(2)隐私保护技术类型多:各个知识图谱的知识若采用明文存储,本身就存在安全性问题,若采用密文存储,多个知识图谱或多个机构之间很难做到加密技术的统一。此外,针对构建完成并交付使用的知识图谱,实现统一加密更加困难。(3)(3)隐私数据可预测:现有的数据技术可以将各种知识进行量化,并运用量化知
237、识可对未知信息进行分析和预测。知识图谱互联互通使知识获取更加容易,隐私预测的可能性也在增加。例如,人们的生活方式和行为存在明显的规律性和一致性,结合大数据技术并通过行程信息进行工作地点或生活地点等信息预测。因此,有必要根据知识图谱内容、互联互通范围、应用对象进行必要的知识图谱安全保护分级,通过不同的措施保障不同等级知识图谱的内容交换,进而实现可靠、可信、安全的知识图谱互联互通。八、知识鉴权与收益保护机制有待探索八、知识鉴权与收益保护机制有待探索知识图谱作为企业或机构知识沉淀、积累和挖掘的成果,也是知识产权和知识资产的一种重要形式。对于知识产权而言,是指人们就其智力劳动成果所依法享有的有权利,通
238、常是国家赋予创造者专对其智力成属果在一定时期内享有的专有权或独占权。然而,目前企业知识产权主要包括专利、软著、商标等,尚未对知识图谱等新型的知识资产类型进行界定和鉴权方式探讨。在知识图谱构建过程中,企业通常投入了大量的平台建设费用、专家智力资源及长期积累的资料、文献和业务数据,具有较高的价值。而且,形成的规范化的领域知识图谱对于其他企业可作为重要知识源,存在数据要素交易流通的潜力。因此,探索形成面向知识图谱的知识鉴权与收益保护机制对于持续推动知识图谱的建设具有重要意义,例如:在第三方公共注册系统中对于拟申请保护的知识图谱进行注册,出具知识图谱内各实体和关系的全105知识图谱互联互通知识图谱互联
239、互通球唯一身份标识符(KID),并登记知识图谱内容概念、产权归属机构或个人等信息,进而为后续知识图谱交易、应用与追溯提供依据。九、其他挑战九、其他挑战在上述挑战之外,知识图谱互联互通在交互知识质量、交互性能等方面存在数据真实性、交互效率、交互稳定性和可靠性等挑战。例如:数据真实性挑战:目前的知识图谱构建技术还无法保证知识图谱完全正确,例如,在知识获取和知识融合阶段可能导致知识错误。在多图谱之间实现互联互通时,无法保证与之交互的图谱的正确性,错误的知识进行交互将导致错误在多个图谱之间传播。目前常用的多方交互技术,例如多方安全计算和联邦学习等,仅能保证计算过程的正确性,但是对数据提供方的数据的正确
240、性无法保证。交互安全和效率挑战:目前,知识图谱的规模也达到千万级或亿级,在多个知识图谱交互过程中,知识搜索和查询效率将是影响交互效率的一大障碍。同时,多个图谱拥有方之间的通信安全和通信效率也间接影响了图谱的交互效率,例如,利用多个图谱知识进行联邦学习,每次传输上百万参数梯度信息,还要预防梯度泄露,需要强大的网络基础作为支撑。网络安全性及传输速率也会对多个图谱互联互通产生影响。系统不一致性挑战:由于硬件、网络和存储的不同,设备间计算和交互能力也不同,交互过程必须保证网络稳定性和设备稳定性。例如,设备在交互过程中设备可能关机或者断网。因此多方交互必须考虑系统不一致时的容错率和设备离线时的鲁棒性。十
241、、挑战的解决方案十、挑战的解决方案为解决互联互通的难点和挑战,以下是一些解决方案:知识标准化:知识标准化:制定通用的知识表示和交换规范,确保不同知识图谱间的语义一致性和互操作性。通过行业标准和共识,定义统一的知识表第 六 章 知 识 图 谱 互 联 互 通 的 难 点 与 挑 战第 六 章 知 识 图 谱 互 联 互 通 的 难 点 与 挑 战106达方式,确保术语和语义模型的一致性。知识图谱文件描述标准化:知识图谱文件描述标准化:制定统一的描述标准,使不同知识图谱的文件交换和共享更加便捷可靠。通过采用通用的描述语言,如 JSON 或XML,描述知识图谱的结构、实体、关系和属性,并提供元数据标
242、准以支持管理和追溯。知识图谱数据格式标准化:知识图谱数据格式标准化:定义统一的数据格式标准,提高不同知识图谱之间的数据交换和集成能力。制定通用的数据格式规范,如 CSV或 JSON,确保数据的结构一致性和可解析性,同时结合本体模型,定义特定领域的数据格式规范。知识图谱互联互通统一架构:知识图谱互联互通统一架构:设计统一的架构,支持不同知识图谱的集成和交互。采用开放的架构和标准化的接口,如查询语言和 Web 服务,实现跨系统的数据查询和访问。引入中间件或服务总线,提供数据转换、协议适配和安全控制功能,促进系统间的无缝连接。知识图谱互联互通知识融合:知识图谱互联互通知识融合:开发融合算法和技术,将
243、不同知识图谱中的相关知识进行整合。基于相似性匹配和语义关联,实现实体对齐和关系融合,使不同知识图谱间的知识相互补充和丰富,提升综合认知和决策能力。知识图谱互联互通联合查询:知识图谱互联互通联合查询:提供统一的查询接口和语言,支持在多个知识图谱中进行联合查询。设计查询优化和分析技术,使得用户可以通过单一的查询接口在多个知识图谱中检索相关知识,并获取一致的结果。这样可以节省用户的时间和精力,并提高知识的综合利用价值。知识图谱互联互通本体模型注册:知识图谱互联互通本体模型注册:建立统一的本体模型注册机制,使得不同知识图谱中的本体模型可以进行注册和共享。通过定义统一的本体模型描述格式和标准,促进本体的
244、交换和重用,减少重复建模的工作,提高知识图谱之间的互操作性。知识图谱互联互通安全保障:知识图谱互联互通安全保障:确保知识图谱互联互通过程的安全性和隐私保护。采用身份验证、访问控制和加密技术,保护知识图谱的数107知识图谱互联互通知识图谱互联互通据和交互过程的安全性。同时,制定规范和指南,明确知识共享的合法性和权益保护,促进合作伙伴之间的互信和合作。这些解决方案可以帮助克服互联互通的难点和挑战,实现知识图谱间的有效交流、共享和整合。通过标准化的知识表示和交换、统一的架构和接口、融合和联合查询等技术手段,不同知识图谱可以相互连接,并共同构建更加丰富和有价值的知识网络。同时,注重安全保障和合法权益的
245、考虑,可以建立可信的知识共享和合作机制,促进互联互通的可持续发展。第 七 章 知 识 图 谱 互 联 互 通 的 统 一 架 构第 七 章 知 识 图 谱 互 联 互 通 的 统 一 架 构108第七章 知识图谱互联互通的统一架构第七章 知识图谱互联互通的统一架构一、知识图谱互联互通架构一、知识图谱互联互通架构(一)互联互通交互模型(一)互联互通交互模型知识图谱互联互通架构旨在定义知识交换与共享的参考架构及其最佳实践。明确在多方参与的知识交换场景下,各个参与者的职责及边界。本节的互联互通交互模型从动态信息流的维度描述了知识交互及共享过程中,各参与方之间的交互模式、依赖关系,以及在此过程中各参与
246、方应承担的职责。以下通过两方参与和多方参与的知识交互应用场景分别展开描述。1、两方参与的交互模型1、两方参与的交互模型两方参与的交互模型从逻辑上说明了知识共享方和知识消费方在知识互联互通场景下的交互关系。如图 7.1-1 所示,知识共享方可以通过加载,解析等技术手段,将知识库中的非结构化知识文本,结构化的知识元组,及加密后的知识通过点对点的方式传输给知识消费方。知识消费方接收到知识后,可对知识进行融合、计算或送入下游任务进行处理。从而达到知识在异构系统中的流通与共享。图 7-1-1 两方参与的交互模型示意图109知识图谱互联互通知识图谱互联互通图 7-1-2 两方参与的交互模型结构图图 7-1
247、-2 在示意图的基础上进一步描述了在仅有两个参与方的情况下,知识交换及共享的交互内容及交互细节。在本场景下,知识共享方与知识消费方是具有完整业务逻辑的单独子系统,可分别部署到两台物理机,也可部署到同一台物理机。双方具体交互流程如下:1)生产知识:知识共享方将需要共享的知识按事先约定的格式/规则编码为可传递的共享知识。2)适配接口类型:定义知识共享的逻辑传输接口类型。如,选择webservice 接口、RPC 接口,还是自定义接口传输知识。3)选择传输协议:确定知识共享使用的具体传输协议(如:http,tcp等)。4)网络接口:将数据包通过特定物理网络接口进行传输。知识消费方通过网络接口接收共享
248、知识。5)解析传输协议:知识消费方通过知识共享方选择的传输协议将共享知识解析成特定接口类型的知识内容,并传给适配接口。6)解析适配接口:知识消费方根据知识共享方使用的逻辑传输接口接收知识内容。7)解析知识:知识消费方将从逻辑传输接口接收到的知识内容按事先约定的格式/规则解析成本地格式。8)知识计算:知识消费方将解析后的知识进行知识查询、知识融合、知识推理等下游计算任务。第 七 章 知 识 图 谱 互 联 互 通 的 统 一 架 构第 七 章 知 识 图 谱 互 联 互 通 的 统 一 架 构1102、多方参与的交互模型2、多方参与的交互模型多方参与的交互模型是知识互联互通的通用场景,两方参与的
249、交互模型是其特例。多方参与的知识交换与共享由于参与方的增多,导致其复杂度增加。虽然可以使用两方参与的点对点方案实现,但此方案在多方参与的情况下,各方耦合度高,缺乏可扩展性,且可维护性较低。实践表明,采用两方参与的互联互通模型适配多方参与的情况,后期运维成本极高。因此,本节在多方参与的场景中,推荐基于消息的互联互通模式。图 7-1-3 描述了多方参与的交互示意。具体地,各个参与者不再互相依赖,而是共同依赖于知识交换服务总线。知识共享方不再需要知道知识消费方是谁,在哪里,如何交互?只需将待共享知识按照标准(事先约定的范式,由总线提供)传输给知识交互服务总线即可。知识消费方也无需知道知识共享方的任何
250、信息,只需要关注待消费的知识是否满足要求即可。通过知识交换服务总线,各个参与方可以按照标准有序地协作,各个参与方可以随时加入互联互通,也可以随时退出。各参与方只需聚焦知识的交互与共享,而无需产生额外的交互成本。111知识图谱互联互通知识图谱互联互通图 7-1-3 多方参与的交互模型示意图图 7-1-4 多方参与的交互模型结构图同样地,在多方交互示意图的基础上,模型结构图进一步描述了知识共享方与多个知识消费方在知识交换与共享过程中的交互内容与交互细节,如图 7-1-4 所示。图中知识共享方与知识消费方职责同前所述。知识协调方采用基于消息总线的集成架构模式设计,负责协调多方参与第 七 章 知 识
251、图 谱 互 联 互 通 的 统 一 架 构第 七 章 知 识 图 谱 互 联 互 通 的 统 一 架 构112的知识互联互通场景下的消息路由。知识共享方、知识消费方均为拥有独立进程的子系统,部署时,无需与物理机一一对应。多方参与的知识交互与共享具体流程如下:1)生产知识:知识共享方将需要共享的知识按消息框架编码为可传递的知识共享消息(文档可按文档框架编码为可传递的知识文档消息)2)选择知识发布模式:确定知识消息共享的模式。按照业务场景选择知识是按一对多的“发布-订阅”模式发布,还是按照一对一的“询问”模式发布。3)适配接口类型:定义知识共享的逻辑传输接口类型。如,选择webservice 接口
252、、RPC 接口,还是自定义接口传输知识。4)选择传输协议:确定知识共享使用的具体传输协议(如:soap,http,tcp 等),将知识消息封装成知识消息数据包。5)网络接口:将数据包通过特定物理网络接口进行传输。6)如果为“发布-订阅”模式执行(1);如果为“询问”模式,执行(2):(1)“发布-订阅”模式:a:将知识消息发送给知识协调方,知识共享方任务结束。b:知识协调方将通知消息发送给所有注册过的知识消费方。c:所有注册的知识消费方接收通知后,通过网络接口从知识协调方读取知识消息。(2)“询问”模式:知识共享方将知识消息发送给知识协调方后,只有一个知识消费方通过网络接口从知识协调方接收知识
253、消息。7)解析传输协议:知识消费方通过知识共享方选择的传输协议将知识消息数据包解析成特定接口类型的知识消息,并传给适配接口。8)解析适配接口:知识消费方根据知识共享方使用的逻辑传输接口接收知识消息。113知识图谱互联互通知识图谱互联互通9)解析知识:知识消费方将从逻辑传输接口接收到的消息按照消息框架解码。10)知识计算:知识消费方利用解码后的知识进行知识查询、知识融合、知识推理等下游计算任务。注:在发布订阅模式下,知识消费方需要提前在知识协调方中注册。保证知识消息传递的可靠性,宜支持反馈确认机制,如图 3 交互模型中的“反馈确认消息”。(二)互联互通逻辑架构(二)互联互通逻辑架构图 7-1-5
254、 逻辑架构互联互通交互模型从动态视角描述知识交互及共享过程中,各参与方之间的交互模式、依赖关系。相应地,知识图谱互联互通逻辑架构则从静态视角定义了知识交互及共享过程中,相关参与方应该具备的职责及系统功能特性。如图 7-1-5 所示,互联互通逻辑架构采用分层的架构模式设计,总体结构分为七层。每层都在不同粒度层面定义了知识互联互通时需要依托的相应功能。各层之间自上而下依赖。在各层之间的整个协作过程中,知识安全层面作为横切关注点,重点处理各层中与消息互联互通安全相关的任务。各层主要职责详述如下:1)1)应用层。定义知识共享方与消费方在知识传递与共享过程中需要实施的行为活动。知识共享方:发送知识的一方
255、,提供共享知识。包括如下活动:第 七 章 知 识 图 谱 互 联 互 通 的 统 一 架 构第 七 章 知 识 图 谱 互 联 互 通 的 统 一 架 构114a.知识生产:将共享知识内容按需求组织成基于特定格式/规则的可传递信息。如:按消息框架编码为可传递的消息或按接口约束组织知识内容。b.知识校验:检查知识的完整性和准确性,确保共享的知识是完整的,正确的。c.合规性检查:检查共享的知识是否合法、合规。d.语义映射:将知识共享中涉及的术语按行业标准进行归一化,确保知识的语义一致性。知识消费方:接收知识的一方,消费共享知识。包括如下活动:a.知识解析:按预先定义的格式/规则读取共享知识内容,并
256、解析为本地格式。如按消息规则解析消息内容或按接口约束解析共享知识为当前系统可理解的格式与内容。b.知识检查:检查知识的完整性与正确性,评估共享知识是否能够满足后续知识计算的需求。c.语义解析:将归一化的知识术语映射为本地化表达。d.知识融合/计算:执行知识融合、知识查询、知识计算与推理等后续任务。2)2)表示层。组织知识交换与融合框架的核心、共用组件。负责为应用层提供知识交换与解析所需的通用功能。消息框架:定义基于消息共享方式下,在知识单元级别,知识传递与共享的基本单位与结构。规范知识传递的格式。文档框架:定义在文档级别(如多模态场景),知识传递与共享的结构。规范文档传递的格式。消息类型:定义
257、传递消息的种类,规范消息语义。数据类型:定义知识传递与共享时的数据类型规范,用于增强对传输数据内容的理解。词典:定义知识交换与融合框架中使用的术语、编码。115知识图谱互联互通知识图谱互联互通日志:记录知识交换过程中的日志。用于诊断跟踪和故障排除。校验器:提供消息完整性校验功能。如通过 schema 校验 xml 文件,或通过自定义应用程序实现校验功能。转换器:提供消息装箱与拆箱功能。装箱是指将以特定编程语言形式描述的知识内容,如 java 语言中的类和对象,转换为特定业务接口或消息框架规定的消息传输格式。拆箱是装箱的逆过程,是指将消息或特定业务接口的共享知识转换为特定编程语言描述的形式化知识
258、内容。转换器可降低知识共享的开发成本。3)3)会话层:负责调度会话任务,并通过会话接口完成消息的分发与接收。会话任务层:负责知识共享交互的具体方式。包括端到端、询问和批处理三种方式。端到端提供了发布-订阅模式的知识传递形式。询问提供了主动查询形式的知识传递方式。批处理提供了接收和发送批量知识的处理方式。会话接口层:负责知识传递与共享的物理实现方式。如 RPC 接口,webservice 接口,restful 接口等。该层可以根据应用场景,按照实际生产情况,选择知识共享适配方案。比如,相较于 http 传输的字符串,可使用 webservice 接口处理更为复杂的对象。在考虑带宽的情况下,可使用
259、 hessian。4)4)知识安全层:负责知识交换与共享过程中安全计算相关内容。5)5)传输层、网络层、数据链路层和物理层均依托于既有数据传输协议与结构,在此不再展开。(三)知识消息描述与处理框架(三)知识消息描述与处理框架1、知识消息构成1、知识消息构成为了支持应用系统之间知识消息的高效传输和共享,所有基于本指南的知识消息都被进行分层封装。如图 7-1-6 所示。首先,需要对共享第 七 章 知 识 图 谱 互 联 互 通 的 统 一 架 构第 七 章 知 识 图 谱 互 联 互 通 的 统 一 架 构116知识进行传输包的封装,描述知识消息传输的基本信息。其次,需要进行控制行为包的封装,确定
260、知识消息的处理方式。最后,需要根据具体的应用场景选择合适的知识消息编码方式将需要共享的知识内容进行封装。本指南提供基于段结构和基于 xml 结构的两种知识消息编码方式,供读者根据实际情况参考和选择,具体示例见附录。图 7-1-6 消息的构成2、基于段的知识消息2、基于段的知识消息(1)知识消息结构(1)知识消息结构基于段的知识消息编码方式是一种使用段和单字符分隔符的非 XML编码语法。该方式高效、灵活、快捷,每个知识消息都由多个知识段组成,结构如图 7-1-7 所示。其中,知识段用来描述特定类型的信息,段和段之间用“”分割。同时,每个知识段可由多个知识项组成,知识项用来描述实例信息,知识项之间
261、用“|”分割。每个知识项可由多个知识元组组成,知识元组是用来描述知识三元组或多元组级别的信息单元,知识元组之间用“&”分割。每个知识元组由多个知识元素组成,知识元素描述具体的实体、实体类型、关系、关系类型等信息,是知识消息的最小单元,知识元素间用“”分割。117知识图谱互联互通知识图谱互联互通图 7-1-7 基于段的知识消息结构每条知识消息都由 MSH、QL、DATA 三个段组成。MSH 段为消息头段,它是整个消息的第一段,用来记录传输包和控制行为包规定的信息。QL段为查询段,用来记录查询知识的语句(如,SPARQL)。DATA 为数据段,用来记录知识的消息体。数据段是重复段,每个数据段描述某
262、个知识类型下的实例知识,可由多个知识段构成。数据段也可按实际领域需求进行扩展,但扩展的段必须提供可共享的段说明。此外,查询段与数据段为互斥段,当 QL 为消息头中消息处理模式项为“01”时使用,仅做查询消息专用。(2)相关描述(2)相关描述1)消息头段说明1)消息头段说明消息头段的信息项可包括字符集、协议版本、发送应用、接收应用、创建时间、保密级别、语言、消息 ID、消息类型、消息用途、处理模式、消息应答等可选或必选项。各信息项的描述如表 7-1-1 所述。序号长度数据类型可选项信息项名称说明13STRMSH消息头段2STR字符集第 七 章 知 识 图 谱 互 联 互 通 的 统 一 架 构第
263、 七 章 知 识 图 谱 互 联 互 通 的 统 一 架 构1183STR协议版本知识消息协议的版本号4STO发送应用发送端应用程序5STO接收应用接收端应用程序6TSR创建时间消息创建时间7STC保密级别自定义消息保密等级8STR语言消息使用的语言9STR消息 ID发送方生成,保证唯一性10STR消息类型消息分类11STR消息用途消息使用方式12STR处理模式消息操作类型13STR消息应答消息是否需要应答表 7-1-1 消息头段说明表注:表中各项值域参考共享字典2)查询段说明2)查询段说明查询段的信息项可包括查询语言、查询语句、查询事件、查询条件等可选或必选项。各信息项的描述如表 7-1-2
264、 所述。表 7-1-2 查询段说明表序号长度数据类型可选项信息项名称说明12STRQL查询段2STO查询语言如 SPARQL,Cypher 等查询语言3STO查询语句特定查询语言下的查询语句4STR查询事件自定义查询类型。如实体查询、实体类型查询、多跳查询等。5STR查询条件具体事件类型下的查询条件。注:表中各项值域参考共享字典。查询段既可支持基于特定知识图谱查询语言的查询,也可支持基于用户自定义查询事件的查询,但两种查询类型为互斥。当查询语言对应的信息项为空时,按查询事件处理;默认情况下,采用查询事件。此外,查询条件需根据查询事件的具体内容而定,例如:在单跳查询事件中,119知识图谱互联互通
265、知识图谱互联互通查询条件为具体的实体;在最短路径查询事件中,查询条件为首尾两个实体。3)3)数据段说明数据段中知识项、知识元素、知识元组的分隔符及内容描述说明如表 7-1-3 所述。表 7-1-3 数据段说明表序号名称说明可选1段名建议关系汉语名首字母大写拼接R2知识项分隔符|R3实体实体名称R4知识元素分隔符R5角色实体在知识单元中的角色,如“头实体”O6知识元素分隔符R7实体类型实体类型O8知识元素分隔符R9数据类型字面量的类型,如 ST、NMO10知识元组分隔符&R11关系关系名称R12知识元素分隔符R13关系阶数二元,还是多元关系,用正整数表示R14知识元素分隔符R15关系类型关系类型
266、O16知识元素分隔符R17数据类型字面量的类型,如 ST、NMO18知识元组分隔符&R19实体实体名称R20知识元素分隔符R21角色实体在知识单元中的角色,如“尾实体”O22知识元素分隔符R23实体类型实体类型O24知识元素分隔符R25数据类型字面量的类型,如 ST、NMO26知识项分隔符|R27知识消息段分隔符R注:表中各项值域参考共享字典4)4)分隔符说明:表 7-1-4 为知识消息构造过程中,所使用的分隔符说明。其中,知第 七 章 知 识 图 谱 互 联 互 通 的 统 一 架 构第 七 章 知 识 图 谱 互 联 互 通 的 统 一 架 构120识消息段用“”表示段结束,知识消息项用“
267、|”进行分隔,知识元组间用“&”进行分隔,知识元素间用“”进行分隔。元素分隔符知识消息段知识项|知识元组&知识元素表 7-1-4 分隔符说明表3、基于 XML 的知识消息3、基于 XML 的知识消息(1)知识消息结构(1)知识消息结构基于 XML 的知识消息编码方式是一种使用 XML 语言编码的语法。由于继承了 XML 结构化的优点,该方式具有较强的人机可读性。利用 xml提供的相关技术机制,可以使用 xml schema,DTD 等方式对 XML 知识消息在语法层面进行验证。本指南不提供校验层面的 XML 结构,读者可根据具体领域场景选择校验方式。XML 知识消息由根节点封装,从节点至节点完
268、成了传输包的封装,节点实现了控制行为包的封装,节点实现了知识消息体的编码。具体结构如下所示。1)查询类消息:/传输包,定义字符集协议版本发送端应用程序接收端应用程序消息创建时间保密级别语言/控制包,定义消息 ID消息类型121知识图谱互联互通知识图谱互联互通消息用途处理模式消息应答知识查询语言/知识查询语言与知识查询事件互斥知识查询语句知识查询事件知识查询条件2)更新类消息:/传输包,定义字符集协议版本发送端应用程序接收端应用程序消息创建时间保密级别语言/控制包,定义消息 ID消息类型消息用途处理模式消息应答/需要交换的知识/知识段/知识项/知识元组知识元素第 七 章 知 识 图 谱 互 联
269、互 通 的 统 一 架 构第 七 章 知 识 图 谱 互 联 互 通 的 统 一 架 构122(2)相关描述(2)相关描述表 7-1-5 对基于 XML 的知识消息中出现的节点标签进行了说明:表 7-1-5 节点标签说明表标签说明属性属性说明kgMsg知识消息头xmlns命名空间characterCode字符集参考国标versionID协议版本sender发送应用发送端应用程序receiver接收应用接收端应用程序creationTime创建时间消息创建时间security保密级别自定义消息保密等级language语言消息使用的语言controlAct控制包头msgID消息 ID发送方生成,保
270、证唯一性msgType消息类型消息分类msgUsage消息用途消息使用方式processMode处理模式消息操作类型acceptAckCode消息应答消息是否需要应答ql查询语言知识查询语言。如 SPARQL,Cypherstate查询语句特定查询语言下的查询语句qevt查询事件自定义查询类型。如实体查询、实体类型查询、多跳查询等criteria查询条件具体事件类型下的查询条件kgData知识消息体kgSEG知识段id段 IDname段名称kgFd知识项id知识项 IDkgTp知识元组id知识元组 IDkgE知识元素role角色type类型dtype数据类型relN关系阶数注:表中各项值域参考
271、共享字典。123知识图谱互联互通知识图谱互联互通(3)文档消息(3)文档消息在知识交换过程中,可能会出现基于文档级知识的交换。知识交换的参与方需要共享知识的原始文档,以便从全局了解领域业务及相关规则。为此,本指南提供了轻量级的文档消息结构,如下所示。文档名称作者出版单位创建时间内容4、知识消息应答机制4、知识消息应答机制为了保证系统间知识消息传递的可靠性,知识在互联互通的多方系统中流转和共享时,宜支持反馈确认机制,以便对接收到的知识消息给予积极应答。图 7-1-8 以“询问”模式为例,描述了知识消息的反馈应答机制。此外,“发布订阅”模式下反馈应答与“询问”模式逻辑一致。第 七 章 知 识 图
272、谱 互 联 互 通 的 统 一 架 构第 七 章 知 识 图 谱 互 联 互 通 的 统 一 架 构124图 7-1-8 消息反馈应答机制知识消息的反馈应答机制的核心是消息接收系统需要根据消息发送系统的要求,构造应答消息。如果消息发送系统发送的知识消息要求给予接收反馈,那么消息接收系统在接收到消息时,必须发送应答消息进行反馈,以说明接收方对消息的处理状态。反馈消息包括两类:一类是反馈消息(acceptACK),用于说明消息接收系统对消息的处理意见,是接收、出错还是拒绝;另一类是业务反馈消息(applicationACK),用于反馈对知识消息的业务处理结果。反馈消息与知识消息的消息 ID 必须一
273、致,以保持两者间的匹配性。应答消息 xml 示例:应答消息 xml 示例:字符集协议版本发送端应用程序接收端应用程序消息创建时间保密级别语言消息 ID(需要同发送消息一致)02125知识图谱互联互通知识图谱互联互通消息用途反馈意见反馈结果5、知识消息批处理模式5、知识消息批处理模式在需要进行大量知识交换的场景中,单个知识消息通常无法承载一次单位交换的所有内容,往往需要多个知识消息协作完成。为满足上述需求,本指南定义了两类知识批处理模式。两种模式各有优劣,适用于不同的业务场景,读者可根据自身业务情况自主选择。(1)独立模式:独立批处理模式下,知识消费方分别接收知识消息并分别给出反馈应答消息。此模
274、式下操作相互独立不干扰,并且无需等待。可并行处理各个离散的知识内容。该模式示意图如图 7-1-9 所示:图 7-1-9 独立批处理模式(2)整合模式:整合批处理模式下,知识消费方需等待和接收所有知识消息,并将其合并为一条完整的知识后,最终给出反馈应答消息。此模式为串行模式,需要等待接收全部的离散消息。该模式示意图如图第 七 章 知 识 图 谱 互 联 互 通 的 统 一 架 构第 七 章 知 识 图 谱 互 联 互 通 的 统 一 架 构1267-1-10 所示:图 7-1-10 整合批处理模式6、知识消息共享字典6、知识消息共享字典知识共享方与知识消费方之间的基础共享字典如表 7-1-6 所
275、示,读者可根据应用场景进一步拓展,提升互联互通的效率。表 7-1-6 字典表类型信息项说明信息值说明消息acceptAckCode消息应答AL(Always)总是ER(Error)错误RE(reject)拒绝msgType消息类型01普通消息02应答消息03业务应答消息04文档消息process消息用途01生产02测试processMode处理模式01查询02更新03删除QPT选择性R必选O可选C有条件relN关系阶数正整数0,1,2.fb反馈意见ACC接收127知识图谱互联互通知识图谱互联互通ER错误RE拒绝数据类型ST字符串TS日期时间DT日期TM时间NM数字TX文本数据LOB二进制其他q
276、l知识查询语言01SPARQL02Cypher03Gremlin7、知识消息安全保障7、知识消息安全保障本指南定义的知识图谱互联互通框架对应于 OSI 七层框架中的应用层协议,在物理网络及链路安全性方面与其他应用层协议享有同样的支撑。但作为知识图谱领域内的专有交换协议,还需要特别考虑以下方面的安全问题。(1)共享身份:(1)共享身份:在知识的互联互通过程中,由于知识消息是以路由的方式在各个共享方之间流转,确保共享方的身份安全是保障知识安全到达和安全共享的关键。因此,在分布式消息服务下,应提供安全可靠的身份验证机制,确保知识消息受到保护,以防止遭到未经授权的访问。(2)知识隐私:(2)知识隐私:
277、领域知识通常都会受到知识产权的保护。此外,一些知识还涉及行业与个人隐私。知识的隐私保护在知识共享中是重中之重,知识共享方需保证共享的知识是合法和合规的。由于部分场景中将涉密知识泄露有可能导致无法估量的损失,因此在知识互联互通中,可考虑在上述协议基础上提供知识隐私计算相关的能力,如知识加密、知识匿名化、差分隐私等。(3)恶意攻击:(3)恶意攻击:第 七 章 知 识 图 谱 互 联 互 通 的 统 一 架 构第 七 章 知 识 图 谱 互 联 互 通 的 统 一 架 构128知识共享方可能存在有意或无意的攻击行为。攻击行为可分为两类:一类是共享知识噪音,即将错误的知识或违法的知识给知识接收方。这可
278、能导致知识接收方原有正确的知识被毁坏或链接错误的知识。另一类是知识共享方频繁共享重复知识,导致知识接收方接收阻塞,无法处理其他知识消息。对于这两种情况,知识接收方应有内检机制,通过校验知识真伪,防止可能出现的知识洪水。二、知识图谱互联互通安全保障二、知识图谱互联互通安全保障知识图谱互联互通在安全方面的重点任务主要包括两部分。一部分是知识图谱数据的安全风险评估,另一部分为知识图谱互联互通数据的分级开放共享。以下分别介绍这两部分的细节及相关要求。1、数据安全风险评估1、数据安全风险评估知识图谱数据在开放共享前,应进行数据安全风险评估。知识图谱数据是对源头数据经过加工处理后的资源。由于知识图谱数据与
279、源数据相比有较大的形式差别,安全风险会有一定的隐蔽性。通常涉及个人数据、隐私、商业数据、业务数据、知识产权保护、国家安全和商业秘密等受限内容。相关数据的存储及表示形式也往往呈现非显式的特点。因此有必要在互联互通的数据源头进行事前安全评估和审查。知识图谱数据的安全互联互通还需要考量知识图谱数据的知识产权、分发、演绎、溯源以及数据出境评估等因素。知识图谱数据的知识产权主要指数据的作者对知识产权的申明和要求情况,即数据是否可以共享、共享的人员范围、可否供商业使用、使用数据是否需要引用和申明作者的贡献等。知识图谱数据的分发主要是指能否由数据所有者以外的人提供给其他人,以及可否再分发等。知识图谱数据的演
280、绎主要是指是否允许用户对数据进行更改,以及更改以后的再发布权限要求等。知识图谱数据的溯源主要指是否需要记录数据资源被谁在何种目的下使用等。129知识图谱互联互通知识图谱互联互通由于开放共享的知识图谱数据主要通过互联网传播,数据共享过程中会存在数据流向境外的风险,在风险评估环节需要关注是否符合国家数据出境安全相关规定。国家互联网信息办公室于 2022 年 5 月发布了数据出境安全评估办法(国家互联网信息办公室第 11 号令)5,对数据处理者向境外提供在我国境内运营中收集和产生的重要数据和个人信息安全的评估工作提出了具体要求。该办法提出,对于数据处理者向境外提供重要数据、关键信息基础设施运营者和处
281、理 100 万人以上个人信息的数据处理者向境外提供个人信息、每年累计向境外提供 10 万人个人信息或者 1 万人敏感个人信息的数据处理者向境外提供个人信息等情况,应当通过所在地省级网信部门向国家网信部门申报数据出境安全评估。2、知识图谱互联互通数据的分级开放共享2、知识图谱互联互通数据的分级开放共享对知识图谱的开放数据进行分类分级处理是实现知识图谱安全管理与共享的可行方法。分类分级是实现数据安全的基石,是知识图谱数据有序管理各项资源的基础,能够有效平衡知识图谱数据安全与数据开放之间的关系6。国际通用的知识共享协议(Creative Commons License,又称 CC 协议)包含了以下授
282、权要素:署名(BY)、非商业性使用(NC)、相同方式共享(SA)、禁止演绎(ND)7,以及公共领域奉献(又称CC0 协议),即完全放弃数据所有权8。根据授权要素的不同组合形式,知识图谱互联互通的数据开放共享可划分为 5 个级别,即匿名公共开放、常规开放共享、非商业开放共享、常规授权共享和非商业授权共享。不同级别的知识图谱资源有相应的知识图谱共享等级(Knowledge Graph Share Level)标识代码。按照知识5国 家 网 信 办.数 据 出 境 安 全 评 估 办 法 EB/OL.2022-7.http:/ 七 章 知 识 图 谱 互 联 互 通 的 统 一 架 构第 七 章 知
283、 识 图 谱 互 联 互 通 的 统 一 架 构130图谱互联互通数据资源的开放程度从宽松到严格的顺序,知识图谱开放共享等级可分为五种。如表 7-2-1 所示。表 7-2-1 知识图谱互联互通数据开放共享等级分级名称分级代码对应 CC 分级CC 协议图标匿名公共开放KG-S0CC0常规开放共享KG-S1CC-BY非商业开放共享KG-S2CC-BY-NC常规授权共享KG-S3CC-BY-SA非商业授权共享KG-S4CC-BY-NC匿名公共开放(KG-S0):知识图谱数据作者完全放弃数据所有权及署名权,对应于 CC0 级别。此类知识图谱数据完全开放,任何用户都可以随意查询、使用、下载和传播该资源,
284、并可用于商业目的,数据进行分发及二次共享时不需注明数据的所有者。常规开放共享(KG-S1):知识图谱数据由作者开放共享,在标注数据署名的前提下无访问权限限制,对应于 CC-BY 级别资源。用户可以查询、使用、下载和传播该资源,并可用于商业目的。用户还可以对该级别资源进行二次修改,修改后的知识图谱数据需要以相同的授权方式予以共享,共享时需要注明数据的所有者。非商业开放共享(KG-S2):知识图谱数据由作者开放共享,在标注数据署名的前提下可用于非商业用途,对应于 CC-BY-NC 级别资源。用户可以查询、使用、下载和传播该资源,不可用于商业目的。用户对数据加工共享时需要注明数据的所有者。常规授权共
285、享(KG-S3):知识图谱数据由作者开放共享给特定用131知识图谱互联互通知识图谱互联互通户,可用于商业或非商业用途,对应于 CC-BY-SA 级别资源。授权用户可以查询、使用、下载和传播该资源,一般签署独立协议限定用于特定范围及用途。非商业授权共享(KG-S4):知识图谱数据由作者开放共享给特定用户,仅可用于非商业用途,对应于 CC-BY-NC 级别资源。授权用户可以查询、使用、下载和传播该资源,一般签署独立协议限定用于特定范围及用途。由于知识图谱数据通常为知识加工层面的中间数据,以上分级中均未包括“禁止演绎”。知识图谱在进行互联互通的业务实践中,建议按照以上知识图谱共享等级明确开放共享范围
286、,并在知识图谱共享过程中明确各方机构与人员的知识产权意识,提高知识图谱互联互通的整体安全保障能力。第 八 章第 八 章面 向知 识 图 谱 互 联 互 通 的 知 识 表 示 框 架知 识 图 谱 互 联 互 通 的 知 识 表 示 框 架132第八章 面向知识图谱互联互通的知识表示框架第八章 面向知识图谱互联互通的知识表示框架一、整体表示框架一、整体表示框架如前所述,现有知识表示框架(属性图、RDF 图等)面向工业级知识落地存在建模成本较高、缺乏显式知识分类体系、缺乏对时序及多元建模支持、以及与现有技术体系(以 kv/kv table 为基础的算法、数据研发体系)差异较大等问题。基于属性图语
287、义增强的知识表示框架可以很好的解决以上问题,并有效提升知识建模的效率。本章节以该框架为例说明知识表示框架可包括的元素及形式,其他框架不再逐一展开。图 8-1 基于属性图语义增强的知识表示框架注:标准类型默认不能作为 S,如电话号码,邮箱等。但如果将电话号码定义成独立实体,可以作为 S。基于属性图语义增强的知识表示框架同样按照的三元组表达,但相对于 RDF 模型有如下不同。S、O 基于属性图模型建模:S、O 基于属性图模型建模:通过属性图模型可以表达复杂的实体、事件、概念模型。P 作为谓词语义:P 作为谓词语义:既可表达属性,也可用来表达事实关系,同时允许 p 拥有描述信息,如时间、置信度等。S
288、、O 增加算子表达:S、O 增加算子表达:支持可迭代的实体链指、实体归一、概念标化能力。133知识图谱互联互通知识图谱互联互通图 8-2 基于属性图语义增强的建模方式基于属性图语义增强的建模方式也是由本体层和实例层构成,但为方便业务知识管理,在建模时对实体、事件、概念做了显式区分:实体:实体:业务相关性比较强的客观实例,通过实体 properties(属性、关系)刻画个体画像,如用户、企业、商户等,因实体是业务决策的核心主体,和隐私安全紧密相关,在隐私敏感场景下通常也需要围绕实体定义隐私安全的能力,如去标识、加密脱敏、跨主体隐私计算等。概念:概念:实体从具体到一般的抽象,表述的是一组实体集合。
289、相对静态,具有较强复用性,如人群标签、领域标准类型、语义词汇(如 HowNet)等,概念内部也有相对规范化的层级结构,如多级类目、父子品牌等。事件:事件:加入时间、空间、标的等约束的实体类型,如通过 NLP、CV 等抽取出来的行业事件、企业事件、诊疗事件等。二、知识表示规范化二、知识表示规范化(一)概念模型(一)概念模型概念模型本质上解决的是领域知识表示标准化问题,它往往由一些领域词汇或片段组成。而标准化的领域知识指的是对作为实体的属性单第 九 章 面 向 知 识 图 谱 互 联 互 通 的 本 体 模 型 注 册 流 程第 九 章 面 向 知 识 图 谱 互 联 互 通 的 本 体 模 型
290、注 册 流 程134元的进行标准化定义,明确属性的领域取值约束及值域。1、基础类型1、基础类型基础类型是为了更好的兼容属性图,在实体属性未完成标准化时支持 literal 字面值表达,同时又能配置一定的格式约束。基础类型包括Integer,Long,Text,Double,Float 等。2、标准类型2、标准类型标准类型相对于基础类型一般是增加了范式约束(如正则),让业务属性必须符合某种范式。相对于基础类型不会显式的定义类型名,标准类型有语义明确的类型名。标准类型是全局定义,用户定义属性时可直接选择标准类型。标准类型如正则表达式表示的邮箱、手机号等。3、概念类型3、概念类型概念类型是对属性增加
291、基于概念体系的内容约束,概念类型的定义一般需要有明确的概念类型、概念内部明确的分层关系(如父子品牌),以及概念分层之间的谓词名称(如子类)。图 8-3 概念类型示例4、概念挂载和传播4、概念挂载和传播概念类型只有挂载到业务实体上才能在决策中发挥实际作用,可通过概念挂载、属性标化、属性传播实现概念类型的应用。其中属性标化是将业务非规范化的属性转换为标准属性取值,一般通过在生产链路挂载标化算子实现属性取值的标准化。(二)实体模型(二)实体模型135知识图谱互联互通知识图谱互联互通基于属性图语义增强的实体定义由实体模型采用面向对象的思想,实体的类型被定义为实体 Class,实体实例作为该 Class
292、 的实例,实例与Class 之间构成 isInstanceOf 的语义关联,一个实体有若干要素构成,这些要素集合共同构成了该实例,该实例要素受到 Class 定义的约束。因他们之间存在天然且固化的约束关系,无需在实例、Class 之间添加isInstanceOf 关系。图 8-4 基于属性图语义增强的实体模型示意(三)事件模型(三)事件模型基于属性图语义增强的事件模型定义核心包含与实体相关的行为、状态、转换等具体动作信息,表达特定人、物、事在特定时间和特定地点相互作用的客观事实。事件模型通常涉及事件类型、事件要素、事件实例、事件概念等。图 8-5 事件概念及事件实例示意三、谓词表示规范化三、谓
293、词表示规范化属性图语义增强知识表示框架将关系和属性统一定义为谓词第 九 章 面 向 知 识 图 谱 互 联 互 通 的 本 体 模 型 注 册 流 程第 九 章 面 向 知 识 图 谱 互 联 互 通 的 本 体 模 型 注 册 流 程136(predicate),保留 relation 与 property 的叫法。(一)谓词框架(一)谓词框架谓词通常用作 Subject、Object 之间的媒介用以描述他们之间的关联,S、O 都是特定的类型实例。在实际的应用中,谓词应可描述任意类型 S、O 之间的关系描述。图 8-6 谓词框架描述示意(二)实体谓词规范化(二)实体谓词规范化实体谓词区分为属
294、性(property)和关系(relation),relation表达两个实体类型之间的关系,property 表达的是实体上的 literal 属性值,等价于关系数据库中的外键与 kv 表示。另外,在实际应用中,属性、关系都需要扩展属性(property of predicate)表示。如下图所示。137知识图谱互联互通知识图谱互联互通图 8-7 关系/属性的扩展属性的属性、关系的属性可以用二元组 或三元组表示。属性的属性、关系的属性主要描述的是实体实例的属性或关系的扩展信息,所以比较确切的描述为:关系/属性的扩展信息。(三)谓词结构规范化(三)谓词结构规范化在用于表述对象之间的结构关系的同
295、时,谓词本身也有严谨的语义结构,一般可以从实体谓词管理、谓词语义推理等视角进一步进行标准化定义。比如在结构化分级式信息抽取过程中,实体谓词可以抽象分层管理。比如谓词语义推理可与逻辑规则推理融合,实现更灵活的推理变换,更高效的推理构图。(四)谓词语义规范化(四)谓词语义规范化关系及属性的标化、概念挂载传播,以及知识的演化都有赖于全局规范化的谓词语义。在实际应用中,应结合领域知识对可能涉及的主体Class 谓词、实体的谓词、概念的谓词、Class-实例谓词、实体实例谓词等谓词进行规范化语义定义。四、知识交换格式表示规范化四、知识交换格式表示规范化第 九 章 面 向 知 识 图 谱 互 联 互 通
296、的 本 体 模 型 注 册 流 程第 九 章 面 向 知 识 图 谱 互 联 互 通 的 本 体 模 型 注 册 流 程138基于属性图语义增强的知识图谱表示框架,主体类型分为实体、概念和事件三种类型,这三种类型都可定义属性和关系谓词、谓词语义,但在模型结构上稍有不同,比如实体有链指、归一算子;概念有上位词、分层配置、标化算子;事件则有时间属性、主客体属性、抽取算子;属性和关系上均可定义子属性和谓词语义,但客体类型不同,适用的系统谓词也不同。数据交换格式不仅要描述数据内容,还需要表示图谱schema 结构。基于 SPO 三元组的知识表示方式,我们定义了类 N-Triples 的数据交换格式,包
297、含 schema 描述和 instance 描述两部分。#实体类型结构定义#属性定义#属性的谓词语义定义.#关系定义#关系的谓词语义定义.#spo 结构描述实体每个属性/关系数据$宾语值.schema 部分用于描述图谱本体模型结构,类 XML 格式,涉及元素有:顶层元素,表示该部分下内容为 schema 描述;:主体类型描述,包含唯一名称、主体分类两个默认属性和以下可选属性:139知识图谱互联互通知识图谱互联互通 当主体为实体类型(type=EntityType)时,可有 linkOp(链指算子)、fuseOp(归一算子)两个属性;当主体为概念类型(type=ConceptType)时,可有
298、fuseOp(归一算子)、normalizeOp(标化算子)、multiVersionConfig(多版本配置)、layerConfig(层级配置);当主体为事件类型(type=EventType)时,可有 linkOp(链指算子)、fuseOp(归一算子)、extractOp(抽取算子)两个属性;、:描述主体的属性和关系,包含name、type 两个属性;:描述属性或关系的谓词语义,包含 name、rule两个属性;:描述属性或关系的子属性,包含 name、type两个属性;#:注释说明。instance 部分用于描述知识数据内容,类 N-Triples 格式:第一个元素:,表示属于的实例;
299、第二个元素:,表示属性或关系的名称;第三个元素:$宾语值,表示属性或关系的物理值;第四个元素:描述值类型,英文句号结尾。以如下简单的黑产知识图谱为例,其中转账事件包含发生时间、发生地点、主体用户、客体法人、使用设备、使用 App 等属性。该事件串联了用户、设备、法人、App、手机号、行政区划等实体和概念。然而,在这些实体之间存在一些属性和关系,而且在属性或关系之间可存在谓词 语 义,比 如:和是互反关系。第 九 章 面 向 知 识 图 谱 互 联 互 通 的 本 体 模 型 注 册 流 程第 九 章 面 向 知 识 图 谱 互 联 互 通 的 本 体 模 型 注 册 流 程140图 8-8 知
300、识交换格式表示规范化示例假设,知识图谱中有一条事件数据:2023-01-01 00:00:00,张三在杭州使用 xx 手机 xxApp 给 xx 公司转账 100 元。则,知识交换格式规范化表示的示例如下:(o:Risk.User)GraphStructinverseOf(o:Risk.User)-p1:hasDevice-(s:Risk.Device)/141知识图谱互联互通知识图谱互联互通 张三.d001.xx 手机.176xxxx.app001.app001.欺诈 App.中国.中国.中国.浙江.2023-01-01:00:00:00.中国-浙江-杭州.u001.lr001.d001.a
301、pp001.100.00.第 九 章 面 向 知 识 图 谱 互 联 互 通 的 本 体 模 型 注 册 流 程第 九 章 面 向 知 识 图 谱 互 联 互 通 的 本 体 模 型 注 册 流 程142第九章 面向知识图谱互联互通的第九章 面向知识图谱互联互通的本体模型注册流程本体模型注册流程一、本体涵义及其分类一、本体涵义及其分类1980 年,本体论被引入到人工智能领域用来刻画知识。本体是共享概念模型的明确的形式化规范说明,该定义体现了本体的四层含义:概念模型、明确、形式化、共享。本体是实体存在形式的描述,往往表示为一组概念定义和概念之间的层级关系,本体框架形似树状结构,通常被用来为知识图
302、谱定义 schema。本体作为一种规范化和形式化的知识分类体系和概念化体系,根据其对于领域的依赖程度可以如下种。(1)(1)顶级本体,描述的是跨领域的普通概念及概念之间的关系。包含具有广泛性、一般性和抽象性的概念,为特殊领域本体建立提供基础;(2)(2)领域本体,描述的是特定垂直领域(电力、汽车、教育、娱乐等)中的概念及概念之间的关系;(3)(3)任务本体,描述的是特定任务或行为中的概念及概念间的关系;(4)(4)应用本体,描述的是依赖于特定领域和任务的概念及概念间的关系。本体作为一种对于领域范围大小不一的客观世界或其知识概念的描写规范,其内容核心具体地表现为一个概念分类体系。对于选择在哪个层
303、次上构建本体,主要由构建本体知识的目标和需要完成的任务来决定。二、本体构建工具二、本体构建工具经过多年的发展,本体构建工具已经比较成熟。目前,已存在Ontolingua、WebOnto、OntoEdit、Protg等多种有影响力的本体编辑工具,具体介绍如下:143知识图谱互联互通知识图谱互联互通(1)(1)Ontolingua 是斯坦福大学知识系统实验室(KSL)开发的一个本体开发环境。它包括一个服务器和一个表示语言。它的主要特点包括使用 Web 浏览器远程浏览、构建和维护存储于服务器的本体,服务器允许多个用户在共享的会话上并发地处理一个本体;使用扩展 GenericFrame Protoco
304、l 的网络 API,远程应用可通过 Internet 查询、修改服务器上的本体;用户可将本体转变为特定应用使用的格式。(2)(2)WebOnto 是 一 个 起 于 1997 年 的 项 目,它 由 英 国 OpenUniversity 的 JB Domingue 博士和 E Motta 博士主持开发。该项目的目的是开发一个基于 Web 的本体编辑器。它能提供比 Ontolingua 更为复杂的浏览、可视化和编辑能力。WebOnto 是基于 OCML 的知识模型,提供多重继承,并支持用户合作地浏览、创建和编辑本体。(3)(3)OntoEdit 是由卡尔斯鲁厄大学开发的,使用图形方法支持本体的开
305、发和维护。通过将本体开发方法论(骨架法)与合作开发和推理的能力相结合,关注本体开发的三个步骤:收集需求阶段、提炼阶段、评估阶段。OntoEdit 支持 RDF(S)、DAML+OIL 和 Flogic,并且提供对于本体的并发操作。(4)(4)Protg是由斯坦福大学开发的一个开放源码的本体编辑器。Protg支持多重继承,可对新数据进行一致性检查,并具有较好的可扩展性,主要表现在文件输出格式可以定制,可将 Protg的内部表示转换成多种形式的文本表示格式,包括 XML、RDF(S)、OIL、DAML、DAML+OII、OWL 等系列语言;可定制用户接口,通过提供可扩展的 API 接口,用户可更换
306、接口显示和数据获取模块来适应新的语言;拥有可与其它应用结合的可扩展体系结构,用户可将其与外部语义模块直接连接。三、本体模型构建流程三、本体模型构建流程本体模型构建分为准备阶段和构建阶段。准备阶段需要列出本体中的重要术语集合,包括一些基本概念(实体类型)、概念的属性词和关系词,确定领域的范围和边界。构建阶段分为多轮循环,每轮循环采用第 九 章 面 向 知 识 图 谱 互 联 互 通 的 本 体 注 册 流 程第 九 章 面 向 知 识 图 谱 互 联 互 通 的 本 体 注 册 流 程144不同层次的领域知识作为输入,以增量迭代的方式完成本体模型构建。其中,第一轮循环以简短易理解的 FAQ 为起
307、步数据构建基本框架;第二轮循环融合知识文档及用户数据完善本体模型;第三轮循环融合业务系统数据进一步完善,支持知识图谱与业务系统的动态交互。每个循环中包含同样的细分步骤,如:构建领域术语表、定义类和类的层次结构、定义属性、本体模型表示。本体模型构建流程如图 9-1 所示。图 9-1 标准的本体模型构建流程本体模型构建的具体流程包括:确定领域和范围:确定领域和范围:本体模型的构建应始终以满足应用需求为目标,没有必要包含领域的所有信息。在开始构建本体模型之前,需确定知识图谱的基本领域和范围。领域范围的界定可按照知识图谱需求说明书2的形式表达;准备数据:准备数据:调研和搜集与本体模型构建相关的所有知识
308、,包括可复用本体和其他知识组织资源以及可用于构建本体的领域知识。本体模型构建的原则是尽量复用已有本体或本体模式,避免重新“发明轮子”。搭建基本框架:搭建基本框架:第一轮循环以 FAQ 为起步数据搭建基本框架,包括 4 个步骤:第一步,构建领域术语表:从常见问题中识别出领域术语,构建领域术语表;第二步,定义类和类的层次结构:从领域术语中识别出独立对象及它们之间层次关系;第三步,定义属性:描述类的内部结构;第四步,本体表示:汇总前个步骤的成果,形成搭建基本框架阶145知识图谱互联互通知识图谱互联互通段的完整本体模型记录表,包括类表和属性表。类表记录类及类的层次关系,属性表记录属性的定义及属性所属的
309、类。完善知识结构:完善知识结构:融合知识文档及用户数据完善知识结构,开启第二轮循环。参照基本框架构建步骤,识别领域术语,补充类和属性,完成类和属性定义。对齐知识结构:对齐知识结构:融合业务系统相关数据,进行数据结构对齐,添加类和属性,完成第三轮循环。搭建基本框架阶段获得由 FAQ 中抽象出的类及类的属性,形成基本框架。基本框架需要融合其他层次知识进行完善(第二轮循环)。知识文档代表业务运营方提供的领域知识,用户问题等代表从用户角度需要的领域知识。本阶段融合知识文档、用户问题两类数据完善知识结构。第三轮循环融合业务系统数据,在对齐数据结构过程中,首先识别数据结构中术语是否需要新增为类或属性。其次
310、根据类和属性的定义方法,定义类或属性,与本体模型中原有类及属性进行融合、映射。四、开放本体模型注册流程四、开放本体模型注册流程(一)总体原则(一)总体原则领域本体模型在构建过程中依赖于大量的领域知识,对于不同的知识图谱应用对象而言,知识图谱的互联互通对于领域图谱构建具有重要参考与指导价值。建立统一、规范、共享的公共领域本体模型,可以大幅降低各方重复建设、重复讨论和重复维护更新的成本,并为特定任务本体的构建提供参考和映射。本体模型注册的总体原则包括:(1)(1)唯一性。公共本体模型中的实体类型、关系类型和属性配置唯一的 ID,确保各方调用和识别过程中保持统一;(2)(2)可扩展性。公共本体模型可
311、由多个访问用户共同进行实体类型和关系类型的扩充与编辑;(3)(3)友好性。公共本体模型可以进行框架图、关联图等多种形式和维度的展示和查看,并配置可视化的操作按键,以便进行展示形式的变化及内容的编辑和修订;(4)(4)权威性。公共本体模型的版本修订和变更均采用严格的审查流第 九 章 面 向 知 识 图 谱 互 联 互 通 的 本 体 注 册 流 程第 九 章 面 向 知 识 图 谱 互 联 互 通 的 本 体 注 册 流 程146程,将采集和收集的扩充或变更申请融合后,组织领域内专家评审确认,无误后更新或发布。同时,公共本体模型采用草案、试用和推荐等多种状态进行使用情况反映,方便用户参考采用。(
312、5)(5)易用性:公共本体模型可通过 API、在线导出等多种形式供用户使用。(二)注册流程(二)注册流程图 9-2 本体模型注册与维护流程图本体模型的注册与维护流程如图 9-2 所示,主要包括:(1)(1)本体模型创建与描述。在注册平台,基于本体创建工具或上传按钮进行特定领域或任务的本体模型创建,并给出该本体模型主题、关键词、创建人、维护人、发布时间、主要内容描述等描述信息。(2)(2)本体模型审核与发布。针对创建的本体模型,平台管理员组织对应领域内专家进行审核评定,并本体模型存在的问题进行融合调整。经专家组审议通过后,发布至平台前端,分配本体模型中实体类型、关系及属性的唯一 ID 号,并标记
313、为草案、试用、推荐等状态。(3)(3)本体模型使用与意见征集。针对已发布的本体模型,使用者可进行在线浏览、调用或下载。同时,对本体模型中存在的问题,使用者可基于本体可视化浏览与编辑页面进行实体类型、关系、属性等修改与提交,并附注修订意见。平台管理员对各类使用者提交的意见和修改建议进行融合后,形成意见清单及融合后的本体模型,并组织专家进行审议。通过后,更新现有版本的本体模型及描述。以此,实现不断地循环迭代。147知识图谱互联互通知识图谱互联互通(三)注册平台结构(三)注册平台结构本体注册元模型是描述本体模型特征的模型,遵循同一个本体元模型的模型之间具有一定的共性,可以实现特定类型的互操作,也是知
314、识图谱互联互通的基础。本体定义了领域内概念的含义,通过建立信息资源与本体的关联,可以明确的表达信息资源的含义。本体模型的分类注册是实现其他类型模型互联互通的关键,定义了两种类型的本体,参考本体和本地本体。参考本体表示由标准先进的知识图谱组织发布的具有权威性的本体,而本地本体表示应用系统在参考本体基础上实施一定变换后得到的本体。参考本体定义的本体构件以及原子构件能够被其他本体所复用,而本地本体定义的构件及原子构件不具备这样的特点,源于同一个参考本体的本地本体之间能够实现特定类型的互联互通。本体注册元模型如图 9-3 所示。图 9-3 本体注册元模型第 九 章 面 向 知 识 图 谱 互 联 互
315、通 的 本 体 注 册 流 程第 九 章 面 向 知 识 图 谱 互 联 互 通 的 本 体 注 册 流 程148图 9-4 公共本体模型注册平台结构图公共本体模型注册平台结构图如图 9-4 所示。基于本体注册元模型,通过顶层核心本体模型、领域本体模型、任务本体模型、应用本体模型等多维度、多类型本体模型,构建公共本体模型库,并配套相关领域的术语库,以便使用者实现对本体模型和专业术语的浏览与使用。此外,平台根据注册流程配置本体 ID 注册系统、评审管理系统、本体模型意见反馈系统、本体模型浏览与编辑系统等业务板块支撑流程的运转与实现。本体模型库中各类本体考虑协调配套关系,整体遵循本体注册元模型,覆
316、盖本体原子构件、本体部件等多个层面。(四)本体模型实例(四)本体模型实例以电网技术标准规范为例,主要包含标准及其条款实体,对每个条款涉及的知识进行抽取进行标注。由于条款内容主要是对设备部件的参数进行约定,所以可以对每个条款设计设备、部件、参数、状态等实体。另外可以设置查询实体,以便更好的检索到标准和条款。电力领域技术规范本体概念图 9-5 下所示,对于每个本体,图中用概念层级来表示本体之间的隶属关系,概念属性来表示本体的属性信息,概念关系来表示本体之间的关联关系。概念属性表如表 9.1 所示。149知识图谱互联互通知识图谱互联互通图 9-5 电力领域技术规范本体概念图表 9-1 概念属性表序号
317、类型属性中文名称属性英文名称属性描述1技术标准序号st_id主键2技术标准标准名称st_name技术标准的唯一规范化名称3技术标准标准号st_code技术标准的标准号 类似 GB/T16931-2022或 DL/T 1168-20134技术标准标准英文名称st_name_eng技术标准英文翻译5技术标准标准类型st_type国标、企标、行标6技术标准标准种类st_kind样本属性7技术标准发布单位st_publ_org8技术标准发布日期st_publ_date9技术标准实施日期st_impl_date第 十 章 面 向 知 识 图 谱 互 联 互 通 的 知 识 融合 与 知 识 计 算 流
318、程第 十 章 面 向 知 识 图 谱 互 联 互 通 的 知 识 融合 与 知 识 计 算 流 程150第十章 基于知识图谱互联互通的知识融合与知识第十章 基于知识图谱互联互通的知识融合与知识计算流程计算流程一、基于互联互通的知识融合流程一、基于互联互通的知识融合流程(一)知识融合分类(一)知识融合分类通过知识图谱互联互通,可实现知识内容描述及知识图谱文件格式的标准化,进而为后续交换后知识的融合与关联提供了基础,降低了以往知识融合前期需进行的数据处理工作。知识标准化可参考本指南第八章相关内容,此处不在赘述。同时,通过知识融合,可以实现共享知识与自有知识的价值叠加,进行知识复用、业务集成、知识更
319、新、知识纠错等操作,进而进一步诠释知识图谱互联互通的意义,包括:提高企业内部门间或企业间的数据复用性;提升企业的数据治理能力,降低业务间的数据和知识壁垒;拓展业务价值,丰富业务端可用知识图谱规模和深度。从技术路径角度,基于互联互通的知识融合可分成:不同实体类型但实例数据相同的融合;不同实体类型不同实例数据之间的图谱连通。其中,前者主要强调是融合能力,后者强调的是联通能力,示意图如图10-1所示。151知识图谱互联互通知识图谱互联互通图 10-1 基于互联互通的知识融合类型对于不同实体类型但相同实例的知识融合,需要将描述相同实例的共享方和消费方的实体类型合并为一个标准的实体类型,并对数据实例也做
320、到归一化;对于不同实体类型不同实例间的知识融合,主要是通过融合技术将不同主体进行连接,比如:通过公司间的从属/投资等关系,将不同公司的图谱信息连接起来。(二)知识融合流程(二)知识融合流程图 10-2 知识融合流程知识融合的流程主要包括本体对齐、实体对齐和知识一致性校验等环节。针对同领域知识图谱间的互联互通和跨领域知识图谱间的互联互第 十 章 基 于 知 识 图 谱 互 联 互 通 的 知 识 融 合 与 计 算 流 程第 十 章 基 于 知 识 图 谱 互 联 互 通 的 知 识 融 合 与 计 算 流 程152通,根据本体模型间是否存在关联,本体对齐环节可进行略过。此外,涉及多个跨领域知识
321、图谱时,各环节使用的融合策略存在差异。本体对齐环节是对外部输入知识消息或知识文件中的本体模型和schema 进行类型、关系和属性的对齐,常见的对齐方法有利用传递性或对称性等信息计算相似度的 schema 对齐方法,以及基于海量数据构建分类属性树的属性对齐方法等。实体对齐是对知识消息或知识文件中包含的实体与自有知识图谱中的等效或相关实体进行识别,并实现关联或融合。该环节包括实体属性标准化、实体属性链指、实体归一等细分环节。实体属性标准化主要是进行属性值的标准化、规范化处理,比如地址标准化、企业名称标准化等,通常可借助于通用的标准化算子。如涉及到复杂的业务标准化,还需进一步开发和使用自定义算子。实
322、体属性链指是指将实体属性链接到关联的实体对象。例如,实体属性是地址,可链接到行政区划对应的实体。实体归一是指通过算法将等效或相似实体的归一化处理,也可使用算法与人工审核相结合的方式完成。例如:通过搜索技术对潜在的实体进行召回,然后使用排序技术并设定一定的阈值对候选等效或相似实体进行归一。此外,根据不同的业务精度要求,也可加入人工审核,进行归一化结果的二次确认,最终保证实体融合结果满足业务要求。知识一致性校验是指对融合后知识单元间的一致性进行校验,该环节可视业务需求进行选择。对于同领域知识图谱间知识融合,可通过实体类型映射、实体对齐、实体融合等实现外部知识内容与内部知识图谱的融合,示意图如图 1
323、0-3所示。153知识图谱互联互通知识图谱互联互通图 10-3 知识加工融合流程示意图 10-4 跨领域知识融合流程示意跨领域知识图谱间的知识融合流程示意图如图 10-4 所示。首先,加载多个领域图谱,并对每个图谱中的实体进行定位,找到对应的属性;然后,进行属性映射,并进行实体链指,比如规则链指、向量检索等技术;最后,引入归一规则,确定融合结果,并写入知识图谱。此外,可通过研发通用 DSL 语言对归一策略进行表达,实现逻辑表达、算子、决策等能力的支持,以便让非知识图谱技术背景的领域专家也可便捷进行跨领域知识图谱间知识融合的操作。二、基于互联互通的知识联合查询/计算流程二、基于互联互通的知识联合
324、查询/计算流程(一)概述(一)概述第 十 章 基 于 知 识 图 谱 互 联 互 通 的 知 识 融 合 与 计 算 流 程第 十 章 基 于 知 识 图 谱 互 联 互 通 的 知 识 融 合 与 计 算 流 程154知识图谱查询和计算是知识图谱最重要、最基础的应用方式之一。在单一知识图谱场景下,查询和计算旨在根据用户输入关键词、自然语言、或者筛选条件等,采用传统搜索、知识搜索和知识计算推理等手段,实现查询输入理解、召回和计算结果的反馈和排序。在知识图谱互联互通场景下,知识查询或者计算是在多个本地知识图谱查询和计算结果汇聚的基础上,实现查询结果的融合计算、冲突解决,为用户展示出精确的、凝练的
325、、高可信度的综合结果,实现互联互通下知识的共享共用。(二)知识联合查询/计算流程(二)知识联合查询/计算流程知识图谱互联互通场景下的知识联合查询/计算流程如图 10-5 所示。当请求端输入查询请求后,请求端对输入进行初步解析和理解,明确请求涉及领域、知识范围、知识意图、历史相似检索匹配等,对分发请求的知识图谱域进行初筛,有针对性的获取共享知识,同时减轻查询结果知识融合的难度。图 10-5 联合查询计算流程155知识图谱互联互通知识图谱互联互通当查询请求输入到多个领域知识图谱后,各个领域图谱在本地实现查询理解、知识检索、知识计算、知识校验,并将查询或者计算结果按照标准的约束规范进行封装,并反馈给
326、请求端。请求端在接收到查询结果后,将查询结果进行汇聚和解析,并将查询结果进行融合,实现多个查询结果的冲突解决、知识对齐等。最后,将融合后的知识进行二次排序,获得互联互通后的综合查询排序结果,同时进行联合计算推理,将查询或者计算结果进行展示和分析,以满足请求端的最终知识获取需求。(三)任务构成(三)任务构成1、知识图谱域筛选1、知识图谱域筛选知识图谱域筛选旨在根据查询请求粗筛出与查询相关的领域知识图谱及所属的知识共享方,以避免每次查询都全域检索造成的查询效率、计算成本和融合成本。筛选方法可包括:标签化匹配筛选法、相似请求筛选法等。(1)标签化匹配筛选法(1)标签化匹配筛选法为了更方便、快捷地筛选
327、与查询请求相关的知识图谱域,可对各个领域知识图谱及所属知识共享方进行标签化,标签包括但不限于领域、本体、关键词和描述等。当每个本地域的知识图谱有了标签后,可进行基于标签的匹配筛选,粗筛出与查询请求相关的图谱域,筛选方式主要包括:基于查询检索的方式:采用最原始的方式,直接对查询请求过滤出停用词后,对所有标签进行模糊式关键词检索,查询筛选出匹配的图谱域。基于标签抽取的方式:对查询请求进行语义理解,提取蕴含的领域、本体、关键词等标签,然后基于标签进行匹配计算,匹配出相关的图谱域。基于向量检索的方式:将图谱实例的标签转化为语义向量,在查询时将查询请求转化为语义向量,并利用语义相似计算的方式进第 十 章
328、 基 于 知 识 图 谱 互 联 互 通 的 知 识 融 合 与 计 算 流 程第 十 章 基 于 知 识 图 谱 互 联 互 通 的 知 识 融 合 与 计 算 流 程156行检索匹配。(2)相似请求筛选法(2)相似请求筛选法在每次联合查询、融合和计算后,将历史请求及最终融合采纳的知识图谱域进行历史记录存储(类似 FAQ)。当收到每次查询请求时,可对FAQ 进行查询匹配,获取查询请求相关的历史请求,从而组合筛选出相关的知识图谱域。2、联合查询结果融合2、联合查询结果融合联合查询结果融合是将不同域中的知识图谱查询结果进行知识对齐和冲突解决。从整体流程上看,本质是知识图谱子图或者知识单元的融合,
329、其基本流程和前述章节中的知识融合类似,包括跨域的本体对齐、实体对齐等。唯一不同的是:在联合查询结果融合时,需考虑本体域查询结果中提供的相关度值以及融合后的相关度值更新,该值会影响后续结果的二次排序。在融合前,本地域图谱查询相关度值可作为一种权重值影响知识融合。例如:在实体对齐中,常用的方法是根据实体的关系网络结构、属性信息和描述语义信息进行实体向量表征,然后通过计算相似度值判断两个实体是否可以合并。在该过程中,实体的查询相关权重可以影响最终的判断阈值,从而影响实体的合并决策。如果采用深度学习、卷积神经网络或者机器学习分类方法,也可将相关度值作为分类的一个特征维度影响融合决策。在融合后,相关度值
330、需根据融合结果进行更新。如果某个实体在多个本地域知识图谱查询中都被召回,并经过融合对齐实现合并。该实体的可信度就相对较高,在联合查询结果二次排序时可相对靠前。3、联合查询结果二次排序3、联合查询结果二次排序联合查询或者计算结果形式主要包括答案型和查询列表型。其中,答案型的查询请求会在本地域知识图谱中反馈或推荐一些答案和依据,如“谁是美国现任总统?”。当联合查询结果二次排序时,可根据各域157知识图谱互联互通知识图谱互联互通知识图谱证据充足性等方式决定最终答案。查询列表式的二次排序是更直接地让用户获得查询最相关、最全知识信息、最精确的联合查询流程环节,如实体列表或三元组形式。查询列表式二次排序方
331、法包括:一种是根据本地域图谱返回的相关度值和融合后更新值进行重排序,另一种是采用深度网络的方法。基于深度网络的方法主要是将知识图谱的网络结构转化为文本序列的形式,并采用 bert-reranker 模型对结果进行重新打分。该方法核心是大规模文本预训练的深度语言模型,其在文本检索中表现出色。基于丰富的上下文匹配信息,深度大模型微调重新排序器从候选集合中找出更为关联的内容。同时,深度大模型也可以用来提高搜索索引效率,构建更好的召回。其基本原理是给定一个第一阶段的召回模型以及一组查询,使用召回模型在整个数据集中进行检索,生成查询对应的有序文档集合。对于每一个查询q,从排在前m的文档集Rmq中进行采样
332、,选取n个与查询无关的文档集作为负样本,所有被采样的文档集构成负样本训练集,基于特定目标检索器重新构建的训练集对于确保稳健训练至关重要。在整合所有训练目标的负样本后,对于每一个查询q,基于唯一相关的正样本dq及排在前m的文档集Rmq中采样得到的若干与查询q不相关的文档集,构建样本组qG,使用BERT模型作为距离评分函数。4、联合查询结果计算推理4、联合查询结果计算推理联合查询结果的计算推理与传统知识图谱计算推理区别是其综合了多个领域知识图谱的查询结果,且带有重要的查询请求相关度值,融合构成了更复杂的异构、权重网络,给互联互通知识计算推理带来了更大的挑战,如最短路径需要考虑节点和边的相关权重值等
333、。随着深度学习的发展和算力的增长,异构知识图谱的计算推理已经取得较为快速的发展和进步。异构知识图谱更多考虑了除点、边简单拓扑结构之外的其他附加信息,如实体类型、实体属性、实体描述及关系第 十 章 基 于 知 识 图 谱 互 联 互 通 的 知 识 融 合 与 计 算 流 程第 十 章 基 于 知 识 图 谱 互 联 互 通 的 知 识 融 合 与 计 算 流 程158的类型等。对于部门间的联合查询场景中,可将融合后的联合查询结果组成一个大的异构知识图谱。每个查询返回的实体或者关系带有查询相关性权重值,可以作为一种连续值的特殊属性加入到异构知识图谱中,从而利用图计算、规则推理、神经网络推理、混合推理等多种计算推理方式增强查询相关的计算推理能力。159知识图谱互联互通知识图谱互联互通第十一章 展望与建议第十一章 展望与建议一、技术发展展望一、技术发展展望图 11-1 技术发展展望示意图(一)知