上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

PlantData:大规模知识图谱数据存储(109页).pdf

编号:77866 PDF  PPTX  109页 3.68MB 下载积分:VIP专享
下载报告请您先登录!

PlantData:大规模知识图谱数据存储(109页).pdf

1、链接数据 洞察价值 LINKED DATA & SMART DATA PlantData 知识图谱实战分享会第1期 大规模知识图谱数据存储 胡芳槐 博士 上海海翼知信息科技有限公司 CTO 2 语义大数据背景下的知识图谱技术 数据存储的发展历史 知识图谱数据存储 知识图谱时态信息存储 上半场 人民的名义知识图谱 大数据时代 大数据时代,强调的是对大规模数据综合处理的能力。 从数据库到大数据(1) 大数据的出现,必将颠覆传统的数据管理方式。在数据来源、数据处理方式和数据思维等方面都会对其带来革命性的变化。 从数据库(DB)到大数据(BD),不只是一个简单的技术演进,两者有着本质上的差别。 DBB

2、D 来源:开源技术社区 Nock(洛神) 从数据库到大数据(2) 池塘捕鱼大海捕鱼 从数据库到大数据(2) 数据规模 MB GB/TB/PB 池塘捕鱼 大海捕鱼 从数据库到大数据(2) 数据类型 数据种类单一(少数几种) 以结构化数据为主 数据种类繁多 包含着结构化、半结构化以及非结构化的数据 半结构化和非结构化数据所占份额越来越大 池塘捕鱼 大海捕鱼 从数据库到大数据(2) 数据模式 先有模式然后产生数据 难以预先确定模式 模式在数据出现之后才能确定 且模式随着数据量的增长处于不断的演变之中 池塘捕鱼 大海捕鱼 从数据库到大数据(2) 处理对象 数据仅作为处理对象 数据能作为一种资源来辅助

3、解决其他诸多领域的问题 池塘捕鱼 大海捕鱼 从数据库到大数据(2) 处理方法 One Size Fits All No Size Fits All 池塘捕鱼 大海捕鱼 从数据库到大数据(3) 以计算为中心转变到以数据处理为中心。 数据思维 大数据应用挑战1: 多源异构数据难以融合 涉密部门 企业内部数据 顾军 .生于1963年 .江苏南通人 .中国核工业 公司内部数据、新闻网站、论坛帖子、微博 多源异构数据难以融合 信息聚合、数据融合需求迫切! 大数据应用挑战2:数据模式动态变迁困难 当前数据模式动态变迁困难,当客户新需求、业务新认知时程序员需痛苦的 修改数据结构及业务逻辑,带来扩展性差、对客

4、户响应慢、维护成本高等不良情况。 我们需要:可自由扩展的数据模式! 响应速度慢 人员投入大 数据结构难改动 扩展性差 维护成本高 大数据应用挑战3:非结构化数据计算机难以理解 计算机无法理解非结构化数据的语义 企业迫切需要将非结构化数据结构化 Web of Document 大数据应用挑战4:数据使用专业程度过高 行业智能问答大幅降低数据使用门槛 Knowledge Graph: The key for Smart Data Things, not strings! 什么是知识图谱? 知识图谱旨在描述真实世界中存在的各种实体或概念,以及它们之间的关联关系。其中: 每个实体或概念用一个全局唯一确

5、定的ID来标识,称为标识符; 每个属性值对用来刻画实体的内在特性,而关系用来连接两个实体,刻画它们之间的关联。 现实世界中有多种类型的事物 事物之间有多种类型的链接 知识图谱与本体 知识图谱并不是本体的替代品,它是在本体的基础上进行了丰富和扩充,这种扩充主要体现在实体(Entity)层面。 本体中突出和强调的是概念以及概念之间的关联关系,而知识图谱则是在本体的基础上,增加了更加丰富的关于实体的信息。 本体描述了知识图谱的数据模式(schema),即为知识图谱构建数据模式相当于为其建立本体。 知识图谱助力人工智能 语义搜索 私人助理 聊天机器人 穿戴设备 Google Bing 百度 Siri

6、Google Now 微软小娜 百度度秘 微软小冰 小黄鸡 公子小白 Apple Watch Ticwatch 计算知识引擎 临床决策支持 出行助手 IBM Watson Health 出门问问 百度知识图谱 业务需求 技术方案 数据挑战 4. 数据使用专业程度过高 3. 数据模式动态变迁困难 语义理解 数据关联探索 业务动态扩展 智能数据检索 1. 非结构化数据计算机难以理解 2. 多源异构数据难以融合 知识图谱助力商业智能 数据结构化 数据结构化 数据结构化 数据融合 数据结构化 自由扩展数据模式 数据结构化 行业智能问答 知识图谱的适用场景 数 据 场 景 多源异构数据需要融合统一使用

7、数据中存在一定数量不同类别的实体 业务上更加关注数据中实体的关联,而不仅仅是数据本身 知识图谱为数据赋能 图结构特性 数据语义特性 消 费 场 景 图数据探索 路径分析 关联分析 图谱可视化 图结构消费场景 自然语言检索 智能BI 语义标注 知识推理 数据语义消费场景 知识图谱适用于处理:关系复杂的数据、类型繁多的数据、结构多变的数据。作为数据融合与链接的纽带,整合结构化、半结构化和非结构化数据 有半结构或非结构化数据需要结构化 知识图谱的不适用场景 不适用数据场景 不适用消费场景 存储通常的二进制数据 日志数据 流式数据 需借助其它工具存储和处理 并与知识图谱进行数据链接 数据统计 数据计算

8、 需要结合其它工具和方法使用 不要为了用知识图谱也用知识图谱! TIPS 知识图谱不是银弹!依据问题寻找方法。 数据存储的发展历史 在IDS横行的年代,(硅谷的所在地)加利福尼亚州,数据库一词最早流行于系统研发公司的技术备忘录中 伴随阿波罗登月计划,商业数据库雏形诞生。IBM的IMS,Mainframe,以及navigational数据库技术浮现。 埃德加弗兰克科德,IBM公司研究员,发表题为“大型共享数据库的关系模型”的论文,被誉为“关系数据库之父” IBM的校企联合计划中,与加利佛尼亚柏克莱分校Ingres数据库研究项目携手创建了RDMBS的原型R系统 因IBM战略主导分级结构数据业务并将

9、萌芽期的关系型数据结构业务剥离;柏克莱Ingres数据库研究项目联合Oracle创建了第一个商业RDBMS. IBM发布DB2(一套自主开发的关系型数据库管理系统) Terodata Corporation发布第一个大规模并行处理数据库专用平台,或者说是“无共享架构”数据库。由于无需共享数据库,文件架构中不存在单一瓶颈而降低系统运行速度的特性,所以google称之为sharding。 PC机数据库应用浮现,比如:Ashton-Tole公司的DBase lll,微软公司的Access等等。 1962 1979 1968 1970 1974 1983 1984 1985 “数据库”诞生 第一个商业

10、RDBMS出现 数据存储的发展历史 GemStone/S-首个面向对象型商业数据库浮现。这一年,加利福尼亚柏克莱分校Michael Stonebraker发表了关于shared nothing architecture(SN)的研究论文 Kognitio公司发布第一款内存数据库,相比传统的基于磁盘的数据库管理系统,内存栅障以及高速缓存冲刷指令为内存数据库提供简单高效的原子性,保证了与中央处理器本身原子操作的一致性服务。 Arbor公司发布第一款多维数据库Essbase。多维数据库允许用户以更为口语化的英语来询问问题,使用一种在线分析处理(OLAP)的软件。 关系型数据库管理系统扩展添加关系型多

11、维数据模型。 第一款商用多值数据库KDB发布。KDB封装了丰富的命令实现运行控制、内存操纵、寄存器操纵、断点设置、堆栈跟踪等许多功能。这一年9月,两个斯坦福大学博士生发明了谷歌搜索引擎。 瑞典MySQL AB公司发布推广第一款开源数据库MySQL 英国Endeca公司发布第一款商用数据库搜索产品。该公司为波音公司、美国人口普查局、福特、国际商用机器公司、东芝等大型公司和机构提供搜索服务。这一年google公司成立。 1986 1992 1988 1989 1991 1994 1995 1996 1998 1999 IBM研究员率先提出并解释了数据仓库一词的行业标准 第一款开源的文件数据库发布,

12、Berkeley DB 介于关系数据库与内存数据库之间,使用方式与内存数据库类似,它提供的是一系列直接访问数据库的函数,而不是像关系数据库那样需要网络通讯、SQL解析等步骤。 第一款对象关系数据库管理系统Illustra发布,它支持对复杂数据类型的面向对象管理,同时又提供高效的查询语言。随后跟风的有notably,PostgreSQL等等。 数据仓库行业标准提出 第一款多维数据库发布 数据存储的发展历史 Netezza公司将存储、处理、数据库和分析融入到一个高性能数据仓库设备中,资料仓储软硬体整合数据仓库数据库浮现。 复杂事件处理技术解决方案提供商Streambase发布第一款time-ser

13、ies DBBMS 第一款商用NOSQL图形数据库管理系统NEO4j发布,它是一个嵌入式的、基于磁盘的、具备完全的事物特性的Java持久化引擎,但是它将结构化数据存储在网络上而不是在表中。 Facebook基于静态批处理的Hadoop智商封装并发布了一个开源项目数据仓库Hive,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 Hbase发行,在Hadoop之上提供了类似于Bigtable的能力,是一个适合于非结构化数据存储的数据库,采用基于列的而不是基于行的模式。 在Hadoop生态系统中,规模最大、知名度最高的Cl

14、oudera公司由来自Facebook、谷歌和雅虎的前工程师杰夫店哈默巴切、克里斯托弗比塞格利亚、埃姆阿瓦达拉以及现任CEO、甲骨文前高管迈克奥尔森合作发布了第一款商用Hadoop 基于资源描述框架(资源-属性-属性值)的高性能图形数据库管理系统或称为三元组法数据管理系统浮现 2002 2007 2003 2005 2007 2008 2009 2009 2010 2011 NoSQL数据库解决方案提供商MarkLogic发布第一款XML数据库。 第一款内容管理数据库ModeShape发布。(其前身是“JBossDNA”)实现了JCR 2.0 (JSR-283)规范,用以提供在不同系统上的内容

15、存储。 由分布式文档存储数据库MongoDB引发了一场去SQL化的浪潮 商用Hadoop首次发布 去SQL化浪潮 数据仓储一体机推出 数据存储的发展历史 内存数据库管理系统演化为SAP HANA 第一款事务存储型开源数据库发布 FoundationDB引发业内新兴热词“multi-modelDBMS”的浮现。 Hadoop框架集成新功能组件: +Apache Spark; +Apache Drill(schemaless SQL); +presto(federated multi-DBMS SQL) 市场需求程序应用可以自行判断数据流的激活状态并快速集成数据进行实时分析处理,Translyti

16、cal database与Transaction and analytical database进入人们的关注视野,比如VoltDB(version5.6) 2012 2014 2012 2012 2013 2014 2015 2015 2015 作为基于云数据仓库的服务,亚马逊Redshift发布 Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。Impala完全抛弃了MapReduce这个不太适合做SQL查询的范式,而是像Dremel一样借鉴了MPP并行数据库的思想另起炉灶,因此可做更多的查询优化,从

17、而省掉不必要的shuffle、sort等开销。相比已有的Hive系统虽然也提供了SQL语义,眼但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。 大数据处理作为云服务体系接入到企业应用 值得注意的是UC柏克莱为加州大学系统中历史最悠久的学校,Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于Hadoop MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖

18、掘与机器学习等需要迭代的MapReduce的算法。Spark是在Scala语言中实现的,它将Scala用作其应用程序框架。与Hadoop不同,Spark和Scala可以像操作本地集合对象一样轻松地操作分布式数据集。 亚马逊Redshift发布 Impala查询系统 数据存储的发展历史 网状数据库 层次数据库 关系数据库 面向对象数据库 NoSQL 大数据存储与处理框架 网状数据库 网状模型中以记录为数据的存储单位,记录包含若干数据项;网状数据库的数据项可以是多值的和复合的数据。每个记录有一个惟一地标识它的内部标识符,称为码(DatabaseKey,DBK),它在一个记录存入数据库时由DBMS自

19、动赋予。DBK可以看作记录的逻辑地址,可作记录的替身,或用于寻找记录。 第一个网状数据库管理系统也是第一个DBMS是美国通用电气公司Bachman等人在1964年开发成功的IDS(IntegratedDataStore)。 层次数据库 层次数据库也是按记录来存取数据的;层次数据模型中最基本的数据关系是基本层次关系,它代表两个记录型之间一对多的关系,也叫做父子关系(PCR);数据库中有且仅有一个记录型无父亲,称为根节点;其他记录型有且仅有一个双亲。 最著名最典型的层次数据库系统是IBM公司的IMS (Information Management System) 关系数据库 关系数据模型是以集合论

20、中的关系概念为基础发展起来的;关系模型中无论是实体还是实体间的联系均由单一的结构类型-关系来表示;在实际的关系数据库中的关系也称表;一个关系数据库就是由若干个表组成。 1974年,SQL语言被提出,功能包括查询、操纵、定义和控制,是一个综合的、通用的关系数据库语言,同时又是一种高度非过程化的语言,只要求用户指出做什么而不需要指出怎么做。 典型代表:Oracle、MySQL、SQL Server 面向对象数据库 关系数据库的能很好地处理所谓的“表格型数据”,却对越来越多复杂类型的数据无能为力。面向向对象的关系型数据库系统对数据提供了理论上的完美性,但是并未带来市场的反应。 失败原因:企图用新型数

21、据库系统来取代现有的数据库系统,对许多已经运用数据库系统并积累了大量工作数据的客户来说,无法承受新旧数据间的转换而带来的巨大工作量及巨额开支。另外,其查询语言极其复杂。 NoSQL(1) NoSQL,Not Only SQL。随着web2.0的快速发展,非关系型、分布式数据存储得到了快速的发展,它们不保证关系数据的ACID特性。NoSQL概念在2009年被提了出来,解决关系数据库的性能及扩展性瓶颈。 优势: 大数据量 高性能 高可用 灵活的数据模型 NoSQL(2) NoSQL四大家族 键值(Key-Value)数据库 列存储数据库 文档型数据库 图形(Graph)数据库 NoSQL适用场景

22、数据模型比较简单 需要灵活性更强的IT系统 对数据库性能要求较高 不需要高度的数据一致性 NoSQL键值存储数据库 使用到一个哈希表,表中有一个特定的键和一个指针指向特定的数据。 相关数据库 Redis、Tokyo Cabinet/Tyrant、Voldemort、Berkeley DB 典型应用 内容缓存,适合混合工作负载并扩展大的数据集 数据模型 一系列键值对 优势 快速查询 劣势 存储的数据缺少结构化 NoSQL列存储数据库 应对分布式存储的海量数据;键仍然存在,但是指向了多个列,这些列是由列家族来安排的。 相关数据库 Cassandra, HBase, Riak 典型应用 分布式的文件

23、系统 数据模型 以列簇式存储,将同一列数据存在一起 优势 查找速度快,可扩展性强,更容易进行分布式扩展 劣势 功能相对局限 NoSQL文档型存储数据库 以半结构化的文档作为数据模型,文档以特定的格式存储(如JSON);可看作是键值数据库的升级版,允许之间嵌套键值。 相关数据库 MongoDB、CouchDB 典型应用 Web应用 数据模型 半结构化的文档 优势 数据结构要求不严格 劣势 查询性能不高,而且缺乏统一的查询语法 NoSQL图形数据库 与其他行列以及刚性结构的SQL数据库不同,图形数据库使用灵活的图形模型,能够扩展到多个服务器上。 相关数据库 Neo4J、InfoGrid、Infin

24、iteGraph、AllegroGraph、Cayley、Stardog、Titan、OrientDB、ArangoDB、OpenLink Virtuoso、VertexDB 典型应用 社交网络,推荐系统等。专注于构建关系图谱 数据模型 图结构 优势 利用图结构相关算法。 劣势 需要对整个图做计算才能得出结果,不容易做分布式的集群方案。 大数据存储与处理框架 知识图谱数据存储 知识图谱最适合处理关联密集型的数据,因此首先需要需要存放的是节点和边的数据。 用图数据库。 是否所有的事物都作为实体放入到知识图谱中去呢? 视数据需求而定: 对于不需要进行关系延伸计算的数据不放入图谱,这些数据可使用适应

25、的存储并与知识图谱中实体作链接; 对于结构固定、实体属性信息丰富的实体类,使用其它数据库存储更能体现优势; 知识图谱数据存储 数据思维! 在现实应用中,还有一些不适合放入知识图谱中的数据(日志、事件,需要频繁统计、计算)怎么办? 使用其它的存储和计算框架进行存储和处理,同时实现与知识图谱中数据的链接。 知识图谱数据存储 No Size Fits All ! 知识图谱数据存储 使用图数据库 TIPS 图数据存储 知识图谱是基于图的数据结构,其存储方式主要有两种方式:RDF存储 和 图数据库(Graph Database)。 A triplestore or RDF store is a purp

26、ose-built database for the storage and retrieval of triples through semantic queries. A triple is a data entity composed of subject-predicate-object. Wikipedia A graph database has a more generalized structure than a triplestore, using graph structures with nodes, edges, and properties to represent

27、and store data. Wikipedia RDF存储和图数据库的发展趋势 图数据存储 从零开始构建 灵活不受约束 基础维护的难度和工作量巨大 基于现有关系数据库或NoSQL数据构建 可以基础存储实现的强大功能,不需要分心管理底层的数据存储 可按数据和应用的需求采用不同的底层存储 基于现有数据库存储 三元组表(S,P,O) 问题:大量自连接操作的开销巨大 3store Harris03 基于现有数据库存储 属性表:属性相似的主语聚为一张表 问题:1、 RDF灵活性 2、 属性未定查询 Jena property table Wilkinson06基于现有数据库存储 垂直分割:以谓语划分

28、三元组表 问题:1、大量数据表 2、删除属性代价大 Vertical partitioning Abadi07, VLDBNative RDF 存储方案 六重索引:SPO、SOP、PSO、POS、OSP、OPS 优点: 三元组模式查询(triple pattern)的高效执行 任意两个三元组模式的高效归并连接(merge-join) 问题:1、6倍空间开销,如果是 (S, P, O, C) 四元组呢? 2、更新维护代价大 Hexastore Weiss08, VLDB, RDF-3X Neumann08, VLDB 使用列数据模型存储三元组表,建立六重索引 RDF列式存储优于行式存储 三元组表

29、 + 列式存储 + 六重索引 Native RDF 存储方案 Wang10, DBTA 图数据模型:节点、边、节点属性、边属性 Neo4j 节点存储(node store) 关系存储(relationship store) 属性存储(property store) 优点:图查询语言、图挖掘算法 缺点:分布式存储实现代价高,数据更新速度慢,大节点处理慢 图数据库(原生图存储) 应用多节点分布式服务器集群系统将三元组数据分布式存储。 商业:AllegroGraph、Microsoft Trinity Zeng13, VLDB、 OpenLink Virtuoso、BigOWLIM 开源:Bigda

30、ta () 分布式B+树:动态分片(dynamic sharding) triple store:SPO、POS、OSP quad store: SPOC、POCS、OCSP、CSPO、PCSO、SOPC 分布式存储方案 Jingwei分布式大规模RDF数据服务器 Wang12, APWeb 分布式存储方案 海翼知大规模三元组解决方案 大规模知识图谱存储解决方案 数据思维 依据数据特点进行数据存储结构选择与设计 No Size Fits All 没有一种通用的存储方案能够解决所有问题 基础存储支撑灵活 基础存储可扩展、高可用 按需要进行数据分割 适时使用缓存和索引 善于利用现有成熟存储 保持图

31、形部分数据的精简 不在图中作统计分析计算 在应用中进行扩充迭代 指导思想 整体原则 海翼知大规模三元组解决方案 大规模知识图谱存储最佳实践(1) 1. 基础存储 2. 数据分割 可按数据场景选择使用关系数据库、NoSQL数据库及内存数据库。 基础存储保证可扩展、高可用 属性表:依据数据类型划分 大属性单独列表:例如数量超过10M的属性单独列表 基本类型:整数表、浮点数表、日期类型表、 集合类型:List型表、Range型表、Map型表、 海翼知大规模三元组解决方案 大规模知识图谱存储最佳实践(2) 3. 缓存与索引 使用分布式 Redis 作为缓存,按需对数据进行缓存。 对三元组表按需进行索引

32、,最多情况下可建立九重索引 SPO、SOP、PSO、POS、OSP、OPS SPO、POS、OSP 4. 善于使用现在成熟存储 使用ElasticSearch实现数据的全文检索 结构固定型的数据可使用关系数据库或NoSQL 海翼知大规模三元组解决方案 大规模知识图谱存储最佳实践(3) 5. 对于非关系型的数据尽量不入图存储,避免形成大节点 非关系型的数据,使用适合的数据存储机器进行存储,通过实体链接的方式实现与图谱数据的关联。 6. 不直接在图存储中进行统计分析计算 对于需要进行统计分析计算的数据,需要导出到合适的存储中进行。 信息的时态性 时态特性是信息的客观存在。 知识和数据是不断更新的,

33、这些变化的时间点同样代表了有意义的信息。 时态信息的需求与技术一直伴随着数据库技术的发展而产生和发展。 时态数据库的发展趋势 本体的版本化 本体的构建发展的过程中,知识工程师通常希望把旧的本体也保存下来,形成了本体的版本化信息。基本意义有: 记录语义变化 兼容性检测 版本选择 深化规则 基于时态逻辑的本体版本管理 线性时间模型 分叉时间模型 基于混合逻辑的本体版本管理 知识图谱中的时态信息 事实的生成时间 某事实的有效时间段 某一对象在特定历史时刻的状态 知识图谱在过去特定时间的版本 李达康为了修路,在全县搞强行摊派捐款 一位农妇被逼喝农药自杀 县政府被闹 21年前 王大路背锅,引咎辞职 李达

34、康与易学习资助王大路创业 王大路多年经营,拥有今天的大路集团 赵立春要求吕州市长李达康批地 李达康拒接批地 赵立春调离李达康至林城 高育良批地 高、李冲突原因 基本时间模型 连续模型 把时间看作同构于实数,每一个实数对应于一个时间点。因此,在时间轴的两个时间点之间,可以存在其它的时间点。 步进模型 把数据的状态看成是时间的函数;当时间点上的数据状态发生变化时才记录状态变化,否则保持不变。时间序列上任一点上数据的值对应于上一次数据改变时保持的状态,如果要查询当前数据的取值,需要回溯。 离散模型 把时间和整数映射起来,在相邻的两个时间点之间不存在另一个时间点;任一时间点有前驱和后继时间点。 恒定模

35、型 有些数据是不随时间变化的,例如:籍贯、出生地等;这些数据只有其本身固有的属性。 基本时态元素 时间点 基于点的时间元素(Pointbased),又称为时刻(Time Points) 时间区间 时间区间是指一段时间,有固定的起止时间点 时间跨度 指持续的一段时间,表示时间的长度;与时间区间不同的是,时间跨度没有时间起点,也没有时间终点。 时间元素Now Now是一个时间变元,随着当前时间的变化而变化,记录了随时间变化的信息,它的有效值依赖于当前时间。 时间粒度 指描述时间数据的最小时间单位,是表示时间点之间离散化程度的因素;时间粒度反映了时态信息系统中时间点描述的最小单位,时间粒度越小,离散

36、的时间点越多,描述的事件的变化信息越精细准确。 三种时间 用户自定义时间 指用户根据自己的需要或理解定义的时间。这种时间的属性值一般是时间点,用户本身会解释他所给出的时间信息,数据库系统不需要解释该数据的含义,只需将此时间域等同于其他一般的属性域来理解。 有效时间 指一个对象(事件)在现实世界中发生并保持的那段时间,或者该对象在现实世界中为真的时间。有效时间既可以反映过去和现在的时间,还可以反映将来的时间。 事务时间 指一个数据库对象进行操作的时间,是一个事实存储在数据库中的时间,它记录着对数据库修改或更新的各种操作历史,对应于现有事务或现有数据库状态变迁的历史。有时也称事务时间为系统时间(s

37、ystem time)。 四种时态数据库 快照数据库 回滚数据库 历史数据库 双时态数据库 快照数据库 快照数据库(Snapshot Database)是以在特定的时刻的瞬间快照来建立模型,来考虑现实世界,尽管现实世界是变化的,快照数据库只是反映了某一个瞬间的情况。 快照数据库支持用户定义时间,不能进行与时间相关的任何工作。 回滚数据库 回滚数据库(Rollback Database)支持事务时间,按事务时间进行编址,保存了每次事务提交,状态演变之前的状态。 回滚数据库记录了数据库事务变化历史,它实现的是事务时间轴。任何一个更新语句的执行将产生一个新的数据库状态。新状态不会覆盖旧的状态。因此没

38、有数据会被物理删除。通过将一个元组的事务结束 时间设为执行语句的当时时间, 从而实现元组在语义上的“删除”。 事务时间区间可以看成是该元组 在快照数据库中存在的历史。 历史数据库 记录事实的有效时间的数据库称为历史数据库。历史数据库记录了在有效时间轴上的一系列的数据库状态,可能是过去、现在或将来。它可以被看作是记录了事实在真实世界的变化过程。 历史数据库上的查询语言必须具有有效时间演算能力。同时更新语句必须指明修改语句涉及 哪些数据库状态。 双时态数据库 双时态数据库由时态关系组成,其时态关系是一个四维结构。其中两维是属性和元组,另外两维是事务时间和有效时间,一个时态关系可以看成是一个历史关系

39、的序列。对时态关系的一个回滚操作则是选取了一个特定的历史关系,可对该历史关系进行查询。而每一个事务则引起一个新的历史关系的建立。 双时态数据库综合了回滚数据库和 历史数据库的优良特性,它即保存 了数据库变迁的历史,又保存了现 实世界的真实的数据属性。 四种时态数据库总结 严格意义上的双时态数据库是不存在的,需要花费大量的存储空间为代价的。 回滚数据库的主要意义在于数据库系统的管理和维护,当当版本的数据库出现问题时,进行回滚。 历史数据库记录的是事实的有效时间,因此是具备应用意义的数据库。 目前常用的数据库可约视为快照数据库,它们不具备时太含义。 知识图谱时态信息存储 在知识图谱存储中应用的为历

40、史数据库,同时也借鉴回滚数据库的思想进行知识图谱的版本信息管理。 历史数据库:记录事实的有效时间,用有限的数据冗余实现数据时态信息的应用。 回滚数据库:在特定的时间点(可视为回滚点,但不用于真实的回滚操作)对知识图谱数据进行独立的数据备份,形成知识图谱的版本记录,实现对特定历史状态的查询,满足一些特定应用场景的使用需要。 在基础知识图谱的基础上,构建针对时态数据处理的中间件;对于特定类型的时序型数据,采用其它的存储机制进行存储。 实现历史数据库的时态信息处理 在中间件层实现针对时间的查询和演算,并针对数据更新时针对数据库状态进行修改的实现机制。 实现知识图谱的版本管理 设定知识图谱版本生成的策

41、略,定时生成知识图谱的快照版本。 知识图谱时态信息存储实现 设计原则 1 2 79 常见的图数据存储 应用场景分析 使用图数据库进行数据存储 复杂应用场景存储的最佳实践 下半场 常见的图数据存储 Graph DBMS 常见的图数据存储 RDF stores 图数据存储的选用指标 数据存储支持 数据操作和管理方式 支持的图结构 实体和关系表示 查询机制 数据存储支持 图数据库图数据库 支持内存支持内存 支持外存支持外存 依赖外部依赖外部 存储存储 支持索引支持索引 Neo4j Titan Virtuoso AllegroGraph DEX Filament G-Store HyperGraphD

42、B InfiniteGraph Sones vertexDB 数据操作和管理方式 图数据库图数据库 数据定义语言数据定义语言 数据操作语言数据操作语言 查询语言查询语言 API Neo4j Titan Virtuoso AllegroGraph DEX Filament G-Store HyperGraphDB InfiniteGraph Sones vertexDB 支持的图结构 图数据库图数据库 简单简单图图 超超图图 嵌嵌套套图图 属性属性图图 节点节点标签标签 节点节点属性属性 关系关系有向有向 边标签边标签 边属性边属性 Neo4j Titan Virtuoso AllegroGra

43、ph DEX Filament G-Store HyperGraphDB InfiniteGraph Sones vertexDB 实体和关系表示 Schema Instance 图数据库图数据库 节点节点类型类型 属性属性类型类型 关系关系类型类型 对象对象节点节点 数值数值节点节点 复杂复杂节点节点 对象对象关系关系 简单简单关系关系 复杂复杂关系关系 Neo4j Titan Virtuoso AllegroGraph DEX Filament G-Store HyperGraphDB InfiniteGraph Sones vertexDB 查询机制 图数据库图数据库 查询语言查询语言

44、API 查询查询 推理推理 分析分析 Neo4j Titan Virtuoso AllegroGraph DEX Filament G-Store HyperGraphDB InfiniteGraph Sones vertexDB neo4j Neo4j is a highly scalable native graph database that leverages data relationships as first-class entities, helping enterprises build intelligent applications to meet todays evol

45、ving data challenges. 特点: 原生图存储和处理 支持ACID事务处理 自带一套易于学习的查询语言 Cypher 不使用 schema 社区最活跃 neo4j 存储结构 Titan Titan是一个分布式的图数据库,支持横向扩展,可容纳数千亿个顶点和边。 Titan支持事务,并且可以支撑上千并发用户和 计算复杂图形遍历。 Titan的特性 弹性与线性扩展、分布式架构、可容错 支持 ACID 和最终一致性. 支持多种存储后端,支持高可用和热备 支持位置、数字范围和全文检索 原生支持 TinkerPop 软件栈 Virtuoso OpenLink Virtuoso是一个混合模型

46、数据库,实现了Web,文件和数据库服务器功能以及本机XML存储和通用数据访问中间件,提供单一服务器解决方案。 Virtuoso提供了扩展的对象关系模型,它提供了关系型数据访问,类型继承,运行时数据类型,迟绑定,基于id的访问等数据访问方式。 提供CSV、RDF文件形式的数据导入,支持从外部的数据库进行库、表、数据的关联。 93 应用场景分析与知识图谱建模 知识图谱构建的基本步骤 1. 应用场景分析 2. 知识图谱本体构建(Schema构建) 概念 上下位关系 属性 关系 3. 实体 4. 实体的属性 5. 实体之间的关系 创投知识图谱 创投知识图谱描述创业企业与投资机构之间以投资为主线的多种关

47、系,包含:企业产品、创始人、股东、高管、行业、细分行业、新闻、投融资事件、关注度、活跃度、招聘等方面。 基于创投知识图谱及平台分析功能,投资机构能够完成创业企业、行业调研及追踪,为投资进行辅助决策;创业企业也可以分析热点投资赛道、关注行业动态及竞争对手动向。 http:/www.lengjing.io 创投知识图谱中的数据 初创企业相关的数据包括: 工商注册信息 企业产品 创始人/股东/高管 所属行业/领域 投融资事件 专利/招聘/诉讼/失信 新闻/社交网络数据 产品活跃数据 数据分析 关系型数据(通过关系形成网络) 企业与创始人 企业与投资人(机构) 企业与产品 企业与高管 高管与高校 存储

48、方法:作为实体存入知识图谱,通过它们之间的关系形成图谱网络。 数据分析 结构型数据(与主体进行关联,但不会再续延伸) 企业与专利/招聘/诉讼/失信 企业与新闻 企业与投融资事件 企业产品活跃数据 存储方法:作为记录型数据存入合适的存储中,通过链接与图谱中的实体进行关联。 数据分析 属性型数据 企业的工商注册中基本信息 企业的所属行业 创始人的基本信息 产品的基本信息 投资机构基本信息 高校基本信息 存储方法:作为实体的数值属性存入知识图谱。 数据分析 时态型数据 企业的成立时间 高管的任职时间 投资关系的发生时间 产品的发布时间 存储方法:使用基于知识图谱上的时间存储中间件进行存储和查询处理。

49、 Schema定义:概念选取 企业 创业企业 投资机构 人物 投资个人 高管 股东 产品 Schema定义:关系和属性的定义 关系的定义 企业与创始人的关系 企业与投资人(机构)的投资关系 企业与产品的所属关系 企业与高管的任职关系 高管与高校的教育背景关系 属性的定义 企业的属性 人物的属性 产品的属性 103 使用图数据库进行数据存储 使用 neo4j 存储 1. neo4j 的安装 官网下载压缩包:wget http:/dist.neo4j.org/neo4j-community-3.1.2-unix.tar.gz 解压安装:tar zxvf neo4j-community-3.1.2-

50、unixi.tar.gz 启动服务:bin/neo4j start 2. neo4j 的数据导入语言简介 示例: USING PERIODIC COMMIT 500 LOAD CSV FROM file:/yourfile.csv AS line CREATE (:Company name: line1, round: toInt(line2) 使用 neo4j 存储 3. neo4j 中构建图的一般过程 导入实体,概念(Label) 导入实体属性 导入实体间关系 4. 最佳实践 分批导入,并使用Index提升导入时查询效率 按数据的类型、属性不同准备导入文件 数据主键维护,使用Constraints 尽可能保证导入数据格式正确 106 复杂应用场景处理的最佳实践 最佳实践的原则 关系型数据:使用图形数据存储 关联型数据:作为记录型数据存入合适的存储中,通过实体链接与图谱中实体关联。 属性型数据:作为实体的数值属性存入知识图谱 时态型数据:使用基础存储上的时态处理中间件进行存储与查询 Schema定义 实例编辑 批量导入 展示效果

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(PlantData:大规模知识图谱数据存储(109页).pdf)为本站 (沧海一笑) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部