《数据治理与大模型探索.pdf》由会员分享,可在线阅读,更多相关《数据治理与大模型探索.pdf(37页珍藏版)》请在三个皮匠报告上搜索。
1、数据治理与大模型探索北京捷泰云际信息技术有限公司 郝苗北京捷泰云际信息技术有限公司简介所属领域:所属领域:大数据与云计算;主要研究方向:主要研究方向:将地理信息科学、大数据与遥感科学、人工智能等技术交叉融合,以多源异构大数据汇聚、治理与时多源异构大数据汇聚、治理与时空知识图谱空知识图谱为主要研究方向,不断发展数据治理、挖掘分析与时空知识图谱技术;办公地点:办公地点:总部位于北京,在武汉、成都、西安设有分支机构;企业资质:企业资质:国家级高新技术企业认证、中关村高新技术企业认证、ISO9001质量管理体系认证及ISO27001信息安全管理体系认证。主要业务领域目 录01 数据治理的必要性02 数
2、据治理技术路线03 知识图谱与大模型应用探索01 数据治理的必要性为什么要做数据治理?汇聚和整合汇聚和整合跨部门、跨领域、多源异构数据资源,进行数据清洗与治理数据清洗与治理,解决数据准确性与数据准确性与一致性一致性等问题,面向业务应用提供统一的数据底座统一的数据底座。为什么要做数据治理?将多来源的数据资源进行融合与联接融合与联接,采用面向对象的思想,构建“对象画像对象画像”,全面展示各个对象实体的基础信息、业务信息、空间形态、健康状况、管理状况、关系图谱等基础信息、业务信息、空间形态、健康状况、管理状况、关系图谱等,反映对象实体的全貌。为什么要做数据治理?为数据挖掘分析、二次开发、行业知识图谱
3、构建、智能分析与决策数据挖掘分析、二次开发、行业知识图谱构建、智能分析与决策打下坚实的基础。数据治理目标 通过数据治理,建立一个数据数据“可获取、可连接、可分析、可评价可获取、可连接、可分析、可评价”的数据底座。02 数据治理技术路线基于时空数据中台的数据治理体系数据存储体系数据存储体系解决异构数据如何存储、组织问题。数据汇聚体系数据汇聚体系解决多源、多时效场景下数据如何采集问题。数据治理体系数据治理体系解决全域数据质量、安全与开发等问题。数据服务体系数据服务体系解决高质量数据资产如何高效应用问题。数据治理实施步骤1.1.理数据理数据3.3.汇数据汇数据4.4.做治理做治理5.5.成资产成资产
4、6.6.享服务享服务2.2.建建模型模型数据开发人员数据开发人员成果阶段成果阶段数据治理阶段数据治理阶段时时数据建模数据建模/管理员管理员业务应用人员业务应用人员数据管理员数据管理员数据建模人员数据建模人员项目项目/产品产品/建模建模前期阶段前期阶段事事物物连接至平台理清数据源数据类型存储位置规划数据存储存储分层计算引擎机构/用户/角色分析业务实体数据分级分类数据建模概念模型逻辑模型元数据整理模型关系维护数据汇聚普通汇聚业务数据空间数据汇聚非结构化汇聚监测数据汇聚汇聚流程编排数据开发数据质检质检规则质检配置质检报告数据安全数据权限数据治理成果关系图谱资产目录资产地图全域检索数据分析数据服务业务
5、服务空间服务第三方服务数据分发/数据申领录入至平台平台中处理数据管理成果展示数据使用系统管理系统管理/初始化初始化数据标准数据标准数据汇聚数据汇聚数据治理数据治理资产中心资产中心/资源门户资源门户服务中心服务中心/资源门户资源门户人人理数据 数据现状分析与梳理更新频率要求?实时、天/小时更新的粒度:记录/表级掌握数据更新频率情况掌握数据更新频率情况0404所在的业务系统的业务流程情况?原始数据库的库表关系?当前数据质量情况是怎么样的?理清业务流程理清业务流程/数据质量情况数据质量情况0606数据在原始系统是以什么形态存储?是否允许直接连接数据源?数据库、文件库等识别数据源存储形态识别数据源存储
6、形态0202主要包括哪些种类的数据?数据的获取途径是什么?哪些是核心数据?摸清数据分类情况摸清数据分类情况0101数据的格式是什么?属于哪个主题域?数据库、txt、Excel、shp.归类数据类型归类数据类型0303定源:来自于哪些业务系统?不满足一数一源该如何处理?数据来源情况数据来源情况0505数据摸底数据摸底理数据 规划数据存储时空数据中台采用面向数据数据分层分层的逻辑存储模式,内置全量数据区、核心数据区全量数据区、核心数据区与主题数据区与主题数据区数据层级架构,分别面向于政企组织原始数据、实体对象建模融合数据以及主题计算分析数据,以实现政企组织的有效组有效组织、集约管理与统一维护织、集
7、约管理与统一维护。主题数据区主题数据区根据政企组织业务域,划分主题数据层,进行数据计算分析、面向主题的多维度数据联接。核心数据区核心数据区根据建立的各类实体对象模型,进行政企组织数据重组与融合。全量数据区全量数据区根据政企组织业务系统划分,存储原始数据。全量数据区全量数据区核心数据区核心数据区数据清洗重组数据清洗重组数据分析挖掘数据分析挖掘业务指标1业务指标2.数据主题联接数据主题联接业务主题1业务主题2业务主题n主题划分主题数据区主题数据区主题划分基础库维度模型事实表.业务库空间库多媒体库外部共享库实体对象1实体对象2实体对象3结构化数据非结构化数据业务系统数据业务系统数据业务系统数据业务系
8、统数据建模型 分析业务实体、数据建模 实景三维平台建设中的地理实体数据模型地理实体数据模型:汇数据 基于工作流实现数据汇聚过程 以数据多源化、异构化为基本出发点,结合全类数据汇聚不同时效需求,时空数据中台具备了多类型数据源支撑能力多类型数据源支撑能力,提供多样化数据汇聚多样化数据汇聚方式与手段方式与手段以及多数据汇聚策多数据汇聚策略方案略方案供以选择,尽可能满足政企组织全域数据汇聚的“全入湖全入湖”、“快响应快响应”与与“稳运行稳运行”需求。多源支撑多方式手段支撑多策略支撑关系型数据关系型数据空间数据空间数据非结构化数据非结构化数据时序数据时序数据物理入湖物理入湖虚拟入湖虚拟入湖实时汇聚实时汇
9、聚定时汇聚定时汇聚周期汇聚周期汇聚单次汇聚单次汇聚数据抽取数据抽取共享交换等共享交换等SFTP/FTP 关系型数据源关系型数据源 非结构化数据源非结构化数据源 时序数据源时序数据源MySQLOracleAPI数据源Oracle SDEPostGISPostgreSQLPostgreSQL SDE涛思数据库HDFS对象存储S3SQL ServerTAOSTAOS 空间数据源空间数据源+ArcGIS SDEGDBMDB 大数据大数据 消息队列消息队列KafkaHiveClickHouseDeltaLake汇数据 数据汇聚/处理算子 在数据汇聚过程中,时空数据中台囊括结构化数据与非结构化数据汇聚,并
10、皆提供零代码拖拽式零代码拖拽式任务设计,智能化流程式汇聚编排,实现复杂业务数据“随配置随汇聚”,数据流转过程可见、可调、可运行。通 用 数 据 处 理通 用 数 据 处 理 字符串替换 空值转换 剔除字符.空 间 数 据 处 理空 间 数 据 处 理 字段赋值 定义空间参考.自 定 义 数 据 处 理自 定 义 数 据 处 理 py 字符串长度截取 去除首位空格 增加常值 增加时间戳 表关联 增加字符 批量投影转换 投影转换 数据筛选 获取中心点 sql java scala做治理 数据加工、数据开发、质量控制 数据治理是对于已汇聚到贴源区的数据,进行数据清洗处理、数据分析挖掘以及数数据清洗处
11、理、数据分析挖掘以及数据质量检查据质量检查等过程,最终形成成果区数据以及主题区数据。做治理 数据加工、数据开发、质量控制选择待质检数据配置对应质检规则设定质检周期数据质检执行输出质检报告反馈质检结果数据质量统计委办局质量看板 提供预设的数据质检逻辑规则,对于属性数据,从数据的完整性、一致性、唯一性、完整性、一致性、唯一性、有效性有效性等方面进行数据质量约束;对于空间数据,从数据的拓扑关系、图属一致性拓扑关系、图属一致性等方面进行质量检查。成资产 多维度的数据查询浏览 对治理后的数据成果,进行资产化管理,实现数据的目录查询、资产地图查看、详情目录查询、资产地图查看、详情浏览、血缘关系追溯、数据图
12、谱查看、资产统计浏览、血缘关系追溯、数据图谱查看、资产统计等。数据资产目录数据资产目录数据资产数据资产地图地图数据血缘数据血缘追溯追溯数据资产数据资产统计统计享服务 多维度的数据查询浏览 对治理后的数据成果,进行资产化管理,实现数据的目录查询、资产地图查看、详情目录查询、资产地图查看、详情浏览、血缘关系追溯、数据图谱查看、资产统计浏览、血缘关系追溯、数据图谱查看、资产统计等。空间数据服务空间数据服务业务数据服务业务数据服务向导式、脚本式向导式、脚本式多服务多服务创建方式,提供业务数据对外共享与交换。地图服务、要素服务、切片服务、影 像 服 务、O G C 服 务 等10+10+多多类型空间服务
13、全面支持。统一下发统一下发按需申请按需申请数据管理员对业务人员进行统一数据下发,业务人员随时取用。业务人员根据实际场景进行数据分发申请,审批后进行数据取用。服务类型分发机制享服务 数据资源门户 资源门户端可从资源治理端获得可持续化、自动获取可持续化、自动获取的数据感知能力和指标更新指标更新计算能力。能够快速获取数据构建数据全景、可视化指标图表、指标仪表盘、数据图谱;具备数数据全景、可视化指标图表、指标仪表盘、数据图谱;具备数据资产统计、数据血缘分析及时空资产可视化据资产统计、数据血缘分析及时空资产可视化能力。数据资产数据资产全景全景一张图一张图浏览浏览数据流转数据流转图谱图谱对象关系对象关系图
14、谱图谱知识图谱与大模型应用探索03从数据到知识 从感知到认知的跨越式发展,须引入认知智能认知智能技术,而认知智能要靠知识图谱知识图谱去落地。知识图谱是人工智能的一大底层技术,是描绘实体之间关系的语义网络描绘实体之间关系的语义网络,自带语义、逻辑含义和规则,通过三元组三元组即“实体关系属性实体关系属性”集合的形式来描述事物之间的关系。知识图谱将非线性世界中的知识信息结构化、可视化知识信息结构化、可视化,辅助进行推理、预判、归类推理、预判、归类。智慧水利总体框架自然资源管理信息化总体架构捷泰云际时空知识图谱平台 时空知识图谱平台为行业综合决策提供支持。时空知识图谱需要结合业务场景和领域知结合业务场
15、景和领域知识识,对知识的概念、实体和关系进行语义化和时空化拓展语义化和时空化拓展。时空知识图谱平台包括行业知识库、时空知识图谱库和知识引擎行业知识库、时空知识图谱库和知识引擎三大部分。时空知识图谱平台的水利实践 针对大汶河、沂沭河流域共构建五类知识库五类知识库,通过调研、专家咨询等方式收集整理包括预报方案、专家经验、历史场景模式、业务规则、预案知识等预报方案、专家经验、历史场景模式、业务规则、预案知识等几个领域相关资料,构建水利知识库水利知识库,基于五类业务资料和水利基础数据提取水利知识要素构建知识图谱库知识图谱库。预案内容包括流域防洪预案、流域/河道洪水调度预案、应急抢险预案,工程的调度预案
16、,相关区域的洪水管理预案/防御预案等。法律法规、规章制度、技术标准、管理办法、图纸及其他重要文档资料进行建设,实现文档的在线化、数字化、结构化管理。针对专家经验决策的历史过程进行梳理,对降雨预报、洪水处置、安全事件处置的经验要素进行深入挖掘。包括流域典型年历史场次洪水的暴雨特性、洪水过程、预报过程、调度过程,以及历史洪水场景发生的防洪调度、应急处置等关键过程的相关知识。利用洪水计算模型构建洪水模拟方案库,包括降雨预报、工程调度、水情条件以及洪水过程模拟完整的预报方案。利用可视化图谱展示流域防洪联合调度中核心实体对象结构、从预报调度到洪水模拟过程中关联的知识结构以及整体知识架构达到多学科融合。水
17、利知识库知识图谱库预报方案库历史洪水场景库专家经验库业务规则库预案知识库知识图谱库知识库的构建知识来源:知识来源:气象、水文部门掌握的历史长时间序列降雨、洪水过程、下垫面条件等数据;水利局防汛会商结果以及执行效果评估数据;重点防洪工程的调度执行方案、调令记录等信息。知识处理:知识处理:通过对数据表格或文本记录的历史场景数据进行时空属性和特征指标的抽取、融合、挖掘,并进行结构化存储,建立“降雨过程-工程调度-河道水情”映射关系,支撑历史场景的复盘,为相似场景条件下决策提供辅助知识。知识库的构建实体:实体:大汶河汶口铁路桥汶口南门外石桥汶口镇北曹家庄东平县障城杨郭口头刘所宁阳县黄道口标识属性:属性
18、:民国7年1918年10300m3/s250万亩70多处45天1.5米100多户17间关系:关系:位于影响非结构化数据标注:非结构化数据标注:从文档资料中标识实体、属性、关系要素,对关系的含义进行语义解析,从而构建结构化的语义知识库。构建知识库的构建知识来源:知识来源:国家、水利部、流域委、省市县级水利单位发布的行业相关政策法规、技术文件、标准规范等文件。知识处理:知识处理:对业务规则进行抽取、表示和管理,支撑新业务场景规则适配,规范和约束水利业务管理行为。收集并归档2311份国家标准、水利行业标准、法律法规、地方政策等规范文件。智能搜索与问答智能问答输入智能问答输入文本或语音输入自然语言表达
19、的问题;从热门问题或关心问题列表中选择。智能问答输出智能问答输出知识图谱作为问答知识库,问题的答案来自知识图谱的实体集合,或基于知识图谱推理出来的内容。答案形成自然语言表达输出。在问题和答案中识别出的实体,链接到相应实体图谱探索页面查询该。解决的问题解决的问题/应用场景应用场景利用NLP技术,识别问题实体,理解问题意图,从用户复杂、歧义的问询中获取用户真实、可用意图,为用户提供自然语言表达的答案,支持语音输入输出,降低使用门槛,提升用户体验。引入大语言模型进行知识库构建知识库构建的瓶颈点知识库构建的瓶颈点:语料数据标注效率低、主观性强;知识抽取质量难以保证;语义理解和自然语言处理难度大;本体构
20、建难度大。大模型的大模型的定义:定义:大模型(Large Model)是指具有十亿以上参数的深度神经网络模型,这种模型经过专门的训练过程,能够对大规模数据进行复杂任务的处理。大模型的大模型的特点:特点:可生成性:模型能生成各种风格的文本,也能生成多模态的内容,如音频视频和图片;学习能力:基于大量语料训练能对新输入产生合理的响应,也能从多模态数据中进行学习;常识能力:基于海量通用数据中的知识中训练得到具有常识能力;语义理解能力:根据文本多模态的内容理解其含义和关系。利用大语言模型增强知识抽取 利用大语言模型进行实体抽取、关系抽取、事件抽取、因果关系抽取实体抽取、关系抽取、事件抽取、因果关系抽取等
21、。用大模型从:大汶河位于黄河下游右岸,山东省中部的泰山南麓,起源于济南市钢城区汶源街道办事处台子村处。流域北以泰山山脉和小清河流域为界,南以蒙山及其余脉和淮河流域为界,东起鲁山,西至东平湖,西南部与运东平原相接。横穿泰安市中部,流经济南市钢城区、莱芜区,泰安市泰山区、岱岳区、肥城市、宁阳县、东平县、济宁市汶上县等市县,于东平县马口村注入东平湖,再由东平湖清河门、陈山口出湖闸泄入黄河。流域东西平均长146km,南北平均宽58km,全长231km,流域面积8944km2,戴村坝以上段干流长178.6km,流域面积7004km2。这段话中提取出三元组。利用知识图谱增强大模型预训练 利用大语言模型进行
22、实体抽取、关系抽取、事件抽取、因果关系抽取实体抽取、关系抽取、事件抽取、因果关系抽取等。在大模型训练阶段在大模型训练阶段使用图结构将知识图谱信息注入到大模型的输入中,作为训练语料增强大模型预训练能力。知识图谱语料规则,关系规则,关系llm预训练预训练在模型推理阶段在模型推理阶段根根据实体和意图从知识图谱中查询背景知识放入上下文优化模型的回答。知识图谱意图实体输出提示组装问题基于知识图谱与大模型融合的智能问答总结捷泰云际的产品及解决方案能力 立足于自然资源、数字政府、水利等自然资源、数字政府、水利等领域,实现全域数据(全域数据(GISGIS数据、业务数据、数据、业务数据、IoTIoT数据、多媒体
23、文档等)的汇聚接入、数据治理、资产化管理、数据服务与知识转化数据、多媒体文档等)的汇聚接入、数据治理、资产化管理、数据服务与知识转化,解决政企部门数字化转型过程中全生命周期数据治理、领域信息模型、知识库以及知全生命周期数据治理、领域信息模型、知识库以及知识图谱平台构建等识图谱平台构建等问题。数据数据接入接入 接入海量、动态、多源、多尺度、多类型数据资源,为数据中台能够持续发挥智能化效益奠定基础。数据数据治理治理 将来源不一、语义各异的数据进行清洗、质量控制、有序组织和联接,实现数据的资产化和统一管理。知识知识生产生产 以治理后的数据资产为依托,结合人工智能和人机交互技术,自动或半自动化地抽取陈述性和过程性知识,分类建立知识库。知识知识组织组织 以领域知识图谱为核心,进行知识建模、知识融合,并进行时空化拓展,形成具有统一组织形态的有序知识体系。知识知识应用应用 基于行业用户对知识管理和应用的典型场景需求,输出知识服务能力,包括知识图谱、知识搜索、智能问答、预案推荐等。感谢倾听!感谢倾听!