《中国非结构化数据中台实践白皮书(55页).pdf》由会员分享,可在线阅读,更多相关《中国非结构化数据中台实践白皮书(55页).pdf(55页珍藏版)》请在三个皮匠报告上搜索。
1、中国非结构化数据中台 实践白皮书 爱分析 爱数 Aug. 2020 开启数据智能时代 01 目录 非结构化数据中台建设与挑战 02 基于非结构化数据中台的应用场景 03 Content 展望行业趋势 04 01 开启数据智能时代 中国非结构化数据中台 实践白皮书 全球经济增速下滑,叠加疫情影响,企业面临的外部环境严峻。同时,用户需求 多元化,企业战略重心由以产品为中心转变为以用户为中心。多方因素使得企业 面临商业模式的重塑,企业经营由过去粗放式的流量扩张向精细化运营转变,需 要借助数字化实现加速转型,实现降本增效,提升企业竞争力。 需求驱动 数字化转型的核心是数据。近年,互联网&移动互联网的发
2、展产生大量数据。同 时,云计算、人工智能、5G、物联网技术的发展,推动企业数据治理能力提升, 使得数据驱动业务增长成为可能。 技术驱动 数字化转型加速 技术驱动 需求驱动 数字化转型加速 Page4 传统业务中,数据是副产物,业务人员通过基于行业经验和原有流程去做业 务,数据主要是用于监测业务进展和洞察一些规律,由业务人员做最终决策。 数据智能时代,核心是数据,基于中台,企业具备面向全量数据、面向数 据全生命周期管理、治理和价值挖掘能力,进而驱动业务决策。 对比项流程驱动数据驱动 数据的价值业务系统的副产物业务系统的核心 决策方式人工人机配合 迭代速度极慢快 商业价值低高 在数字化转型的过程中
3、,数据成为新的生产资料,挖掘数据的价值,提高企业管理和决策水平已成共识,整个行业进入数据智能时代。 数字化转型加速开启数据智能时代 Page5 传统业务数据智能时代 业务系统数据仓库BI & 可视化 业务人员 流程 经验 监测 洞察 业务系统数据中台业务中台 驱动 业务人员辅助 从业务应用的角度,数据智能的发展经历了收集、监测、洞察、决策等四个发展阶段,数据的应用价值不断提升, 逐步从业务数据化转向业务智能化。未来,数据智能将会进入人机协同的业务重塑阶段。 数据智能时代发展历程 Page6 决策 2019 洞察 2017 监测 20152021 重塑收集 2013 企业开始认知到数据的 价值,
4、金融、电信等行 业开始建设大数据平台, 并采购大量外部数据。 进入监测阶段,通过数 据大屏对业务的监测是 大数据最先成熟的应用 方向。 大数据开始与业务场景结 合,进入业务洞察阶段。 机器直接给决策建议, 具备推理能力。 多执行环节可以由机器 实现,人机协同会迎来 迅猛发展。 业务数据化业务智能化 应用场景 金融医疗 零售 政务工业 品牌营销房产交通 教育安全农业 传统IT/云 底层技术框架及组件(Hadoop、TensorFlow等) 中台 技术中台数据中台 业务中台 数据智能分为中台和应用场景两个核心领域。 中台是数据智能的核心,主要分为技术中台、数据 中台和业务中台: 技术中台主要由各类
5、分析工具组成,帮助企业解决 技术问题的公司,如用户行为分析、数据科学平台、 BI与可视化、日志分析、NLP/知识图谱等; 数据中台主要是帮助企业做数据资产化,建立数据 中台的公司包含各类数据服务公司和数据治理公司; 业务中台是基于技术和数据,结合行业应用场景, 形成的模型、产品。 其中,数据中台是中台体系最重要的部分。 中台是数据智能的核心 Page7 数据中台汇聚企业的业务数据,包括企业经营数据、 客户行为数据、设备运转数据、生态合作数据等, 并赋能给各类不同的数据应用场景。 数据中台的价值是挖掘数据价值并服务业务场景 数据中台通过自动化、智能化的数据采集与汇聚, 将实时与离线数据打通关联,
6、对数据开发深度挖掘 数据价值,并开放数据服务至各业务场景中。具备 汇聚整合、数据提纯加工、数据服务可视化、数据 价值变现等核心能力。 企业经营数据 大数据平台 数据体系 数据服务能力 客户行为数据 设备运转数据 生态合作数据 战略定位组织保障一站式工具 业务积累数据 智能BI 个性化推荐 设备智能监测 企业画像 数据应用场景 数据中台 数据中台定义 Page8 数据驱动决策的前提是数据整合 数据智能的标志是数据驱动决策,让机器具备推理等认知能力,大 数据能够指导决策。同时完成了业务数据化进程,开始进入到业务 智能化,依靠数据改变业务 决策需要机器具备推理能力,建立复杂关系网络,从训练模型的角
7、度,这意味着必须要有更大规模的数据。同时,决策意味着解决的 业务问题复杂性远远大于之前,因此,需要汇聚更多种类的数据。 信息化时代数据散落在各个系统中,数据存在脏乱差、ID不统一等 问题,数据孤岛现象严重。基础设施的云化使得基础IT资源实现了 统一管理和调度,数据的统一管理和调度就提上日程,成为下一个 需要解决的问题。 在企业数字化转型进程中,传统企业需要具备互联网公司快速迭代 升级的能力,基于数据驱动业务发展,这需要建立一站式技术能力、 统一的数据管理、快速配置开发业务的能力。 以阿里巴巴为代表的中台模式给传统企业提供了一条道路,各类中 台会在企业内部逐步形成。因此,形成数据中台是大势所趋。
8、 数据驱动业务需要数据中台 数据中台兴起 Page9 数据中台需要与业务结合, 才能真正地让数据用起来 业务产生数据,数据中台帮助企业聚合内外部数据,将原始数据转化为 数据资产,快速构建高效的数据服务,使企业可以持续、充分地利用数 据,以数据洞察来驱动业务决策和运营,最终提升企业决策水平和业务 表现,赋能企业解决业务问题。业务产生数据,数据形成数据资产,数 据资产提供数据服务,进而赋能业务,形成闭环。 数据 中台 业务 数据 数据 资产 服务 数据中台需与业务相结合 Page 10 传统的非结构化数据管理, 内容对象、元数据与索引 是分离存储和独立管理, 难以同时灵活横向扩展, 进一步加剧海量
9、非结构化 数据的管理复杂性。 非结构化数据 海量非结构化数据数据架构演进数据架构创新内容安全合规以用户体验为中心 从数据库到数据仓库、大 数据平台,再到如今的数 据中台阶段,数据资产化 将赋能业务发展与创新, 非结构化数据需要革命性 的内容管理平台。 业务数据孤岛、知识数据 孤岛、桌面数据孤岛三大 数据孤岛使得文档数据分 散储存,无法统一管理, 难以快速准确地搜索,业 务系统重建数据难以整合。 内容泄密风险也始终高居 不下。同时,内容审查对 许多企业组织来说,也是 很大的挑战。 全球化运营企业,面临多 样的本地化文化、法规环 境、经销模式,企业内容 管理、业务内容流程、内 容规范需要满足兼容并
10、蓄 的全球化运营要求,满足 不同的安全管控边界与合 规要求。 在快速增长的数据中,非结构化信息占比已达80%。据Gartner估计,从2019年到2024年,非结构化数据容量预计将增加两倍。 但企业现有架构通常无法应对海量非结构化数据的管理与应用。 非结构化数据管理需求 Page 11 非结构化数据管理需要革新的底层架构 数据整合形成数据中台,意味着大量数据治理,国内企业 信息化、数据化程度不高,存在着大量文本、图像等非结 构化数据。 非结构化数据管理需要将底层数据打通,从源头保障数据 资产的复用能力,实现数字资产统一运营、全面合规、高 效利用。 仅仅依靠数据分析技术难以解决问题,必须将计算机
11、视觉、 NLP、知识图谱等技术融入其中,借助深度学习等人工智 能技术实现数据治理,进而实现知识复用与智能搜索。 因此,非结构化数据管理需要革新的底层数据架构,非结 构化数据中台能够满足需求。 非结构化数据管理之所以难,不仅因为其数量多、分散性高,还 在于用户对于非结构化数据的需求是多层次的。在数据、内容、 信息和知识层面分别有不同的需求。 知识(归纳) 内容(查看) 数据(存储) 信息(识别) 数据生命周期管理 高性能 备份恢复 业务系统 内容整合 内容安全流转 高效搜索 OCR、RPA 敏感、非法内容过滤 内容识别并转换 知识提取知识推荐 非结构化数据中台应运而生 Page 12 非结构化数
12、据中台 智能搜索流程自动化立体安全 智能知识运营内容总线内容数据湖 内容自动化内容安全洞察多模态知识图谱 人工智能驱动数据架构底座 对象数据池元数据池索引数据池 智慧企业 房地产制造 科技设计 金融科技 银行证券 保险基金 智慧城市 政务公检法 交通国土 智慧企业 高校普教 职教普教 非结构化数据中台对对象数据、 元数据、索引数据进行汇集、 管理,融合人工智能技术,提 供先进的数据架构底座,进而 通过非结构化数据赋能各行各 业应用。 非结构化数据中台基于内容总 线、内容数据湖等数据架构, 能够实现智能搜索、内容窃案 洞察、内容自动化等功能,应 用于企业的多业务场景,包括 企业内容立体安全、业务
13、流程 自动化、数据资产管理、智能 知识运营等。 非结构化数据中台架构 Page 13 02 非结构化数据中台建设与挑战 中国非结构化数据中台 实践白皮书 01 法律法规遵从 行业监管合规 组织合规内控体系建设 保障:企业业务合规性 02 从业务执行中抽取具有商业智能价值的信 息,实现非结构化数据商业智能功能 打造企业内部业务敏捷流程 实现:企业业务赋能 03 构建知识管理体系 转型学习型组织,构建上海品茶 提升:企业创造力 数字资产管理 实现数字资产的全生命周期管理 非结构化数据中台:企业决策者诉求 Page 15 数据收集和使用合规体系及监管体系不完善, 数据安全面临挑战。 非结构化数据分散
14、于多渠道、数据种类多样、 数据量大、长期保存难、使用率低。 业务涉及数据繁杂,整理困难,耗时耗力, 缺乏自动化能力,效率低,成本高。 业务与内容管理脱节,企业管理缺乏知识来 源与知识管理运营。 智能知识运营业务流程自动化 数据合规体系数据资产管理 非结构化数据中台:业务部门面临挑战 Page 16 非结构化数据中台的价值主要体现在两方面:业务价值与技术价值。业务价值主要体现在赋能企业业务与商业模式创新,技术价值在于 低成本实现数据治理及复用。 业务价值 技术价值 非结构化 数据中台 业务自动化 业务智能化 数据资产管理 创新数据架构 平台开放 基于内容自动化实现业务流程自动化 基于数据洞察及业
15、务自动化实现业务创新 具有强延伸性和迭代性,不需要推翻原架构 具有丰富的接口和生态整合能力 数据汇集及处理、跨域访问、快速复用 非结构化数据中台的价值 Page 17 战略 组织 架构 数据 认知 技术 体系 数据 体系 服务 体系 运营 体系 非结构化数据中台的建设要从战略、保障支撑、 内容、步骤等方面考虑 战略:非结构化数据中台需要定位于企业级战略。 保障支撑:结构化数据中台需要企业组织架构保障和企业 数据认知的支撑。 内容:非结构化数据中台的建设主要包括技术体系、数据 体系、服务体系和运营体系等内容。 步骤:包括需求调研、蓝图设计、平台开发与服务运营。 需求 调研 蓝图 设计 平台 开发
16、 服务 运营 非结构化数据中台建设方法论 Page 18 企业认知挑战 将非结构化数据中台 定位于企业战略进行推进 非结构化数据中台需要 企业数据认知支撑 企业对数字化的需求明确,但是对实现数字化的战略路径不清晰 90%企业对非结构化数据中台不了解,大多企业没有区分结构化数据 中台和非结构化数据中台 非结构化数据中台技术新,且处于起步阶段,落地时容易遇到阻力且 效果不及预期 公司的业务流程与员工的数据思维不适用于非结构化数据中台 为非结构化数据中台提供 组织架构保障 解决方案 非结构化数据中台建设面临的挑战 Page 19 战略路径 组织流程 数据认知 建设过程挑战 建立为不同行业和 客户服务
17、的行业纵深 TPA交付方法论 端对端的服务体系,构建懂行的交付体系 业务需求不易理解,对业务场景的挖掘和理解难, 和业务部门的沟通难 技术挑战多,包括算法优化以及将技术更好地深入应用于业务场景中 企业对数字化的需求明确,但是对实现数字化的战略路径不清晰 持续技术深化, 帮助客户实现更多的业务赋能 解决方案 非结构化数据中台建设面临的挑战 Page 20 需求调研&蓝图设计 平台开发 服务运营 T(Think)-P(Plan)-A(Action),是从客户的数字化战略以及业务模式出发,为客户提供专业的端到端的咨询、开发和交付的服务 方案,并通过大数据基础设施进行有效落地,帮助客户实现数字化战略,
18、带来实质性的投资回报。 TPA交付方法论 Page 21 项目 准备 蓝图 设计 标准 交付 上线 支持 系统 交付 咨询 交付 集成 开发 项目交付路线数字资产管理咨询应用系统集成 业务连续性框架 文档 管理体系 业务系统和流程 整合 身份和组织架构 整合 知识输出 快速 交付 项目实践 系统工具 产品实践 行业实践 效益管理 PMI 最佳 实践 总结提炼 实践应用 项目管理 交付过程公共知识 文档库规划 文档目录结构文档流程制度 文档共享协作 内容管理平台 项目准备 系统交付 上线支持 第三方知识管理应用 SAP组织架构同步 应 用 集 成 开 发 服 务 公有云总站点集团总部站点集团财务
19、站点 苏沪站点华南站点华中站点西部站点 厦门站点杭州站点山东站点华北站点 文档体系与规范梳理,数字资产有序管理 总部与分支机构的有序文档共享协作 集成知识应用,企业知识管理的底座 TPA交付案例:助力世茂集团数字资产管理 Page 22 世茂集团文档管理体系咨询 03 基于非结构化数据中台的应用场景 中国非结构化数据中台 实践白皮书 数字化时代的生产力平台 业务合规性管理数据资产管理业务流程自动化智能知识运营 四大数据服务平台 灾备数据服务平台非结构化数据平台日志数据服务平台知识图谱数据平台 根据客户需求,基于非结构化数据中台的应用场景有:数字资产管理、业务流程自动化、智能知识运营、业务合规性
20、管理等。 非结构化数据中台应用场景 Page 24 无处不在 纸质文档业务系统 个人设备组织外部 安全合规 法律或行业规范 60年10年30年 3部 12部 7部 非结构化数据具有数量多,且以海量小文档组成,传统的数据 备份方式在备份海量非结构化数据时,会遇到非常明显的性能 挑战,使得备份无法有效实施。 挑战1:非结构化数据备份性能挑战 企业安全合规是多维度的,目前企业在内容上传下载过程中没 有统一的方式进行访问边界控制以及非法或敏感内容识别措施, 无法从多个层次上进行全面管控。 挑战2:内容全方位管控难 非结构化数据面临组织合规内控体系、行业监管合规与法律合规 问题。 但非结构化数据存储分散
21、,数据安全把控难,内容合规审核难, 数据与内容安全面临挑战。 非结构化数据存储分散,企业在数据上传过程中没有进行安全 管控,造成数据追溯难。 挑战3:数据追溯难 非结构化数据的安全合规需求 Page 25 传统的安全方案是企业云盘+DLP,仅解决了文档层面的安全问题,但没有解决在非结构化数据的多层次方面的问题。 传统的安全管控方案 Page 26 DLP 企业云盘 非结构化数据 边界管控 终端桌面终端桌面终端桌面终端桌面 立体安全体系才能够满足业务合规性 Page 27 企业需要搭建包括数据安全、 内容安全、信息安全、知识 安全等在内的立体安全体系。 非结构化数据中台将数据汇 集,同时本身有强
22、大的生态 整合能力,可以整合第三方 等应用或程序帮助客户做好 数据安全合规。 个人信息保护法,2020 数据安全法,2020 上市公司信息披露管理办法,证监会 通用数据保护条例,欧盟,2018(GDPR) 个人隐私数据 企业敏感信息 非法内容管控 知识安全 信息安全 电子公文归档管理暂行办法,2003 商业银行资本管理办法,2013 金融企业业务档案管理规定,2015 药品生产质量管理规范,2010(GMP) 内容边界安全 内容访问审计 文档的生命周期管理 内容安全 数据生命周期管理 数据备份恢复 网络安全法,2017 信息安全等级保护管理办法,2007 涉及国家秘密的信息系统分级保护管理办法
23、,2005 数据安全 数据可进行在线或离线备份: 电子文件归档一式3套。一套位于现有 存储,一套位于内容平台中提供利用, 另一套位于异地灾备中心保管。 小文件备份,比业界方案高出 50倍以 上的备份性能。 AnyShare内容平台 本地备份设备 近线归档 近线归档 近线归档 实 时 复 制 数据备份 离线归档设备 离线归档 业务系统 非结构化数据 音视频等 非结构化数据 办公系统 非结构化数据 非结构化数据中的知识安全与合规 Page 28 数据中心异地灾备中心 离线归档 温数据近线归档到内容平台,随时可查 询、可回调。 冷数据离线备份到AnyBackup 一体机。 OpenDoc API C
24、lient/APP/Web Management API 内容生产 WindowsMaciOSAndroid 终端 OAERPIMPLM 业务系统 华途安全管控服务水印实时杀毒PDF内容管理 第三方内容服务 智能加解密服务智能内容分析服务 内容消费 内容安全洞察 文档外发(DLP加密) 文档脱敏 文档水印 内容访问审计 用户行为分析 权限管控 智能内容分析 文档集服务 安全管控 实时杀毒服务 加密管控 非结构化数据中的知识安全与合规 Page 29 文档安全管控 SharedLink 文档内容管控 SharedLink 行为管控 SharedLink 内容分析及检索服务 内容生产内容治理 上传
25、 上传 上传 内容分析 对比敏感词库 内容识别 基于权重评分 审核流程 隔离控制 删除/还原 事件触发 事件触发 事件触发 不需人工参 与识别 更精准的识 别能力 在保证文档安全前提 下,实现在海量文档 中高效管控非法内容 可根据实际需求自定 义敏感词库,满足各 行各业客户对于内容 合规性的管理 非结构化数据中的知识安全与合规 Page 30 知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不 同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。 个人隐私数据洞察项
26、目中采用知识图 谱技术的目的: 一段文字中出现人的部分信息,需 要推理出隐含属性。例如“姚沁蕾是 姚明和叶莉的女儿”,不光有人物之 间关系,还有性别等隐含信息。 主要是用来围绕人将所有相关信息 进行组织、呈现其各种实体及之间关 系。并用于后续GDPR等法律场景下信 息的查找和提取。 半结构化数据源 图片、扫描件、 Word、PPT、CAD 等等 隐私数据洞察服务 个人隐私信息查询& 展示&处理 图数据库 实体抽取 关系抽取 属性抽取 隐私对齐 隐私消歧 隐私推理 质量评估 隐私更新 个人隐私 信息融合 个人隐私 信息获取 AnyShare Express/Enterprise/Cloud 文件
27、解析器 数据API查询&展示API API接口 个人信息匿名、遗忘等处理 数据库 API接口 隐私推理 非结构化数据中的知识安全与合规 Page 31 无处不在 纸质文档业务系统 个人设备组织外部 存放不下 全球数据 175ZB 被存储的2% 资产种类多样 文化 资产 品牌 资产 业务资产 安全合规要 求高 数据量大且 分散 分支机构多 协作难 海量小文件 归档速度慢 数据资产利 用率低 智能化处理水 平有限 人工处理成 本高 备份容灾 客户资料 电子合同 交易流水 总部分部 跨地域发展 长期归档 用户隐私 协同办公 海量单据 大量图片及扫描件 只存没用 缺乏规划与治理 资产未盘活 流程繁复
28、基础设施老旧 AI 方面人才缺乏 能效比低下 管理成本高 不可控因素多 银行业在非结构化数字资产管理方面的挑战 数据资产管理挑战 Page 32 长期保存难 法律或行业规范 60年10年30年 3部 15部 8部 使用率低 员工 供应商 客户 可集成任意业务系统的内容 数据 可支持金融、教育、企业、 政府等各行业的应用 整合业务应用 通过内容服务和业务流程的 紧密集成来配置和定义以内 容为中心的应用 内容应用开发 支持任意格式的文档管理 支持多版本、权限管控等 文档安全与合规性管理 支持标签、摘要、编目等 文档属性管理(元数据) 文档管理 支持跨地域、跨团队的文 档协作 支持在线办公、远程办公
29、、 移动办公的各种协作场景 团队协作 支持全局的内容全文检索 利用内容分析技术,生成 内容摘要、标签 利用内容分析技术,自动 管控非法内容 数据洞察 一个平台 一套内容 总线架构 一个内容 数据湖 一套文档 管理体系 一套安全 合规框架 TPA 交付方法论框架 基于人工智能技术识别内容, 分类分级管理 此架构可降低内容集成复杂度 和普及内容服务场景 此平台覆盖应用、桌面、 移动端的非结构化数据 内容数据湖汇聚海量非结构 化数据的内容 由文档域、文档库、文档 集组成的文档管理体系 智能内容云 内容数据的生产力平台 Page 33 传统文档 管理体系 传统文档管理体系相对杂乱,建设文件 仓库但仍然
30、随意存放 知识数据脱离业务流程,陈旧过时 存储资源重复建设,可扩展性差 挑战1:分散存储,无法统一管理 传统业务系统难以提供内容搜索能力 不支持图片、特定格式的内容搜索 搜索的文档版本过时 不支持元数据、标签等高级搜索能力 挑战2:内容搜索效率低 非结构化数据的管理模块需要同步重建 非结构化数据迁移成本高 难以再对接,进一步加剧数据孤岛 挑战3:业务系统重建数据难以整合 非结构化 数据中台 管理和运营数字资产 数字资产 制度 流程活动 全面梳理数字资产定义、活动、流程,完成管理制度优化 基于非结构化的数据中台将数据打通,从源头保障数字资产复用能力。 基于非结构化的数据中台能够定义数字资产类型,
31、缩短平均查找时间, 提升运营效率,提高关键活动中的文档协作。 重构底层框架,架构可延展,更新成本低。 围绕结果型文档的数字资产管理 产生结果性文档 的业务事件 数字资产的来源 文档生命周期流转要求 数字资产沉淀的过程 对于具体活动中结果性文档的生成、 审批、归档等顺序过程的安排 文档管理制度 由面向局部的具体文档管理规则整合而成, 流程得以执行的保证 目录权限规划、岗位角色职责、文档知悉 范围、文档命名规范、使用终端要求等 非结构化数据中台VS.传统文档管理体系 Page 34 全球部署,服务全球小米人及 3000家海内外供应商 全球协作,安全、可靠、易管 理的“小米企业网盘” “小米人之家”
32、背后的统一内 容管理平台 流程审批 报销系统 薪酬系统 印度文档域 北京文档域 北京总部印度公司海外公司 小米人之家 办公文档 案例:小米集团全球化运营与高效协作 Page 35 Page 36 例:保险业/银行业 客户多年前已经上了IBM CM 系统, 用于影像数据的存储从14年到现在已 经存储了10TB 左右的数据,主要通 过企业NAS存储。近两年数据增长较 快,每年数据增长在5TB左右,企业 数据各式各样,数据增长来源于档案、 信贷、无纸化等业务,目前已经对接 20个业务系统。 数据不规范。合作方均按自己的方式提供的数据,仍然存在不规范的数据,数 据归集标准各式各样,数据分类不一致、业务
33、术语不一致、数据量级分类不一 致,整理困难;需要大量人力处理。进行客户标准与公司标准比对,才可能实 现数据的整合和应用。 无法识别图片。 信息图片数据无法自动搜索。企业有6000万图片的存量,自动搜索难。 痛点 需求 降低出错率、提升生产效率、降低人力成本;操作可监控、短期内产生效益。 需要简单方便的OCR识别平台,可以针对不同类别的数据,配置相对应的模 板识别。 针对多种影像类型数据,实现海量图片的分类及查找。 内容自动化业务诉求 Page 36 收集 收集合作方数据 数据组织方式不一致 数据分类不一致 业务术语不一致 数据量级分类不一致 转换 按特定标准转换处理 全靠人工 全靠经验 全靠理
34、解 比对完再进行核对 整合 整合为标准数据输出 建立标准对应 按照标准汇集所有数据 为后端 BI 提供汇集数据接口 提供数据协作进行数据再处理 非结构化数据中台和业务系统对接,数据可复用,实现持久自动化;可定制标准表单进行规范数据的收集。 集成人工智能技术,可将内容转化为文字或生成标签,利用智能比对和数据校验模块实现流畅的业务流转, 提升业务效率。 标准数据全部整合到智能表格数据平台上,通过API提供标准数据格式;利用数据多人协作进行数据再处理。 同时数据只存在于非结构化数据中台中,不浪费存储空间。 表格数据自动化流程 传统表格 数据处理 非结构化 数据中台 数据转换 智能比对 数据校验 智能
35、表格数据平台 非结构化数据中台VS.传统表格数据处理 Page 37 非关键业务系统 项目管理扫描打印机 终端 关键业务系统 OAERP Windows Mac 内容生产 数据采集内容分析和数据生成 业务系统所需数据 内容总线 API 与业务系统对接 处 理 流 程 全 环 节 覆 盖 搭建非结构化数据中台实现内容自动化,核心技术为源数据提取、SmartSheets与OCR。 内容自动化解决方案 Page 38 表格数据 文档的文本 图片 内容提取 数据转换 OCR 图片摘要 图谱标签 内容数据内容元数据 业务场景模版 内容分析数据 Family 7智能内容云 应付账款 库存 发票号码: 37
36、958424 品名:电脑 数量:33 金额:1222 发票抬头: 上海爱数 发票号码: 37958424 税额:11 金额:1222 核对税号、金额、数量 ERP(采购模块)总账系统AnyShare 归档 采购入库财务入账专票抵扣固定资产入账 税务平台 编 目 管 理 发票号码:37958424纳税人识别号:417XXX3 金额:1222开票日期:2019-1-11税额:11 文 档 管 理 OCR 内容识别 关联 OCR内容识别+ 内容自动化 案例:采购场景实现票据内容自动入账 Page 39 财务数据库 知识运营贯穿企业的经营全局:建立知识复用体系,提升企业的知识传承与复用,实现降本增效。
37、 企业架构 经验知识源头 产品/研发管理系统 研发设计项目风险问 题信息文档 设计文档 调试方案文档 标准文件 人力资源管理系统 组织信息、岗位信息 人员信息 招聘简历 HR规章制度文档 培训资料 客户关系管理系统 市场分析文档 项目合同、投标文档 客户和监管机构文档 规范和标准文档 保用服务文档 项目协同系统 项目沟通信息文档 项目变更信息文档 项目风险和问题信息 文档 产品/研发知识库 历史项目经验知识 产品结构知识 市场销售知识 设计结构知识 企业资源 管理系统SAP 项目、设备信息文档 质量规范标准、检测 报告文档 HSE规范标准、检测 报告文档 服务知识库 最佳实践经验 常见FAQ
38、标准服务文档 服务记录经验 客户/项目知识库 客户方案 项目经验知识 项目合同 客户订单 培训/学习系统 培训教材 培训参考资料 企业知识运营的需求 Page 40 知识复用场景 在底层将数据重构,易拓展。 利用人工智能&知识图谱实现内容洞察以及知识服务,通过 探索式分析对知识进行融合推荐,并不断训练反馈,让知识 逐步得到认可并广泛推广,将知识管理和运营建立起来。 能够实现精准的知识搜索。 传统的知识管理 1. 重心放在社区、激励等应用层面,单纯依靠运营驱动,没有资料, 不活跃,没有人气; 2. 不重视知识库文档管理/内容管理的建设,导致缺乏来源,知识 库难以维护! 基于非结构化数据中台的内容
39、管理 痛点 面对海量数据增长,传统知识管理的底层架构很难解决知识库的 文档/内容海量存储和扩展的挑战。 知识不完整,只涉及办公/培训文档,不涉及业务流程中的各环节; 数据割裂,且没有探索性的知识分析的能力,从而无法做到知识 的更新或持续反馈,进而无法实现真正的知识沉淀; 业务更新与知识更新不同步,知识管理滞后,员工知识维护和更 新的动力不强。 直接借鉴,快速复制:降本增效 吸取经验,开阔思路:启发创新 可 复 用 参考 引用 基于中台的内容管理 VS. 传统知识管理 Page 41 数字化企业的知识战略蓝图 知识创新体系内容管理体系文档管理体系 战略实现 阶段 4 知识战略实现 从业务执行中抽
40、取具有商业 智能价值的信息,实现非结 构化数据商业智能功能,从 而实现对公司发展战略的支 持、指导; 构建知识创新体系与学习型 组织文化 阶段 0 现状、起步 评估、规划 评估非结构化数据 管理现状; 规划目标蓝图; 设计演进路线; 平台搭建 全面电子化 阶段 1 非结构化数据 平台构建 阶段 2 电子文档管理 选择适合的硬件平台和 软件平台; 搭建非结构化数据平台; 构建企业级文档分类体 系、权限体系 历史档案扫描入库 文档管理全面电子化 移交与归档通过制 度规范化,并通过系 统衔接将归档工作自 动化; 档案分类、索引支持 全生命周期管理 阶段 3 全面的内容管理 打通系统壁垒,通过系统 集
41、成完成ECM平台与其他 业务系统ERP、流程的衔 接 将文档从创建、管理、修 改、归档到销毁实现文档 的全生命周期管理 企业知识战略蓝图 Page 42 基于多模态知识图谱的智能知识运营解决方案 知识运营的解决方案 43 精准搜索 知识推荐 多模态知识图谱 智能搜索 内容总线 内容数据湖 知识运营与应用 智能知识搜索 门户扩展:知识门户 培训扩展:知识地图 归档扩展:档案管理 知识图谱应用创新 业务系统知识推荐整合 业务系统 项目管理系统 研发设计协同系统 供应管理系统 客户关系管理系统 人事管理系统 生产制造系统 对象数据池元数据池索引数据池 办公文档知识化业务系统文档知识化 Page 客户
42、3 客户4 客户1 客户2 关系 A 关系 B 关系 C 关系 D 客户图谱 项目1 项目3 项目4 项目2 关系 A 关系 B 关系 C 关系 D 项目图谱 条款1 条款3 条款4 条款2 关系 A 关系 B 关系 C 关系 D 法规条款图谱 结构1 结构3 结构4 结构2 关系 A 关系 B 关系 C 关系 D 产品结构图谱 友商3 友商4 友商1 友商2 关系 A 关系 B 关系 C 关系 D 情报图谱 找客户内部文档知识外部文档知识 找项目内部项目资料外部相关项目 找友商 内部竞争分析 外部情报信息 基于相似度、图距离的知识创新应用 AnyDATA 多模态知识图谱平台 知识图谱知识服务
43、 客户系统/项目管理系统/服务系统 业务结构化数据SharedLink文档元数据 文档知识 构建企业多模态数据知识图谱,打造企业知识大脑 Page 44 目标:通过内容管理体系和知识图谱,创新智能知识运营体系 Page 45 专家 网络 智能 机器人 专家&社区& 培训应用知识 门户 知识 问答 智能 搜索 培训 学习 知识图谱/AI 项目知识 图谱 客户知识 图谱 合同知识 图谱 行业知识 图谱 零部件知识 图谱 产品/服务 知识图谱 以文档和内容体系为知识资产的核心源头; 构建知识图谱为中心的的智能化知识网络; 知识门户、培训应用、智能应用等知识运营社区; 应用层次 知识深度 显性知识知识
44、网络(半隐性)隐性知识/经验/智慧 产品/服务 知识库 研发 知识库 文档/内容管 理体系 服务 知识库 培训 知识库 典型场景: 1. 房产项目土拍项目辅助决 策,知识图谱可以提供数据 支撑和辅助;【房地产项目 的土拍:竞争对手的情况、 宏观的、区域环境/市场,对 决策带来辅助决策的知识价 值】 2. 设计部件标准化知识图谱, 比如管网设计标准; 知识检索搜索 创新:多模态知识图谱 扩展:轻量级知识门户设计项目知识共享 已完成设计项目知识共享内外部经验分享 项目管理系统(OA) 档案系统 生产力平台 非结构化数据中台 业务系统文档知识办公文档知识 行政文档 培训文档 其他文档 设计协同系统
45、图纸出版系统 从项目管理、设计协同、图纸出 版到最后项目归档的内容知识流 转复用; 设计协同过程基于项目管理,项 目完结自然形成项目设计知识资 料,可供新项目参考复用; 档案管理、知识门户、培训学习 可轻量级扩展,也可以与成熟系 统对接,实现一个开放、统一、 可复用的知识运营体系; 扩展知识图谱,服务于特定场景 的精准知识搜索、探索式分析与 推荐场景,包括土地拍卖、设计 部件标准化知识库等。 建立贯通项目和技术运营的知识运营底座 案例:设计企业的项目知识运营 Page 46 04 展望行业趋势 中国非结构化数据中台 实践白皮书 新行业需求 传统行业数字化转型加速伴随着非结构 化数据中台的应用行
46、业边界扩大 非结构化数据来源于企业各个业务场景, 随着企业对数据应用的需求增加,更多的 业务场景需求被激发。 新业务场景需求 人机协同需求 机器无法完全取代人类,但数据智能辅 助并赋能员工、实现人工智能是行业新 的诉求。 中台能力输出 随着企业非结构化数据中台的成熟,企 业也将中台能力输出,赋能产业上下游 企业。 客户对数据服务的需求升级 Page 48 升级效率协同 数据平台 驾驶舱 移动驾驶舱数据大屏 农村国际仓配末端快递 数据产品 CPF物流洞察DSCC CP商家货主 订单域 仓储域会员域 商家驿站网点货品 数据仓库 供应链域 数据 资产 数据 集市 平台产品 数据产品 搭建 数据管理
47、数据统一 服务 指标管理KPI管理数据大图 数据规范 看板天线站点管理大屏 数据加密查询导出编排 商 品 全国24小时必达全球72小时必达 数字化基础设施 仓 分 拨 网 点 驿 站 消 费 者 菜鸟数据中台通过“平台产品“加上“数仓“支撑菜鸟各个业务线的数据化运营工作,具有良好的数据化运营,但仍然需要与生态伙伴合 作提升物流网络效率。 菜鸟将其数据、工具、方法论输出给生态合作伙伴,共同提升整个物流网络的效率,最终实现其使命:全国 24 小时必达,全球 72 小时 必达。 案例:菜鸟数据中台能力输出行业协同 Page 49 针对图像、视频等媒体信息的 人工智能、机器学习技术 在不同行业领域,用
48、可视化技 术描述知识资源及其载体,挖 掘、分析、构建、绘制和显示 知识及它们之间的相互联系。 5G将成为线下数据新基础设 施,5G网络将打破跨场景互 联最关键的技术瓶颈 边缘计算加速企业侧数据处理 的速度。 非结构化数据中台并非企业数据的中转站,是能够实现智能推荐、领域图谱、AI 决策为一体的平台。 因此,新技术与非结构化数据中台的融合是未来赋能企业业务的必然趋势。 技术推动非结构化数据中台演进 Page 50 机器学习知识图谱5G与边缘计算 知识图谱技术,是新一代数据中台最核心的技术,因为通过知识图谱可以实现探索式的分析。任何两个数据节点之间都可以建立关系, 并进行分析、关联、探索,就像人的
49、大脑一样。 知识图谱之于中台,融合了从智慧到知识的过程,包括规则、算法、推理等程序性支持,有了这些支撑,才能丰富数据中台相关的数据 服务能力。同时,知识图谱需要中台来为其提供完美适配的环境。 知识图谱+非结构化数据中台 Page 51 面向智 能时代 的架构 与设计 具有行业 Know- How的数 据中台 端到端 设计与 规划经 验 中台型组织规划 以客户为中心的中台建设路径 全生命周期服务能力 数据安全 具有行 业经验 Know- How 行业知识图谱 行业业务规划与算法模型 基于行业Know-How的实时反馈系统 AI驱动的数据治理 基于知识图谱的统一数据架构 数据逻辑与业务逻辑的统一管理 人机协同的创新 案例:蚂蚁AI能力 行业&场景 金融大脑 银行业 智能营销智能保险 智能客服助理智能信贷智能理财 智能风控 保险业证券、基金、投行 机器人大脑金融信息服务生物识别 金融知识图谱&NLP金融视觉平台 金融算法 (AutoML,图推理,隐私保护共享学习,运筹优化,无监督学习, 在线学习,强化学习,模型可解释)