上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2019年敏捷数据中台建设实践.pdf

编号:97415 PDF 58页 10.42MB 下载积分:VIP专享
下载报告请您先登录!

2019年敏捷数据中台建设实践.pdf

1、敏捷数据中台建设实践分享主题v ADX顶层设计v ADX中间件工具层v ADX平台服务层v ADX数据产品层v ADX应用案例敏捷数据中台:ADX(Agile Data X Platform)ADX顶层设计定位与价值架构维度能力维度用户与场景定位与价值:什么是数据中台根据数据咨询公司Thoughtworks首席咨询师王健给出的9字定义,中台就是:企业级能力复用平台企业级划定了中台的范围,区分开了单系统的服务化与微服务;能力指定了中台的主要承载对象,能力的抽象解释了各种各样中台的存在;复用定义了中台的核心价值,过去的平台化对于易复用性并没有给予足够关注,中台的兴起,使得人们的目光更多的从平台内部

2、,转换到平台对于前台业务的支撑上;平台说明了中台的主要形式,区别于应用系统拼凑的方式,通过对于更细粒度能力的识别与平台化沉淀,实现企业能力的柔性复用,对于前台业务更好的支撑;定位与价值:白话数据中台中台就是公共服务平台,数据中台就是将数据加工以后封装成一个公共的数据产品或服务。家里厨房有油/盐/酱油/醋/料酒/生抽很多种调料(数据),你(业务部门)特别喜欢吃糖醋排骨/糖醋鱼/糖醋里脊/糖醋猪蹄(各种业务应用),你老妈(IT部门)觉得每天都按照比例调制糖醋汁很麻烦很浪费时间还每次都有偏差(每次数据有误差)。于是你老妈决定按照“1料酒;2酱油;3白糖;4醋;5水”的比例(数据算法)调制好一大桶糖醋

3、汁(数据产品),以后每天倒一点糖醋汁就可以很快做出一盘糖醋XX(业务应用)。这个调制糖醋汁的过程就相当于构建了一个数据中台,糖醋汁就是数据产品。数据产品往往不是直接提供给用户使用的,而是提供给业务应用使用的(类似于糖醋汁不是用来直接喝的,而是用来做糖醋XX的)。另外,为了调制更快更准确,可能还需要买一些密封大桶/漏斗/量杯(ETL/BI 等数据工具)。当然,如果你家十天半个月才做一次糖醋XX(低频),那就没有必要调制一大桶糖醋汁放那儿(不需要构建这个数据产品)。类似这个逻辑,如果你家每天都做八宝粥,则可以把八种粮食(数据)混合好放一个大桶里做成八宝粥混料(数据产品)。如果你老妈的糖醋XX做的特

4、别好开了个餐馆,每天做给几百个人吃(需求量变大),就需要调制更多糖醋汁买个冰箱存起来(数据仓库),这也解决了随用随挑(实时取数)的效率瓶颈。所以,在做数据中台之前,先自问一下:q有没有糖醋汁、八宝粥混料的需求?(有没有数据产品的需求?)q有多少人吃?(使用这个数据产品的需求量大不大?)q多久吃一次?(需要这个数据产品的频率高不高?)如果以上都合理,就可以开始规划数据中台了。数据中台的核心理念在于“数据取之于业务,用之于业务”,即它相比于数据平台注重的是对业务的积累和沉淀,构建了从数据生产到消费,消费后产生的数据再回流到生产流程的闭环过程。业务积累和沉淀的过程体现在数据中台对外提供的数据服务,数

5、据中台作为整个企业组织所有业务的数据消费需求的提供方,通过业务对数据服务的不断滋养,会形成一系列稳健的数据服务,这样当出现新的市场机会需要构建新的前台应用时,数据中台可以无差别的进行数据服务供给,从而保证了企业组织的创新火种。定位与价值:敏捷数据中台的定义数据平台引擎(技术维度)数据产品服务(业务维度)数据资产体系(数据维度)数据运营机制(管理维度)定位与价值:敏捷数据中台的定位敏捷数据中台定位敏捷数据中台ADX(by 数据中台团队)自助化 实时化 统一化 服务化 管理化 可溯化业务前台数据团队业务前台数据团队业务前台数据团队业务前台数据团队数据安全团队数据运营团队数据管理委员会数据集群(by

6、 集群运维团队)从数据技术和计算能力复用,到数据资产和数据服务复用数据中台会以更大价值带宽,快准精让数据直接赋能业务定位与价值:敏捷数据中台的需求 业务条线众多:众多业务板块,众多业务条线 技术选型众多:适配RMDBS/NoSQL/NewSQL;多种语言;多种存储等 数据需求多样:报表、可视化、服务、推送、迁移、同步、数据应用等 数据需求多变:经常有需要周级产出的数据需求和数据应用 数据管理考虑:数据元信息可查,数据定义和流程标准化,数据管理可控等 数据安全考虑:多级数据安全策略,数据链路可追溯,敏感数据不可泄露等 数据权限考虑:表/列/行级数据权限,组织架构、角色、权限策略自动化 数据成本考

7、虑:集群成本、运维成本、人力成本、时间成本、风险成本等定位与价值:敏捷数据中台的价值快省准q 定制化需求造成重复开发q 内包实施团队需排期q T+1延时满足不了精细化运营平台化,透明封装复用技术组件自助化,简单配置,月=天实时化,驱动业务增长,天=分ADXq 取数方式各异,清洗逻辑各异q 数据孤岛未打通整合q 需求驱动实施,无法沉淀数据资产统一化,统一数据湖归集和出口管理化,元数据、数据地图、血缘资产化,模型管理让数据可信赖q 时间成本,需求排期和重复开发q 人力成本,重复开发和缺少复用q 硬件成本,集群资源滥用造成浪费自助化,节省时间就是节省成本平台化,成熟技术组件高复用度精细化,集群资源可

8、估可查可量化架构维度业务前台数据来源内部数据 外部数据数据集群存储资源 计算资源 网络资源敏捷数据中台ADX数据湖层统一化 实时化 逻辑化 标准化 安全化数据应用层BI应用 AI应用 数据产品数据资产层数仓 指标 标签 特征 主数据DataHub 数据枢纽自助数据申请、发布、脱敏、清洗、服务等(基于DBus/Wormhole/Moonbox/Triangle)DataWorks数据工坊自助查询、批量作业、流式作业等(基于Wormhole/Moonbox/Triangle/DataAction)DataStar数据模型模型管理、指标自动化DataMon数据监控ADXMgt 中台管理统一项目管理、

9、资源管理、权限管理等DataMgt 数据管理统一元数据管理、数据地图、数据血缘等Davinci可视应用DataInsight数据洞察DataBehavr行为分析DataProfile标签画像数据维度平台维度能力维度分析挖掘能力(datainsight)算法模型能力(datainsight)算法服务能力(aihub)算法应用能力(dataprofile|databehavr)报表看板能力(davinci)透视分析能力(davinci)实时处理能力(dataworks)批量处理能力(dataworks)即席查询能力(dataworks)多维分析能力(dataworks)数据权限能力(datahub

10、|davinci)数据安全能力(datahub|davinci)数据管理能力(datamgt)数据资产能力(datastar)租户管理能力(adxmgt)项目管理能力(adxmgt)作业管理能力(adxmgt)资源管理能力(adxmgt)集群运维能力集群云化能力AI智能业务BI业务智能Computation数据处理Governance数据治理Management平台管理Operation集群管理数据服务能力(datahub)集群优化能力用户与场景自助探索发现数据(元数据)自助SQL即席查询数据自助Py/R/SAS分析数据自助将结果可视化并共享通过逻辑沙箱获取所需敏感数据快速拿到所需历史数据自助

11、SQL清洗准备数据自助Py/R/SAS训练验证算法模型协作式制作报表/看板/大屏自助定义报表/看板/大屏样式安全分享报表/看板/大屏与报表/看板灵活交互查询ADX平台服务层ADX数据管理层ADX中间件工具层ADX数据产品层数据拥有方数据需求方数据工程师数仓工程师业务用户方数据分析师数据科学家业务系统数据标准管理者数据运营管理者数据规划决策者数据安全管理者将报表整合到业务系统调用发布的数据服务自助创建项目、组建团队申请数据资源、计算资源敏捷自助实施编排批/流作业查看数据血缘以排查问题在线设计并发布数据模型可发布数据资产以数据共享灵活整合中间件搭积木式架构配置化SQL化可视化开发体验开箱即用权限/

12、监控/预警能力无需专业数据工程背景经验提供敏感数据检测算法配置敏感数据脱敏策略调研数据血缘以追踪数据调取审计日志以排查漏洞维护各类命名规范维护数据备份删档规则配置标准定义编码维护ID Mapping字典了解数据资产地图分布现状了解各业务线资源成本分摊了解各业务线数据赋能程度进行日常权限审批工作维护更新元数据信息监督数据资产生命周期评估并推进有效数据资产共享线下审批数据需求方数据申请发布自有数据以共享了解自有数据被使用情况提供并维护自有元数据查找所需数据信息和拥有方线下申请并得到拥有方审批申请并上传凭证以获得使用权自助查询或进行其他数据实践ADX中间件工具层ADX中间件工具概述数据总线工具 DB

13、us流式处理工具 Wormhole计算服务工具 MoonboxADX中间件工具概述:开源v DBus:https:/ Wormhole:https:/ Moonbox:https:/ Davinci:https:/ DBus:功能介绍DB2MongoDBdbuskafkaOracleMySQL日志文件UMSDBus(数据总线平台),是一个DBaaS(Data Bus as a Service)平台解决方案。DBus面向大数据项目开发和管理运维人员,致力于提供数据实时采集和分发解决方案。平台采用高可用流式计算框架,提供海量数据实时传输,可靠多路消息订阅分发,通过简单灵活的配置,无侵入接入源端数据

14、,对各个IT系统在业务流程中产生的数据进行汇集,并统一处理转换成通过JSON描述的UMS格式,提供给不同下游客户订阅和消费。DBus可充当数仓平台、大数据分析平台、实时报表和实时营销等业务的数据源。功能特性无侵入方式接入多种数据源海量数据实时传输自动感知数据源Schema变更数据实时脱敏初始加载和独立加载可靠多路消息订阅分发实时监控&预警可视化后台管理系统支持分表数据汇集多租户支持数据总线工具 DBus:模块架构SinkSourceRDBMSFileESRedisMQTCPUDPZooKeeperKAFKAHeartbeat 心跳预警&监控模块Extractor日志抽取模块Full Split

15、ter分片模块Router多租户分发模块Dispatcher分发预处理模块Full Puller全量拉取模块Stream流式转换模块Log processor算子处理模块DBus-Web 部署&配置&管理DBus Manager数据总线工具 DBus:核心设计 数据链路MasterSlavebinlogRouter多租户分发(Storm)Heartbeat心跳预警监控DBus-Web部署/配置/管理Log Agent(Logstash/Flume/Filebeat/)Processor算子处理(Storm)FileExtractor日志抽取(Storm)Stream流式转换(Storm)Dis

16、patcher分发预处理(Storm)Kafka Topic(Schema 1)Kafka Topic(Schema 2)Kafka Topic(Schema N)Full Puller全量拉取(Storm)Full Splitter分片(Storm)Kafka Topics(Tenant 1)Kafka Topics(Tenant 2)Kafka Topics(Tenant N)UMS通知告警监控展示元数据变更通知数据总线工具 DBus:核心设计 UMSprotocol:type:data_increment_data,version:1.3”,schema:namespace:mysql.

17、testdb.schema1.table1.2.0.0,fields:encoded:false,name:ums_id_,type:long,nullable:false,encoded:false,name:ums_ts_,type:datetime,nullable:false,encoded:false,name:ums_op_,type:string,nullable:false,encoded:false,name:ums_uid_,type:string,nullable:false,encoded:false,name:key,type:int,nullable:false,e

18、ncoded:false,name:value1,type:string,nullable:true,encoded:false,name:value2,type:long,nullable:false,payload:tuple:1,2016-04-11 12:23:34.345123,i,4324511,23,aa,45888 ,tuple:2,2016-04-11 15:23:34.345123,u,4324511,33,null,43222 ,tuple:3,2016-04-11 16:23:34.345123,d,4324511,53,cc,73897 ums_id_:数据源唯一递增

19、tuple事件idums_ts_:tuple事件时间戳ums_op_:tuple事件类型(增/改/删,i/u/d)ums_uid_:数据源唯一递增ums消息idSchema Evolution 模式演变dbus提供元数据查询服务ums消息元数据自描述ums消息解析去中心化元数据变更版本号支持在线支持兼容性变更线下支持非兼容性变更解耦逻辑表与物理Topic通过payload降低元数据overhead自动维护元数据变更,无需人工介入流式处理工具 Wormhole:功能介绍Wormhole(流式处理平台),是一个SPaaS(Stream Processing as a Service)平台解决方案。

20、Wormhole面向大数据项目开发和管理运维人员,致力于提供数据流式处理解决方案。平台专注于简化和统一开发管理流程,提供可视化的操作界面,基于配置和SQL的业务开发方式,屏蔽底层技术实现细节,极大降低了开发门槛,使得大数据流式处理项目的开发和管理变得更加轻量敏捷、可控可靠。kafkawormholedb2/oracle/mysqlkudu/cass/hbasehdfs/hive/clickhousedruid/kylin/es/mongoUMSbackfill功能特性支持可视化配置和SQL开发流式应用支持响应式动态流处理交互管控支持处理增删改三种类型消息流支持流上跨数据系统下推双向混算支持多目

21、标数据系统幂等入库支持双级基于日志数据质量管理支持单物理流并行处理多逻辑流支持基于事件时间戳策略流式处理支持多流式计算引擎融合处理支持多用户多项目权限管理和资源分配支持与三方系统集成交互服务支持数据流式处理实时监控预警支持数据流式CEP规则引擎流式处理工具 Wormhole:模块架构流式处理Directive指令解析UDF动态加载Topic动态加载Flow动态加载统一缓存SourceSource扩展自定义JSON解析UMS协议解析SinkSink扩展多种写入方式异构Sink幂等TransformETP流上JoinSQLSparkSQLJDBC适配Transform扩展FlinkSQL处理逻辑解

22、析CEPLookupSQLWormhole统一流式执行框架数据安全脱敏加密多租户数据权限管理认证鉴权UDF权限控制运维监控性能监控实时动态管控硬件资源隔离异常监控Backfill平台管理Namespace管理Job管理用户管理数据源管理Topic管理处理逻辑编排Flow管理Stream管理Project管理UDF配置管理访问方式REST APIWEB UI计算引擎统一资源管理YARN分布式配置ZooKeeperSparkFlinkSinkMySQLOracleHBaseKafkaESMongoDBCassandraKuduVerticaPhoenixSourceKAFKA流式处理工具 Worm

23、hole:核心设计 flow特性Kafka Topic(UMS1N)(source ns)Kafka Topic(UMS1N)(source ns)Kafka Topic(UMS1N)(source ns)Data Store(sink ns)HDFS(sink ns)ESWormholeRiderLookup(lookup ns)HDFS(state store)SparkWormhole StreamWormhole FlowWormhole FlowWormhole FlowWormhole Job(backfill)Wormhole JobWormhole Stream(Spark S

24、treaming App)SinkSpark ExecutorsParserSinksSwiftsReceiver动态添加/删除Topic动态调整Offset动态调整Topic RateUMSCustom JSONSparkSqlCustom ClassStreaming Join动态UDFLookupSqlStatsOffsetWhRider幂等Sink通过id判断是否写入通过op决定写入方式写入前合并行快照写入采用批量方式支持数据最终一致性HDFS小文件分片直接落txt/csv文件设置大小阈值,小则append,大则新建设置时间阈值,超出则新建文件Flow漂移可以控制flow从一个stre

25、am中漂移到另一个stream中会自动调整合适的offset为自动化运维提供接口服务多Flow支持一个source ns和一个sink ns唯一定义flowflow关注从哪到哪做什么flow是一种虚拟化逻辑概念,支持单物理stream同时跑多flow动态指令flow实时感应zk指令并动态生效,无需重启stream根据zk配置动态加载topic业务时间策略可以设置时间对齐timeout和处理策略通过hdfs parquet维护中间state数据Spark DriverDirective ProcessorMemoryStore幂等(ums_id_,ums_op_)Custom Class计算服务

26、工具 Moonbox:功能介绍Moonbox(计算服务平台),是一个DaaS(Data Virtualization as a Service)平台解决方案。Moonbox面向数据仓库工程师/数据分析师/数据科学家等,致力于提供数据虚拟化解决方案。既可作为数据应用底层数据查询计算统一入口,也可作为逻辑数据仓库与现有数据仓库互补。用户只需通过统一SQL服务调用和Moonbox交互,即可透明屏蔽异构数据系统异构交互方式,轻松实现跨异构数据系统透明混算。虚拟化能力支持多源异构系统无缝混算(目前支持 MySQL、Oracle、Kudu、HBase、Cassandra、MongoDB、Elasticse

27、arch、HDFS、Hive等)语言交互支持统一扩展SQL语法查询操作支持两种写出模式:Merge、Replace支持两种交互模式:Batch模式、Adhoc模式支持多形式注册UDF/UDAF支持三种调用方式:REST服务、JDBC连接、ODBC连接元数据支持导入动态元数据支持统一元数据获取服务db2/oracle/mysqlkudu/cass/hbasehdfs/hive/clickhousemoonboxdruid/kylin/es/mongoREST APIJDBC/ODBC功能特性优化策略支持查询替换支持复杂算子下推支持整体快速下推支持临时表缓存用户体系支持多租户用户体系支持灵活多角色

28、定义数据安全支持认证登录支持表/列权限、读/写权限和UDF/UDAF权限支持加载安全策略其他功能支持CLI工具和Zeppelin支持YARN调度器资源管理支持Crontab表达式注册定时任务计算服务工具 Moonbox:模块架构rest clijdbc driverodbc driverauthenticationhttp servertcp serverthrift servermasterworker mgtstatus mgtschedulertimerdata sourcedata sourcedata sourceclientmasternodesappnodescatalog(my

29、sql)workerapp mgtworkernodesmbapp(spark context)mbsessionsuser contextcatalog contextspark datasource apimb datasystem apispark connectorss1s2s3data adapterss1s2s3spark session计算服务工具 Moonbox:核心设计 mql执行mbcatalogDDLDCLmbexecutesparkplan(dist)PPsparkexecute(cli/clu)DFsparkcollectsinksparksaveDML(ins)mb

30、privilegechecksparkparsemboptimizesparkoptimizesparkresolveDRL(sel)ULPRLPOLPmbparseMQLOLPmbprivilegecheckmbprivilegecheckListmbexecuteDML(iud)mbprivilegechecksparkplan(local)PPsparkexecute(local)ListLogicalRDD(mbXxRDD)mbXxDataSystem.buildscan(LP)spark datasource api:buildscan(project,filter)mb datas

31、ystem api:buildscan(logicalplan)ADX平台服务层ADX平台服务概述数据枢纽模块 DataHub/DataLake数据工坊模块 DataWorksADX平台服务概述:一站式数据中台菜单可视应用数据洞察行为分析标签画像ADX平台项目一级菜单项目看板项目管理数据管理数据申请数据发布即席查询批量作业流式作业数据模型应用市场监控预警ADXMgt中台管理DataMgt数据管理DataHub数据枢纽DataWorks数据工坊DataStar数据模型自助项目管理自助资源管理自助权限管理审批管理流程元数据管理数据字典数据地图数据血缘自助数据申请、发布自助数据标准化清洗自助数据安全

32、脱敏自助数据服务自助即席查询自助批量作业自助流式作业对接数据模型作业自助数据模型管理共享数据模型流程自助配置数据集市层联动数据工坊部署DataMon数据监控批量作业监控查看批量作业预警配置流式作业监控查看流式作业预警配置ADX平台服务概述:架构数据源数据源DataLake实时数据湖DataHub数据枢纽模块自助式数据申请、发布、脱敏、标准化DataWorks数据工坊模块自助式数据查询、处理、编排、可视化ADXMgt中台管理模块自助式中台租户管理、项目管理、资源管理、权限管理、审批管理等DataStar数据模型模块自助式数据建模、模型管理、自动部署DataMgt数据管理模块统一元数据管理、数据字

33、典、数据地图DBusWormholeMoonboxTriangleAPP数据应用DavinciAPP数据应用DataActionDataMon数据监控模块批量作业监控预警、流式作业监控预警数据枢纽模块 DataHub/DataLake:数据链路sas/r/zeppjupyterdataworksdvDE-数据工程师DU-数据用户appadxmgtdatamgtdatahubdbuswhmbkafkahdfslogkafkawhkuduwhmbmb数据源数据源数据源tria实时历史实时增量实时快照批量快照mb逻辑快照数据源数据源DO-数据拥有方DA-数据分析师AU-APP用户parquet数据枢

34、纽模块 DataHub/DataLake:实时数据湖dbuswhmbkafkahdfslog数据源实时数据湖实时历史dbus对接dbus接入wh落湖所有结构化数据源,通过实时增量方式写入HDFS存储,称为UbiLog(Ubiquitous Log)通过UbiLog,可以计算出某张表任意历史时刻精确快照(Snapshot)UbiLog存储格式为TXT,并且会定期做merge和压缩如果存储空间允许,UbiLog会至少保存2年历史数据UbiLog在HDFS上一式三份防止坏节点造成数据丢失UbiLog的访问和使用只能通过ADX提供的能力输出,因此确保了多租户、安全、权限管控所有结构化数据源会统一实时汇

35、总为UbiLog,并由ADX-DataHub统一对外提供访问非结构化数据源中,自然语言文本也会实时(或定期)汇总到UbiLog其他非结构化数据源,如音频、视频等,暂不考虑纳入ADX-DataLake中数据枢纽模块 DataHub/DataLake:模块架构DataMgt数据管理DataHub数据枢纽脱敏&标准化层流式采集层批量采集层数据源层输出订阅层MySQLOracleSQL serverftp文件类日志网络类日志MQ类日志数据库配置管理DBus公共脱敏数据源管理抽取历史管理自定义标准化自定义拉取元数据dataHub元数据JDBC接口Restful接口Kafka队列ODBC接口实时快照ADX

36、Mgt平台管理数据权限多租户用户管理项目管理审批管理资源管理数据源库对接抽取任务对接表结构变更对接拉取结果对接功能权限数据库元数据dataWS元数据脱敏元数据标准化元数据表结构变更&版本数据安全数据质量TriangleMoonbox抽取任务编排管理Triangle自定义脱敏公共标准化自定义字段输出MoonboxWormhole历史快照脱敏和标准化对接历史增量自定义输出DataWorks 数据工坊数据标准化数据脱敏DataHub:核心设计 百亿ods每日快照(首次)DataHub:核心设计 百亿ods每日快照(后续)DataHub:核心设计 ods如何应对schema变更批量快照批量快照(物理或

37、逻辑),采用老快照+新增量=新快照算法在计算批量快照时,需要外部指定一个需要的表结构(目标schema)新增量,可能会有多个不同schema版本,需要按不同schema分别读出,并处理成目标schema(多删少补)同理,老快照也需要根据目标schema进行处理最后,应用新快照算法进行合并计算实时快照、增量实时快照和实时增量,都是需要用户指定表目标schema当schema变更,采取“多忽略少报错”的策略(因此尽量做兼容性schema变更)对于出现“少报错”,可进行手动或自动“少补偿”进行目标表和流上SQL维护DataHub:核心设计 数据湖稳定性dbus-kafka-wormhole-hdfs

38、log链路高可用设计dbus-kafka-wormhole-hdfslog链路监控预警批流集群隔离,避免IO抢占数据湖文件(hdfslog)流上不做逻辑处理数据湖文件(hdfslog)文件切片策略(避免小文件)wormhole stream pool(stream池)wormhole vip stream(独占stream)DataHub:核心设计 数据湖数据质量端到端黑盒比对算法E(Expected)端是源库表,A(Actual)端是数据湖hdfslog由于E端和A端都是不断在变化中的,因此精确比对两端是否匹配有一定挑战利用Moonbox,快速读取两端数据,进行一次快照比对,得到不匹配key

39、列表D110分钟后,基于D1 key列表,读取两端对应key的数据,进行第二次比对,得到D2同理,10分钟后,得到D3三次比对之后,如D3内仍有不匹配key,则预警,人工介入进行调查当数据湖出现数据质量问题处理方案DBus对表升版本,重新拉全量拉增量DataHub:核心设计 数据安全审批流程目前方式(半线上化),线下审批,在DataHub上申请数据、上传审批截图、数据运营进行人工审核后,DataHub自动开放数据给需求方使用DataHub统一并控制了ADX所有数据入口和出口批量数据通过Moonbox发布mb view,进行逻辑字段脱敏、加密、限列、限行数据安全团队配置敏感字段和脱敏策略,Dat

40、aHub感知并自动生成mb view逻辑所有通过Moonbox交互和sql都会落审计日志留痕流式数据通过Wormhole落Kafka,进行物理脱敏、加密、限列、限行数据安全团队配置敏感字段和脱敏策略,DataHub感知并自动生成wh flow逻辑所有通过Wormhole交互和sql都会落审计日志留痕DataHub:核心设计 数据服务对接方式Pull:JDBC、ODBC、RESTfulPush:写库(Append、ReplaceAll、Upsert)、写队列服务语言:MQL数据工坊模块 DataWorks:数据链路datastar数据源datahubdatahubdataworkswhmbkud

41、ukafkawhkuduwhdvmbmbhivehivembmysqldvtriambadxmgtdatamgtDE-数据工程师DM-数据建模师DU-数据用户数据工坊模块 DataWorks:模块架构DataWorksDataMgtWormhole流式处理Davinci报表分析Triangle任务调度统一存储DataAction事件触发元数据数据安全Moonbox认证接口接口层组件层服务层鉴权接口批量调度接口多租户接口数据查询接口事件触发接口元数据接口展示层用户接口流式调度接口DV前端接口批量作业编排流式作业编排Dashboard编排Widget编排Display编排批量作业调度用户体系封装流

42、式作业调度作业监控作业告警资源监控报表/分析封装血缘分析数据鉴权SQL事件Flow页面SQLJob读写读写ADXMgt多租户用户体系功能权限数据权限用户认证功能鉴权数据鉴权数据分析/报表数据查询流式作业数据策略批量作业SQLSQL数据工坊模块 DataWorks:核心设计 简单一致DataWorks专注于作业编辑编排,是数据项目的IDE,具体执行提交到对应中间件工具上执行。简单一致的IDE体验批量作业、流式作业拖拽式编排批量作业、流式作业SQL式开发全局唯一表名,屏蔽异构数据系统开发期可验证SQL和数据正确性未来计划 批量作业智能调度策略(基于Triangle)流式作业智能平衡策略(基于Wor

43、mhole)ADX数据应用层ADX数据产品概述可视应用产品 DavinciADX数据产品概述:数据项目基本类别大BI实施项目类(基于ADX、Davinci、DataInsight)报表、看板、大屏即席查询多维分析数据挖掘通用数据产品类(基于DataProfile、DataBehavr、ConvoAI)标签画像行为分析聊天机器人业务定制项目类(基于DBus、Wormhole、Moonbox)业务类运营推荐风控运维类智能运维导数取数异构系统同步项目迁移可视应用产品 Davinci:功能介绍Davinci(可视应用平台),是一个DVaaS(Data Visualization as a Servic

44、e)平台解决方案。Davinci面向业务人员/数据工程师/数据分析师/数据科学家,致力于提供一站式数据可视化解决方案。既可作为公有云/私有云独立部署使用,也可作为可视化插件集成到三方系统。用户只需在可视化UI上简单配置即可服务多种数据可视化应用,并支持高级交互/行业分析/模式探索/社交智能等可视化功能。可视化组件支持基于数据模型拖拽智能生成可视化组件支持各种可视化组件样式配置支持自由分析能力数据大屏支持可视化组件自由布局支持图层、透明度设置、边框、背景色、对齐、标签等更丰富大屏美化功能支持多种屏幕自适应方式用户体系支持多租户用户体系支持每个用户自建一整套组织架构层级结构支持浅社交能力安全权限支

45、持LDAP登录认证支持动态Token鉴权支持细粒度操作权限矩阵配置支持数据列权限、行权限集成能力支持安全URL嵌入式集成支持JS融入式集成moonboxdavinciJDBC数据源支持多种JDBC数据源支持CSV数据文件上传数据模型支持友好SQL编辑器进行数据处理和转换支持自动和自定义数据模型设计和共享数据门户支持基于可视化组件创建可视化仪表板支持可视化组件自动布局支持可视化组件全屏显示、本地控制器、高级过滤器、组件间联动、群控控制器可视组件支持可视化组件大数据量展示分页和滑块支持可视化组件CSV数据下载、公共分享授权分享以及可视化仪表板的公共分享和授权分享支持基于可视化仪表板创建数据门户多屏

46、适应支持大屏、PC、Pad、手机移动端等多屏自适应功能特性可视应用产品 Davinci:模块架构SourceViewVisualizationWidgetModelSQL EditorLineBarPieScatterMapPlotPivotDashboardDisplayJDBCCSVMoonboxMySQLOracleHiveESPrestoClickHousePostgreSQL可视应用产品 Davinci:核心设计 两种制图方式可视应用产品 Davinci:核心设计 两种viz应用可视应用产品 Davinci:核心设计 用户权限体系可视应用产品 Davinci:核心设计 系统集成ADX

47、应用案例自助实时报表智能数据应用一、自助实时报表:场景挑战场景需求业务数据团队需要制作一批报表,时间要求较紧迫,需要一至两周产出【敏捷度需求】有T+1时效部分,也有T+0时效部分,并且需要不同时效数据融合计算【时效度需求】因为需求可能会随时调整,希望可以自助完成全流程实施和后期自助运维【自助化需求】开发实施项目时,可以很快找到所需上游数据,并能对数据有充分理解【数据发现需求】最终产生报表时,可以灵活配置出足够定制化的报表可视化效果【配置定制化需求】需要报表可以按时输出,满足业务SLA要求,有问题可以及时预警【稳定度需求】当数据出问题时,可以快速定位问题,并能快速方便的做补数处理【数据质量需求】

48、数据申请、开发过程,和最终项目上线,符合公司数据安全策略要求【数据安全需求】所需计算资源既可以和其他数据项目隔离,也能尽量用足够少量资源【计算成本需求】难点挑战数据团队人员缺少数据工程开发经验,但对业务很了解,对SQL较熟悉所需数据来源可能来自异构数据库,如何快速整合支持不同时效数据需求实时数据处理,一般开发和维护成本较高有些较通用需求,如何可以不重复造轮子,只需配置既可支持如何确保报表满足SLA需求,并尽量减少业务部门成本分摊项目类别大BI实施项目类一、自助实时报表:解决方案BE-数仓工程师DU-业务用户方OP-数据运营者1)登录,创建新项目,申请资源等2)浏览、搜索、调研、定位所需表列表3

49、)选择所需表,配置选项,上传审批附件,申请ADX上海品茶(ADXMgt)项目管理(ADXMgt)数据管理(DataMgt)数据申请(DataHub)数据发布(DataHub)即席查询(DataWorks)批量作业(DataWorks)流式作业(DataWorks)数据模型(DataStar)监控预警(DataMon)可视应用(Davinci)数据洞察(DataInsight)标签画像(DataProfile)行为分析(DataBehavr)中台管理(ADXMgt)4)验证、审批5)查询数据,开发作业6)编排批量作业,校验逻辑,发布作业7)编排流式作业,校验逻辑,发布作业8)配置批量作业、流式作业预

50、警规则9)配置报表、看板、数据源、视图、角色权限等10)配置可视化展现,使用报表、看板,分享等一、自助实时报表:要点分析数据处理实践流式作业,适合做map、filter、project、leftjoin等算子批量作业,适合做全表join、aggregation等算子存储选型实践流上存储,推荐KUDU,有良好的实时增删改能力,和较快速列scan能力批量存储,推荐Parquet,有很好列scan能力,有很好压缩比,具备一定schema演进能力报表前置存储(结果宽表),小数据量推荐MySQL;大数据量推荐Clickhouse、Es等数据质量可考虑配置日终批量补偿机制,可选择lambda或kappa架

51、构方式建议配置好关键数据处理节点预警机制对于关键ODS,可配置“端到端比对”机制对于关键指标,可配置“关键字段校验”机制关于KUDU的坑KUDU在参数配置合理,tablet配置符合官方推荐时,比较稳定建议给KUDU WAL配置SSD盘,或至少SAS盘,不建议SATA盘KUDU比较吃IO,建议选择多物理盘服务器,以提高读写并发单tablet server内存配置,建议50G以上(和数据量、数据读写吞吐相关)建议有KUDU数据定期备份机制建议实现Parquet/KUDU冷热数据轮切机制(参见https:/ SDK数据总线(DBus)流式处理(Wormhole)标签特征库行为日志APP SDK数据总

52、线(DBus)流式处理(Wormhole)kudues计算服务(Moonbox)可视应用(Davinci)数据总线(DBus)流式处理(Wormhole)产品数据库标签特征库产品画像模型用户兴趣模型推荐模型状态信息库实时产品画像实时产品推荐实时效果监控二、智能数据应用:要点分析具体应用具体分析根据具体业务数据应用需求,选择合适的ADX层次进行支持,既支持开箱即用,也支持DIY数据服务Moonbox可提供基于SQL的多种标准接口服务(JDBC、ODBC、RESTful、Kafka等)算法调用流上调用算法,可通过定义Wormhole UDF或自定义Class方式支持批量调用算法,可通过定义Moonbox UDF支持定制整合ADX中间件工具栈,均提供RESTful接口,可当数据应用系统引擎整合使用,拼接系统链路跟踪基于ADX各层打造的数据应用,可直接查看和跟踪数据链路,定制监控预警实现

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2019年敏捷数据中台建设实践.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部