《【v3】如何做一款好的数据平台.pdf》由会员分享,可在线阅读,更多相关《【v3】如何做一款好的数据平台.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、如何做一款好的数据平台?如何做一款好的数据平台?演讲人:贺智超 腾讯腾讯欧拉腾讯欧拉-资产工场一站式数据开发平台实践资产工场一站式数据开发平台实践0101技术转产品的思考技术转产品的思考从自身经历简单聊聊技术转产品0202深度理解数据工作者的需求深度理解数据工作者的需求数据平台的用户需求分析实践0303腾讯欧拉资产工场实践腾讯欧拉资产工场实践基于DataOps的一站式数据开发0404数据平台产品经理方法论数据平台产品经理方法论方法和热情都很重要目录目录 CONTENTCONTENT0101技术转产品的思考技术转产品的思考从自身经历简单聊聊技术转产品从自身经历简单聊聊技术转产品个人成长转型经历个
2、人成长转型经历初入职场初入职场团队转型:数分团队转型:数分-平台平台个人转型:技术个人转型:技术-产品产品华南理工大学-软件工程中国科学院大学-研发/数据挖掘新加坡管理大学-图像识别软件开发/机器学习/算法/大数据欧拉数据资产管理研发欧拉全链路数据血缘研发探索期探索期成长期成长期业务团队的数据研发工作独立负责指标统计系统的研发计算机软件专业学习计算机软件专业学习大数据研发实践大数据研发实践数据平台研发实践数据平台研发实践数据平台产品设计实践数据平台产品设计实践学生时代学生时代欧拉资产工场产品设计-基于DataOps的一站式数仓开发建模-智能基线管理-数据质量监控产品经理与技术研发的不同产品经理
3、与技术研发的不同主要职能主要职能思维角度思维角度交付目标交付目标产品经理产品经理竞品调研、需求分析、产品设计用户角度-功能角度商业角度(ROI)诉求-需求-产品方案,以用户价值为依归技术研发技术研发技术预研、技术设计、产品落地工程角度产品方案-技术方案-产品,以产品质量为依归产品与技术从不同角度相互碰撞,共同实现产品价值产品与技术从不同角度相互碰撞,共同实现产品价值作为技术型的数据平台,对数据产品经理有了更高的要求作为技术型的数据平台,对数据产品经理有了更高的要求职能上:职能上:学习技术研究报告,上手体验相关技术底层组件,与研发对齐平台底层逻辑思维上:思维上:同时具备“技术思维”,对技术难易度
4、和未来演进有大致了解,综合考虑ROI来调整项目迭代交付上:交付上:在“产品”基础上增加“专业型服务”,解决客户遇到的问题简而言之,数据平台产品经理数据平台产品经理,既需要有产品经理的必备素养产品经理的必备素养,又要有对大数据领域技术的专业认知大数据领域技术的专业认知从技术转产品所需要的准备和工作从技术转产品所需要的准备和工作判断判断是否适合转?尝试尝试做一些产品设计学习学习产品经理的素养判断自己是否合适判断自己是否合适是否已经有了技术知识积累?(专业)是否有一颗好奇心?(好奇心)是否对所负责的事情很操心?(母性)是否有一个比较积极的心态?(韧性)是否勇于挑战目标?(狼性)是否擅长与人沟通?(沟
5、通能力/同理心)判断是否机会足够好判断是否机会足够好比如在同一项目内进行角色转变产品思维训练产品思维训练还在做研发的时候,就先尝试切换产品视角对需求进行思考学习基本的产品做事方式学习基本的产品做事方式可以从一个简单的需求入手,进行原型图绘制、需求文档撰写避免太技术的思考方式避免太技术的思考方式多关注产品本身是否能解决用户需求和问题,避免太过于关注技术实现细节;尽量考虑较为完整的方案,而不要揣测不可行or实现难度、导致丢失了很好的想法提升自己的产品力提升自己的产品力洞察力、抽象力、想象力、演绎力内在性格内在性格+外部机遇外部机遇+自我培养自我培养0202深度理解数据工作者的需求深度理解数据工作者
6、的需求数据平台的用户需求分析实践数据平台的用户需求分析实践内容内容APPAPP,数据是科学决策和精细化运营的重要资料,数据是科学决策和精细化运营的重要资料APP产品力作者生态推荐能力内容理解能力(内容画像)用户理解能力(用户画像)内容用户作者驱动力高价值的数据资产高价值的数据资产推荐算法APPs高质量的数据资产高质量的数据资产作为一名数据人,你是否听到过这样的抱怨?作为一名数据人,你是否听到过这样的抱怨?数据分析师数据分析师A A:“需要反复验证数据,但是查询非常慢,这效率也太低了”查询速度慢查询速度慢策略产品策略产品B B:“工具只适用于专业技术人员用,除了表结构,没什么功能去了解表的更多信
7、息”数据工程师数据工程师C C:“大杂烩,很多数据的工具或者平台,但是没有什么协同效应,集群有些也是割裂的”新入职的数据工程师新入职的数据工程师D D:“感觉表名很乱,没有数据规范,数据质量很没有保障,出了问题我甚至不知道找谁”数据管理混乱数据管理混乱平台能力割裂平台能力割裂数据质量差数据质量差咋这么难咋这么难面向开发面向开发工具都有,能用但不够好用另外,少了一些围绕数据资产围绕数据资产的工具!以更好地建设数据资产为目标,来补齐和优化能力以更好地建设数据资产为目标,来补齐和优化能力数据1 1、是否规范标准?、是否规范标准?上报规范标准离线数仓标准2 2、是否易于理解?、是否易于理解?元数据管理
8、数据血缘3 3、是否质量可靠?、是否质量可靠?数据质量监控任务及时性监控1 1、是否重要?、是否重要?热度统计人工重要度标识规范治理价值体现2 2、是否使用便捷?、是否使用便捷?高速的数据查询工具数据能够加工成对外服务的API3 3、是否、是否ROIROI高?高?数据成本度量安全管控高质量数据资产高价值数据资产打造数据资产管理平台打造数据资产管理平台早期的欧拉平台早期的欧拉平台数据资产地图:数据资产地图:数据API、画像标签、Hive表数据管理上报事件离线表指标/维度实时数据标签/特征沉淀核心数据主要面向 数据科学家数据分析师技术元数据采集和挖掘业务元数据主动登记主要面向 数据工程师Open
9、API开放协作,共建生态数据SQL洞察质量监控数据API加工数据应用A数据应用B数据应用C数据应用Presto这个方案有没有解决问题?这个方案有没有解决问题?并没有理想中运转的那么好并没有理想中运转的那么好问题产生后再来解决,比较棘手管理数据资产的动力不足并未形成有效的元数据管理氛围 最终数仓资产化程度不够“先有数据、再进行治理先有数据、再进行治理”的平台方案的平台方案遇到问题遇到问题需求需求当前解决办法当前解决办法解决问题了么?解决问题了么?查询慢更快的数据查询工具Presto引擎SQL执行速度虽然变快了,但是产品体验也决定了效率数据管理混乱数据管理工具元数据管理技术元数据丰富了,但业务元数
10、据很难沉淀数据质量差数据质量监控工具质量监控质量问题能监控了,但并未定位到根因平台割裂用起来体验更好增强功能确实弥补了一些功能,但生产和管理依然割裂回顾下数据工作者的需求满足的怎么样?回顾下数据工作者的需求满足的怎么样?解法解法1 1、将治理提前到生产过程中、将治理提前到生产过程中在生产过程中进行治理,可能会是一个自然而然的过程写代码是否通过数仓规范和数据测试建新表发布制定数据仓库的管理规范规范数仓表制定数据仓库的开发规范引旧表规范开发流程否是数据管理者数据工程师补信息是否通过数仓规范发布否新的表都相对较好挑选自己核心的旧表变的更好有一定资产化程度的数据解法解法2 2、整合用到的工具,提升效率
11、、整合用到的工具,提升效率解法解法3 3、治理需要驱动力、治理需要驱动力资产化程度度量有一定资产化程度的数据资产分 评价体系思考下哪些方面可以进行评价?思考下哪些方面可以进行评价?维度指标规范表命名规范性注释规范性依赖规范层域规范质量监控保障覆盖DQC保障覆盖基线保障覆盖DQC达标产出稳定性回刷稳定性DDL稳定性安全表安全等级设置字段安全等级设置敏感字段加密审批流程合规性读写权限设置合规责任人符合规范成本计算成本存储成本OLAP成本应用热度下游依赖数互动推荐值共享热度应用贡献度新增治理新增治理存量治理存量治理解法解法4 4、质量问题能够提前规避、质量问题能够提前规避数据质量的问题往往在上游数据
12、质量的问题往往在上游充分的数据测试核心节点出现问题阻断下游在数据上报端就做好质量监控报表延迟往往是由于上游任务的报错带来的连锁反应报表延迟往往是由于上游任务的报错带来的连锁反应实时预测下游是否能及时产出解法解法5 5、软件工程思想落地数据领域、软件工程思想落地数据领域DataOps:从敏捷、DevOps、精益制造吸取灵感并应用于数据工程领域敏捷:能够快速响应外部的各种变化,小步快跑DevOps:从数据的产生、处理到交付,整个过程要尽可能的自动化处理精益化生产:专注提升质量和效率,为企业带来最大的价值逐步落地DataOps任务开发视角=以数据为中心打造一站式数据资产开发平台打造一站式数据资产开发
13、平台充分集成集成已有能力补齐补齐缺失能力从而提升整体提升整体的能力并且借鉴软件工程借鉴软件工程思想优化流程以更好地为数据仓库工程师数据仓库工程师提供服务组合创新错位发展所有研发数据的角色传统开发工具割裂0303腾讯欧拉资产工场实践腾讯欧拉资产工场实践基于基于DataOpsDataOps的一站式数据开发平台的一站式数据开发平台一站式开发的功能矩阵一站式开发的功能矩阵欧拉欧拉资产工场资产工场数据开发数据开发工具工具数据测试智能解析依赖版本对比函数库数据质量与数据运维数据质量与数据运维DQC智能基线值班表及时性监控数据数据规划规划表开发表开发任务开发任务开发资源文件资源文件数仓目录配置库配置资源配置
14、代码库配置维度字典数据源管理SQL任务PySQL任务数据集成公共python库公共python脚本hiveiceberg数仓信息登记全链路统一元数据全链路统一元数据服务服务DataOpsDataOps:开发:开发-测试测试-CRCR-发布发布-监控监控-运维运维-治理治理画布开发模式删表重建DDL文本模式数据发布数据发布批量提交版本对比代码评审发布记录运维大盘监控报警运维工具问题复盘兼顾规范和效率,基于兼顾规范和效率,基于DataOpsDataOps的一站式数仓生产的一站式数仓生产基于基于D DataOpsataOps的一站式数仓生产的一站式数仓生产l规划规划进行数仓的整体设计对外部数据源进行
15、管理l调试调试直接调试例行化代码测试、只读模式,隔离线上环境l开发开发表开发、任务代码开发智能解析上游依赖丰富的数据同步组件类型l发布(发布(CI/CDCI/CD)代码评审版本对比、线上对比同时发布线上任务调度平台、更新git仓库l运维与质量(可观测性)运维与质量(可观测性)任务运维与告警通过数据链路对上下游进行运维数据质量监控、任务及时性监控数据能力有机整合数据能力有机整合=一站式数仓开发一站式数仓开发=效率效率 D DataOps+ataOps+数仓规范数仓规范=生产即治理生产即治理=规范规范 用户角色和使用路径用户角色和使用路径在这套数据开发流程下,DEDE的细分角色的细分角色把数据表当
16、作产品一样进行精益化生产,从而构建出更规范、更高质量的数据仓库git值班表数据开发的核心面板重点打磨数据开发的核心面板重点打磨用于封装基础的DDL操作、ETL操作实现配置化开发:json-SQL维护公共的业务逻辑片段维护常用公共字段列表 公共Py增强团队内协同效率调度平台Git仓库hive集群 自动化上线并同步git公共py脚本脚本参数1脚本参数2公共py库任务1任务2 强化版本控制+提交流程用于生产的所有内容 is Code:表结构、代码、调度配置、依赖比git好的地方:可视化展示版本内容,未来可以提供更多辅助信息去CR比传统方式好的地方:“保存即上线”=“CR通过再发布上线”注:图中代码都
17、是测试用,无真实业务逻辑 环境隔离、智能化、自动化分层保障业务数仓,提升质量,降低起夜率分层保障业务数仓,提升质量,降低起夜率运维中心运维中心运维大盘:运维大盘:统计异常情况、展示工作成果任务任务问题问题明细与明细与DAGDAG图:图:运维运维工具:工具:提供深度分析与处理异常的能力失败延迟变慢智能异常诊断任务血缘重跑/终止/回滚调整优先级故障复盘核心数据:质时强保重点数据:质量保障日常任务:尽量稳定核心重点其他(万)(千)依据重要程度依据重要程度任务分层保障任务分层保障“基线保障”,支持对任务链路进行智能监控,对延迟风险提前预警“质量监控”,基础能力+阻断能力“监控报警=任务健康度=处理异常
18、=复盘异常”的一套运维方案完整性准确性有效性一致性及时性数仓规模变化今日重点关注实例运行状态资源使用情况异常明细新建个数发布次数CR次数搭配课程体系,提升相关的意识,牵引用户使用搭配课程体系,提升相关的意识,牵引用户使用数据工程的数据工程的4 4门必修课程:门必修课程:DataOpsSQl代码规范数据仓库设计数据测试策略产品的必修课程策略产品的必修课程 数仓与数仓与SQLSQL应用应用数仓概念SQL语法SQL相关工具课堂实操练习提升有数据需求的产品经理对数据仓库、SQL的认知,方便与DE/DS对话生产即治理生产即治理数据规划数据同步、数据地图数据质量数据运维数据发布数据开发数据洞察 生产前 生
19、产中 生产后业务规范+数据标准系统化约束元数据标准数据质量标准数据安全标准数据仓库标准数仓属性+业务元数据开发过程中登记数仓质量+及时性开发后持续关注增强数据的可理解性增强数据的质量和时效数据资产地图呈现+下游应用高价值数据的发现增强数仓整体的规范性意识意识+平台平台工具工具+组织组织通过生产过程中,直接完成数据资产的塑造通过生产过程中,直接完成数据资产的塑造用户群:“单一的用户群:“单一的DE”DE”-“岗位多元化”岗位多元化”按工作职能数据工程数据工程 DEDE提供更专业性的能力数据科学数据科学/分析分析 DSDS增强分析展示能力数据产品数据产品/运营运营容易上手偏数据的开发偏数据的开发/
20、算法算法与非hive的互通不分职能,有DE方面的工作就能推易用性分析工程师分析工程师元数据资产工场功能足够全易用性足够大信息充分发挥辅助作用强化信息量目前占比目前占比1/31/3,未来用户增长的突破点,未来用户增长的突破点数仓工程师数仓工程师专业性0404数据平台产品方法论总结数据平台产品方法论总结方法与热情都很重要方法与热情都很重要数据平台创新方法论数据平台创新方法论错位竞争:错位竞争:质量比数量重要,着力打造核心竞争力组合创造组合创造&创新:创新:做平台不是做工具,不能简单地堆砌功能目标用户技术研发数据平台产品经理平台1平台2平台n工具1工具n人有我优人有我优功能1功能2功能3功能4功能5
21、功能m需求1需求x重新组合功能拆解需求拆解行业前沿落地按最小单元按最小单元拆解基本要素拆解基本要素按供需连法按供需连法重新组合要素重新组合要素数据工作者寻找新兴市场提升自我专业度提升自我专业度与用户和研发保持一致的技术认知与用户和研发保持一致的技术认知人无我有人无我有规范和效率如何兼顾规范和效率如何兼顾1 1、在大需求迭代中,插入一些“小而美”的需求、在大需求迭代中,插入一些“小而美”的需求2 2、约束用户行为的时候,是否提供了辅助工具、约束用户行为的时候,是否提供了辅助工具规范规范效率效率目标驱动目标驱动马斯克:“只要有目标,就一定能实现。哪怕还没有想到如何实现的路径,就有一种全然相信的力量
22、”用户的驱动力用户的驱动力推力:普遍认同的评价机制(例如资产分)拉力:展示成果的奖励机制平台的驱动力平台的驱动力找准核心评价指标u 核心指标:使用规模、深度、覆盖度洞察洞察集成集成开发开发运维运维业界业界TOPTOPA A时刻时刻B B时刻时刻u 功能完善度:相比业界用户运营要讲究策略用户运营要讲究策略数据分析:数据分析:搭建数仓对用户进行细粒度的分析充分了解你的用户站在用户的角度思考沟通:沟通:与用户建立信任,线下语音文字传播:传播:寻找KOL,一个人会带来一个团队的增长节奏感:节奏感:推广用户的节奏,要和产品节奏匹配中间层ODS 用户操作日志大数据DWD 用户行为明细DWS 用户行为统计ADS 统计结果/datatalk看板DIM组织架构翻译个人如何提升产品力:实践个人如何提升产品力:实践+思考思考热爱热爱你所负责的数据平台你所负责的数据平台是做好它的是做好它的动力源泉!动力源泉!感谢观看感谢观看!演讲人:贺智超 腾讯