《数据平台产品设计.pdf》由会员分享,可在线阅读,更多相关《数据平台产品设计.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummit#2023小米数据生产平台产品设计思考与实践刘莹 小米 计算平台产品负责人01数据生命周期全流程介绍0203小米一站式数据生产平台的产品建设思路目录CONTENT技术驱动型产品的设计与协同经验方法论DataFunSummit#202301数据生产到应用的生命周期全流程介绍雨、江河湖海等自然产生的、源源不断的水建堤修坝、水库水渠,将自然水分流收集、存储净化、过滤、消毒、去污饮用、灌溉、生活产生收集存储处理应用举个栗数据全命周期流程数据生产链路线上(主要):联的智能终端,如机/电脑/表/电视等付/收藏/转发/播放/点赞.各种功能操作滑动/缩放/打开/关闭/拖拽.各种点击或
2、浏览为产生收集存储处理应用活中的各种为都在产着各种各样的数据线下:基于智能设备或终端产逛店/运动/饮/乐.各种线下活动拍照/录/绘画/连接/体感.各种实体为数据的产产生收集存储处理应用数据的收集是将不同业务系统、终端、源头的数据实现互联互通线上为采集(端上)客户端:Web、Andorid、iOS、Windows服务端:志、消息线下为采集(物联)硬件联:Wi-Fi、传感器、摄像头等等传统:问卷、登记 外部数据采集-爬;业务系统数据同步-跨源Mysql to Hive、异构MQ to Hive数据的收集活中,我们选择个存储物品的容器时,般会考虑哪些因素?形状/样式/形态(/圆/固体/液体)规模(/
3、数量)使场景(吃/穿/)成本(资/ROI)数据格式/结构数据/条数查询/扩展/并发存储/计算成本数据存储容器的选择也类似产生收集存储处理应用数据的收集根据数据的结构、规模、使场景、成本等信息,选择不同的数据存储介质存储类型举例关系数据库Oracle、MySql、SQL Sever、GreenplumNoSQL存储HBase、Redis、ES、MongoDB网络及消息队列Kafka、Talos、RMQ、Http文件系统HDFS、FTP、CSV、TXT、Excel大数据存储Hive、Iceberg、Hologres、Doris数据的存储产生收集存储处理应用将汇聚后的原始、堆砌状态的数据进资产内容建
4、设、加处理后使其产业务价值对数据抽取、转换、加载(ETL),分层建设处理过程在各个环节对数据进清洗关键内容般分为离线开发、实时开发、算法开发开发方式数据的处理产生收集存储处理应用将原始,混乱的数据转化为干净,新鲜和可靠的数据的,使其更易于使用,方便从中获取业务见解所有关系型数据库的公共语;于存取数据以及查询、更新和管理关系数据库系统SQL:结构化的查询语句ETL:源端-抽取-转换-加载-目标数仓分层:归纳整理、化繁为简、减少重复、提升效率数据的处理ETL数据清洗的核:问题数据的补充、调整 冗余数据的查重、映射 数据的整理、统1、洗掉脏东2、去除多余3、补好缺漏4、晒整理提到“清洗”,如洗服般是
5、在做什么?数据的处理清洗产生收集存储处理应用分类离线开发实时开发基本定义般是批处理,批量处理个范围内的数据般是流处理,数据如流般产点处理点时延性要求不,般周期很(天/周/年)毫秒/秒级延迟数据来源类型历史已存在的数据源源不断产的数据应场景数据分析、模型训练、排序索引等秒杀/抢购、实时数据看板等先存蓄起来,然后集中处理或批量于发热发电落下后直接进分流、去污,转化河数据的处理离线实时的数据产平台架构多引擎存储离线实时计算分析运维与应统数据采集与集成产生收集存储处理应用数据生产链路底层引擎计算引擎存储引擎基础服务元数据权限调度器集成引擎核能核能数据管理治理中心资产目录数据地图安全中心数据质量Data
6、FunSummit#202302技术驱动型产品的产品设计与研发协同方法论数据产平台是技术驱动型产品技术驱动型产品的核特征以技术为核竞争 强依赖技术架构的实现 技术创新为核导向 重性能和稳定性户以技术员为主 向技术员使 核作是写代码 详细的底层逻辑比抽象概括更有用可能,你的户你更懂底层技术逻辑技术型产品常问的个问题做桥梁做牵引,将擅的向发挥极致从核要解决的问题与产品定位出发产品如何凸显自己在其中的作用如何衡量技术型产品的产出价值没有真正意义上的完美终局方法上会不一样吗,是否更加需要产品做更终局的思考户调研、需求分析顶层规划、产品拆解设计落地、验收迭代项管理、运营推覆盖率(表/作业)使频率(WAU
7、/DAU)渗透率(使/标)效率(操作耗时/运时)性能/SLA/响应率/成功率局部最优解也是最优解往整体规划处想,从MVP处落实每个阶段的盾和困难都不样内外部认知都要持续更新其实,与其他类型产品经理的作模式没有本质区别技术驱动型产品中,产品经理该怎么做转变思维体现专业为共同的业务价值标努技术与产品不是对,是战友,荣辱与共技术的产品思维,产品的技术理解是相互的在产品擅的领域做到更专业,更好的分协作持续学习,将技术语转化为产品语12技术驱动型产品中,产品经理该怎么做按需分工定制规则技术主导,产品配合:技术选型与扩展产品主导,技术持:具体验交互流程合适的协作流程:引技术评审、技术参与产品内审互相深度参
8、与:户调研、产品查、案共创34技术驱动型产品中,产品经理该怎么做价值牵引,技术驱动也可能变成产品牵头专业的做专业的事,各司其职,更效技术:写代码、做实现 性能/架构/稳定性产品:界设计,沟通协调 运营推,户交流 避免炫技,做户真正需要的产品 拥抱变化,持续更新升级(认知/思路/策略/需求)案例:技术驱动架构升级引数据湖解决Hadoop+传统数仓的成本及事物性问题数据湖选型:Delta、Hudi、Iceberg(写/并发/性能/成熟度更好)产生收集存储处理应用产品闭环技术选型案例:产品驱动体验效率优化业务场景复杂,依赖关系建繁琐 拖拽式的作业编排-快速建关系 节点及上下游定位-聚焦关键节点链路
9、动推荐依赖-智能/动依赖案例三:技术的升级使得产品能持续完善OLAP引擎升级促使查询体验交互式改造每查询888s下降至5sHive引擎机制所限-提交过程长,资源消耗大,耗时长,只能等 查完通知 转成作业 超长的自动终止限制Presto+Spark3.X的升级-部分查询可直接提交,资源策略优化,查询效率幅上升 多引擎联查,智能路由 志诊断 编辑联想,动补全 并查询 定义超时 DataFunSummit#202303小米一站式数据生产平台的产品建设思路推统数据开发平台规范化开发流程站式数据产建平台打破烟囱起来的对好能质量安全成本效率数据产平台的推进思路技术主导基础服务的统为“破烟囱”奠定基础6种存
10、储5种计算引擎/10类作业10+种跨源数据集成可扩展性的产品形态功能可灵活快速的补,更稳健的撑收敛统产品-技术特化的产开发流程:1.通过Workflow的版本进“开发态”与“产态”的区分2.以测试库/正式库+变量形式做隔离转换3.辅助补充各流程环节及检验具业界:1.物理机房的隔离2.项/库隔离3.开发中&运维中完全独规范化的流程,促进户正确的使平台,发挥更效益技术-产品站式的数据产体验结合AI智能化的进数据开发完善编译/合并/测试/运维整套操作流程提供最适合开发者的编辑/协同/管理体验趁的具低代码式拖拽式交互式移动端IDEDataOps智能服务上云产平台本质是作为趁的具,为业务助产品主导在更的
11、维度上做全景扩展,提供更多完善的服务持数据采集与集成数据存储与计算数据查询与运维离线公共数据在线业务数据企业经营数据数据资产地图数据安全与质量标签构建与管理BI可视化数据智能人群圈选口碑舆情行为分析团队:分析师/解决方案数据生产平台数据仓库建设数据管理与治理产建管用服务:数据服务/API从复杂的N个产品现状与户问题中,分析调研,抽丝拨茧,求同存异,找到能唯收敛的向N N-1 10 0-1 11 1 101010 10 X X 从0到1构建搭建新平台,MVP路径拆解,步快跑,试点验证在规范化的基础上扩展产品边界,扩能范围,促进深度使,与历史问题的收敛聚焦本,克制与创新并重,拥抱更多可能性拥抱变化持续更新层次递进的平台建设思路以各阶段要解决的不同问题为牵引,分级扩展,逐步做透(不适于数据平台)感谢观看