上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

4-5 基于宽表建模的自助查询系统.pdf

编号:102462 PDF 26页 1.41MB 下载积分:VIP专享
下载报告请您先登录!

4-5 基于宽表建模的自助查询系统.pdf

1、基于宽表建模的自助分析平台马皓百度资深研发工程师目录CONTENTS 01业务背景02面临的问题03宽表建设04自助可视化平台01 业务背景日志数仓分层ADST+1查询报表DWSDWDODS主要基于维度建模查询性能大部分报表和查询使用上层小表,提升查询性能传统数据业务:采用经典数仓架构,重点支持BI分析生产成本逐级生产数仓表,建模难度低,代码易于理解维护成本运维工具成熟,自助化运维主要面向数据研发过程当前互联网业务发展趋势01 业务背景运营活动密集产品迭代频繁数据分析越来越复杂、深入数据驱动越来越重要主要面向产品人员目录CONTENTS 01业务背景02面临的问题03宽表建设04自助可视化平台

2、面临问题与一些思考02 面临问题adhoc查询数据杂且量大上千张表、数百PB存储查询慢SQL复杂,shuffle大自助率低给数据研发提需求,周期长、效率低表更少口径更统一自助化不用研发排期经典数仓架构及模型数据建模数据开发BI报表缺点:数仓层内:少许冗余、口径容易不一致 数仓层间:冗余严重 需求满足效率低目录CONTENTS 01业务背景02面临的问题03宽表建设04自助可视化平台一层大宽表维度模型数仓建设:一层大宽表技术方案03 宽表建设 方案调研字段1经典维度模型大宽表模型维度一维度二维度三维度四维度五维度六字段2字段3字段6字段4字段5字段n事实表维度表维度表日志数仓分层ADS查询报表D

3、WSDWDODSAdhoc报表c1c2c3cacbcmcncxcyline1公共属性业务属性业务指标line2line3日志数仓建设:宽表优缺点03 宽表建设 方案调研日志大宽表T+1查询报表一层大宽表模型宽表存在的挑战计算复杂行数更多回溯成本查询性能升级成本字段更多特性:经过ETL、维度关联等处理封装指标口径,支持超多字段宽表的优点口径统一使用简便减少冗余宽表优点:表数量大幅下降,口径更容易理解03 宽表建设 应用实践拼接后实际存储变化维度一维度二大宽表维度+事实表存储大小事实表大宽表存储大小宽表冗余维度表,列式存储压缩后,存储增加极少10%左右行为大表1明细表1明细表2聚合表3聚合表2OD

4、SDWDDWSads1ads2ADSads3单一业务主题传统建模数据表ads4大表2明细表3聚合表1聚合表4经过宽表建模,单一业务主题下数十张数仓表精简为一张c1c2c3cacbcmcncxcy业务属性业务指标1、划分主题2、精简粒度3、丰富维度&指标一张宽表宽表优点:一层大宽表 替换 多层数仓,存储下降 30%左右03 宽表建设 应用实践31%+28%+33%+主题一主题二主题三DWD 30PODS 60PDWS 5PADS 1PDWD 16PDWS 2PADS 0.2PDWD 13PDWS 0.5PADS 0.1PODS 17P主题宽表1主题宽表2主题宽表3存储存储存储ODS 60PODS

5、 30PODS 30P分主题各层存储大小分主题宽表存储大小同一主题多层数仓大量冗余宽表存在的挑战:如何解决查询性能问题?03 宽表建设 应用实践宽表跟数仓某些小表比性能会有些许下降020406080100120140存储相近-sum等简单查询场景存储相近-explode等复杂计算场景存储相差大-基准查询性能对比宽表建设前平均查询耗时宽表查询平均耗时单位:秒列式存储统计滤波业务指标下沉宽表复杂嵌套字段打平581、引擎提速2、建模提速3、存储系统宽表存在的挑战:开发成本&回溯成本增加03 宽表建设 应用实践宽表回溯成本业务发生打点异常、指标口径变更,宽表计算复杂、回溯成本高宽

6、表开发维护成本宽表进行了大量ETL和关联计算,字段更多、逻辑更加复杂(1)宽表对研发人员的业务理解要求更高;(2)宽表对研发工具的要求更高;(3)本质上是成本转移,在数据驱动的背景下:开发成本 业务成本潮汐算力(1)合理分区,按分区进行更新;(2)数据复用,仅重算部分字段;(3)利用潮汐资源,降低资源开销。目录CONTENTS 01业务背景02面临的问题03宽表建设04自助可视化平台04 自助可视化平台业务需求数据仓库数据研发进行加工数据分析数据报表传统BI架构:通过数据研发跑数及制作报表,依赖研发排期传统BI架构不灵活排期长迭代慢如何更高效的满足需求?可视化配置主题模板,可视化点选查询,产品

7、人员自助满足分析需求主题模板选择字段基本属性条件限制使用时长输出结果范围单值输入多值输入 上传文件 等于模糊匹配标签1输出值1基于宽表进行可视化配置统计字段业务_1的属性业务_2的属性selectfieldsfromwherefieldComparisonvaluetablesSQL语法树语法树遍历生成查询输出值2输出值3 无需研发依赖,即配即用,即点即出c1c2c3cmcncxcyline1公共属性业务属性业务指标line1line104 自助可视化平台04 自助可视化平台对比传统报表需要数据研发处理数据、通过SQL配置报表的办法,自助可视化平台无需再与数据研发反复沟通,降低沟通成本和使用门

8、槛,大大提升业务分析效率。数据研发业务人员准备数据自助分析数据研发业务人员准备数据,开发报表是否满足需求是否二次分析需求传统方式自助方式业务数据需求产品人员需求调研新功能评估运营人员市场调研活动效果评估投放效果评估管理人员规划制定战略决策需求满足方式业务效果数据研发业务人员管理人员开发效率提升,解放更多精力聚焦数据治理和价值挖掘响应迅速,获得分析主导权分析效率提升,点选和拖拽极易上手企业创收,数据充分降本增效,培养员工自主分析能力04 自助可视化平台搭载图灵引擎分钟级得到查询结果整合多部门、多业务多种类型数据源主题查询、自助报表不会SQL也能用门槛低数据全速度快一脉平台-新一代的一站式数据自助

9、分析平台,用户只需通过简单的点选、拖拽便能查询和分析数据,并制作出丰富多样的报表,自由地对数据进行分析和探索,让数据释放出更多未知潜能。日查询量10000+查询速度秒级服务部门200+04 自助可视化平台数据查询数据加工拖拽图表图表分析易用高性能安全筛选、图表联动同环比分析均值、合计分析表计算、跨表联合等分析计算能力最大值、最小值、基准值分析高性能引擎列式存储秒级响应查询自助报表点选式查询,无需代码能力,业务自助查询拖拽分析,无需研发介入,业务自助分析数据保存、例行数据多方式导出模版及分享行、列权限控制Web水印数据使用监控高可用可视化查询SQL查询临时表上传数据例行、下载数据展示配置字段名称

10、、口径信息数据例行配置例行周期、回溯周期表格柱图折线图饼图指标卡环同比均值合计全局筛选器报表布局调整审核发布管理中心建设价值 自主可控业务方自己可以掌控才是真正的“自主可控”降低成本释放研发人力,将有效的资源投入到重要方向 提高弹性功能模块化、组件化,一套技术体系可应用于多环境点选查询数据将宽表配置成可视化查询主题,用户可通过点选的方法进行数据查询,操作简单、字段含义经过翻译更容易理解,方便业务同学使用。数据查询的结果可以保存为数据集进行深度分析。可视化查询04 自助可视化平台数据集拖拽图表自助报表04 自助可视化平台灵活加工数据通过数据集功能,业务人员可以自助对数据进行加工,配置展示信息和例

11、行存储信息,自助灵活的达成期望的数据结果。可视化查询数据集拖拽图表自助报表04 自助可视化平台拖拽分析数据可视化查询数据集拖拽图表自助报表通过拖拽字段可形成丰富多样的图表类型,用户可以根据不同分析场景的需求,在一脉平台选择各种不同类型的图表来进行业务表达。自助保存报表用户可自助将多个分析内容组合成一个报表,通过筛选器对数据进行筛选、联动等,实现关联分析。还提供了布局调整、图表复用等功能,让用户可以直观发现、分析数据中所隐藏的问题,及时应对业务中的风险。可视化查询数据集拖拽图表自助报表04 自助可视化平台自助化率大幅提升,研发排期需求明显降低00708090100业务线 1业务线 2业务线 3业务线 4自助率提升对比可视化前的查询自助率可视化后的查询自助率可视化后各业务线的查询自助率从30%提升到75%+单位:%257533802077308004 自助可视化平台总结和规划总结1.宽表建模更适合面向快速迭代的数据驱动型业务2.基于业务实践,宽表在存储和查询性能方面更优3.可视化的自助分析平台,能够极大解决需求排期问题规划1.高性能引擎,查询性能继续优化2.开放云化,助力更多业务非常感谢您的观看

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(4-5 基于宽表建模的自助查询系统.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部