《8-4 字节跳动 BI 平台实践分享.pdf》由会员分享,可在线阅读,更多相关《8-4 字节跳动 BI 平台实践分享.pdf(18页珍藏版)》请在三个皮匠报告上搜索。
1、字节跳动BI平台实践徐冰泉 火山引擎DataWind技术负责人|DataWind 在字节跳动的使用场景数据探索与分析协作与集成AI能力融合DataWind:字节内部最具影响力的数据产品|130K+月活用户月活用户覆盖75%以上员工,是使用人数最多的数据产品200K+仪表盘超3,000,000张图表,每日查询量超500万次230K+数据模型管理数据量超200PB,超130,000例行任务900+集成方每日超过15,000用户通过第三方平台集成的方式间接使用Datawind(风神)发展历程|2018SQL查询20+min/queryFeb 201801可视化查询丰富的展现形式May 2018022
2、019数据集便捷的数据导入Oct 2019052020项目中心用户、权限管理Apr202006202107大屏移动端更丰富的展示形式Aug 2020开放平台更方便地被集成Sep202109多语言多时区更好地服务海外用户Aug 2022Q1Q2Q3Q4Q1Q2Q3Q4Q1Q2Q3Q4Q1Q2Q3Q4仪表盘多图表的展示和分享Aug201803数据协同集成飞书和SQL查询May 201804Q1Q2Q3Q408可视化建模轻量ETLApr 2021202210新版仪表盘外观和性能全面升级Feb 2022DataWind:产品能力|数据接入数据整合查询分析探索展示与协作数据库数仓/大数据平台Excel/
3、CSVAPI跨源建模分析加工数据清洗算法建模大屏数据门户管理驾驶舱IM工具协作Datawind与火山引擎|与其他SaaS类产品打通与数仓引擎打通数据洞察 启发式的数据探索Accelerating Data Analysis|结果呈现需求表达数据分析是个启发式的探索过程问题空间频繁在探索过程中发生变化快速响应尤为重要我们真正想要的是一个智能平台快速满足通用场景下的数据洞察需求|找数建模查询看数需求洞察效率低下严重影响启发式的数据探索庞大的用户基数让提效变得更有意义少一些步骤,必须的步骤尽可能快一些元数据的管理和搜索预处理更快的查询更智能的图表展现低门槛的轻量ETL用户特征 更喜欢基于明细表取数|
4、97%10s内完成的非缓存类查询比例5,000,000+查询次数400+PB活跃数据量适应业务增长,提供千亿级别数据的秒级查询。资源持续紧张业务增长带来的数据量增加分析需求增长迅速灵活的分析功能带来的复杂查询海量数据的明细查询|Bytehouse带来的质变引擎团队的持续优化硬件与引擎自适应导入场景优化分级响应物化+自动路由对分区键和排序键的调整动态分区(原子性的保障)Join场景的优化:尽可能做Local JoinCountD的优化Bytehouse CE+Bytehouse CDW+Presto多集群单一数据集的冷热数据处理数据探索与展示海量数据的明细查询|Bytehouse(主要)查询服务
5、数据访问层缓存服务元数据服务监控告警增强分析权限服务查询组装与优化归因服务统计分析订阅服务指标监控智能问答RDSDorisPresto开放平台用户特征 非技术人员也想做数据建模|连接合并聚合筛选分组内置函数自定义SQL抽样预测分类聚类回归时间序列低门槛的可视化建模|提供高性能高可用的低门槛低门槛、拖拽式拖拽式数据集成和ETL服务。环境复杂场景多样资源有限无人值守用户大多无技术背景1,000,000+数据生产任务数20,000+月度活跃用户 4万亿行日增数据量低门槛的可视化建模|用户特征 随时随地做数据分析|推送订阅与监控移动端管理驾驶舱办公软件邮件调用接口用户特征 复用意识碰上定制化需求|基于Datawind的二次开发灵活的嵌入方式在线调试集成效果支持白标和不同主题风格样式丰富回调支持定制化权限和查询DataWind架构回顾|非常感谢您的观看|