《周子尧-快手一站式BI平台的演进.pdf》由会员分享,可在线阅读,更多相关《周子尧-快手一站式BI平台的演进.pdf(41页珍藏版)》请在三个皮匠报告上搜索。
1、快手一站式BI平台的演进主讲人:周子尧领域驱动设计启发下的AI视觉分析引擎构建主讲人:戴 昊演讲嘉宾介绍周子尧目前就职于快手数据平台部,负责分析产品研发方向有7年大数据分析系统研发经验,10多年的互联网产品研发经验曾就职于硅股创业公司,互联网房地产,美团数据科学部有多次从0到1搭建业务或中台的数据分析系统经验关于快手与大数据平台快手数据平台短视频直播电商商业化游戏平台快手数据平台的使命是“提升数据决策效率,利用数据助力业绩提升”万级EB级PB级万级百万级集群规模总数据量日净增数据量日活跃用户数日分析查询数十万级报表数BP平均日活23Q1 3.74亿日均时长23Q1 126.8分钟 电商GMV2
2、3Q1 2248亿 短视频+直播电商,本地生活,招聘,积累驱动快手的使命是“帮助人们发现所需、发挥所长,持续提升每个人独特的幸福感”目录CONTENTS快手BI平台介绍1234快手BI平台的演进与实践快手BI平台的实战案例总结与未来规划快手BI平台介绍1关于商业智能(BI)BI数据战略数据报告数据分析数据探查数据整合数据仓库智能分析产品定位商品定价战略布局制定目标业务动作产品迭代.经营策略商业经营.技术BI(Business Intelligence)即商业智能快手一站式BI平台-KwaiBI整体介绍1.5W+MAU10W+模型数100W+图表数接入业务150+愿景:致力于通过丰富分析工具产品
3、,打造一站式的数据分析平台,提升数据获取与分析效率。10W+报表数快手一站式BI平台-KwaiBI生态体系取数(取数据)SQL取数分析(做分析)可视化(看大数)建门户(经营,业务,部门)自助分析模板取数Notebook指标取数PC看版移动端看板数据大屏推送(推结果)异常监控智能分析PC/移动端KIM推送邮件推送开放集成页面嵌入开放接口数据协同数据集数据建模门户管理业务运营数据准备数据来源大数据存储引擎:CH/Druid/HIVE数据库:Mysql,KV本地数据CSV/Excel指标中台集五大消费场景一体灵活的数据准备服务标准化指标中台应用丰富的开放集成能力线上数据Docs,云文件(嵌入)快手一
4、站式BI平台-KwaiBI核心流程大数据计算和存储数据开发和管理数据源链接数据源管理Step1数据接入Step2 准备数据数据加工数据建模可视化自助分析NotebookAI/MLStep3 分析数据指标管理数据看版大屏数据门户数据推送Step4 消费数据hiveMysqlExcelClickhouse.数据来源BI开放集成数据抽取KwaiBI核心四步骤:数据接入,数据准备,分析数据,消费数据快手BI平台演进与实践2快手一站式BI平台-发展历程2020年-2021年2021年-至今2019年以前按需定制(开源,采购,自研报表)数据来源TableauHUE老报表Superset产品开源 采购简单报
5、表开源 采购简单报表+KwaiBI 1.0 KwaiBI分析产品矩阵规模MAU:3000MAU:8000MAU:1.5w+特点扩展差、体验差,成本高分析能力较弱,运维成本高,定制成本高一站式体验,分析能力强、场景覆盖度高、质量保障强数据来源数据来源快手一站式BI-KwaiBITableauHUEKwaiBI1.0Superset平台化初步建设(KwaiBI1.0 初步完成搭建)分析产品矩阵(通用分析与专题分析)工具化体系化平台化 平台化-背景介绍烟囱式建设HUE简易报表MYSQLHiveMysqlDruid取数报表可视化可视化需求交付专业数据服务团队数据消费用户可视化+取数KwaiBI1.0D
6、ruid.平台化-面临的挑战挑战一:烟囱挑战一:烟囱式开发,导致研发效率低式开发,导致研发效率低,用户体验差,用户体验差KwaiBKwaiBI1.0I1.0、TableauTableau、H Hueue、SupersetSuperset、自研老报表自研老报表、老推送平台老推送平台等等,8 8套套数据工具数据工具并存并存。挑战二:挑战二:分析门槛高,分析效率低分析门槛高,分析效率低需掌握需掌握SQLSQL等技能才能做数据分析等技能才能做数据分析,业务同学不具备业务同学不具备SQLSQL能力,能力,这些需求无这些需求无论大小均交论大小均交由由DEDE完成完成挑战三:数据质量问题多,数据口径难保障挑
7、战三:数据质量问题多,数据口径难保障数据多处开发,多处加工,多处消费,数据多处开发,多处加工,多处消费,数据质量问题频繁发生数据质量问题频繁发生体系化-核心打法“平台化”-”体系化“,核心打法三步走:1.“消灭烟囱”,统一化产品,降低研发成本,提升体验2.搭建”自助分析工具”,降低分析门槛3.实践”HeadLessBI”理念,一处定义,多处生效,保障数据质量烟囱式开发-问题分析与解决思路问题分析:KwaiBI 1.0 功能及易用性不足梳理KwaiBI1.0平台,存在数百个功能缺失与体验问题用户NPS调研中,发现体验与功能问题严重影响用户使用KwaiBI 1.0 架构难扩展,难添加新能力解决思路
8、:消灭烟囱引入清晰可扩展分层架构设计全面梳理功能缺失和易用性问题,体系化补齐缺失能力消灭烟囱-统一技术分层架构BI技术架构=查询模型计算服务+语义模型平台化 技术架构KwaiBIKwaiBI SQL查询引擎Hive表TableauVizQL查询引擎SupersetNativeSQL查询路由老报表平台自订SQL查询路由MysqlDruidkuduHUEHiveSQL查询路由.交互界面查询模型查询引擎数据模型取数可视化大屏RedisHbaseDruidHive统一数据集语义模型统一查询引擎查询模型统一语言(OAX)计算服务体系化 技术架构消灭烟囱-统一语言OAX介绍OAX(Open Analysi
9、s Expression)开放分析表达式取数可视化大屏RedisHbaseDruidHive统一查询引擎查询模型统一语言(OAX)计算服务0304050102数据的观察角度,即从哪个角度去分析问题,看待问题;用户可使用数据集字段和UDF来定义维度例如:城市、区域从维度的基础上去衡算这个结果的值;用户可使用数据集字段和UDF来定义指标例如:GMV数据源和可视化展示的中间环节,承接数据源的输入,并为用户输出模型例如:国民经济数据集观察指标数据的时间范围例如:2022年观察局部角度的结果值,包括维度筛选和结果值筛选例如:城市=上海维度指标数据集时间范围过滤条件分析五要素分析需求:2022年中国分城市
10、GMV数据取数服务消灭烟囱-统一语言OAX案例+GMV整体 +GMV分城市 +GMV同比OAX DSLNative SQL翻译分析需求:2022年中国分城市GMV(占比,年同比)维度指标数据集时间范围过滤条件消灭烟囱-统一查询引擎缓存加速层SQL构建层元数据层(数据集)查询构建层执行计划层引擎查询层AST树构建SQL构建缓存构建缓存预热淘汰模型维度指标表达式权限DAG计划构建查询适配器引擎查询视图查询构建二次加工计算HIVE Druid其他CH Mysql执行引擎看版分析大屏取数分析应用分析查询引擎统一DSL(OAX)Dag计划/查询优化元数据驱动缓存管理适配引擎查询与结果处里消灭烟囱-统一化
11、产品收集历史功能最小功能集可扩展架构扩展能力平滑迁移RedisHbaseDruidHive统一数据集补齐功能n个,优化体验n个语义模型统一查询引擎补齐功能n个,优化体验n个查询模型统一语言(OAX)补齐功能n个,优化体验n个计算服务取数补齐功能n个优化体验n个可视化补齐功能n个优化体验n个分析补齐功能n个优化体验n个推送补齐功能n个优化体验n个门户补齐功能n个,优化体验n个消灭烟囱-成果收益用户体验月活用户提升87.5%满意度评分上升至4.5+,NPS60+资源成本节省至少5HC开发人力 节省了对外采购费用研发效能线上问题数周均:下降63%产品体验问题周均:下降69%研发Oncall投入:下降
12、+50%分析门槛高-问题分析与解决思路原因分析:1.数据表直接面向用户:使用数据表需要理解数仓和数据引擎(CK、Hive、Druid等),门槛高,让很多同学对大数据有畏惧心2.缺少易用的分析工具:SQL取数(写SQL)为主要的数据分析工具,对DA更友好,但对产运门槛高解决思路:构建自助分析工具,降低门槛引入数据语义层,将数据表抽象成业务视角的指标维度,屏蔽底层数据表构建低门槛的多维分析产品,让用户通过简单产品交互即可完成数据分析构建自助分析工具-统一数据集方案统一数据集=数据模型+指标维度集合五元组访问协议HiveCKMySQL指标取数可视化数据推送门户数据取数服务.统一数据集五元组访问协议(
13、数据集维度+指标+时间+过滤条件)数据模型关系(星型模型、雪花模型等)指标维度集合统一数据集为数据语义化中间层,将数据抽象成指标维度集合,解耦底层异构数据源和上层数据应用 五元组访问协议:已经成为快手BI领域标准访问协议,广泛应用于各类数据应用产品 指标维度集合:基于数据模型定义的指维度,形成的指标维度集合 数据模型关系:用户可以通过SQL或可视化方式构建构建数据模型关系(星型模型、雪花模型等),形成一个数据集HiveCKMySQL指标取数可视化数据推送门户数据取数服务.构建自助分析工具-统一数据集架构ClickHouse文件逻辑表逻辑表逻辑表逻辑表模型模型模型模型数据集数据集数据集数据集指标
14、指标维度指标指标维度指标指标维度指标指标维度物理层逻辑层模型层语义层数据报告数据可视化数据分析数据共享应用层11N1N1N N模型化逻辑化语义化服务化统一数据集三层抽象,提供统一数据集服务(元数据,查询)构建自助分析工具-多维分析技术架构标准化协议:标准五要素访问协议可扩展架构:可视化组件,高级分析函数,数据源高速查询引擎:支持异步降级查询,支持对数据集进行缓存、物化、预热生态开放化:标准化分析可视化对内互联互通,对外提供多种开放SDK,API,RPC能力,业务按需集成架构特点轻量化ETL直连接入数据集多维分析整体技术架构数据准备数据分析模型信息指标维度构建自助分析工具-成果收益多维分析平台让
15、更多业务同学从“提数据需求”到“自助数据分析”,极大推进业务自助分析效率 更多人开始分析数据:总查询人数增长29%,成为产运主要分析工具。更多人依赖自助分析产品:自助分析产品查询人数占比增长到76%整体分析效率提高:调研发现97%的人认为自助取数工具明显提升了工作效率数据质量差-问题分析A同学定义指标活跃用户数SQL数据加工1生成数据集A制作报告1数据表B同学定义指标活跃用户数SQL数据加工2生成数据集B制作看版2C同学定义指标活跃用户数SQL数据加工3生成数据集C制作推送3数据生产者数据消费者活跃用户数?活跃用户数?活跃用户数?风险1不同人对指标定义不同风险2不同数据开发加工逻辑不同重复确认
16、口径重复加工数据重复建设数据集占用资源X 命名不一致X 加工不一致X 口径不一致问题分析=最终数据口径与质量难保障数据质量差-解决方案数据仓库定义指标口径A指标加工A构建数据集数据报告定义指标口径A指标加工B构建数据集数据分析定义指标口径A指标加工C构建数据集数据推送数据源数据源数据源传统BI架构:多处定义,多处加工,多处使用指标中台数据仓库定义指标口径A指标加工A数据服务数据报告数据分析数据推送数据源数据源数据源统一数据服务统一分析查询引擎统一API自动构建数据集HeadLessBI架构:一处定义,一处开发,一处服务,多处复用HeadLessBIHeadLessBI-技术架构DruidKwa
17、iBI专题分析业务,场景,经营.业务系统指标/维度管理表管理数据集管理智能模型构建模型检索HBASE模型层数据存储元数据层非标数据集标准数据集OneMetric统一指标管理OneService统一数据集服务模型层服务层查询服务元数据服务应用层HeadLessBI 成果收益模式UGC非标准数据集PGC标准数据集质量各自定义多种口径统一定义统一口径 效率反复开发各自服务一次开发多处使用成本重复计算多份存储一次计算一份存储收益数据问题多指标数100w+单数据集平均查询人数:10人单数据集平均查询次数:600无D0/D1事故指标数3w+单数据集平均用户数:100+单数据集平均查询数:2w+定义指标M1
18、专业数据开发者数据消费者开发数据表加入数据集取数可视化推送绑定指标PGC数据表定义指标M1SQL定义口径取数可视化推送定义指标M1SQL定义口径定义指标M1SQL定义口径新建数据集新建数据集新建数据集生产者消费者UGC“UGC的服务模式”(用户自己定义指标,自己使用)“PGC的服务模式”(指标统一由专业同学定义开发,用户直接使用)实践总结-快手一站式BI平台整体架构快手-大数据计算和存储快手-数据智能开发和管理平台ClickhouseDruidHiveExcel/CSVRedisMysqlDocs数据源生产统一数据集服务(分析查询引擎)数据建模指标中台指标维度术语名词业务逻辑逻辑表管理模型构建
19、模型物化模型服务数据集管理智能取数服务元数据服务接入准备应用取数SQL取数分析报表数据门户自助分析模板取数Notebook指标取数PC看版移动端数据大屏数据监控/推送异常监控智能归因构建门户门户运维KIM推送业务部门个人经营 找数 取数 分析 报表 监控 预警业务门户邮件推送可视化数据资产增强分析图表分析交互多端组件资产信息血缘信息产出信息异常波动表達式消费場景服务元数据中心权限中心快手BI平台实战案例3快手一站式BI平台-UGC模式实战案例自助分析手机移动端业务门户配置看板办工软件配置大屏推送播报kwaiBI 一站式自助分析平台运营门户数据集业务或个人数据消费场景作战室大屏智能预警数据源A数
20、据仓库数据源B数据源C数据源D数据源E接入服务应用数据源A数据源B数据源C手工建模指标指标维度定义指标SQL加工整表接入数据源接入123数据集开发数据表数据分析产品消费侧UGC手工构建模型定义指标口径生产侧UGC模式:用户自助进行数据加工与分析,一站式体验快手一站式BI平台-PGC模式实战案例业务数据集市管理开发数据模型指标中台新增指标业务指标体系数据分析产品电商业务线,各分析需求 (看大数,监控,推送,分析,专题定制)消费侧生产侧经营数据集A业务主题数据集B业务主题数据集C业务主题数据集E自助分析手机移动端业务门户配置看板办工软件配置大屏推送播报业务主题数据集FkwaiBI 一站式自助分析平
21、台运营门户电商数据集市电商业务消费场景作战室大屏智能预警PGC数据源A数据仓库数据源B数据源C数据源D数据源EPGC模式:HeadLessBI x 一站式BI,业务分析提效10倍接入服务应用快手一站式BI平台-数据准备预览手工建模(构建UGC数据集)自动建模(构建PGC数据集)指标中台指标/维度管理数据表管理数据集管理维表维表维表维表维表维表维表维表维表维表维表维表维表维表维表维表维表维表星座模型雪花模型星型模型自动建模自动建模快手一站式BI平台-数据应用预览取数(SQL/模板/拖拽)分析(自助拖拽/代码)可视化(看版,移动端,大屏)数据门户数据推送/监控告警总结与未来规划4思考总结BI商业智能AI人工智能曾发生了什么?为什么曾发生什么?将来会发生什么?我们该做什么?事后诸葛有所洞察洞烛先机难度价值低高低高自动化决策自动决策现状与未来BI自助化AI智能化更全面更高效更易用智能分析智能配置智能运维统一化建设,消灭烟囱 BI分层架构 统一化产品自助分析工具,降低门槛 统一数据集 多维分析工具HeadLessBI,提升质效 指标中台 PGC数据服务体系化建设未来现在THANKSK+峰会北京站官网AiDD峰会北京站官网