1、B站基于Flink的生态化实践 郑志升 实时平台负责人 Ecological practice of bilibili based on Flink ETL On Flink #2 Realtime future #1 AI On Flink #3 Future development #4 Realtime Feature #1 生态场景辐射 Scene radiation 离线计算 注重成本,占比大头 实时计算 更注重价值,时效 增量计算(数据湖) 平衡了成本,综合价值和时间 Offline calculation Realtime calculation Increment calcul
2、ation B站 - 时效性 离线计算 实时计算 增量计算(数据湖) 实时计算 实时AI,推荐、搜索等 数据应用,渠道分析投放等 报表、OLAP、监控等实时化 离线计算 数据辐射面广,主要以数仓为主 增量计算(数据湖) 场景稀少,如binlog的增量Upsert要 求 20% 75% 5% Bilibili - Timeliness ETL时效差 ETL has poor timeliness 传输管道缺乏计算能力 数据无法前置清洗,落地后加重ODS到DW负担 资源编排压力大 大量离线作业资源集中爆发在凌晨后,难打散,SLA低 离线和实时的gap难满足 大部分数据,对于纯实时则成本过高,而纯离
3、线则时效太差 Mysql数据的入仓时效不够,超大规模的业务表同步时间过长且不稳定 Pipeline lack of computing power Resource is difficult to arrange Real-time and offline gap cant satisfy AI实时工程复杂 AI real-time engineering is so complex 特征工程效率低 计算逻辑的重复开发,特征的实时和离线计算 实验链路长,运维及管控成本高 经常性遇到一个问题,全链路排查非常复杂痛苦 一个完整的实时推荐链路,涵盖了N个实时和M个离线作业组成 随着AI人员的投入增多,实验迭代难Scale 缺乏AI领域的元数据体系,实验全链路本身缺乏抽象,很难做到一键实验 Low efficiency of Feature Engineering High cost of exp
1、下载报告失败解决办法 2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。 3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。 4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
张杨-Flink在B站的多元化探索与实践.pdf
三个皮匠报告专业的行业报告下载站,每日更新,欢迎大家关注!
copyright@2008-2013 长沙景略智创信息技术有限公司版权所有 网站备案/许可证号:湘B2-20190120
专属顾问
机构入驻、侵权投诉、商务合作
三个皮匠报告官方公众号
验证即登录,未注册将自动创建三个皮匠报告账号
使用 微信 扫一扫登陆