上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

7-2 基于 Doris 的知乎 DMP 平台的架构与实践.pdf

编号:102393 PDF 26页 3.46MB 下载积分:VIP专享
下载报告请您先登录!

7-2 基于 Doris 的知乎 DMP 平台的架构与实践.pdf

1、基于 DORIS 的知乎DMP 系统的架构与实践侯容 知乎用户理解&数据赋能研发 Leader|01背景背景DMP 业务DMP 业务流程DMP 画像特征DMP 功能梳理02架构与实现架构与实现DMP 架构DMP 平台功能盘点 业务向DMP 平台功能盘点 基础向特征数据链路及存储人群定向流程03难点及解决方案难点及解决方案人群定向性能优化-第一阶段人群定向性能优化-第二阶段04未来展望未来展望业务向技术向目录目录CONTENT|背景01|DMP 业务知乎业务中存在哪些问题需要解决?为什么要建立 DMP 平台来解决这些问题?|DMP 业务流程当前这些业务的运营流程是怎样的?DMP 如何与业务结合并

2、赋能?|站内运营自闭环内容运营活动运营用户运营站内向站外投放闭环增长投放站外向站内广告闭环广告投放DMP 画像特征当前有哪些画像特征?这些特征是如何分层分类的?量级如何?|3 层级特征分类一级分类 8 组二级分类 40 组标签组 120 个性别、手机品牌、话题兴趣标签 250 万男|女、HUAWEI|Apple、对影视内容感兴趣程度高DMP 功能梳理DMP 通过设计哪些功能模块,支持相应的业务流程?|架构与实现02|DMP 架构|DMP 通过设计怎样的架构来降低实现业务功能的复杂度?拆分后,不同模块的设计重心对外模块DMP 接口:高稳定性、高并发高吞吐DMP 前台:操作简单,低运营使用成本DM

3、P 后台:日常开发工作配置化,降低开发成本业务模块人群圈选:可扩展。新增特征 0 成本,新增规则低成本。人群洞察:可扩展。新增特征 0 成本,新增洞察方式低成本。人群泛化:可扩展。新增泛化方式低成本。特征生产:扩展成本低。原子特征低成本生产,派生特征通过后台可配置ID Mapping:屏蔽 ID 打通逻辑计算任务运维:屏蔽机器资源和任务依赖的逻辑存储:可扩展可持续,不因业务成长而导致成本大幅增加DMP 平台功能盘点|数据量级120 个标签组250 万个标签1100 亿条用户 x 标签的数据业务向DMP 上线至今支持了5+万人群定向400+次人群洞察60+次人群泛化DMP 平台功能盘点|数据量级

4、每日 2.x TB 共 5 日 11 TB(离线、实时)特征(Doris)120 个离线生产任务和 5 个实时生产任务每日 6100 次人群预估,300 个人群圈选,1-2 个人群洞察,1 个人群泛化任务基础向特征数据链路及存储|数据量级特征链路离线:Hive-特征抽取-离线标签-实时:Kafka-特征抽取-实时标签-存储Doris用户 x 标签:用户有哪些标签(1100 亿)id mapping:id 转化宽表(8.5 亿)ElasticSearch标签枚举表:标签中文信息及搜索(250 万)DMP 的批量、流式特征如何建设并落地到相应的存储?人群定向流程人群定向分哪几个过程?怎么做的?|标

5、签搜索人群预估人群圈选人群泛化人群定向流程很多,以下说几种典型的:1.标签加购物车-圈选。2.传种子人群-泛化。3.历史效果人群-泛化-叠加本次运营特点-圈选。4.历史效果人群-洞察-重新生成标签关系-圈选-叠加历史正向人群-泛化-限制分发条件-圈选。5.等等对标签、历史人群进行组合、泛化、再限制条件再圈选、洞察,最后再调整等等泛化结果生成人群、标签难点及解决方案03|人群定向性能优化|背景和难点人群定向性能优化|第一阶段人群定向性能优化第一阶段 倒排索引及 id mapping|partition_sign 分区标识(日期、群组等)tag_group、tag_value_id 标签组和标签值

6、 idcondidence 置信度区间 50 55、55 60 members 该特征用户 bitmap1.特征提取,生成标签2.通过用户、设备等基础设施新增、获取一个统一用户 id3.通过统一 id 和其他信息的关联结果生成id_mapping 表倒排索引ID Mapping人群定向性能优化第一阶段 查询逻辑变更|过滤条件从 where 条件中的 and、or、not 替换为查询聚合函数的 bitmap_and 等。取用户方式从 id 列表转化为 id bitmap 结果人群定向性能优化|第二阶段人群定向性能优化|第二阶段 分而治之将连续一块的用户 id的不同 tag 的数据,都增加统一的

7、group字段进行分组。在 group 内完成交并差后,最后进行数据汇总。同时开启多线程模式,提升每组的计算效率。人群定向性能优化|第二阶段 数据预置 colocate join优化前优化后Colocate 原理未来及展望04|未来及展望业务向|目标指向能力提升目标结果与平台由松耦合转变为强绑定实验与流程强绑定实验能力与平台由流程绑定转变为逻辑绑定未来及展望技术向|提升查询效率自动探测 SQL 复杂查询条件预先合并成一个派生特征的 bitmap,预测和圈人时对复杂条件 SQL 重写为派生特征提升导入速度Spark 直接写 Doris Tablet 文件,并挂在到 FE01背景背景DMP 业务DMP 业务流程DMP 画像特征DMP 功能梳理02架构与实现架构与实现DMP 架构DMP 平台功能盘点 业务向DMP 平台功能盘点 基础向特征数据链路及存储人群定向流程03难点及解决方案难点及解决方案人群定向性能优化-第一阶段人群定向性能优化-第二阶段04未来展望未来展望业务向技术向回顾回顾|非常感谢您的观看|

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(7-2 基于 Doris 的知乎 DMP 平台的架构与实践.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部