《9-3 网易严选 DMP 标签系统建设实践.pdf》由会员分享,可在线阅读,更多相关《9-3 网易严选 DMP 标签系统建设实践.pdf(28页珍藏版)》请在三个皮匠报告上搜索。
1、网易严选网易严选DMPDMP标签标签系统建设系统建设实践实践刘晓东-资深服务端开发工程师CONTENTSCONTENTS目目录录平台平台总览总览01标签标签生产生产02标签标签存储存储03高性能高性能查询查询04未来未来规划规划05平台平台总览总览01DMP标签系统营销选品智能触达数据驱动赋能业务自营平台集团共建三方数据用户洞察标签体系人群圈选画像分析数据融合资产沉淀产品功能数据服务构建以数据为核心的标签体系和画像体系,辅助业务精细化运营标签画像分析人群圈选重要概念标签标签即Tag,用于描述业务实体特征的数据形式。通过标签对业务实体进行刻画,从多角度反映业务实体的特征。例如:年龄段、居住地等0
2、2人群圈选通过条件组合从全体用户中圈出一部分用户。具体就是指定一组用户标签和其对应的标签值,得到符合条件的用户人群。例如,找出城市为杭州,且年龄段为20-30的用户。画像分析对于人群圈选结果,查看该人群的行为情况、标签分布。例如查看城市为杭州,且性别为女性的用户在严选APP上的行为路径、消费模型等核心能力标签标签查询人群圈选结果集分组判断结果集拉取画像分析标签查询获取特定实体指定标签,常用于基本信息展示人群圈选分组判断 判断用户是否在指定的一个或者多个分组,用于资源投放、触点营销等结果集拉取 拉取指定的人群数据到业务方系统中,进行定制化开发画像分析 分析特定人群的行为数据、消费模型等分布情况,
3、进行更精 细的运营业务流程定义JQL2-SQL计算Spark存储Hive&Doris查询标签实体、分组查询技术架构Store&QueryHiveDoris语义转化JQL2(表示层DSL)ParserHiveSQLDorisSQlMetadata(元数据)TableInfo(源表)MetricInfo(基础标签)Translators(业务语义转化)EnvironmentMetricTableSpark调度平台azkabanLabelService(标签管理、生成等)FactGroupService(实体分组服务)QueryService(基础标签数据服务)AnalysisService(画像分
4、析服务)分组刷新高级计算Redis服务层调度层计算存储层元数据管理数据同步缓存清理标签生命周期标签需求运营以业务增长为目标,提出标签需求并设定价值预期。产品评估需求合理性和紧迫性效果评估产品、数据开发和运营评估标签的使用率、使用效果。对标签进行改进或降级。精准营销运营针对圈选出的人群进行一系列的营销活动人群圈选运营根据规则圈选指定的人群排期生产数据开发梳理数据,建立模型,排期上线,并做好质量监控以业务增长为目标,围绕标签的生命周期,投入合理的资源,最大化运营效果标签标签生产生产02数据分层登录日志埋点记录交易数据ods用户登录表用户活动表订单信息表dwddm用户行为汇总表用户消费汇总表标签离线
5、标签近实时标签实时标签聚合标签明细标签标签分类T+1分钟/小时毫秒级账号属性消费行为活跃行为用户偏好资产信息时效性聚合粒度标签组合基础数据业务标签 一个或者多个基础数据组成 具有明确的业务含义 部分标签支持前端组件(选渠道、选商品等)和存储中的字段一一对应 数据比较原始,抽象层次不够 使用相对繁琐配置组合人群圈选离线人群包+实时行为人群圈选-翻译DSLHiveSQLESQueryDorisSQLspark分组刷新高级计算数据清理自动化生产依赖检查自动调度任务调度框架ApacheDoris标签标签存储存储03存储要求标签计算存储触点营销资源投放AB测试DSP 支持高性能查询 支持SQL 支持更新
6、机制 可存储大数据量 支持扩展函数 和大数据生态结合紧密承接C端流量,具备支撑大流量、低延时及高稳定性的能力存储版本一Elasticsearchimpala离线数据实时数据 存储引擎众多,运维和存储成本较高 存在数据质量问题隐患 项目复杂,可维护性较差静态圈选实时行为双写存储版本二离线数据实时数据ApacheDoris 实时存储引擎得到统一 性能损失在可容忍范围内 项目简化,降低维护成本静态圈选实时行为存储对比适用适用场景场景不适用不适用场景场景HBase点查、大数据量复杂查询、数据分析场景ES全文检索、监控分析数据分析场景KuduHive体系的数据更新高性能的查询场景Impala分析场景高性
7、能的查询场景ApacheDoris高性能查询、分析场景非常频繁的写入ClickHouse数据分析场景高并发的查询、分析场景高性能高性能查询查询04分组存在性查询API上下文实时行为人群静态人群包人群包LuaScriptFactIdFactSetIdFactSetIdFactSetIdFactSetId规则链路 异步化并行查询 快速短路 查询语句优化ApacheDoris人群分析人群1人群2人群3基础属性路径数据消费数据+路径分析消费模型人群分布updateserializemergefinalizeTopNCounterDorisUDFApacheDoris一些实践点查批量查询实践:点查及少量表的联合查询性能非常棒(QPS万级,RT99 50MS)水平扩展很强,运维成本比较低 和大数据生态结合的还不错 大量小数据量的导入任务资源占用较多,需要批量导入路径分析FitsAllApacheDoris人群圈选未来未来规划规划05未来规划标签体系精准运营 更加丰富准确的标签评价体系 提升标签质量和产出速度 提升标签覆盖率 更加丰富的用户分析模型 用户洞察模型评价体系(使用频次、用户价值)通用化画像能力建设存储&计算ApacheDorisTHANK YOUTHANK YOU