上海品茶

数仓模型管理与标签资产价值评估实践_copyright by lrh_20240526.pdf

编号:164065 PDF 26页 2.36MB 下载积分:VIP专享
下载报告请您先登录!

数仓模型管理与标签资产价值评估实践_copyright by lrh_20240526.pdf

1、DataFunSummitDataFunSummit#20242024数仓模型管理与标签价值评估实践演讲人-李然辉-京东科技-数据资产管理专家京东科技大数据之路此部分内容作为文字排版占位显示(建议使用主题字体)数仓模型管理此部分内容作为文字排版占位显示(建议使用主题字体)标签价值评估此部分内容作为文字排版占位显示(建议使用主题字体)总结与展望此部分内容作为文字排版占位显示(建议使用主题字体)目录 CONTENTDataFunSummitDataFunSummit#2024202401发展历程发展历程DataFunSummitDataFunSummit#2024202402数仓模型管理数仓建设方

2、法论项目规划业务及系统调研仓库架构设计主题模型设计概念模型设计逻辑模型设计物理模型设计开发测试上线部署优化迭代停更下线准备阶段设计阶段开发测试阶段投产阶段一定要分层数仓之父Bill Inmon推出的CIF架构清晰数据结构数据血缘追踪减少重复开发把复杂问题简单化屏蔽原始数据的对业务的影响怎么分层?国内现在较通用的三层架构京东零售数据仓库分层架构 DMx(数据集市层)IDM(整合明细层)SDM(共性加工层)ODM(贴源明细层)DEVDIMSTG(数据缓冲层)京东科技数据仓库分层架构SDPTMP数据模型设计方法范式建模维度建模混合建模每层侧重采用的方法不同DMX(宽表模型)SDM(维度模型)IDM(

3、3NF模型)公共模型层侧重采用维度建模为主,范式建模为辅助的建模设计方法,最大化发挥数据管理、应用性能、灵活扩展等优势m:nm:nm:n一定要做数据探查数据分析验证分类单源数据列分析类型监测异常值监测跨列分析功能相关性分析表分析主键唯一性分析跨表分析外键分析血缘分析多源数据数据覆盖重复值检测字段最小值最大值平均值标准差偏度唯一有效编号12010.55.916-20姓名-2020年龄234936.109.3030.077-19性别-319收入22009200567823770.028-19模型设计数据标准嵌入 业务术语管理 1.先申请后使用 2.产品自动生成 数据血缘关系 字段级算子血缘 1.M

4、apping设计 2.逻辑转换规则 模型评审 评分卡 1.如何评价模型好坏?2.治理原则符合性:eg.中台复用&成本:当前业务场景下该模型是否唯一?DataOps 1.业务参与评审 2.减免逻辑模型设计文档等 数据模型评分卡序号 评分指标评分项评分标准满分评分建议1模型设计完整性满足需求程度XXX 5 2元数据完整性XXX 53模型设计规范性字段规范化XXX 54命名标准化XXX 55模型设计通用性模型扩展性XXX 56模型治理原则符合性唯一性XXX 57模型加工设计专业性模型加工逻辑准确性XXX 58模型加工逻辑可读性XXX 59模型加工文档更新及时性XXX 5总分 模型使用制定模型元数据标

5、准标准制定与执行 1.包括业务元数据、技术元数据、管理元数据在内的共24个属性2.元数据管理系统按照标准进行采集和检查提升模型元数据质量 补充完善 1.对于缺失的元数据要求补充 2.对于不合格的元数据要求完善 监控与通报 1.自动识别元数据不合格的模型 2.定期通报存在元数据质量问题的个人和部门 模型治理数据认责 唯一负责人 1.每个模型必须有一个唯一负责人 2.数据负责人的职责正式化 数据资产移交 1.离职流程加入资产移交审批节点 2.数据资产管理平台提供一键移交便捷操作功能 模型健康度评估 存储健康评估 元数据健康评估 数据安全健康评估 满意度调查和意见反馈 平台功能支持 问卷调研Data

6、FunSummitDataFunSummit#2024202403标签价值评估数据资产价值评估方法来源:Gartner为何及如何衡量信息资产的价值报告标签数据资产价值评估模型数据热度 应用场景经济性(U)标签数据资产价值(BVI)标签质量有效性(V)稳定性(S)覆盖率(C)稀缺性(S)广度(B)深度(P)数据频率(T)标签资产价值评估指标名称:标签质量(quality)权重:10%一、指标定义:通过有效性和稳定性两个维度去衡量标签质量,各占50%1、有效性(vaild):有效性是针对给标签主体打的标签,准确反应事实的对象数量与总对象数量的比例。2、稳定性(stable):标签的枚举值数量分布变

7、化情况。通过统计每个评估周期标签枚举占比情况来计算稳定性权重:10%二、落地方案:quality=valid*50+stable*50 1、有效性(vaild):、样本数据验证:用真实样本数据进行准确性验证,准确率即为有效性得分;样本数据按月更新,可以是京东员工数据、外部采买数据以及使用方反馈的真实数据。适用于性别、星座等枚举型统计类标签以及挖掘类标签;、加工口径验证:数据加工口径确认没有问题,即认为有效性为满分1。适用于基金持仓金额、白条消费金额等数值型统计类标签以及规则类标签;(人工盘点)2、稳定性(stable):计算方法:根据T+0月标签枚举值平均占比 和 T+1月标签枚举值平均占比

8、进行 稳定性计算,计算公式:stable=1-备注:针对稳定较差,波动性较大的公共标签,将定期追溯原因,并在产品中进行说明;iiniiiEAEApsiln)(1iAiEpsipsi标签资产价值评估指标名称:数据频率(frequency)权重:5%一、指标定义:指标签的数据更新周期,分为实时更新、日更、周更、月更、年更5种,不同更新频率的标签数据时效性得分不同;二、落地方案:盘点各标签数据更新周期,year:20,month:40,week:60,day:80,realtm:100,计算公式:freshness=map.get(frequency)指标名称:覆盖率(coverage)权重:22%

9、一、指标定义:被打了该标签的对象的数量占总对象的数量的比例,比如【熬夜用户】标签的覆盖数量是4千万,用户总量为13亿,那么【熬夜用户】。标签的覆盖率=4千万/13亿=3.769%;二、落地方案:Coverage=(tag_cnt(打了该标签的数量)/id_cnt(总对象的数量))*100标签资产价值评估指标名称:标签热度(popularity)权重:23%一、指标定义:指标签被应用系统应用情况,包含触达到应用系统数量和用于取值服务应用系统数量以及被应用系统调用的次数;二、落地方案:盘点标签触达应用的数量和用于取值服务应用系统的数量,两者加和的数量记作标签应用系统数量 app_cnt,依据app

10、_cnt的正态分布情况,进行评分 A:20,B:60,C:100。(每次周期性盘点,会重新进行正态分布)盘点标签被应用系统调用次数记作 app_visit_cnt,依据 app_visit_cnt的正态分布评估进行评分 a:20,b:60,c:100(每次周期性盘点,会重新进行正态分布)计算公式:popularity=map.get(app_cnt)*70%+map.get(app_visit_cnt)*30%(由于目前标签系统没有记录针对每个标签应用系统调用梳理的数据,所以公式暂时为:popularity=map.get(app_cnt))标签资产价值评估指标名称:应用场景经济性(econo

11、my)权重:25%指标名称:稀缺性(Scarcity)权重:15%一、指标定义:数据的价值在于与应用场景(scene)的结合,应用场景经济性指在具体场景下,数据的经济价值,高场景经济性意味着高数据价值。标签的应用场景经济性,只标签应用到哪些经济场景,经济场景高则标签的数据价值高。二、落地方案:盘点标签触达应用系统,根据应用系统区分应用场景,暂定以下三个应用场景以及对应的经济价值性得分,客服与营销场景:100,合规风控场景 70,管理决策场景 40 (人工盘点)计算公式:economy_score=map.get(scene)一、指标定义:数据在市场上的稀缺程度,物以稀为贵,数据越稀缺价值越大。

12、二、评分标准:依据市场探查结果,假设某数据在市场上有n个提供方(包括我们自己),那么该数据的稀缺性为:1/n*100*最大可替代率,满分为100分;标签数据资产价值评估的结果应用与效果对用户 根据标签价值评估的各个维度进行标签的选择使用对标签运营人员 提升标签的覆盖度、稳定性等维度进行,进而提升标签的价值;自动识别并清理低价值资产主要作用DataFunSummitDataFunSummit#2024202404总结与展望123展望总结l数据湖的灵活性与数据仓库的数据可靠性和查询能力相结合,数仓需要找到自己明确的定位l数仓的产生距今已经30多年了,随着数据湖等数据架构的发展,是不是数仓就可以被取

13、代了呢?l不再对数据流向做强管控,提升数据使用的效率和成本,只将部分数据集中在数仓做,集市层有需要酌情可以下沉数仓。数据来源也可以是多种途径;推动数据标准落地,保障数据可联通性、一致性数据仓库架构数据模型管理标签价值评估总结与展望123展望总结l我们建立了贯穿事前、事中和事后的数据模型的管理体系,重点包括数据探查、模型评审和模型健康评估l下一步的目标是采用无维建模方法,虽然我们为了敏捷跳过了逻辑模型设计,但是我们将充实概念数据模型;实现元数据驱动的模型设计和变更;利用主动元数据、知识图谱和LLM实现数据好找、好理解、好使用数据仓库架构数据模型管理标签价值评估总结与展望123展望总结l刚才主要介绍了我们团队做的非货币化的标签数据价值评估l另外,我们也通过A/B实验做了部分标签财务收益的价值评估l下一步计划打通后链路做财务收益价值评估l我们还将为标签数据资源入表做好准备。包括成本核算、价值评估、安全合规等凭证和披露个方面数据仓库架构数据模型管理标签价值评估总结与展望感谢观看

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(数仓模型管理与标签资产价值评估实践_copyright by lrh_20240526.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

 wei**n_... 升级为至尊VIP wei**n_... 升级为高级VIP 

 小**Y 升级为至尊VIP wei**n_... 升级为至尊VIP 

 134**85...  升级为标准VIP 乐**... 升级为高级VIP 

139**86... 升级为至尊VIP  185**28...  升级为高级VIP

 wei**n_... 升级为高级VIP  微**... 升级为至尊VIP

 136**76... 升级为高级VIP 156**77... 升级为高级VIP 

 wei**n_... 升级为标准VIP wei**n_... 升级为高级VIP  

185**08... 升级为高级VIP   wei**n_... 升级为至尊VIP

151**13...  升级为至尊VIP 136**32... 升级为高级VIP 

  wei**n_... 升级为至尊VIP 132**99...  升级为高级VIP 

 Hen** H... 升级为高级VIP wei**n_...   升级为至尊VIP

 wei**n_... 升级为标准VIP S** 升级为标准VIP 

wei**n_... 升级为至尊VIP   wei**n_... 升级为高级VIP

wei**n_...   升级为高级VIP  188**66... 升级为至尊VIP 

 wei**n_... 升级为高级VIP  181**98...  升级为标准VIP

wei**n_... 升级为至尊VIP   180**15... 升级为高级VIP

 136**53... 升级为标准VIP  wei**n_...  升级为至尊VIP

 150**25...  升级为至尊VIP  wei**n_... 升级为标准VIP

wei**n_... 升级为标准VIP  wei**n_... 升级为标准VIP

wei**n_...  升级为高级VIP  135**09...  升级为至尊VIP

微**...  升级为标准VIP  wei**n_... 升级为标准VIP

wei**n_...  升级为标准VIP wei**n_...  升级为至尊VIP

 wei**n_...  升级为至尊VIP wei**n_... 升级为标准VIP 

138**02...  升级为至尊VIP   138**98... 升级为标准VIP

微**...  升级为至尊VIP wei**n_...  升级为标准VIP 

wei**n_... 升级为高级VIP  wei**n_... 升级为高级VIP 

wei**n_...  升级为至尊VIP 三**... 升级为高级VIP 

 186**90... 升级为高级VIP  wei**n_...   升级为高级VIP

133**56... 升级为标准VIP     152**76... 升级为高级VIP

 wei**n_... 升级为标准VIP   wei**n_...  升级为标准VIP

wei**n_...  升级为至尊VIP wei**n_... 升级为标准VIP 

133**18... 升级为标准VIP   wei**n_...  升级为高级VIP

 wei**n_... 升级为标准VIP  微**... 升级为至尊VIP

wei**n_...  升级为标准VIP wei**n_...  升级为高级VIP

187**11...  升级为至尊VIP  189**10...  升级为至尊VIP 

 188**51... 升级为高级VIP   134**52... 升级为至尊VIP

134**52...  升级为标准VIP  wei**n_... 升级为高级VIP

 学**...  升级为标准VIP liv**vi...  升级为至尊VIP

大婷  升级为至尊VIP wei**n_...  升级为高级VIP

wei**n_... 升级为高级VIP   微**... 升级为至尊VIP

微**... 升级为至尊VIP   wei**n_... 升级为至尊VIP 

  wei**n_... 升级为至尊VIP   wei**n_... 升级为至尊VIP

 战** 升级为至尊VIP   玍子 升级为标准VIP

 ken**81...  升级为标准VIP 185**71... 升级为标准VIP 

 wei**n_... 升级为标准VIP  微**... 升级为至尊VIP

 wei**n_... 升级为至尊VIP 138**73... 升级为高级VIP

 138**36... 升级为标准VIP   138**56...  升级为标准VIP

 wei**n_... 升级为至尊VIP wei**n_...  升级为标准VIP

137**86...  升级为高级VIP 159**79...  升级为高级VIP

wei**n_... 升级为高级VIP  139**22... 升级为至尊VIP