《2024-05-26-datafun-杨嵩-腾讯游戏数据指标体系的高性能保障-定稿.pdf》由会员分享,可在线阅读,更多相关《2024-05-26-datafun-杨嵩-腾讯游戏数据指标体系的高性能保障-定稿.pdf(18页珍藏版)》请在三个皮匠报告上搜索。
1、腾讯游戏数据指标体系腾讯游戏数据指标体系的高性能的高性能保障保障单位:腾讯游戏单位:腾讯游戏/公共数据平台公共数据平台部部分享人:杨嵩分享人:杨嵩时间:时间:2024-05-262024-05-26目录目录l 01 背景l 02 怎么做的l 03 致谢0101背景背景1.1.业务业务背景背景背景背景腾讯游戏:一个腾讯游戏:一个拥有上百款游戏的产品拥有上百款游戏的产品矩阵矩阵业务时间跨度:从业务时间跨度:从20032003至今,跨越至今,跨越2121年年游戏用户量:游戏用户量:过亿过亿超级游戏超级游戏业务业务截止截止目前,累计数据量:目前,累计数据量:PBPB,万张表万张表相当于相当于4 4千万
2、张千万张DVDDVD光盘的存储光盘的存储量量每天新增数据:超过万亿条,每秒超过千万条每天新增数据:超过万亿条,每秒超过千万条相当于相当于500500次春运的社会次春运的社会人流量人流量海量游戏海量游戏数据数据这么多数据,能用在什么地方呢?这么多数据,能用在什么地方呢?2.2.数据应用场景数据应用场景背景背景案例一:游戏案例一:游戏排行榜排行榜案例二:案例二:皮肤抽奖皮肤抽奖案例三:分析看板(案例三:分析看板(讨论重点)讨论重点)分析看板的年访问量超千万次,服务用户超分析看板的年访问量超千万次,服务用户超万名。万名。那么这样稳定数据指标体系,是怎么做到那么这样稳定数据指标体系,是怎么做到的?的?
3、总结和总结和思考思考数据纯属虚构数据纯属虚构eg:FASTeg:FAST指标评估看板指标评估看板3.3.我们的目标,我们的目标,以及遇到的以及遇到的问题问题背景背景腾讯游戏数据指标体系面临的主要问题(在降低数据成本的同腾讯游戏数据指标体系面临的主要问题(在降低数据成本的同时、提高数据研效、改善数据质量、安全使用时、提高数据研效、改善数据质量、安全使用数据)数据)1 1、工程效率、工程效率、人效比人效比;2 2、海量指标场景下的数据一致性、海量指标场景下的数据一致性问题;问题;3 3、数据服务、数据服务多样性;多样性;4 4、数据、数据安全;安全;问题相似,但场景不同,解法不同问题相似,但场景不
4、同,解法不同定义来源:腾讯集团通道制度能力模型完备性完备性重复性重复性合规性合规性准确性准确性一致性一致性及时性及时性埋点上报埋点上报数据数据存储存储数据数据计算计算数据数据应用应用高性能高性能数据数据治理治理高性能的高性能的定义定义主要主要问题问题0202怎么做怎么做的的【问题一】研效。使用【问题一】研效。使用框架化思维,框架化思维,实现游戏实现游戏80%80%的共性的共性指标指标怎么做怎么做的的怎么应付怎么应付上百款游戏的数据指标开发?上百款游戏的数据指标开发?常规方法:人海战术。假设常规方法:人海战术。假设每款游戏配置每款游戏配置1 1名数据开发人员名数据开发人员结果:天价的人力成本(上
5、百个指标开发人员,年成本超结果:天价的人力成本(上百个指标开发人员,年成本超5 5亿)亿)遇到的遇到的问题问题现象现象1 1:王者荣耀要计算日活跃指标,和平精英也要:王者荣耀要计算日活跃指标,和平精英也要看!看!本质本质1 1:经典指标具有经典指标具有通用性通用性现象现象2 2:王者荣耀要分析英雄的登场率,英雄联盟手游也要:王者荣耀要分析英雄的登场率,英雄联盟手游也要看!看!本质本质2 2:相似类型的游戏也有:相似类型的游戏也有通用性通用性现象现象3 3:指标的开发流程很类似,:指标的开发流程很类似,BIBI平台是平台是同一个同一个本质本质3 3:ETLETL可以管线可以管线化化思考思考sou
6、rce-ETL-sink-BIsource-ETL-sink-BI平台平台举例:举例:compute_dau.py -game_id=compute_dau.py -game_id=传参传参1 1、sourcesource:约定数据源的:约定数据源的元数据元数据2 2、ETLETL:配置式开发,:配置式开发,低代码低代码3 3、sinksink:约定落地表的:约定落地表的元数据元数据4 4、BIBI平台:配置式开发,平台:配置式开发,无代码无代码【落地【落地效果】效果】600600款游戏共用一套代码生成共性指标款游戏共用一套代码生成共性指标平均平均4h4h完成三千个完成三千个指标指标解决了经典
7、指标的一致性解决了经典指标的一致性问题问题解法解法数据纯属虚构数据纯属虚构【问题一】研效。使用【问题一】研效。使用框架化思维,框架化思维,实现游戏实现游戏80%80%的共性的共性指标指标怎么做怎么做的的数据纯属虚构数据纯属虚构举举例例1 1、封装整个上报、计算、看板配置流程,打包成一个、封装整个上报、计算、看板配置流程,打包成一个sdksdk;通过参数配置,实例化不同的游戏;通过参数配置,实例化不同的游戏;2 2、低代码甚至、低代码甚至无代码;无代码;3 3、需要数据上报环节、需要数据上报环节、BIBI平台方的配合;平台方的配合;【问题一】【问题一】研效研效。使用。使用数据资产化思维,数据资产
8、化思维,实现游戏实现游戏20%20%的的特性指标特性指标怎么做怎么做的的1 1、烟囱式开发,各做各的,无法形成复合、烟囱式开发,各做各的,无法形成复合力;力;2 2、开发流程没有复用性,这次慢,下次、开发流程没有复用性,这次慢,下次还慢;还慢;3 3、研效问题,找不到表、不会选、研效问题,找不到表、不会选表;表;4 4、指标同名不同值的问题,花费大量时间在数据核对、指标同名不同值的问题,花费大量时间在数据核对环节;环节;遇到的遇到的问题问题【丰田五问法找原因】丰田五问法找原因】Q1Q1、为什么研效不高?、为什么研效不高?A1A1、因为指标的数量又多又复杂、因为指标的数量又多又复杂Q2Q2、那为
9、什么这次和上次的研效相比没有提高?、那为什么这次和上次的研效相比没有提高?A2A2、因为相同的开发流程要重来一次、因为相同的开发流程要重来一次Q3Q3、那为什么相同的流程要完全重复?、那为什么相同的流程要完全重复?A3A3、因为上次做过的代码或中间表没有保留、因为上次做过的代码或中间表没有保留Q4Q4、那为什么不把做过的事沉淀下来?、那为什么不把做过的事沉淀下来?A4A4、因为没有表的复用性思维、因为没有表的复用性思维Q5Q5、那为什么没有表的复用性思维?、那为什么没有表的复用性思维?A5A5、因为开发者不了解数据资产化思维、因为开发者不了解数据资产化思维思考思考1 1、思想钢印:在团队内宣导
10、资产化、思想钢印:在团队内宣导资产化思维思维2 2、组织变化:数仓团队分为资产组、组织变化:数仓团队分为资产组、应用组应用组3 3、流程改革:资产组对指标开发流程做、流程改革:资产组对指标开发流程做注解注解【落地效果】【落地效果】复利效应,研效随着资产的沉淀,复利效应,研效随着资产的沉淀,越做越快越做越快效率提高效率提高70%70%解决了反向依赖、数据一致性的解决了反向依赖、数据一致性的问题问题解法解法【问题一】【问题一】研效研效。使用。使用数据资产化思维,数据资产化思维,实现游戏实现游戏20%20%的的特性指标特性指标怎么做怎么做的的【措施】措施】1 1、数据资产组负责复用性资产的沉淀,只要
11、开发、数据资产组负责复用性资产的沉淀,只要开发2 2次以上的指标,都会沉淀成次以上的指标,都会沉淀成资产;资产;2 2、约束了输入(数据源),根治了、约束了输入(数据源),根治了“找表难找表难”问题,问题,简化了数据应用的工作难度;简化了数据应用的工作难度;3 3、看似链路长了,其实分工更明确了,整体效率、看似链路长了,其实分工更明确了,整体效率提高提高70%70%;举例举例待开发待开发的指标的指标开发者开发者理解理解指标指标找找数据源数据源开发和开发和交付交付待开发待开发的指标的指标数据资产组数据资产组理解理解指标指标找找数据源数据源伪代码伪代码数据应用组数据应用组开发和开发和交付交付优化之
12、前优化之前优化之优化之后后【问题一】【问题一】研效研效。使用敏捷分析对。使用敏捷分析对EDAEDA(探索性数据分析探索性数据分析)场景二次)场景二次提效提效怎么做怎么做的的尽管框架化尽管框架化+资产化,解决了绝大多数指标的研效问题,但在资产化,解决了绝大多数指标的研效问题,但在EDAEDA场景下,仍存在不足。场景下,仍存在不足。数据开发人员需要提供数据开发人员需要提供“保姆式服务保姆式服务”,应对业务人员对指标,应对业务人员对指标定义定义频繁的、简单的频繁的、简单的修改。修改。遇到的遇到的问题问题例如:对游戏大例如:对游戏大R R(高付费玩家)的分析,充值多少才算是大(高付费玩家)的分析,充值
13、多少才算是大R R玩家?一千还是玩家?一千还是一万?一万?由于需要由于需要EDAEDA,因此指标无法确定,需要开发者贴身,因此指标无法确定,需要开发者贴身服务。服务。那么,能否让修改指标定义那么,能否让修改指标定义+分析的过程,由分析分析的过程,由分析者闭环?者闭环?思考思考解法解法ClickHouseStarRocksStarRocksMPP是是硬件要求高高单表查询极致性能优多表join差优数据湖支持中优存储介质本地磁盘多种存算分离否是冷热分离支持支持数据可靠性批次同步,中自动同步,优可运维性差优【问题一】【问题一】研效研效。数仓。数仓+AIAI,提升,提升SQLSQL编写研效编写研效怎么做
14、怎么做的的LLMLLM的风口下,如何利用大模型提升指标开发的的风口下,如何利用大模型提升指标开发的效率?效率?遇到的遇到的问题问题1 1、行业动态:模型效果提升变慢,工程化应用、行业动态:模型效果提升变慢,工程化应用愈演愈烈愈演愈烈2 2、可行性分析:、可行性分析:LLMLLM在公共数据集下,在公共数据集下,TextToSQLTextToSQL的准确率的准确率与人类相当;但在真实数据集下,准确率不到与人类相当;但在真实数据集下,准确率不到70%70%【结论结论】LLMLLM存在存在SQLSQL编写的想象空间,但需要人帮助编写的想象空间,但需要人帮助LLMLLM更更清楚的理解业务数据集!清楚的理
15、解业务数据集!思考思考解法解法ODSODSD DWDWDDWSDWSADSADSODSODSD DWDWDDWSDWS语义层语义层传统传统数仓数仓新型新型数仓数仓问题集(问题集(“今天的今天的DAUDAU是多少?是多少?”)资产推荐资产推荐组件组件是否是否准确准确YN人工指定人工指定资产资产PromptPrompt优化优化器器LLMLLM(GPTGPT、混元)混元)是否是否准确准确【问题一】【问题一】研效研效。数仓。数仓+AIAI,提升,提升SQLSQL编写研效编写研效怎么做怎么做的的案例一:对业务案例一:对业务人员返回人员返回指标指标平台或人工指定表平台或人工指定表平台或人工指定平台或人工指
16、定指标指标数据纯属虚构数据纯属虚构数据纯属虚构数据纯属虚构案例二:对案例二:对分析师返回分析师返回SQLSQL【问题二】【问题二】数据一致性。使用数据一致性。使用指标原子化思想,解决指标二义性指标原子化思想,解决指标二义性问题问题怎么做怎么做的的1 1、指标同指标同义不同名,同名不同义义不同名,同名不同义2 2、不知道这个、不知道这个指标有没有,自己随便造指标有没有,自己随便造3 3、对一个新业务进行分析,没有参考指标、对一个新业务进行分析,没有参考指标遇到的遇到的问题问题为什么会发生上面的问题?原因为什么会发生上面的问题?原因如下:如下:1 1、指标定义没有人统一、指标定义没有人统一管理管理
17、2 2、指标缺乏严格的上线、下架、指标缺乏严格的上线、下架流程流程3 3、指标元数据无处可查、指标元数据无处可查思考思考解法解法业务方业务方提出指标提出指标需求需求指标指标委员会委员会评估评估合理性合理性YN指标中心做变更指标中心做变更知会知会各用户各用户业务方业务方查询查询【问题三】人肉识别异动指标【问题三】人肉识别异动指标不精确。使用不精确。使用异动告警,来提高开发人员的异动告警,来提高开发人员的业务敏感度业务敏感度怎么做怎么做的的指标波动现象频繁出现,如何自动化识别正常波动、异常波动,指标波动现象频繁出现,如何自动化识别正常波动、异常波动,进而主动处理进而主动处理异常问题?异常问题?难点
18、难点1 1:运营导致的波动很多,游戏天天:运营导致的波动很多,游戏天天做活动做活动难点难点2 2:超过一万个的海量:超过一万个的海量指标指标遇到的遇到的问题问题指标异动的指标异动的原因:原因:1 1、营销、营销活动带来的指标高点,例如情人节的情侣皮肤销售活动带来的指标高点,例如情人节的情侣皮肤销售量;量;2 2、ETLETL异常,例如服务器故障导致在线玩家数量异常,例如服务器故障导致在线玩家数量掉零;掉零;具体具体表现:空值、掉零、指标曲线变平、表现:空值、掉零、指标曲线变平、突增突降突增突降采取:采取:规则监控规则监控+波形监控波形监控思考思考解法解法业务业务DBDB指标指标中心中心异动分析
19、模型异动分析模型异动异动分类分类ExemplarExemplar学习学习3sigma3sigma方法方法业务喜报业务喜报/异常异常推送推送【问题四】数据【问题四】数据安全。使用联邦学习安全。使用联邦学习,在合规要求下进行,在合规要求下进行交叉分析交叉分析怎么做怎么做的的在个人信息保护法、数据安全法实施之后,数据孤岛在个人信息保护法、数据安全法实施之后,数据孤岛现象愈演愈烈,业务团队无法安全合规的进行交叉现象愈演愈烈,业务团队无法安全合规的进行交叉分析。分析。egeg:20182018年年FacebookFacebook的数据泄露事件影响的数据泄露事件影响87008700万万用户用户遇到的遇到的
20、问题问题现有现有方案:方案:1 1、通过宣导、签署保密协议等方式保障数据可控(存在、通过宣导、签署保密协议等方式保障数据可控(存在隐患)隐患)2 2、基于、基于iptableiptable的私有化物理数据集群(运维成本的私有化物理数据集群(运维成本高)高)新思路:新思路:基于联邦学习的多方安全计算(基于联邦学习的多方安全计算(数据各方保有、不出库数据各方保有、不出库)思考思考解法解法参与方参与方A A参与方参与方B B同态加密同态加密RSARSA公钥公钥加密加密RSARSA私钥私钥解密解密数据数据A1A1数据数据A2A2数据数据A1A1同态加密同态加密数据数据B1B1对对齐齐计计算算无需申请明文无需申请明文数据权限数据权限