上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

腾讯:用户画像–大数据时代下的用户洞察报告2015(17页).pdf

编号:78813 PDF    PPTX 17页 1,000.77KB 下载积分:VIP专享
下载报告请您先登录!

腾讯:用户画像–大数据时代下的用户洞察报告2015(17页).pdf

1、用户画像大数据时代下的用户洞察 刘黎春 SNG运营部/数据中心 May 2015 目录 用户画像体系 1 挑战及解决方案 2 用户画像挖掘举例 3 用户画像应用场景 4 SNG数据现状 人口属性 年龄 性别 地域 家乡 关系链 QQ群 QQ关系链 数据现状 移动互联网 LBS 手机APP 移动设备 手Q游戏 游戏 端游 页游 手游 社交&音乐 说说 相册 QQ音乐 增值业务 QQ会员 黄钻 绿钻 QQ秀 QQ 月活跃8.4亿+ 最高同时在线2亿+ QQ空间 月活跃6.5亿+ 用户画像体系 用户画像主要挑战 1. 如何充分利用腾讯各种丰富的数据资源及之间的联系 社交网络 用户群组 LBS日志 多

2、媒体数据 登录IP UGC文本 2. 如何使用户画像适应各种不同的应用场景 推荐 系统 市场 营销 广告 定向 信用 评分 3. 如何高效的处理海量的用户数据(超过10亿的QQ用户, 超过千亿级别的各类日志数据) 用户画像解决方案 1. 针对不同的底层数据类型设计特定的挖掘算法,挖掘用户的行为特征,形成底层标签。综合考虑不同数据来源的,形成更上层的抽象用户标签 2. 建立完善的用户画像标签体系结构,从不同维度、粒度对用户进行描述。 3. 搭建用户画像挖掘系统,基于大规模存储和机器学习计算平台,定期对全量用户数据进行计算和挖掘,并提供用户标签的使用和查询服务。 用户画像挖掘的基本框架 数据源 文

3、本分类 结构数据统计 社交网络分析 LBS数据挖掘 底层标签 底层标签 底层标签 高层标签 社交网络 底层标签 底层标签 底层标签 底层标签 单一数据源挖掘 标签在社交网络中的扩散 从底层标签挖掘高层标签 文本挖掘系统 QQ空间 中文分词 token抽取 tf-idf LDA word2vec 文本预处理 特征提取 logistic regression Kernel SVM Neural Networks 文本分类 针对短文本特点,利用LDA与word2vec进行语义扩展 利用非线性分类器对神经网络得到的特征向量进行分类 QQ群 基于LBS数据的用户画像挖掘 海量用户上报LBS日志 数据清洗

4、 与汇总 LBS位置与 POI匹配 用户-POI 场景判断 用户LBS 标签挖掘 POI类型 登陆次数 时间段分布 天数分布 居住 工作 餐饮 购物 工作 程序员 社交网络与用户画像 局部聚类系数: (local clustering coefficient) 反映用户与好友关系的稳定性 及QQ用户交友的主要目的 社团影响力 PageRank得分 1 2 3 反映用户在社交网络中人脉的丰富程度或重要性 利用Pagerank算法对有向图中的所有节点进行排序,得到不同节点的影响力得分 根据用户间的重要程度,将无向图转化为有向有权重的好友关系图 用户在社交网络中的行为反应出现实生活中的某些特质: 基

5、于社交网络的标签扩散 好友关系 网络下的 标签传播 算法改进: 好友关系类型对传播的影响 好友关系的稳定性对传播的影响 算法应用: 用户基础属性优化,如年龄 用户属性扩散,如职业、学校等 群-用户二 部图下的 标签传播 算法改进: 针对QQ群的特殊场景设计标签传播算法,提升传播效率和准确度 算法应用: 用户属性扩散,如职业、学校等 用户兴趣扩散,如文艺、体育等 不同数据源的融合 职业挖掘 如何判断一个用户工作所在的行业 思路1:根据用户加入的QQ群文本及其他UGC进行文本分类 存在问题:加入群只能反专业业相关兴趣,与职业并无绝对关系 思路2:判断用户工作地点,并根据工作地点推测用户行业 存在问

6、题:同一工作地点可能存在多种不同工作行业 思路3:利用同事间好友关系网络进行行业标签传播 存在问题:好友关系类型比较复杂,无法确定是否为同事 不同数据源的融合 职业挖掘 工作地点 该地点工作的用户及社交网络 Community Detection (FastGreedy算法) 工作社团1 工作社团2 群文本分类 IT行业 金融行业 LBS数据挖掘 根据工作社团的特殊性,将部分用户的行业标签扩散给全体社团成员 名称、简介、公告等 计算平台与系统部署 相册说说 APP文本 群文本 TDW数据仓库 操作行为 LBS数据 关系链 原始 数据层 数据处理层 结构化数据统计 文本分词 LBS与POI匹配

7、模型训练 与预测层 基于Hadoop,Spark和GraphLab等计算平台 无监督模型:word2vec, LDA,社区发现 半监督模型: 标签传播 监督模型:LR, Kernel SVM, Random Forest 标签汇总层 不同算法、数据来源得到标签进行汇总 标签应用层 TDW 离线查询 HBase 实时查询(理论峰值40w/s) 外部数据 用户画像应用 广点通定向投放 用户画像应用 腾讯征信 偿还 历史 信用 账户 第三方 信息 身份 特质 履约 能力 社交 关系 虚拟 财产 腾讯系 用户资料 行为 (通讯/娱乐) 网络 支付 金融 数据模型 社交 数据模型 数据银行 机器学习 用户画像 统计学 谢谢!

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(腾讯:用户画像–大数据时代下的用户洞察报告2015(17页).pdf)为本站 (小时候) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部