上海品茶

快看漫画个性化推荐探索与实践(36页).pdf

编号:15924 PDF 36页 2.36MB 下载积分:VIP专享
下载报告请您先登录!

快看漫画个性化推荐探索与实践(36页).pdf

1、快看漫画个性化推荐探索与实践 夏 博 2 0 1 9 年 9 月 目录 一、业务介绍 二、技术挑战 三、技术探索 四、总结与未来规划 目录 一、业务介绍 二、技术挑战 三、技术探索 四、总结与未来规划 了解快看漫画 ? 中国新生代内容社区和原创IP平台 ? 截至2019年7月总用户量已经突破2亿,注 册用户量突破1亿,月活突破4000万 ? 绝大多数用户属于高活跃、高粘性的95后、 00后 ? 被 QuestMobile 等机构评为“最受 00 后 欢迎的产品 快看漫画推荐业务 ? 长漫画 ? 短漫画 ? 图文帖子 ? 视频帖子 ? 人 精准匹配 内容 内容形式推荐业务场景 上海品茶个性 推荐ta

2、b 世界页推 荐tab 帖底相关 推荐 发现页推 荐tab 目录 一、业务介绍 二、技术挑战 三、技术探索 四、总结与未来规划 内容形式多样 长内容短内容 ? 漫画、小说等 ? 大块时间,阅 读周期长 ? 连续性、周期 性、多章节多 兴趣点 ? 短视频、新闻资讯、 用户帖子等 ? 碎片化时间,阅读时 间短 ? 兴趣点通常单一 ? 技术上如何捕捉长内容的 连续性、周期性、多兴趣 点等特点? ? 快看漫画既有长内容又有 短内容,如何较好的融合 两类内容? 挑战: 内容风格独特 图像文本 ? 漫画图像 ? 帖子图片 ? 帖子内容 ? 弹幕 ? 评论 ? 如何进行漫画类图像内容 理解? ? 独特社区文

3、化,新生代文 化“暗语”,给文本内容理解 带来挑战 挑战: 目录 一、业务介绍 二、技术挑战 三、技术探索 四、总结与未来规划 算法方面的探索 系统架构方面的探索 推荐算法演进 前深度学习时代深度学习时代 协同过滤 FM,FFM LR GBDT FNN Wide&Deep DeepFM XGBoost DIEN ? 可解释 ? 易训练 ? 易部署 ? 效果更好 ? 算法平台搭建周 期更长 ? 难以解释和干预 快看推荐算法迭代 基于内容协同过滤XGBoost深度学习 2019年前2019年上半年2019年到现在未来 基于内容的推荐 标签 用户偏好 内容理解 兴趣模型 推荐 结果 ? 基于已有标签

4、快速实现推 荐功能 ? 可解释性强 优点: 阅读历史 快看漫画标签体系 ?作品基础维度 ?用户分发维度 ?内容创作维度 搞笑 日常 青春 治愈 彩色 单元剧 中性 青少年 现代 青春成长 学生 兄妹 校园 阳光 逗比 用户兴趣模型 ?相关行为 ?行为粒度(作品or章节) ?章节数量 ?兴趣衰减 ?作品热度 用户兴趣 恐怖0.5 搞笑0.6 玄幻0.4 热血0.8 悬疑0.6 作品兴趣度标签兴趣度 阅读 关注 点赞 评论 分享 基于内容推荐总结 ? 非常依赖标签 ? 推荐粒度较粗,召回不足 ? 缺乏新颖性 DAU人均阅读 次数率提升35% 缺点: 基于协同过滤 ?基于物品的协同过滤(Item-B

5、ased) ?基于用户的协同过滤(User-Based) ?基于模型的协同过滤(Model-Based) KNN召回 基于用户的协同算法用户相似度计算量巨大? ANN(Approximate Nearest Neighbor) nmslib vs. faiss 单机CPU的benchmark 训练集:1,183,514 维度:200 近邻数:100 Nmslibfaiss 实现语言C+C+ Python绑定 GPU支持 HNSW算法 其他算法 VP-Tree, NAPP, SW-graph LSH IVF(IndexIVFFlat) IVFADC(IndexIVFPQ) , IVFADC-R(

6、IndexIVFPQR) KNN召回 Faiss IndexIVFFlat 训练&建索引 1.聚类(聚类中心存储在量化器quantizer中) 2.找到每个向量最近的聚类中心点 3.建立倒排id list 4.建立倒排code list 搜索topK 1.搜出查询向量最近的n个聚类中心点ID及对应的距离 2.构建k个元素最大堆 3.Id对应的倒排list每个向量计算距离后放入最大堆 4.堆排序 Faiss IndexIVFPQ 更加复杂,计算残差,通过构建二级索引加速计算 基于协同过滤总结 DAU人均阅读 次数提升31% ? 倾向于推荐热门内容 ? 对新用户和新内容不友好 ? 相似矩阵的计算量

7、大 缺点: 召回排序模型 Content-based CTR预估 UserCF ItemCF Items Data Items Items Items Items Items SVD ALS FM Items 召回层排序层 常用CTR预估算法 = 1 1 + = 0+ =1 + =1 =+1 , = 0+ =1 + =1 =+1 , , LR FM & FFM DNN GBDT CTR预估 算法模型优势劣势低阶特征 表达 高阶特征 表达 LR 1)模型简单,善于处理离散化特征 (包括id类特征); 2)容易实现分布式,可处理大规模 特征和样本集 1)特征需要离散化; 2)特征之间在模型中是孤立

8、的,需要做大 量特征工程来做特征交叉 XGBoost 1)树模型具有一定的组合特征能力; 2)善于处理连续特征,可进行特征 筛选,人工特征工程量少 1)具有很强的记忆行为,不利于挖掘长尾 特征; 2)组合特征的能力有限 FM&FFM 1)可以自动进行特征间的组合, 2)通过引入特征隐向量,加速了训 练的复杂度,善于处理稀疏数据 1)工作量接近深度学习,效果不如深度学 习 2)FFM计算复杂度高 DNN 1)可直接输入原始特征,减少交叉 特征选择 2)效果好 1)可解释性差 2)模型可能较大,调参复杂,需要较大的 工程支持 CTR预估 算法模型优势劣势低阶特征 表达 高阶特征 表达 LR 1)模

9、型简单,善于处理离散化特征 (包括id类特征); 2)容易实现分布式,可处理大规模 特征和样本集 1)特征需要离散化; 2)特征之间在模型中是孤立的,需要做大 量特征工程来做特征交叉 XGBoost 1)树模型具有一定的组合特征能力; 2)善于处理连续特征,可进行特征 筛选,人工特征工程量少 1)具有很强的记忆行为,不利于挖掘长尾 特征; 2)组合特征的能力有限 FM&FFM 1)可以自动进行特征间的组合, 2)通过引入特征隐向量,加速了训 练的复杂度,善于处理稀疏数据 1)工作量接近深度学习,效果不如深度学 习 2)FFM计算复杂度高 DNN 1)可直接输入原始特征,减少交叉 特征选择 2)

10、效果好 1)可解释性差 2)模型可能较大,调参复杂,需要较大的 工程支持 召回排序模型总结 DAU人均阅读 次数提升36.6% 现状和问题: ? 特征还需要进一步挖掘 ? 模型的训练效率有待提升 ? 探索尝试新模型提升效果 算法方面的探索 系统架构方面的探索 架构的重要性 算法是大脑,架构是骨架,如果没有好的推荐系统架构,算法很难 落地 好的推荐系统需要具备的特质: ?实时响应请求 ?及时、准确、全面的记录用户反馈 ?优雅降级 ?快速迭代推荐策略、算法 经典Netflix推荐系统架构 ?离线层 o 不用实时数据,不提供实时服务 ?近线层(准实时层) o 使用实时数据,不保证实时服务(秒级) o

11、 近在线计算的完成是为了响应用户事件, 增量学习算法很 适合应用在接近在线计算中 ?在线层 o 使用实时数据,要保证实时服务(毫秒级) o 在线服务的各组件要满足SLA对可用性和响应时间的要求 快看推荐系统架构 IOS/Android/WebIOS/Android/Web 服务端(漫画,社区) 推荐引擎 热度池 精品池 运营池 兴趣 召回 相似 召回 PredictorPredictor kNNkNN FlumeFlume KafKafk ka a 标签索引向量索引 数 据 指 标 监 控 服 务 监 控 FlinkFlink SqoopSqoop UserHistoryUserHistory

12、 推荐结果追踪 模型训练 UserProfileUserProfile 特征工程 实时用户画像 历史用户画像 动态文档 静态文档 SparkSpark DocumentDocument HDFSHDFS 业 务 库 客户端 算法模型 标签权重调参工具 UserCFUserCF ItemCFItemCF User2UserUser2User 排序 召回 基础服务 工具 在线层近线层离线层其他 AB实验平台 ?产品各层级自上而下统一的实验标识, 方便联动 ?随机分组方式 设备随机 用户随机 流量随机 ?通过实验分层支持正交实验 ?支持互斥实验 ?确保流量调整时用户稳定落在某一分组 12345 12

13、345 12345 20% 4% UI层 推荐策略层 推荐算法层 1234 1234 X实验Y实验 正交 互斥 AB实验平台 ?指标计算 可配置的指标类目 增长率(相比对照组的) 显著性(增长是否足够明显P-Value) 有效性(计算结果是否可靠Power) Power功效显著描述 0.8, 1)SS非常有效 0.5, 0.8)S有效 0,0.5)N无效,建议继续实验 P-Value统计显著描述 0, 0.01SS非常显著 (0.01, 0.05S显著 (0.05, 1)N不显著 推荐结果追踪 ?推荐结果Debug的困难 个性化推荐链路长、涉及多个端的开发 推荐结果提供可解释性 Bad cas

14、e发生时候的上下文丢失 Bad case引起的原因错综复杂 ?如何解决?追踪工具 支持历史推荐结果查询 支持推荐结果溯源 历史画像Snapshot 用户对推荐结果的行为 推荐引擎 LogConsumer HBase 客户端 Monitor Kafka 目录 一、业务介绍 二、技术挑战 三、技术探索 四、总结与未来规划 总结 ? 介绍快看和快看的推荐业务 ? 从算法和系统两方面介绍了快看推荐 技术在起步阶段的一些探索 ? 介绍了大规模K近邻计算方法、AB实 验平台搭建等常用技术的落地方案 未来规划 ? 内容理解是推荐业务的基石,目前这块儿还比较 欠缺,未来将探索漫画领域的图像和文本内容理 解技术 ? 传统机器学习方法探索充分之后将尝试深度学习 推荐算法,以期更好的推荐效果

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(快看漫画个性化推荐探索与实践(36页).pdf)为本站 (起风了) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

185**10...  升级为标准VIP wei**n_...  升级为至尊VIP

高兴  升级为至尊VIP wei**n_... 升级为高级VIP  

 wei**n_... 升级为高级VIP 阿**...  升级为标准VIP 

wei**n_...  升级为高级VIP  lin**fe...  升级为高级VIP

wei**n_...  升级为标准VIP   wei**n_...  升级为高级VIP

wei**n_... 升级为标准VIP  wei**n_... 升级为高级VIP

 wei**n_...  升级为高级VIP  wei**n_... 升级为至尊VIP

wei**n_... 升级为高级VIP   wei**n_... 升级为高级VIP

 180**21... 升级为标准VIP 183**36...  升级为标准VIP

wei**n_...  升级为标准VIP   wei**n_... 升级为标准VIP

xie**.g... 升级为至尊VIP  王**  升级为标准VIP

 172**75... 升级为标准VIP wei**n_...  升级为标准VIP 

wei**n_... 升级为标准VIP   wei**n_...  升级为高级VIP

135**82...  升级为至尊VIP 130**18...  升级为至尊VIP

wei**n_... 升级为标准VIP    wei**n_... 升级为至尊VIP

wei**n_... 升级为高级VIP  130**88...   升级为标准VIP

张川  升级为标准VIP  wei**n_... 升级为高级VIP 

 叶** 升级为标准VIP wei**n_... 升级为高级VIP 

138**78... 升级为标准VIP  wu**i 升级为高级VIP 

wei**n_...  升级为高级VIP wei**n_...  升级为标准VIP

wei**n_...  升级为高级VIP   185**35...  升级为至尊VIP

  wei**n_... 升级为标准VIP  186**30... 升级为至尊VIP

 156**61... 升级为高级VIP 130**32... 升级为高级VIP 

 136**02... 升级为标准VIP wei**n_...  升级为标准VIP 

 133**46... 升级为至尊VIP  wei**n_... 升级为高级VIP 

180**01... 升级为高级VIP    130**31... 升级为至尊VIP

wei**n_... 升级为至尊VIP   微**... 升级为至尊VIP 

wei**n_...  升级为高级VIP wei**n_... 升级为标准VIP 

 刘磊 升级为至尊VIP  wei**n_...  升级为高级VIP

班长  升级为至尊VIP   wei**n_... 升级为标准VIP

176**40... 升级为高级VIP    136**01... 升级为高级VIP

159**10... 升级为高级VIP   君君**i... 升级为至尊VIP

 wei**n_...  升级为高级VIP  wei**n_... 升级为标准VIP 

 158**78...  升级为至尊VIP 微**... 升级为至尊VIP

 185**94... 升级为至尊VIP  wei**n_... 升级为高级VIP

139**90... 升级为标准VIP 131**37... 升级为标准VIP

钟**  升级为至尊VIP wei**n_... 升级为至尊VIP  

139**46... 升级为标准VIP  wei**n_...  升级为标准VIP

wei**n_...  升级为高级VIP 150**80... 升级为标准VIP 

 wei**n_... 升级为标准VIP   GT  升级为至尊VIP

186**25...  升级为标准VIP  wei**n_...  升级为至尊VIP 

  150**68... 升级为至尊VIP wei**n_...  升级为至尊VIP 

130**05... 升级为标准VIP    wei**n_... 升级为高级VIP

 wei**n_...  升级为高级VIP wei**n_... 升级为高级VIP 

138**96...  升级为标准VIP  135**48... 升级为至尊VIP

  wei**n_... 升级为标准VIP 肖彦  升级为至尊VIP

 wei**n_...  升级为至尊VIP  wei**n_... 升级为高级VIP

 wei**n_... 升级为至尊VIP 国**...  升级为高级VIP

 158**73... 升级为高级VIP   wei**n_...  升级为高级VIP

wei**n_...  升级为标准VIP  wei**n_... 升级为高级VIP