《基于深度学习的个性化推荐系统实时化改造与升级-王华峰.pdf》由会员分享,可在线阅读,更多相关《基于深度学习的个性化推荐系统实时化改造与升级-王华峰.pdf(44页珍藏版)》请在三个皮匠报告上搜索。
1、基于深度学习的个性化推荐系统实时化改造与升级王华峰阿里云计算平台事业部经典离线推荐系统回顾实时推荐系统演进HSAP(Hybrid Serving/Analytical Processing)理念介绍新型的深度学习个性化推荐系统架构介绍经典离线推荐系统回顾搜推广业务用户行为日志离线数仓推理服务特征存储数据加工用户/商品特征(T+1)样本存储样本拼接模型中心离线训练算法模型(T+1)经典离线推荐系统局限性静态的模型和特征一旦某个用户被划分为某个类别,则他将一直处于这个类别,直到被新的模型训练重新分类,用户的行为越来越多元化,无法划分到某个固定类别冷启动场景,用户特征不存在,难以精准推荐无法快速迭代
2、模型算法离线=实时实时特征:商品最近5分钟的点击量、过去7天的浏览量实时样本&在线训练离线推荐系统搜推广业务用户行为日志离线数仓推理服务特征存储数据加工用户/商品特征(T+1)样本存储样本拼接模型中心离线训练算法模型(T+1)实时推荐系统搜推广业务用户行为日志离线数仓推理服务特征存储离线特征用户/商品特征消息队列实时特征计算实时推荐系统搜推广业务用户行为日志离线数仓推理服务特征存储离线特征用户/商品特征样本存储模型中心消息队列实时特征计算实时样本拼接在线训练离线训练实时推荐系统搜推广业务用户行为日志离线数仓推理服务特征存储离线特征用户/商品特征样本存储模型中心消息队列实时特征计算实时样本拼接在
3、线训练离线训练实时数仓BI实时推荐系统搜推广业务用户行为日志离线数仓推理服务特征存储离线特征用户/商品特征样本存储模型中心消息队列实时特征计算实时样本拼接在线训练离线训练实时数仓BIApache Flink简介高性能低延迟的纯流式计算引擎流批一体提供SQL接口,开发简单Alink:基于Flink的通用算法平台实时推荐系统搜推广业务用户行为日志离线数仓推理服务特征存储离线特征用户/商品特征样本存储模型中心消息队列实时特征计算实时样本拼接在线训练离线训练实时数仓BI实时推荐系统搜推广业务用户行为日志Hive推理服务Hbase/Redis离线特征用户/商品特征Hive模型中心Kafka实时特征计算实
4、时样本拼接在线训练离线训练ClickhouseBI实时推荐系统的挑战样本数据的一致性(实时ETL作业Failover)样本Label的一致性(支付行为发生在点击行为之后很久)高吞吐低延迟实时推荐系统搜推广业务用户行为日志离线数仓推理服务?离线特征用户/商品特征?模型中心Kafka实时特征计算实时样本拼接在线训练离线训练?BI什么是HSAP?Hybrid Serving/Analytical Processing 统一的数据存储 统一的数据服务接口BatchAnalyticalServingTransactionHSAPHSAP理念的由来KafkaFlinkSubscriptionRealtim
5、e IngestionDim JoinHBaseCassandraDashboardsPoint Lookups 点查HSAP理念的由来KafkaFlinkSubscriptionRealtime IngestionDim JoinClickHouseDruidHBaseCassandraPrestoReportsDashboardsPoint Lookups 点查Realtime Analytics实时OLAP分析HSAP理念的由来KafkaFlinkSubscriptionArchivingRealtime IngestionDim JoinHiveClickHouseDruidHBase
6、CassandraPrestoReportsDashboardsBatch Processing批处理Point Lookups 点查Realtime Analytics实时OLAP分析HSAP理念的由来KafkaFlinkSubscriptionArchivingRealtime IngestionDim JoinHiveClickHouseDruidHBaseCassandraDrillPrestoReportsDashboardsBatch Processing批处理Batch Acceleration 离线加速Federated Analytics 联邦计算Point Lookups
7、点查Realtime Analytics实时OLAP分析HSAP理念的由来KafkaFlinkSubscriptionArchivingRealtime IngestionDim JoinHiveClickHouseDruidHBaseCassandraDrillPrestoRedisMysqlAPIApplicationsReportsDashboardsResultCachingBatch Processing批处理Batch Acceleration 离线加速Federated Analytics 联邦计算Point Lookups 点查Realtime Analytics实时OLAP分
8、析结果缓存HSAP理念的由来Lambda架构痛点数据冗余,储存成本大数据孤岛问题严重,数据一致性问题难以保证涉及多套存储、计算系统,运维、学习成本高昂什么是HSAP?Hybrid Serving/Analytical Processing 统一的数据存储 统一的数据服务接口BatchAnalyticalServingTransactionHSAP引入HSAP后的架构KafkaHiveAPIApplicationsReportsDashboardsHSAPHDFSFlinkUnified Data Storage&ServiceHSAP系统的核心特性Point Query(毫秒级响应,用于API
9、服务,类HBase)OLAP Query(PB级复杂查询,毫秒级交互式分析,类Clickhouse)统一的实时存储 支持实时写入,实时更新(主键),低延迟,写入即可见 工作负载的隔离 标准SQL用户接口,无缝对接BI HSAP+实时推荐系统?搜推广业务用户行为日志离线数仓推理服务Hbase/Redis离线特征用户/商品特征Hive模型中心Kafka实时特征计算实时样本拼接在线训练离线训练ClickhouseBIHSAP+实时推荐系统搜推广业务用户行为日志推理服务HSAP离线特征用户/商品特征Hive模型中心Kafka实时特征计算实时样本拼接在线训练离线训练ClickhouseBI离线数仓HSA
10、P+实时推荐系统搜推广业务用户行为日志推理服务HSAP离线特征用户/商品特征HSAP模型中心Kafka实时特征计算实时样本拼接在线训练离线训练ClickhouseBI离线数仓HSAP+实时推荐系统搜推广业务用户行为日志推理服务HSAP离线特征用户/商品特征HSAP模型中心Kafka实时特征计算实时样本拼接在线训练离线训练HSAPBI离线数仓HSAP+实时推荐系统搜推广业务用户行为日志推理服务HSAP离线特征用户/商品特征模型中心Kafka实时特征计算实时样本拼接在线训练离线训练BI离线数仓引入HSAP所解决的问题用户行为日志的一致性:现实中实时ETL作业难免会Failover,使用传统的HDF
11、S存储行为日志数据会造成重复数据,需额外运行job进行全局的distinct计算。而我们的HSAP系统支持按照主键去重,保证了写入的幂等性,避免数据重复。引入HSAP所解决的问题样本Label的一致性:点击率Join曝光流生成样本数据,依赖Flink的Retraction机制以及HSAP系统的实时更新能力,进行实时的样本修正。我们的方案搜推广业务用户行为日志推理服务Hologres离线特征用户/商品特征模型中心Datahub 实时特征计算实时样本拼接在线训练离线训练BIMaxComputeHologres简介第一个基于HSAP理念实现的实时数仓 兼容PostgreSQL 行存、列存、行列混存云
12、原生,存储技术分离C+Native执行引擎,SIMD达摩院Proxima向量检索能力Binlog能力,实时消费数据Changelog推理及实时样本拼接解决方案搜推广业务推理服务Hologres用户/商品特征消息队列 实时特征更新KeyKeyValueValueK1V1K2V11推理及实时样本拼接解决方案搜推广业务推理服务Hologres用户/商品特征消息队列 实时特征更新RequestFeaturesReqID,FeatureKey,ItemsItemsRequest推理及实时样本拼接解决方案搜推广业务推理服务Hologres用户/商品特征消息队列 实时特征更新RequestFeaturesR
13、eqID,FeatureKey,ItemsItems用户点击ItemFlink双流JoinFeatureKey,Feature,timestampReqID,FeatureKey,Item,label,timestamp样本推理及实时样本拼接解决方案搜推广业务推理服务Hologres用户/商品特征消息队列 实时特征更新RequestFeaturesReqID,FeatureKey,ItemsItems用户点击ItemFlink双流JoinReqID,FeatureKey,Item,label,timestamp样本KeyKeyValueValueTimestampTimestampK1V110
14、:00K1V210:30总结将一个基于HSAP(Hybrid Serving/Analytical Processing)理念设计的实时数仓引入至实时推荐系统,再结合Flink的实时处理能力,大大简化了整个系统的架构,减少了数据的冗余,降低了整个链路的运维以及存储成本。附录VLDBVLDB Paper:Paper:Alibaba Alibaba HologresHologres:A Cloud-Native Service for Hybrid:A Cloud-Native Service for Hybrid Serving/Analytical Processing Serving/Ana
15、lytical Processing ShardShardCacheHOS SchedulerWorker NodeShardShardCacheHOS SchedulerWorker NodeShardShardCacheHOS SchedulerWorker NodeParser&OptimizerCoordinatorFrontendShardShardShardMCMCShardMCPangu File SystemOSSOSSHiveHiveData LakeShardShardCacheHOS SchedulerWorker NodeStore ManagerResource ManagerClientHologres架构StorageFrontend:认证、解析、优化Worker Node:计算资源HOS:轻量级调度框架Shard:数据分片Cache:分层缓存Resource:容器资源管理Store:元数据管理计算存储分离Compute(Coming Soon)