上海品茶

2018年支持大数据分析的分布式机器学习系统设计.pdf

编号:95648 PDF 34页 2.16MB 下载积分:VIP专享
下载报告请您先登录!

2018年支持大数据分析的分布式机器学习系统设计.pdf

1、支持大数据分析的分布式机器学习系统设计北京大学 崔斌北京大学-腾讯协同创新实验室汇报内容 问题背景 相关工作 系统设计 总结机器学习机器学习成为挖掘数据价值的主要技术 广告推荐 文本挖掘 视频、图像、语音识别 金融、风险管理 个性化医疗 智能城市挑战 大数据:训练样本数据量超过单机处理能力 大模型:数据稀疏,模型维度与数据维度在一个量级应用案例:腾讯精准广告推荐大数据对广告推荐的挑战千亿级 复杂的用户关系链百亿级 每天推荐请求量千万级 每秒实时预测的广告数量手机QQ 广告微信广告月活超过10亿活跃账户7.8亿日活1.5亿百万广告位百万级标签精准广告推荐 基本特征(Raw Feature)基本属

2、性 商业兴趣 用户关系链 消费力用户特征 广告主 广告创意,关键词 公司,品牌,价格广告特征 大小,可见度 形式(视频 or 图片)PC,笔记本,手机,App上下文特征超大模型高维度稀疏大数据集特征组合高层特征(High-Level Feature)大数据对广告推荐的挑战超大模型特征One-Hot化特征组合(intersection)亿级特征维度典型算法:召回粗排精排CFMFLRGBDTFMFNN分布式机器学习分布式机器学习机器学习分布式系统模型并行策略调度容错掉队者局部性网络训练准确率 分布式机器学习=算法设计+系统设计分布式机器学习关键技术:分布式机器学习关键技术:并行策略、同步协议、网络

3、传输、系统优化 在ACM SIGMOD、VLDB等国际顶级会议期刊发表论文十余篇分布式机器学习是一个将机器学习技术和分布式系统融合起来,对互联网级规模的大数据和超大规模模型进行分析的有效方法。丰富的机器学习及数学计算库友好的用户编程接口工业级别可用的参数服务器开始设计、研发 2014投入生产 2016正式开源 V1.0.0 2017Angel-分布式机器学习平台Angel 主要面向分布式机器学习任务,采用参数服务器架构,支持数据并行及模型并行的计算模式,对多种算法进行深度优化,能支持十亿级别维度的模型训练。Angel具有如下六个良好的特性:n扩展性:可扩展的参数服务器架构,支持十亿维度的模型参

4、数n易用性:灵活丰富的接口设计、拖拽式的一体化开发运营门户n可靠性:具有快速的容错机制n高效性:基于Angel实现的多种算法相比于其它系统具有更优的性能n平台性:提供PS-Service能力,为Spark提供参数服务器能力,将支持图计算与深度学习n兼容性:支持Hadoop生态,采用Java和Scala开发,将提供Python等接口相关研究分布式机器学习系统数据流系统图计算系统深度学习系统Hadoop MahoutSpark MLlibGraphLab/PowerGraphGraphXTuX2 TensorFlowMXNetCaffe2PaddlePaddleExecutorDriverMode

5、lExecutorExecutorExecutorExecutorExecutorDriverModelExecutorExecutorExecutorSpark机器学习的瓶颈 DriverDriver成为成为参数汇总的单点瓶颈,参数汇总的单点瓶颈,难以支撑大规模模型及数据难以支撑大规模模型及数据 十十亿级维度的模型训练,实际应用中降维处理亿级维度的模型训练,实际应用中降维处理 ExecutorExecutor之间相互等待,整体效率不高之间相互等待,整体效率不高利用数据流算子并行化机器学习算法,分类,聚类,推荐,降维处理,特征处理,优化算法现有系统对比数据流系统适合通用性大数据处理,不适合大规

6、模机器学习算法具备频繁的资源管理开销单点瓶颈,缺乏参数共享无法处理超大模型图计算系统适合能抽象成稀疏图结构的算法可扩展性受到图结构的限制深度学习系统主要场景是深度学习等计算密集型应用(GPU、TPU)在大数据集处理等IO密集应用上没有优势对稀疏数据的处理性能不高没有自动数据处理普通机器学习算法支持不足Angel:分布式机器学习的共性在于迭代过程中参数共享Angel利用参数服务器架构提供强大的参数共享服务,能够整合多类机器学习系统系统设计Angel系统架构n Client提供控制任务运行,启动和停止任务,加载和存储模型等功能n Master提供数据和参数矩阵的分片和分发,资源申请,管理和监控任务

7、运行状态等功能n Parameter Server负责存储和更新参数n Worker负责具体的模型训练或者结果预测,包含一个或者多个Task,Task之间共享Worker的资源Jie Jiang,Lele Yu,Jiawei Jiang,Bin Cui:“Angel:A New Large-scale Machine Learning System“,NSR 2018Angel系统任务执行MLRunnerClient1 Start PS2 Load Model8 Save ModelDataBlockBuild-in WorkerPSModelLabeledDataLabeledDataLab

8、eledDataPSModelTaskLearnerPredictorTask7 Push5 Pull4 Read data6 Train3 Start TaskServer与worker的交互n Parameter Server由多个PSServer构成,每个PSServer存储参数的一个分区引入了PSAgent,对PSServer端进行隔离,提供PS-Service的功能,同时进行模型缓存、预取、更新合并等优化n WorkerWorker端有存储参数的缓存和存储数据的DataBlock;参数缓存用于实现多种同步协议,DataBlock可以利用磁盘和内存来存储数据n Model用户可以选择同

9、步协议、自定义Partitioner,调用psFunc函数PS Function n PS Pull/Push标准PS需要提供模型的拉取和推送功能。然而实际算法对PSServer上的参数获取和更新,却复杂得多n Angel PsFunc引入和实现psFunc的概念,对远程模型的获取和更新的流程进行了封装和抽象通过PsFunc,Angel的PS提供了更丰富的表达能力,更将一部分计算放在了Server端,合理的利用PsFunc将会减少网络通信,加速算法运行同步机制实现分区粒度分区粒度向量时钟:向量时钟:在Server端为每个分区维护一个向量时钟,记录每个worker在该分区的时钟信息 在Worke

10、r端维护一个后台同步线程,用于同步所有分区的时钟信息 访问模型时,根据本地时钟信息进行判断,选择是否进行等待操作 每次迭代完,调用Clock方法,更新向量时钟负载均衡策略模型划分模型划分:保证每个模型分区网络负载均衡算法实现模型划分接口通过扫描数据估计每个模型分区负载数据划分:数据划分:保证每个节点获取同样大小的数据主控节点访问HDFS主节点获取数据元信息根据元信息将数据块分配给计算节点同时考虑数据局部性信息容错机制系统级别容错系统级别容错:主控节点(Spark Driver,Master)存储全局状态信息,定期保存至稳定存储服务节点存储参数,定期保存至稳定外存中计算节点无需保存任何信息算法级

11、别容错:算法级别容错:计算节点中保存了状态信息,需算法特定处理例:主题模型算法中保存计算节点中话题分配信息,不保存服务节点中的参数算法库机器学习算法LR、SVM、LDA、MF、KMEANS,GBDT,Word2Vec优化算法SGD、CD、ADMM、LBFGS数学计算库高效的Vector,Matrix库,可选择数据、参数的表达形式(稀疏或稠密)支持常用的线性代数计算用户编程接口Scala和Java的编程接口基于Yarn的任务运行模式WebApp页面,查看任务进度基于Angel的学术论文1)Lele Yu,Jie Jiang,Jiawei Jiang,Bin Cui:“Angel:A New La

12、rge-scale Machine Learning System“,NSR 2018(ANGEL系统)2)Jiawei Jiang,Bin Cui,Ce Zhang and Lele Yu:“Heterogeneity-aware Distributed Parameter Servers”,SIGMOD 2017(异构环境下的同步协议)3)Lele Yu,Ce Zhang,Yingxia Shao and Bin Cui:“LDA*:A Robust and Large-scale Topic Modeling System”,VLDB 2017(大规模主题模型)4)Jiawei Jian

13、g,Bin Cui,Ce Zhang and Fangcheng Fu:“DimBoost:Boosting Gradient Boosting Decision Tree to Higher Dimensions”,SIGMOD 2018(高维稀疏的梯度提升树)5)Jiawei Jiang,Fangcheng Fu,Tong Yang and Bin Cui:“SketchML:Accelerating Distributed Machine Learning with Data Sketches”,SIGMOD 2018(基于Sketch的网络传输压缩)系统开源Angel 由北京大学和腾讯

14、联合开发,兼顾了工业界的高可用性和学术界的创新性,已经在github全面开源。Angel 主要Java 和 Scala 开发,加入Python等多种语言接口,方便使用,还会进一步利用Angel的PS Service能力,支持图计算和深度学习框架。https:/ vs XGBoost GBDTAngel50 个(内存:10G/Worker)10个(内存:10G/PS)58 minXGBoost50个(内存:10G/Worker)N/A2h 25 min腾讯内部某性别预测数据集,145GB,3.3105 特征,1.2108 样本Angel vs Spark LDAAngel20个(内存:8G/Wo

15、rker)20个(内存:4G/PS)15minSpark20个(内存:20G/Worker)N/A300min数据:PubMEDAngel vs Spark LR框架框架WorkerWorkerPSPS迭代迭代100100次时间次时间Angel50个(内存:10G/Worker)20个(内存:5G/PS)20minSpark50个(内存:14G/Worker)N/A145min腾讯内部某推荐数据,5107 特征,8107 样本Spark on Angel vs Spark LRSparkSparkSpark on AngelSpark on Angel加速比例加速比例SGD LR(stepSi

16、ze=0.05,maxIter=100)2.9 hour1.5 hour1.9L-BFGS LR(m=10,maxIter=50)2 hour1 hour2OWL-QN LR(m=10,maxIter=50)3.3 hour1.4 hour2.4腾讯实际推荐业务应用腾讯视频推荐1.7亿条样本,2600万维度的特征算法:逻辑回归性能提升:10倍微信文章推荐业务点击率预估1亿条样本,500万维度的特征算法:逻辑回归性能提升:12倍用户-物品话题模型建模379万物品,1024话题,200亿观测值算法:LDA性能提升:8倍总结与展望总结与展望Angel 分布式机器学习系统主要面向分布式机器学习任务,采

17、用参数服务器架构,对多种算法进行深度优化。系统扩展:开发具有高性能、高扩展性的分布式深度学习系统,通过建设参数服务器架构提供并行的模型更新和访问能力,并且提供通用的编程接口整合已有的深度学习系统。开源社区:基于开源社区进行系统进一步开发,提供更方便的语言接口,提高系统稳定性和算法性能。(https:/ APISpark Streaming on AngelDeep Learning Framework Support更快更好用的机器学习系统更快更好用的机器学习系统 如何更快 不同维度的多样性(diversity)数据维度:结构化数据(100)非结构化数据(100M)断层扫描(Tomograph

18、y,100B)计算能力:T FLOPs 硬件设备:FPGA,GPU,CPU,网络连接:RDMA,Sensor/Mobile Network,需要理解这些多样性背后系统或者算法的执行是否有统一的理论基础。寻找折中(tradeoff):工作任务,硬件 数据表示、同步方式、通信自动化机器学习自动化机器学习 机器学习已经取得了很大的成功,但是仍然依赖大量的专家知识。如何提高研究人员的效率?如何降低机器学习的门槛?机器学习流水线的自动化 特征工程:特征选择、特征堆叠 算法模型:传统模型、深度模型 网络结构:GoogleNet、VGGNet、ResNet 超参数调节:学习速度 算法执行:资源分配、任务调度、多Agent优化 模块化的机器学习系统 多种模型的组合和应用取得效果和效率的折中。设计声明式语言(declarative language)来简化程序设计 利用调度和优化算法自动生成执行计划 VLDB 2017:“MLog:Towards Declarative In Database Machine Learning”基于TensorFlow自动生成Mlog程序谢谢

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2018年支持大数据分析的分布式机器学习系统设计.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

wei**n_...  升级为标准VIP 139**98... 升级为至尊VIP 

152**90... 升级为标准VIP   138**98... 升级为标准VIP 

 181**96...  升级为标准VIP 185**10... 升级为标准VIP 

wei**n_... 升级为至尊VIP  高兴 升级为至尊VIP 

wei**n_...  升级为高级VIP wei**n_...  升级为高级VIP

 阿**... 升级为标准VIP wei**n_...  升级为高级VIP

lin**fe...  升级为高级VIP  wei**n_... 升级为标准VIP 

wei**n_...  升级为高级VIP wei**n_...  升级为标准VIP 

 wei**n_... 升级为高级VIP wei**n_... 升级为高级VIP  

 wei**n_...  升级为至尊VIP  wei**n_... 升级为高级VIP 

 wei**n_... 升级为高级VIP  180**21... 升级为标准VIP 

183**36... 升级为标准VIP  wei**n_... 升级为标准VIP

 wei**n_... 升级为标准VIP xie**.g...  升级为至尊VIP

 王** 升级为标准VIP 172**75...  升级为标准VIP

wei**n_...  升级为标准VIP  wei**n_... 升级为标准VIP

 wei**n_... 升级为高级VIP 135**82...  升级为至尊VIP

130**18... 升级为至尊VIP   wei**n_...  升级为标准VIP 

wei**n_...  升级为至尊VIP wei**n_... 升级为高级VIP  

130**88...  升级为标准VIP  张川 升级为标准VIP 

 wei**n_... 升级为高级VIP 叶**  升级为标准VIP

 wei**n_... 升级为高级VIP 138**78...   升级为标准VIP

 wu**i 升级为高级VIP   wei**n_... 升级为高级VIP

wei**n_...  升级为标准VIP wei**n_... 升级为高级VIP

185**35...  升级为至尊VIP  wei**n_... 升级为标准VIP

186**30... 升级为至尊VIP  156**61...  升级为高级VIP

130**32... 升级为高级VIP  136**02... 升级为标准VIP 

 wei**n_... 升级为标准VIP  133**46... 升级为至尊VIP

wei**n_...  升级为高级VIP  180**01... 升级为高级VIP

 130**31... 升级为至尊VIP wei**n_...  升级为至尊VIP

微**...  升级为至尊VIP  wei**n_...   升级为高级VIP

 wei**n_... 升级为标准VIP 刘磊 升级为至尊VIP  

wei**n_... 升级为高级VIP  班长  升级为至尊VIP 

wei**n_... 升级为标准VIP  176**40...  升级为高级VIP

 136**01...  升级为高级VIP   159**10... 升级为高级VIP

君君**i...  升级为至尊VIP wei**n_... 升级为高级VIP 

wei**n_... 升级为标准VIP   158**78... 升级为至尊VIP

微**...  升级为至尊VIP  185**94... 升级为至尊VIP 

 wei**n_...  升级为高级VIP 139**90... 升级为标准VIP

 131**37... 升级为标准VIP 钟** 升级为至尊VIP 

 wei**n_... 升级为至尊VIP  139**46...  升级为标准VIP

 wei**n_... 升级为标准VIP wei**n_...  升级为高级VIP

150**80...  升级为标准VIP wei**n_...  升级为标准VIP

GT  升级为至尊VIP 186**25...  升级为标准VIP 

  wei**n_... 升级为至尊VIP 150**68...  升级为至尊VIP

wei**n_... 升级为至尊VIP  130**05...  升级为标准VIP 

wei**n_...  升级为高级VIP   wei**n_... 升级为高级VIP

 wei**n_... 升级为高级VIP 138**96...  升级为标准VIP

135**48... 升级为至尊VIP   wei**n_... 升级为标准VIP

肖彦 升级为至尊VIP    wei**n_... 升级为至尊VIP

wei**n_...  升级为高级VIP wei**n_... 升级为至尊VIP