上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

李钰:HBase在阿里搜索推荐中的应用(28页).pdf

编号:84278 PDF 28页 3.57MB 下载积分:VIP专享
下载报告请您先登录!

李钰:HBase在阿里搜索推荐中的应用(28页).pdf

1、HBase在阿里搜索推荐中的应用阿里巴巴高级技术专家李钰(绝顶)HBase in Alibaba SearchYu Li历史和规模应用场景问题与优化开源与未来问答环节2 3 4 51History and ScaleUser ScenarioProblems and SolutionCommunity RoadmapQuestion and Answer历史和规模HBase阿里搜索的历史和规模历史和规模历史2010年至今,历经10+个版本20102014:0.20.6-0.90.3-0.92.1-0.94.1-0.94.2-0.94.520142015:0.94-0.98.1-0.98.4-0

2、.98.8-0.98.122016:0.98.12-1.1.2集群规模总节点数5000+,最大集群节点数2000+日常吞吐:集群超过5000万次秒,单机峰值超过10万次秒单cpu core可支撑8000+QPS应用场景应用场景基础架构中的角色核心存储系统,和计算引擎紧密结合主要服务搜索和推荐业务主要关注高吞吐、低毛刺应用场景 索引构建Data Storage for Batch and Streaming ProcessingData SourceHadoopclusterHBaseBatch&Streaming EventOffline&Real Time ProcessingExporti

3、ngAli ODPSMySQLSearch EnginesHBaseHBaseHDFSHDFSHDFS应用场景 机器学习Database and queue service for MLUDFUDFUDFHQueueOnline logParsing LogTraining User ModelsTraining Item ModelsItem IDUser IDHQueueAggregate UpdatesMachine Learning ModelsOnline SystemwExport Model UpdateModelFlinkFlink ProcessingProcessing o

4、ver Yarnover Yarn问题与优化问题与优化OverviewHBase架构分层RPC的瓶颈和优化RPC的瓶颈和优化实际问题原有RpcServer的线程模型效率较低优化手段Netty可以更高效的复用线程基于Netty实现HBase RpcServer线上效果rpc平均响应时间从0.92ms下降到0.25msRpc吞吐能力提高接近2倍RPC的瓶颈和优化实际问题原有RpcServer的线程模型效率较低优化手段Netty可以更高效的复用线程基于Netty实现HBase RpcServer线上效果rpc平均响应时间从0.92ms下降到0.25msRpc吞吐能力提高接近2倍异步与吞吐异步与吞吐实

5、际问题流式计算对于实时性的要求很高分布式系统无法避免秒级毛刺同步模式对毛刺敏感,吞吐存在瓶颈优化手段基于netty实现non-blocking client基于protobuf的non-blocking Stub/RpcCallback实现callback回调线上效果和flink集成后实测吞吐较同步模式提高2倍GC与毛刺实际问题PCIe-SSD的高IO吞吐能力下,读cache的换入换出速率大幅提高堆上的cache内存回收不及时,导致频繁的CMS gc甚至fullGC优化手段实现读路径E2E的offheap线上效果Full和CMS gc频率降低200%以上读吞吐提高20%以上GC与毛刺Befor

6、eAfterhttps:/blogs.apache.org/hbase/entry/offheap-read-path-in-productionIO隔离和优化实际问题HBase对IO敏感,磁盘打满会造成大量毛刺大IO来源计算存储混布,batch作业产生大量的IOHBase自身:Flush/Compaction优化手段利用HDFS的Heterogeneous Storage功能ALL_SSD for WALs,ONE_SSD for HFileBulkload支持指定storage policyMR临时数据目录(mapreduce.cluster.local.dir)只使用SATA盘IO隔离和

7、优化优化手段Compaction限流Flush限流Per-CF flush线上效果IO利用IO利用实际问题单WAL无法充分使用磁盘IOHDFS写3份副本通用机型有12块HDD盘SSD的IO能力远超HDD优化手段支持多WAL:对region分组并进行合理映射支持app间IO隔离;基于Namespace的WAL分组-上线效果全HDD盘下写吞吐提高20%,全SSD盘下写吞吐提高40%线上写入平均响应延时从0.5ms下降到0.3msIO利用实际问题单WAL无法充分使用磁盘IOHDFS写3份副本通用机型有12块HDD盘SSD的IO能力远超HDD优化手段支持多WAL:对region分组并进行合理映射支持a

8、pp间IO隔离;基于Namespace的WAL分组上线效果全HDD盘下写吞吐提高20%,全SSD盘下写吞吐提高40%线上写入平均响应延时从0.5ms下降到0.3ms-21-2-21-2-21-2-21-2-21-212-212开源与未来拥抱开源HBASE-17263:Netty based rpc server implHBASE-16833:Implement asynchronous hbase client(*)HBASE-11425:Cell/DBB end-to-end on the read-path(*)HBASE-17138:Backport read-path offheap

9、(HBASE-11425)to branch-1HBASE-8329:Limit compaction speed(*)HBASE-14969:Add throughput controller for flushHBASE-14906:Improvements on FlushLargeStoresPolicyHBASE-14457:Improve Multiple WAL for production usage未来:HBase 2.0Main FeaturesNew AssignmentManagerStateMachine based,ZK上不再存储中间状态数据;No more HBCK,no more RIT全路径offheap更平稳的gc,更少毛刺In-memory LSM大大减少写放大When年底release,目前已经发布3个alpha版本未来:我们的思考写路径优化与重构写吞吐跟不上硬件的发展阶段拆分异步处理与回写,测试环境下吞吐可提高3倍以上MTTR的优化RS粒度的log split和数据重放恢复时间在分钟级更好的设计?RT平稳性如何更好的规避HDFS毛刺的影响问答环节

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(李钰:HBase在阿里搜索推荐中的应用(28页).pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部