《阿里巴巴HBase的一些实践与探索(39页).pdf》由会员分享,可在线阅读,更多相关《阿里巴巴HBase的一些实践与探索(39页).pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、HBase的实践与探索 沈春辉 阿里-中间件-高级专家 大数据时代的存储 大数据时代的存储?大数据的应用形式 万物万面,精准定像 数据赋能,运筹帷幄 智能生活 大数据场景的数据特点 基础量大 增长快 计算与存储的实时性要求迫切 时效性短 易发散 易产生脏数据Value Variety Volume Velocity PART-1:HBase在大数据中的价值 PART-2:应用案例 PART-3:阿里基于HBase的存储建设 PART-4:未来展望 目 录 content?Where HBase HivePostgreSQLOracleCassandraMysqlHBaseDB2MongoDBC
2、ouchDBSolrSQLServerHANATeradataImpalaNeo4jSQLiteRedisElasHcSearch?HivePostgreSQLOracleCassandraMysqlHBaseDB2MongoDBCouchDBSolrSQLServerHANATeradataImpalaNeo4jSQLiteRedisElasHcSearchWhere HBase?HBase HadoopDatabase,是一个基于GoogleBigTable论文设计的高可靠性、高性能、可伸缩的分布式存储系统。松散松散表实时更新、增量导入增量导入、多维删除多维删除随机查询、范围查询高伸缩、高
3、可用、高可靠、高性能、高适应高适应在线在线分布式NOSQL数据库HBase?HBase HDFS Zookeeper HBase MR Hive Storm Spark Kylin Drill OpenTSDB 计算 数据库 数据交换 Sqoop Flume Kafka Ambari Hue 系统 管理 Phoenix Trafodion Tephra Calcite Argus Yarn?HBase?HBase 自动分区 LSMTree 存储计算分离 Hadoop生态 四大基因?HBase 数据分片 分区自动分裂 分区在线Merge数据爆发式增长访问爆发式增长?HBase LSM(LogSt
4、ructuredMerge)Tree HBase/LevelDB/RocksDb 随机写-顺序写 LSM特点 写吞吐高 不受SSD随机写入放大随机写入放大干扰 不受空间放大空间放大干扰?HBase 存储计算分离 负载均衡更高效 资源扩容更节省 存储优化更便捷 非对称副本冗余:异构介质、ErasureCode等?HBase Hadoop生态 共享共建 加速创新 繁荣社区 Hive元数据使用HBase存储(HIVE-9452)YARN应用Hmeline服务使用HBase存储(YARN-2928)Ambari监控数据使用HBase存储(AMBARI-5707)SparkonHBase(HBASE-1
5、4789)?HBase 动态列 数据发散的利器 协处理器 数据校正 高效适应个性化 异构介质多副本存储 海量与实时的性价比满足 ErasureCode 因大而生HBase,为大数据而生 LSM树 离线导入效率巨高 实时写入吞吐大 增量导入隔离性强 伸缩性强 TTL 数据时效性,系统自动处理 时效性的个性化设置 多版本 数据的第三维度 高效删除方式 PART-1:HBase在大数据中的价值 PART-2:应用案例 PART-3:阿里基于HBase的存储建设 PART-4:未来展望 目 录 content?事件 人物 环境 时间 方式 行为 HBase集群 实时明细写入 在线风控台 明细增量导出
6、离线计算 日账结果回流 明细日账 实时查询 低价清理 过期淘汰 过载淘汰 每秒写入 百万级 每秒查询 百万级 十TB级导入?数据源(DB、日志)交易 加购 收藏 高吞吐消息通道HBase集群 实时计算HBase集群 HBase集群 实时数据服务每秒流量 GB级 每秒请求 百万级 毫秒级查询?HBase集群 PB级数据 千万级实时吞吐 BigGraph IoT GEO 日志 聊天 监控 消费 PART-1:HBase在大数据中的价值 PART-2:应用案例 PART-3:阿里基于HBase的存储建设 PART-4:未来展望 目 录 content?H B a s e?基于阿里巴巴/蚂蚁的环境和业
7、务需求,对社区HBase进行深度定制与改进,从内核引擎内核引擎、解决方案解决方案、稳定护航稳定护航、发展支撑发展支撑等全方位提供一站式大数据基础存储服务一站式大数据基础存储服务。?H B a s e?H B a s e?灾备体系 集群数据复制的诉求 数据一致 延迟低 吞吐大 多源多目标 链路粒度细 异构系统 可视可追踪?H B a s e?灾备体系 多集群数据复制:灵活、稳定、高效 异步模式 同步模式 支持多地多单元、表级复制、循环流动 支持延迟/拓扑/复制详情可视 支持数据的链路追踪 支持实时复制到异构系统 并发、吞吐、实时的有效权衡?H B a s e?灾备体系 流量切换 虚拟地址映射 支
8、持一键切换、自动切换 跨集群一致性保证 基于读写保护的强一致 深度优化的宕机恢复能力?H B a s e?监视、控制与调整 完善的Metrics 全链路跟踪 快速隔离 拒绝访问 限制资源 配置在线调整 热补丁?H B a s e?实时监控?H B a s e?历史趋势?H B a s e?数据排行?H B a s e?报警系统:基于集团Alimonitor监控平台实现对HBase集群实时、全方位的监控,做到故障第一时间发现、通知,同时结合tesla平台做自动化处理。全方位:硬件故障,网络异常,不同角色节点宕机及各种场景服务异常全覆盖。高精确:获取实时运行信息、合理设置阀值,结合多种探测手段实现
9、高精确报警。自动化:结合tesla自动化平台,实现异常报警的自动化处理,快速及时响应。?H B a s e?健康大盘:多维度健康信息汇总的大盘,支持集群健康的全局透视与预防治理,通过逐渐沉淀经验与解决方案,成为疑难杂症的一键预知和诊断平台。快速:三分钟全盘体检,30秒单集群快速诊断 全面:磁盘,网络,HDFS,ZK,HBase全方位覆盖,近百项检查 智能:结合场景运行的数据分析,比业务更懂业务,比运维更懂运维。?H B a s e?业务平台:统一管理项目、资源、用户、数据、服务的相互关系,高效规划资源使用、促进服务质量、推动体系升级的一站式运营平台。PART-1:HBase在大数据中的价值 PART-2:应用案例 PART-3:阿里基于HBase的存储建设 PART-4:未来展望 目 录 content?OaeapingSparkIntegraHonIn-MemoryFlush/CompacHonAsyncClientAsyncWALHBase-2.0Backups?硬件发展带来的变化 万兆网络普及,存储计算分离更加彻底 固态存储容量更大、更廉价,IO不再成为瓶颈 内存快速增大、可持久化,数据存储启用内存介质?容器化部署 提升资源使用率 跨应用混部,去机型依赖 资源伸缩更灵活?GoOnCloud!tianwu.schalibaba-