1、HBase在时间序列数据库中的应用数据库高级技术专家悠你时序数据和时序数据库介绍123HiTSDB针对时序场景的优化HBase作为底层存储的优势时序数据就是分布在时间上的一系列数值例子:股票价格 广告数据 气温变化 网站的PV/UV 健康数据 工业传感器数据 服务器系统监控数据 车联网时序数据和时序数据库介绍一个时序数据的例子时序数据和时序数据库介绍时序数据的特点 数量巨大的数据源 持续产生大量数据 最近的数据最有价值 数据老化 多维度标签 聚合/分析时序数据和时序数据库介绍写入慢查询慢存储成本高时序数据 vs 传统数据库把时序数据按行保存在MySQL的innoDB引擎里,用SQL语句做聚合/
2、分析Btree结构的索引随机写入性能不佳联合索引只能使用空间优先的方式每行的标签列重复出现时序数据和时序数据库介绍OpenTSDB的Hbase Schema Async Hbase Client Tag-id rowkey时间优先 数据按小时打包 热点问题 Row scan时序数据和时序数据库介绍倒排索引高压缩比缓存分布式聚合引擎HiTSDB的核心技术解决多维查询的性能问题大幅提升读性能,合并以后写入,提升写性能解决单点聚合的性能问题HiTSDB针对时序场景的优化倒排索引HiTSDB针对时序场景的优化全内存架构metric-tag key-tag value-tsId set快速交集计算性能评
3、估以及结果缓存持久化到HBaserowKey=metric+tag key+tag value+tsIdbatch write,scan read,load on boot timesharding key作为前缀MetaData管理前缀查找提供输入提示提供tsId-(metric,(tag key,tag value)索引作为删除依据高压缩比缓存HiTSDB针对时序场景的优化以写回方式工作的内存缓存时间使用delta-delta压缩,数据使用异或压缩每个数据点平均能压缩到2字节以内可以兼容更多的压缩算法,比如压缩率更高的有损压缩BinLog和HBase分享同一个HDFS单点写入,所有节点可读
4、HBase写回压缩数据写满时间窗口后写回HBase时间窗口边界作为row key后缀异步批量写入分布式聚合HiTSDB针对时序场景的优化流式架构数据单向流动,一边读取一边计算,降低latency大部分的简单计算可以分别计算,最后再聚合只保留最低限度的中间结果,降低内存消耗粗略计算针对无法实现分布计算的算法,使用粗略计算来实现算法的分布式HiTSDB的存储需求HBase作为底层存储的优势树形结构的操作key-value有序的快速前缀扫描LSM Tree顺序写盘,快速写入临近的row key往往具有相邻的存储位置key-value比Btree略慢HiTSDB的进一步需求HBase作为底层存储的优势高可用可以容忍单点服务器故障快速的故障检测/恢复时间线性扩容读/写性能线性扩容磁盘容量线性扩容高可靠多副本低成本分级存储高写入性能高可用性水平扩展性数据可靠性Key-ValueHBase作为底层存储的优势HBase实际上为HiTSDB提供了