《实时物化视图:加速大规模时间序列数据查询的利器.pdf》由会员分享,可在线阅读,更多相关《实时物化视图:加速大规模时间序列数据查询的利器.pdf(28页珍藏版)》请在三个皮匠报告上搜索。
1、实时物化视图:加速大规模时间序列数据查询的利器炎凰数据 彭江涛2023.06.101目录为什么01是什么02怎么做0304展望和总结2引言https:/ 预先计算出常用的耗时或复杂查询的结果集v 以便查询时能够快速访问和使用这些预先计算的结果OrderTimeItemIDOrderIDpricenumberT1ID1OID15002T2ID2OID23004T3ID3OID34007T4ID3OID43501T5ID1OID55002T6ID1OID64503每个商品的总销售额ItemIDSUM(price*number)ID13350ID21200ID33150读取计算6存储读取=预计算读取
2、实时场景时间时间序列数据实时场景数据Append-only 几乎不变7持续增长物化数据持续更新时间序列实时物化视图关键点存储结构索引压缩8存储更新预计算定期更新事件驱动更新增量更新增量更新下的预计算目录为什么01是什么02怎么做0304展望和总结9数据分片10时间时间序列原始数据分片i分片j当前分片j+1分片规则:v 导入时间范围v 累积数据数量v 标签信息物化数据预计算11物化数据时间查询结果再聚合分片i分片j输入数据输出数据MapMapMapReduceReduce预计算12物化数据时间查询结果再聚合分片i分片jAVG(price)SUM(price)COUNT(price)25004Or
3、derIDpriceID1500ID2800ID3600ID4600SUM(price)COUNT(price)30005SUM(SUM(price)SUM(COUNT(price)(2500+3000)(4+5)13保留数据的时间性数据分桶物化数据时间OrderTimeprice2023-06-10 10:03:125002023-06-10 10:13:273002023-06-10 10:22:064002023-06-10 10:38:233502023-06-10 11:01:145002023-06-10 11:47:56450TimeBucketSUM(price)count(p
4、rice)2023-06-10 10:00:00155042023-06-10 11:00:009502桶大小1小时SUM(price)count(price)25006分片m14保留数据的时间性数据分桶物化数据时间最终结果再聚合预计算期望SUM(price),COUNT(price)SUM(SUM(price)/SUM(COUNT(price)AVG(price)GROUP BY time_bucket查询(适应任何时间窗口)15原始数据分片1原始数据分片2原始数据分片3原始数据分片4原始数据分片5原始数据分片6原始数据分片7物化分片1物化分片2物化分片3物化分片4物化分片5物化分片6物化分
5、片7正在导入数据时间T1T2查询结果集P1P2P3P4查询(适应任何时间窗口)16原始数据分片1原始数据分片2原始数据分片3原始数据分片4原始数据分片5原始数据分片6原始数据分片7物化分片1物化分片2物化分片3物化分片4物化分片5物化分片6物化分片7正在导入数据时间T1T2查询结果集P1P2P3P411:2214:0010:00时间分桶1h12:00查询(适应任何时间窗口)17P1P2P3P4P2P4P1P3预计算再聚合查询结果SQL18查询加速仪表板加速炎凰产品演示19炎凰产品演示20炎凰产品演示21炎凰产品演示2223炎凰产品演示性能241亿条数据/天1000个slice查询今天每个数据集被使用的次数401.21150.00110.00530354045原始数据分桶大小为1h的物化视图分桶大小为1天的物化视图查询时间(s)存储大小(M/Slice)目录引言01是什么02怎么做0304总结和展望25扩展26智能路由另一种ETL分层物化总结27存储开销保留时间性维护成本数据致性28Q&A