《4. ClickHouse在苏宁用户画像场景的实践.pdf》由会员分享,可在线阅读,更多相关《4. ClickHouse在苏宁用户画像场景的实践.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、ClickHouse 在苏宁用户画像场景的实践 二一九年十月 苏宁科技集团.大数据中心.杨兆辉 1 关亍我 苏宁科技集团大数据中心架构师 曾就职亍中兴通讯10+years ,从事大规模分布式系统研发 10+years C+、Java、Go编程经验,熟悉大数据架构、解决方案 ClickHouse Contributor Github: https:/ Contents 苏宁如何使用ClickHouse ClickHouse集成Bitmap 用户画像场景实践 2 选择ClickHouse的原因 1. 速度快 2. 特性发布快 3. 软件质量高 4. 物化视图 5. 高基数查询 6. 精确去重计数(
2、count distinct) 3 精确去重计数性能测试 4亿多的数据集上,去重计算出6千万整形数值, 非精确去重函数:uniq、uniqHLL12、uniqCombined 精确去重函数:uniqExact、groupBitmap 函数函数 时长(秒)时长(秒) 去重后个数去重后个数 误差个数误差个数 误差率误差率 uniq(id) 1.554 63195280 155973 0.25% uniqHLL12(id) 1.341 63331662 292355 0.46% uniqCombined(id) 1.613 62859215 -180092 -0.29% uniqExact(id)
3、50.437 63039307 0 0% groupBitmap(id) 7.038 63039307 0 0% 4 精确去重计数性能测试 1.554 1.341 1.613 50.437 7.038 0 10 20 30 40 50 60 时长 结论: 整形值精确去重场景,groupBitmap 比 uniqExact至少快 2x+ groupBitmap仅支持整形值去重, uniqExact支持任意类型去重。 非精确去重场景,uniq在精准度上有优势。 5 0.25 0.46 0.29 0 0 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 误差率 精确去重计数性能测试 6 ClickHouse在苏宁使用场景 OLAP平台存储引擎 - 存储时序数据、cube加速数据,应用亍高基数查询、精确去重场景。 运维监控 - 实时聚合分析监控数据,主要