2017年数据分析领域的黑马.pdf

编号：92529

PDF 111页 6.57MB 下载积分：VIP专享

下载报告请您先登录！

2017年数据分析领域的黑马.pdf

1、数据分析领域的黑马-ClickHousePower Your Data“世上无难事，只要有捷径”“工具选的好，下班回家早”目录自我介绍数据分析面临的问题ClickHouse原理、架构ClickHouse在新浪的实践与经验ClickHouse案例、生态我是谁？我是干啥的？关于我DBA关于我DADBA关于我Data Analyst Data Translator 致力于运维大数据挖掘与分析可视化、报警、数据分析 AI-OPS关于我们“表哥”“表姐”们我们需要什么样的工具？Excel?也用Hadoop Spark Hive?But，Hadoop这玩意，不是一天就能玩得转的啊Google用Hado

2、op多数人用Hadoop太重了一切以需求作为第一位一切以需求作为第一位快速好用体量够用一切以需求作为第一位快速好用体量够用好维护！对结构化的数据快速给出聚合/过滤结果We NeedSQLFast SQLFast Complex SQL没有什么数据统计是一个SQL解决不了的。如果有，那就2个俄罗斯搜索巨头Yandex开源列式存储集群超高性能压缩驱动丰富SQL线性扩展PB级别OLAP统计函数updated in real time跨数据中心异步复制最终一致不支持事务不支持update/delete 然鹅，查询巨快超大容量 But，Lets Begin部署：单机1.官方提供Ubuntu

3、包 2.第三方rpm包 2.Docker镜像需要注意：1.修改网络，默认监控IPv4/v6 2.自定义数据目录，修改官方启动脚本 3.Docker修改时区部署部署：单机是不是很SQL部署：单机蚝，我们来压测一下USA civil flights data since 1987 till 2015 contains 166 millions rows 63 GB of uncompressed data数据源部署：单机https:/clickhouse.yandex/docs/en/getting_started/example_datasets/ontime.htmlUSA civil f

4、lights data since 1987 till 2015 contains 166 millions rows 63 GB of uncompressed data数据源部署：单机数据大小173MB文件行数436951插入耗时4.731 Sec平均速度9.3 W/Sec压缩率5倍https:/clickhouse.yandex/docs/en/getting_started/example_datasets/ontime.html部署：单机并发5个进程机器负载部署：单机响应时间峰值50W QPS部署：单机1.查询总量 2.简单group by查询类型https:/clickhouse.

5、yandex/docs/en/getting_started/example_datasets/ontime.html部署：单机条件查询，聚合，排序查询类型https:/clickhouse.yandex/docs/en/getting_started/example_datasets/ontime.html部署：单机复杂查询查询类型https:/clickhouse.yandex/docs/en/getting_started/example_datasets/ontime.html部署：单机优点：1.部署简单 2.全部CPU打满，查询效率极高问题:1.性能依赖单机（scale up路线）

6、2.存在单点故障风险（宕机数据全丢）1.启动Server 2.use db,create table 3.尽情select 4.推荐引擎：MergeTree使用总结分区主键稀疏索引粒度MergeTree类似LSM Tree，但是没有内存表，不记录log 直接落磁盘，按照主键排序，分块写入异步merge，与写不冲突，最大merge到月纬度不支持删除、修改 primary.idx+*.bin+*.mrk+checksums.txt+columns.txt写如何写的快？是否可压缩？主键查询：eg:(x,y,z,date)最左原则读如何快速查找？数据量大，如何适应内存？其他列查询：稀疏索引定位区

7、间：不适合点对点查询，适合范围查询颗粒度N：默认8192 查询问题：会带来过多的IO扩展性可靠性缺乏：扩展性可靠性如何获得：部署：分布式假的scale out 借助于特殊引擎实现借助配置文件概括部署：分布式Distributed引擎：1.本身不存储数据 2.被写入，做转发 3.查询，作为中间件，聚合后返回给用户集群名称库表分布算法分区主键颗粒度apm_msgapm_msg_all部署：分布式分布式如何做到的部署：分布式通过域名，写本地表 insert into apm_msg values()总QPS=单机QPS apm_msgapm_msg_allapm_msgapm_msg_a

8、llapm_msgapm_msg_allapm_msgapm_msg_all写写操作 ClickHouse-部署：分布式apm_msgapm_msg_allapm_msgapm_msg_allapm_msgapm_msg_allapm_msgapm_msg_all读操作通过域名，读分布式表 select*from apm_msg_all where xxx=yyy 原则：确保其他节点返回的数据，自己还可以聚合，如top/group by逻辑就不同读ClickHouse-部署：分布式apm_msgapm_msg_allapm_msgapm_msg_allapm_msgapm_msg_allap

9、m_msgapm_msg_all读操作收到请求的节点，拿到所有节点数据（各自计算一次）本地汇总后读读取真实数据ClickHouse-部署：分布式apm_msgapm_msg_allapm_msgapm_msg_allapm_msgapm_msg_allapm_msgapm_msg_all读操作返回给客户端读取真实数据读聚合返回ClickHouse-部署：分布式通过全局配置文件，达到集群相互知晓各自维护各自的数据，让用户自己写入水平扩展性很好查询/写入能力随机器数线性增加 cluster config updated on the fly 总结部署：分布式1.直接写分布式表，造成数据不

10、均匀 2.域名映射的IP只有在初始解析 3.新增节点，历史数据不会搬迁，造成不均衡 4.过度的group by，导致大量数据交换 5.数据分片依赖单机稳定性，缺乏可靠性问题扩展性可靠性如何获得：我们知道的复制：ClickHouse的复制ZKapm_msgapm_msgapm_msgapm_msg多源、多主、多向复制数据互通有无自带检测机制自带同步机制（物理复制）依赖ZK 非多数派写部署：复制ZKapm_msgapm_msgapm_msgapm_msgReplicatedMergeTree(zk路径,副本名称,日期列,(其他列,日期列),索引粒度)多源、多主、多向复制数据互通有无自

11、带检测机制自带同步机制（物理复制）依赖ZK 非多数派写部署：最佳架构复制复制复制复制复制复制ABCAABBCCIDC1IDC2IDC33个IDC使用复制机制做互备每个IDC 3个节点，做分布式表，分担查询压力如：A/B/C 分别是数据的3个分片，各自承担1/3的数据查询性能：A+B+C 部署：最佳架构复制复制复制复制复制复制ABCAABBCCIDC1IDC2IDC31.3个IDC，挂掉2个不影响读写恢复只需重启实例 ClickHouse自动完成数据同步 2.挂掉某个实例，如A 切换读写到其他IDC，恢复实例A即可 3.挂掉多个实例，A、B同时挂掉处理方式同上宕机分析集群的Clic

12、kHouse有多快？我们的架构表1：14字段 900亿 4T 表2：94字段 500亿 15TX 4CPU E5-2620 2.00GHz 开启超线程后24core 48G内存 3T*12 Raid5请开始你的表演：select count(*)300亿 0.9秒请开始你的表演：select date,count(*)from xx group by date 300亿group by日期 9.8秒请开始你的表演：太复杂了请开始你的表演：更复杂了支持Join请开始你的表演：官方demo快快快为啥这么快？1.优秀的代码编写，强大的底层优化，严格的单元测试 2.A vector engine&C

13、ode generation 3.CPU底层指令集的使用 4.C+新特性为啥这么快？ClickHouse函数：300+ClickHouse高级函数：quantile(level)(x)quantiles(level1,level2,.)(x)median(X)统计类URL截取其他cutQueryString(X)domain(X)today()-1yesterday()substring(s,offset,length)IPv4NumToStringClassCextract(haystack,pattern)高级函数举例：域名类高级函数举例：IP归类来点干货目录结构配置文件：config.

14、xml配置文件：metrika.xml配置文件：metrika.xml配置文件：user.xmlhttp:/jackpgao.github.io/2017/11/20/ClickHouse-User-Password/配置文件：user.xmlhttp:/jackpgao.github.io/2017/11/20/ClickHouse-User-Password/ClickHouse的问题：1.insert into xx(a,b,c)values(a,b,c)只能是单引号 2.如果是int插入的是string，报错（不确定是否有类似SQL_MODE的参数）3.删除只支持到月纬度的分区 4.改

15、造官方的启动脚本，不要用root直接启动谁在用谁在用374 servers store over 20.3 trillion rows 17 PB uncompressed data TSV 2 PB without counting duplication and replication欧洲原子能研究机构 store and process metadataon 10 billion events with over 1000 attributes per eventInnovative provider ofonline retail financial services in Russ

16、ia 谁在用How Cloudflare analyzes 1M DNS queries per second做存储的公司 Python驱动：infi.clickhouse_orm谁在用CARTO(formerly CartoDB)is a Software as a Service(SaaS)cloud computing platform that provides GIS and web mapping tools for display in a web browser.Altinity is the leading service provider for ClickHouse Al

17、tinity Provides Cloud Version of ClickHouse on Kodiak Data MemCloud Kodiak Data is an edge-cloud infrastructure company that allows customers to easily deploy and scale big data infrastructure in both public and private clouds 谁在用谁在用谁在用Blockchairis a blockchain search and analytics engine or you can

18、 also say its a blockchain explorer on steroids.谁在用我浪怎么用？SupersetAirbnb开源Python项目 Apache孵化快速实现可视化完美对接ClickHouse，方便分析师进行问题排查与分析搭配案例某APP APM管理PythonClickHouse图表、邮件、报警等 Superset可视化工作台数据处理链路短数据实时可见，及时Trace 如何快速数据变现 ESHangout问题排查，Trace案例某APP APM管理案例案例某APP APM管理CK监控Prometheus+ClickHouse exporter+Grafa

19、nahttps:/ (SSE 4.2 instruction set need)开启超线程、性能模式 2.小磁盘多机器大磁盘少机器 3.Raid-10 is better If Raid5/6/50,increase stripe_cache_size 4.内存：越大越好，留给page cache 禁用swap/透明大页/NUMA 5.CentOS7/Ext4/复制带宽问题1.batch insert 2K 起步 2.用域名写本地表，读分布式表 3.如果是Docker，注意修改时区 4.clickhouse-client在Docker里，中文乱码 5.拒绝 select*6.无Decimal，

20、乘以倍率，用Uint64存运维使用总结使用场景大容量结构化 SQL方式日志分析广告 IOT 监控对比MySQL：复杂查询、容量，重点不在事务 HDFS生态：简单、易用、查询快，规模稳定性有待验证 Druid：保留原始数据，防止预先设定不满足需求大PK对比对比项ESClickHouse数据接入插件丰富：hangout/logstash/filebeats无需特别指明字段类型，兼容性好需要自己开发：JDBC、clickhouse-client、Python导入Hangout to ClickHouse插件查询原生查询方式不灵活SQL插件复杂度有限大范围查询性能差支持复杂查询高级函数多支持连

21、表查询扩展性旗鼓相当，ES略轻松，ClickHouse需要管理表维度其他原生API社区健壮原生API社区正在发展语言Java/PythonJava/Python/R/PHP对比ES对比 GPU产品http:/ most advanced GPU based PostgreSQL DatabaseGPU Database for Fast,Interactive Visual Analytics GPU-accelerated analytics database for real-time insights on large and streaming datasetsHigh Perform

22、ance GPU Database for Big Data SQL对比 74x to 3,500 x faster than CPU DBs.对比 PG-Strom is an extension designed for PostgreSQL v9.5 or later,to off-load a part of CPU intensive workloads to GPU(Graphic Processor Unit)devices,and execute them in parallel asynchronously.对比开源产品商业产品对比性能与成本的均衡对比行业排名结缘，“那年我还是个DBA，饱受业务复杂查询，也就是OLAP之苦”不怕有坑？不试试怎么知道好用不好用Summary大容量结构化的数据需要SQL快速实现聚合、可视化But，如果，不好用，别撕我

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（2017年数据分析领域的黑马.pdf）为本站（云闲）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。