《ClickHouse高可用实践.pdf》由会员分享,可在线阅读,更多相关《ClickHouse高可用实践.pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、ClickHouse高可用实践演讲人:贺钰城 联想 开源优化架构师目录生产制造企业的数据现状clickhouse集群架构clickhouse数据集成问题clickhouse查询并发性能的提升Contents01 生产制造企业的数据现状生产制造企业数据库使用现状1、业务系统分散采用了不同的关系型数据库2、现有大数据平台处理能力T+13、数据量不断积累,关系型数据库无法满足需求谜一样的数据流向迷一样的sqlSELECT BILLING,BILLING_DATE,DN,DN_ITEM,SHIP_DATE,PSD_CHURN,FAMILY,DESCRIPTION,PSD,LINE_PSD,PSD_AI
2、_ADJ,AI_PSD_FLAG,PSD_COMMENT,REASON_CODE,FPSD,FG_DATE,MOT,VSBED,TRAZTD,SHIPTO_COUNTRY,DIS_CHANNEL,MTM,SO,SO_ITEM,SHIPPING_POINT,ROUTE,PRIORITY,DELIVERY_BLOCK,L_DELIVERY_BLOCK,CREDIT,SOLD2_KUNNR,SOLD2_NAME1,SHIP2_KUNNR,SHIP2_NAME1,CREATE_DATE,Z_CRCAD,Z_CRGID,LINE_QTY,ORDER_QTY,SO_TYPE,FSD,SOLD2_LAND1
3、,AUTLF,PSTYV,GRKOR,INCO1,SELF_PICK,BSTKD,WAERK,AUDAT,AEDAT_H,ROUTE2MARKET,BSARK,ZZODMCAD,ECC_REASON,SALES_ORG,DIVISION,HIERARCHY,MATERIAL_GROUP,PLANT,SALES_OFFICE,MFG_SO_NUM,MFG_SO_ITEM_NUM,PO_NUM,PO_ITEM_NUM,PO_VENDOR_NUM,REJECT_CODE,T1.SITE,T1.SITE_TYPE,KZTLF,CREDIT_REL_DATE,DB_REL_DATE,REGION,SUB
4、_REGION,BRAND,BRAND_BACKLOG,PG_BACKLOG,SUB_BRAND,SERIES,PRODUCT_GROUP,MARKET_NAME,AGING_M3,AGING_TTL,FWD_BAU,M1M2_LT,M3_LT,M1M2_STATUS,M3_STATUS,OTS_LT,OTS_STATUS,PSD_RSD,NO_PSD,MISS_CRAD,PSD_PASTDUE,PSD_LT,DEL_ACCURACY,FIRST_FG_DATE,TIE_FG_DATE,MARKET,TERRITORY,M1M2_SLA,M3_SLA,E2E_SLA,PSD_STATUS,OR
5、DER_TYPE,GEO,SUBGEO,SYS_CREATED_DATE,OTS_SLA,AGE_ORDER,STATUS,DN_CREATE_DATE,COUNTRY,M1M2_DEADLINE,M3_DEADLINE,DETRACTOR,REL_DATE,MFG_SITEID,MOT_CHANGE,BACKLOG_TYPE,MACHINE_TYPE,ERNAM,BRGEW,PRE_DOC AS CONTRACT_NUM,IFNULL(GLN,GLOBAL_LOC)AS GLN,END_CUST_ID AS END_CUSTID,END_CUST_NAME,CMWAE,ZSBBLT,S_RE
6、PID,S_REPNAME,FACE_REPID,。LEFT JOIN SCI.CONF_PSD_WEEK S3 ON T1.PSD BETWEEN S3.DAYS_START AND S3.DAYS_ENDLEFT JOIN SCI.CONF_WEIGHT_UNIT_TRAN S4 ON T1.GEWEI=S4.GEWEILEFT JOIN SCI.MID_FF_PC_BAACKLOG_CURR S5 ON COALESCE(T1.BILLING_DATE_NEW,T1.CREATE_DATE_NEW)=S5.GDATU AND T1.WAERK=S5.FCURRLEFT JOIN SCI.
7、SC_DIM_SITE_CML S6 ON T1.SCI_SITE_ID=S6.SITE_ID生产制造企业数据处理的痛点1、需要解决由于大数据量下UPDATE死锁问题2、数据化运营的今天更需要数据分析的及时性3、由于UPDATE丢失了原始数据,无法分析历史4、分析师要面对上千行的sql发呆解决方案1、数据已事件方式录入,减少更新数据带来的问题。2、使用OLAP引擎来解决,解决查询性能的问题。3、一张大宽表可以让数据更明晰,减少sql的复杂度02 clickhouse集群架构ClickHouse集群架构03 clickhouse数据集成问题数据集成-通过JDBC写入来数据给你,你自己处理Clic
8、khouse:你要累死我呀,别人还要用呢数据写入越来越慢通过JDBC接口写入,HTTP模式无法实现数据压缩数据量过大容易导致OOM有没有比HTTP更快的方式?TCP?Or else?数据中重复数据多岂不是很浪费资源?为什么不能先压缩了再传输呢?数据写入越来越慢数据量大,通过HTTP处理不过来服务器压力大,太多的INSERT请求如何解决-seatunnel来数据给你,你自己处理Clickhouse:你要累死我呀,别人还要用呢数据帮你生成文件了,你接收一下就可以用了原来现在Clickhouse:OK我们为什么不行Sink-Clickhouse,通过JDBC处理数据Sink-ClickhouseFi
9、le,通过文件传输数据04 clickhouse查询并发性能的提升数据查询的痛DistributedReplicatedMergeTree(shard1)ReplicatedMergeTree(replica1)ReplicatedMergeTree(shard2)ReplicatedMergeTree(replica1)数据写入数据查询数据查询的架构调整DistributedReplicatedMergeTree(shard1)ReplicatedMergeTree(replica1)ReplicatedMergeTree(shard2)ReplicatedMergeTree(replica
10、1)数据写入数据查询DistributedDistributedDistributedNginxProjectionALTER TABLE user_log ADD PROJECTION p_ugg(SELECT whoappcode,xwhenGROUP BYwho);ALTER TABLE user_log MATERIALIZE PROJECTION p_ugg;Projection ClickHouse Projections包含两大类:normal与aggregate 使用查询定义 Projection,新建的 Projection 仅影响后续的写入数据 对历史数据构建 Projection 需要进行 Materialize 操作 查询无需任何改动即可使用 Projection 优化 可对单表增加多个 Projection,查询将择优使用感谢您的观看 THANKS 输入标题Title输入标题Title