《3-1 云原生混合算力助力计算加速.pdf》由会员分享,可在线阅读,更多相关《3-1 云原生混合算力助力计算加速.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、云原生大数据混合算力助力计算加速王华 腾讯高级工程师|01大数据资源使用现状02大数据混合算力部署方案03混合算力自动弹性能力04混合算力计算加速落地实践目录 CONTENT|企业大数据资源使用现状01|资源利用率问题|OS在线业务k8smaster在线业务其他业务k8s ClusterNodePodPodPodNodePodPodPodNodePodPodPodNodePodPodPodTez问题存算一体大数据架构问题资源冗余,尤其存储冗余。存储与计算比例不定,算力扩充的同时带来存储的冗余。为了应对未知资源增量及紧急需求,需提前规划,冗余部分buff资源潮汐现象集群整体资源使用率低资源占而不
2、用HiveFlinkYARNHDFS在线容器化应用资源利用问题|如何在控制成本的同时充分利用离在线资源进行计算加速Tez对象存储云HDFSPodPodPodNodePodPodPodNodePodPodPodNodePodPodPodNodePodPodPodNodePodPodPodNode在线业务其他业务K8S-Master离线EMR集群在线K8S集群HiveFlinkYARN大数据混合算力部署方案02|基于容器化的离在线混合部署|大数据业务存储类业务支持云原生的计算框架未支持云原生计算框架HADOOP生态兼容:以YARN作为容器化的基础,在容器中部署YARN-NM,兼容大数据业务中占比最
3、高的Spark,MapReduce等类型的作业。存储类业务例如HDFS,依赖硬件资源的稳定性,不适合部署在Pod中。在支持云原生的计算框架中,例如spark,presto,可充分利用容器资源进行计算未支持云原生的计算框架中,例如MapReduce,在大数据应用中占比较高离在线混合部署目标|在离线混合部署方案|l 开发部署YARN-Operator优势方案l 管理pod生命周期,创建/销毁podl 离线Pod最低优先级(BestEffort)l Operator高可用?Yarn-RMEMR-AgentnodeYarn-NMEMR-AgentCVMYarn-NMEMR-AgentCVMDefaul
4、t PartitionFixElasticityYarn-NMEMR-AgentCVMYarn-NMEMR-AgentCVMA PartitionFixElasticityYarn-NMEMR-AgentCVMYarn-NMEMR-AgentCVMB PartitionFixElasticity?Yarn-NMEMR-AgentPodElasticity?Yarn-NMEMR-AgentPodElasticityYarn-NMEMR-AgentPodElasticityDefault PartitionA PartitionB Partition异构资源计算加速任务稳定性|ResourceMa
5、nagerApplicationManagerResourceSchedulerNodeManagerMapTaskAMcontainercontainerNodeManagerMapTaskReduceTaskcontainercontainerClient1223,8455666777异构资源定义为什么需要进行改造(不可避免)离线集群资源CVM在线集群容器资源pod存在中枢进程AM(Application Master)宿主机负载达到阈值,优先级低的pod资源会被驱逐,若有AM在该pod上,整个任务全部挂掉YARN原生资源调度未考虑异构资源场景异构资源计算加速任务稳定性|RM中增加Node
6、Filter模块由AM自主选择存储介质存量集群升级更稳定ResourceManager改造轻量资源配置更灵活方案优势ResourceManager提升共享分区资源使用率|为什么要进行改造提升集群利用率,客户需要独占(Exclusive)分区的任务使用共享(Non-Exclusive)分区的资源。原生Yarn提交APP时只能指定单个标签,无法同时使用多个分区资源。原生Yarn只支持default分区的任务可以使用共享分区的资源,破坏资源分区隔离性。RM中增加标签解析器:扩展Yarn标签表达式语法RM中增加资源计算器:实时维护可用资源信息优势多标签动态分配资源方案保障资源隔离自由共享资源动态选择分
7、区资源混合算力自动弹性能力03|资源扩容问题|业务负载手动扩容计算资源业务负载自动弹性计算资源离线资源容器资源已用资源闲置资源缺乏资源离线资源容器资源问题资源被动响应,传统企业需要进行资源评审,运维流程,然后等待资源就位。浪费,扩容后资源无法及时回收服务质量支持滞后,错过最佳响应时间,错失商机挑战按负载情况扩容快速响应紧急算力需求自动伸缩感知触发emr-agentemr-agentCVM/黑石/Podemr-agent负载均衡CKafkaMetricsEventsProfilesFlink Job1(数据存储)Flink Job2(数据上报)云监控KUDU 集群ImpalaEMR自动化运维系统
8、后台服务EMRGrafana|内存预估,预分配内存异步采集、去锁、复用、零拷贝数据压缩批量数据传输调整进程优先级数据采集的问题监控指标多:30+组件,2000+监控指标低延迟:采集周期30s,采集进程不能有太大延迟限制资源占用:严格控制进程对机器资源的使用量采集稳定性:当机器资源匮乏时能稳定采集方案自动伸缩感知触发|基于LSM-Tree顺序写(append操作),写效率高写效率高列式存储基于列簇的列式存储,同一个列簇下的所有列存储在一起完全的列式存储SQL分析能力SQL分析能力不足,集成 Phoenix后有一定增强高效的分析能力,支持丰富的内置函数查询效率根据rowkey查询除按主键查询略低外
9、,KUDU效率都比HBase高底层数据存储依赖HDFS做数据存储,依赖Zookeeper做分布式协调数据存储和分布式协调都是kudu自己完成,不依赖其他服务数据压缩基于列簇压缩,效率相对较低数据按列存储,同类型数据压缩,压缩效率极高UpdateDelete支持删除和更新支持删除和更新动态列列簇下面可以随意调整列强schema,列不可动态改变TTL支持TTL不支持TTL,需要手动清除数据分区支持范围分区,支持split支持范围分区和哈希分区,不支持splitKUDUImpala+为什么要选择KUDU+Impala自动伸缩感知触发通过CKafka进行数据缓存和解耦Flink对数据进行清洗加工上层业
10、务根据不同的查询,请求不同的数据表,加速查询指标数据跨地域容灾备份,保证数据安全性底层存储异常时上层服务自动进行熔断降级切换到备集群数据存储&查询加速 异常数据清理 快速查询长时间周期数据 大规模数据快速查询计算 数据安全性&服务稳定性方案FilterProccessorFlinkRawDataSinkRollupProccessorRollupSinkPreAggregateProccessorPreAggregateSinkRawDataTableRollupTable(5m-last)PreAggregationTableKUDUCKafkaKUDU异地灾备集群Client熔断降级普通查
11、询查询粒度为5m倍数查询聚合指标|自动伸缩感知触发|600726567685262273826.936,321.936(321.936,344.936(344.936,367.936(367.936,390.936(390.936,413.936(413.936,436.936(436.936,459.936(459.936,482.936(482.936,505.936(505.936,528.936(528.936,551.936(551.936,574.936(574.936,597.936(597.
12、936,620.936(620.936,643.936(643.936,666.936(666.936,689.936(689.936,712.936(712.936,735.936(735.936,758.936(758.936,781.936(781.936,804.936(804.936,827.936(827.936,850.936(850.936,873.936(873.936,896.936(896.936,919.936(919.936,942.936(942.936,965.936(965.936,988.936查询耗时分布(ms)8001%查询耗时分布 80079%的查询在6
13、00ms内完成,99%的查询在800ms内完成,没有超过1s的查询。自动伸缩扩容加速|EKS扩容更快扩容同等规格EKS和CVM节点,EKS扩容效率好。CVM初始化动作耗时较长,机器规格越大,扩容数量越多,扩容速度差距越大。133.33150200.33131.67148.67201161.67192281184.33429.335630050060010台 4C8G20台 4C8G50台 4C8G10台 8C16G20台 8C16G50台 8C16G扩容EKS与CVM速度对比(秒)扩容EKS扩容CVM637.817392.554381.757629.553364.55363.83700500600700扩容5台 单盘扩容10台 单盘扩容10台 5块盘性能对比(扩容规格16C64G)作业计算时长(秒)扩容EKS扩容CVMCVM性能稍好扩容相同规格节点后,CVM节点的性能要比EKS节点性能要稍好,但整体性能差距不大。腾讯云EMR自动扩缩容|多种资源类型TKEEKSCVM竞价实例伸缩类型负载伸缩时间伸缩支持优先级支持多种资源优先级支持多种伸缩规则优先级失败实时告警混合算力计算加速落地实践04|落地实践|涉及到客户的数据,这里先去掉了。非常感谢您的观看|腾讯云EMR:https:/