《TKE注册节点:打造IDC轻量级云原生解决方案云上云下一致管理.pdf》由会员分享,可在线阅读,更多相关《TKE注册节点:打造IDC轻量级云原生解决方案云上云下一致管理.pdf(17页珍藏版)》请在三个皮匠报告上搜索。
1、分布式云实现IDC 轻量化上云TKE 注册节点汤文军主讲人:TKE 注册节点介绍 01企业上云过程中面临的问题资源利旧 利用率低企业原有的物理机如何利用云下资源利用率低(10%-20%),资源浪费严重GPU只能利用整卡,希望提升GPU的利用率运维成本高自建 K8s,并运维管理进行 Kubelet、系统组件的升级管理工作需要建设监控、日志系统,并进行大量的运维工作无法统一调度云上已经使用容器服务,云下有物理机,如何打通云上云下资源,实现统一调度和管理弱网问题云下主机没有专线连接,只能通过互联网连接到公有云,处于弱网或者断网场景下,如何将边缘节点注册到云上 TKE 集群物理机和云资源分布在不同地域
2、,如何将不同地域的资源加入一个集群进行统一管理IDC 轻量级云原生解决方案-TKE 注册节点TKE注册节点是针对混合云部署场景,全新升级的节点产品形态,允许用户将非腾讯云的主机,托管到TKE集群,由用户提供计算资源,容器服务,TKE 负责集群生命周期管理,提供“专线版”和“边缘版”两种模式IDC节点IDC专线互通TKE Control Plane云上节点云上节点注册节点池边缘节点池边缘节点边缘地域公有云连接核心场景充分利用IDC资源,并通过Request推荐、动态调度、节点超卖等能力进一步提升IDC资源的利用率。同时针对于GPU资源使用,提供厘核级算力隔离与多优先级混部资源利旧、利用率提升免去
3、在本地搭建、运维K8s集群的成本,无缝集成腾讯云云原生相关服务,涵盖日志、监控、审计、存储、容器安全等能力,用户仅需要运维本地服务器即可,并提供节点声明式运维的能力,支持节点快速升级及回滚节点托管运维持在单集群内同时调度本地节点与云上CVM节点,便于将云下业务拓展至云上,同时无需引入多集群管理云上云下统一调度支持用户通过公有云将用于自有节点加入到 TKE 集群进行运维和管理边缘自治云原生监控日志服务CLS集群审计容器安全镜像加速容器服务TKE腾讯云注册节点应用场景-IDC 资源利旧场景:企业IDC中闲置、老旧、退保的异构机器,企业想利用好这批机器,达到降本增效的目的闲置节点老旧节点退保节点企业
4、IDC机器异构,难以统一满足业务的诉求老旧机器的运维复杂资源利用率低本地容器化成本高企业IDC资源池化,支持k8s调度降低节点运维复杂度资源利用率低本地容器化成本高企业IDC注册节点池公网互通专线互通闲置节点老旧节点退保节点边缘节点运维难度大:需要自行构建日志、监控、事件、告警等系统资源利用率低:资源大量浪费编排管理复杂:需要建设业务编排管理系统物理机部署建设成本高:企业需要有容器化领域的专家,以及专业的运维团队运维难度大:需要自行构建日志、监控、事件、告警等系统升级难度大:无法进行持续升级和更新本地私有云TKE注册节点接入难度低:10分钟完成IDC节点上云,并使用 TKE 服务运维成本低:复
5、用 TKE 云上能力,包括监控,日志,安全,集群升级等资源利用率提升:复用云上节点利用率提升方案,最高可提升5倍升级运维方便:云上集群自动升级,节点可设置升级窗口升级注册节点应用场景-IDC 资源利用率提升资源利用率:40%60%资源利用率:1014%Container Runtime注册节点HardwareOperating SystemAPPAPPAPPHypervisorOperating SystemHardwareAPPAPPBin/LibraryOperatingSystemAPPAPPBin/LibraryOperatingSystemOperating SystemHardwa
6、reVirtual MachineVirtual MachineAPPAPPBin/LibraryContainerAPPAPPBin/LibraryContainerTKE Control Plane注册节点池腾讯云大规模运营经验企业IDC注册节点注册节点基础监控成本运营降低节点运维复杂度资源管控大盘Request推荐动态调度节点超卖在离线混部qGPU注册节点资源利用率提升通过CPU/内存利用率、节点装箱率等指标直观展示成本消耗和资源浪费现状l资源管控大盘根据业务Pod的历史水位,帮助用户推荐、配置合理的 RequestlRequest推荐提供目标利用率配置能力,基于真实利用率调度,保持节点
7、在安全水位l动态调度、重调度配置节点放大系数,提升节点装箱率l节点超卖通过在离线混部技术,CPU利用率提升300%l在离线混部通过内核级别GPU虚拟化技术,实现GPU共享和强QOS 隔离,性能几乎零损耗lqGPU注册节点应用场景-qGPU 提升 IDC GPU 资源利用率GPU driverKubernetes+GPU scheduler pluginpod0-1/n GPUGPU7GPU 0GPU 1GPU K8Spod1-GPUpod3-1 GPUpod2-GPUGPU/vGPU 实例GPU 当前现状对比GPU 共享方案,资源部署密度最高提升3倍,利用率提升100%GPU资源价格昂贵、利用
8、率低-资源切割不灵活-显存算力资源共享后,无法保证隔离性,易造成任务之间的抢占和干扰-仅支持高端的GPU-易用性差:业务重编、用户体验不好、运维升级困难业界通用GPU共享方案,在使用过程中面试诸多挑战qGPU driver 虚拟化提供“显存+算力+故障隔离支持“争抢+配额+弹性”调度策略APPCUDAUMDAPPCUDAUMDAPPCUDAUMDAPPCUDAUMD腾讯云GPU虚拟化方案-支持多个容器共享 GPU 卡-支持容器间算力和显存精细隔离-业界唯一的在离线混部能力-在最大程度保证业务稳定的前提下,提升 GPU 利用率qGPU是腾讯云推出的 GPU 容器虚拟化产品TKE qGPU Sch
9、eduler高优 PodGPU0GPU1spreadbinpack在线任务(高优)离线任务(低优)低优 Pod高优 Pod低优 Pod低优 PodKubernetes scheduler 集群调度算法qGPU container runtime注册节点应用场景-提升节点运维效率K8s组件:kubelet、kubeproxyOS:发行版、内核版本数百种组合 容器运行时:docker、containerd、安全沙箱等基础组件:存储、负载均衡、监控等数十种自安装软件、多种配置分钟级接入,本地仅需维护本地节点状态TKE Control Plane注册节点池节点初始化节点升级声明式运维专线互通NPD故障
10、自愈容器安全注册节点注册节点注册节点降低节点运维复杂度企业IDC传统节点运维繁琐众多的节点组件参数配置优化组合众多的OS发行版本和内核版本复杂的节点维护流程难以预料的安全漏洞风险层出不穷的bug修复和版本迭代节点组件TKE注册节点运维-配置简化:提供默认的基于业务场景适配的参数以及统一OS/运行时配置环境-系统优化:提供基于稳定性考虑的统一OS/运行时-辅助升级:节点K8s/运行时/操作系统版本,辅助升级最新版本,并结合腾讯前 沿安全情报及时更新安全漏洞简化运维-支持原地升级:支持配置最大并行升级节点数-定期巡检,沉淀腾讯云内部运维巡检能力,支持接入告警-程序化的工作减少人为误操作引发的故障。
11、节点排障注册节点应用场景-混合部署调度TKE Control Plane注册节点北京IDC云联网互通上海IDC云联网互通云联网互通多类型节点的混合部署云下有各种架构、机型的物理资源,甚至是分散在各个地域的TKE支持管理各种类型的节点,实现节点间的互联互通云上有普通节点、超级节点、原生节点等多种节点类型注册节点池北京原生节点池普通节点池注册节点池上海注册节点业务可以实现云上云下的相互弹性,支持将云下的Pod调度到云上运行,满足扩容、灾备、弹性的需求业务可以自定义调度模式,可以选择将服务调度到云上或云下云上云下混合调度TKE Control Plane普通节点池注册节点池普通节点Pod云上云下互弹
12、(扩容灾备)注册节点PodIDC注册节点应用场景-边缘计算TKE Control Plane边缘节点北京地域上海地域专线连接边缘计算场景边缘节点池原生节点池普通节点池IDC 节点池IDC节点无需云联网,通过公有云即可将边缘节点注册到 TKE 集群,快速创建边缘侧 K8s 集群适用于预算有限,又期望通过 TKE 快速纳管边缘侧节点,部署 K8s 集群,复用 TKE 云上能力的相关用户支持边缘节点弱网和断网场景,能够适配边缘节点各种弱网条件下节点重启的状态公有云连接产品优势K8s 云原生兼容,使用体验和标准 K8s 完全一致通过云边隧道实现 K8s 数据面所需的基础云边协同能力一键即可实现边缘节点
13、接入部署,同时实现组件轻量化支持异构能力支持(多体系结构、多操作系统、多加速卡)实现云上部署交付以及后期云上运维,降低成本支持多地域节点管理以及应用部署能力普通节点池ApiserverLite-apiserverPod边缘地域边缘节点池边缘隧道云端隧道Pod云边协同公有云连接TKE Control Plane云边隧道边缘节点TKE 注册节点客户案例 02PCG 降低本地运维成本客户处于整体上云原生的阶段,目前在IDC有大量的物理机资源在上云过程中实现资源利旧客户诉求-降低本地集群的运维成本,不希望在本地投入专门的人力运维 K8s-云上云下集群具有一致的体验(运行时、K8s发行版本、CNI等等)
14、,不一致会给 业务的部署和运维带来额外的成本-使用注册节点的方案,将深圳、上海等地域的IDC机器就近接入腾讯云深圳和上海 TKE 集群,实现IDC利旧解决方案借助于注册节点:业务收益-自研业务在一个月的时间内迁移 IDC 几十万核资源快速上云,提前完成年度资源 利旧的目标-集群运维管理由公有云TKE负责,用户仅需要维护本地节点的健康即可,同时云上 云下统一体验,进一步降低用户运维成本。集群运维人员减少60%,用户可以将宝 贵的人力投入到业务自身深圳TKE集群(深圳)专线互通TKE集群PCG业务平台腾讯新闻腾讯视频腾讯QQ微视TKE集群(上海)注册节点池注册节点池一致的集群版本一致的可观测性一致
15、的权限管理一致的集群运维专线互通IDC节点上海IDC节点CVM节点CVM节点qGPU 物理机利旧轻量上云案例客户大数据和AI业务腾讯云北京客户北京机房数据服务(容器)物理机物理机数据服务(容器)机器学习服务(容器)应用服务TKE集群消息队列cos备份TKE混合云1Gb专线腾讯云上海应用服务TKE集群消息队列cos备份TKE混合云1Gb专线监控日志节点运维客户诉求某外部客户在云上有5套 TKE 集群,3套EKS集群,云下有2个自建集群,每个集群有100+节点,运行大数据业务,并且希望能够统一管理云上云下的集群;同时GPU整卡使用,利用率较低,希望改善将北京和宁波机房物理机加入腾讯云北京和上海机房
16、TKE,并通过云上一键交付qGPU精细化管理能力解决方案业务收益-云上统一运维:IDC节点加入公有云,分钟级构建混合云集群,云上云实现权限,日志,监控统一管理-GPU利用率提升:通过GPU 10%算力切分实现GPU卡的共享,利用率可提升70%-交付效率提升:云上5分钟完成qGPU的交付GPUGPUGPU客户宁波机房GPUGPUGPU分布式云TDCC(云上TKE和云下物理机统一管理)注册节点实现云上云下统一调度管理背景:中国大陆的一家医疗资金众筹平台,目前部分业务已迁移到TKE集群。在IDC中存在部分机器,希望将这部分机器加入到TKE集群中,同时希望将POD IP注册到统一的注册中心中,进行统一
17、访问。TKE+注册节点池方案l通过专线打通云上TKE集群和云下IDC 节点l通过注册节点池,将IDC节点添加到TKE集群中l集群外节点需要直接访问集群内的POD具体措施lVPC中添加POD CIDR路由到集群内节点l外部调用时,通过注册中心获取服务的POD IPlVPC母机中通过POD 网段匹配路由,将请求转发到k8s集群中lK8s集群内,有POD的路由,通过路由再转发到具体服务方案收益l云上TKE作为控制面,云下 IDC 作为支撑面来实际承载业务,实现了云上云下的统一管理、和调度,统一技术栈l控制面和数据面的运维由云厂商负责,解决自己维护集群的运维问题l通过将IDC资源加入TKE集群,促进了
18、 IDC 节点资源的有效、高效利用。IDC节点IDC腾讯云云上节点云上节点注册节点池TKE Control Plane腾讯云pod cidr:10.16.1.0/24注册中心云联网pod cidr:192.168.1.0/24pod 10.18.1.1容器服务TKE专线互通专线互通IDC节点IDCCiliumoverlaypod 云上节点云上节点云上节点云上节点云上节点云上节点云上节点云上节点TKE Control Plane容器服务TKE腾讯会议使用注册节点实现混合云场景公网互通公有云节点公有云节点TKE网络agentPodMaster节点云上VPCVPC插件会议运营+运维控制台PaaS服务
19、会议管理媒体服务调度服务会议管理接口服务代理服务SaaS侧服务媒体代理Etcd/redis音视频服务接口机服务客户侧服务云边服务调度客户端Pod租户A注册节点-边缘版客户IDC节点Pod租户B注册节点-边缘版客户IDC节点应用部署节点管理场景腾讯会议混合云产品,用户侧部署音视频等服务处理敏感数据,云上进行非敏感信息的管理和调度注册节点-“边缘版”方案解决痛点支持边缘侧 IDC 节点分钟级快速接入节点部署容器集群,云端运维管控,相较于私有化大幅降低成本混合云集群通过云端管控控制面,相较私有化极大提高集群高可用性 云端部署管控,边缘服务部署,保证服务更新同时数据主权安全将 TKE 云上能力无缝衔接
20、到用户 IDC机房侧(监控/日志/仓库/安全等)组件私有化交付轻量化交付控制面云下3*8c 16G云下无控制面,管理0成本,可靠性更高运维驻场公有云运维交付效率2人天50 个节点在 20 分钟内即可部署成本百万级十万以内级备份恢复云下备份恢复公有云备份恢复安全性私有化租户间数据面隔离,按需联网弹性云下扩容节点随时通过公有云即可加入腾讯会议轻量交付集群多地域边缘节点管理背景:某行业领先的智慧医疗健康科技平台,目前使用 TKE 注册节点服务管理了 410+处于各个边缘地域医院内的节点,部署智慧医疗相关服务注册节点(边缘版)方案位于全国各个地域的医院内的节点,通过互联网即可添加到云端 TKE集群通过
21、边缘集群,向各个医院下发智慧医疗相关服务通过云端 Dashboard,监控边缘各个节点系统状态以及服务状态方案收益用户节点位于各个地域的医院中,资源有限,无法单独在每个医院不熟独立边缘集群进行管理;同时由于地域众多,边缘地域集群运维成本和难度较大;TKE-注册节点-边缘版正好解决用户这个痛点,将控制面运维放在云上,提供公有云级别高可用性,用户节点可以通过公有云一键加入,方便运维可以适配用户在不同地域的多种异构节点(多体系结构、多类型操作系统)TKE Control Plane腾讯云CLB云监控CLSTCR 镜像仓库边缘医院侧节点Dicom-pacs-compressDicom-edge-film-pacsDicom-edge-syncDicom-edge-proxyDicom-edge-notify医院 1医院2医院 3医院 4公有云注册节点-边缘版THANKS谢谢观看