《2023企业上云暨算云融合产业大会-多样性算力论坛-东数西训场景实现及应用价值-江苏移动顾强(1).pdf》由会员分享,可在线阅读,更多相关《2023企业上云暨算云融合产业大会-多样性算力论坛-东数西训场景实现及应用价值-江苏移动顾强(1).pdf(13页珍藏版)》请在三个皮匠报告上搜索。
1、东数西训场景实现及应用价值2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会n 根据“十四五规划”要求,需“加快数字化发展,建设数字中国”,建设数字中国是数字时代推进中国式现代化的重要引擎,是构筑国家竞争新优势的有力支撑。国家已布局“东数西算”,进入全面建设阶段四部委出台全国一体化大数据中心协同创新体系算力枢纽实施方案,加快实施“东数西算”工程。算力是数字经济发展的基础设施夯实数字中国建设基础,
2、要打通数字基础设施大动脉数字中国建设整体布局规划提出优化算力基础设施布局,促进东西部算力高效互补和协同联动。东西协同,数据中心支持国家产业升级算力指数每提高1%,数字经济和GDP分别增长3.3%和1.8%。目标创新:牵引战略和业务转型促进技术创新和变革。提能:提升算力发展水平,促进算力转化为更大生产力。降本:算力资源最大化利用,实现国家、企业降本增效。国国家家方方针针政政策策2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2
3、3 企业上云暨算云融合产业大会屏蔽多样化的基础设施资源池多样化云多样化资源多样化私有云公有云边缘云CPU/GPU/FPGAX86/ARMredhat/bc-linux/EulerOsN中心资源池31省级资源池X边缘资源池 国家布局“东数西算”战略 2021年5月,国家四部委联合出台全国一体化大数据中心协同创新体系算力枢纽实施方案,明确提出布局全国算力网络国家枢纽节点,打通网络传输通道,提升跨区域算力调度水平,加快实施“东数西算”工程,构建国家算力网络体系。算力网络成为中国移动重要战略之一 中国移动将系统构建以5G、算力网络、智慧中台为重点的新型信息基础设施,构成“连接+算力+能力”新型信息服务
4、体系,助力数字经济蓬勃发展。战略驱动 内部诉求 省内私有云和一级云并存,两套平台,应用发布和运维体验差,如何实现两级云算力融合。内部各个应容器集群的利用率不均衡,需要更均衡的调度 外部诉求 企业业务多样性,需要部署在私有云、公有云及边缘云上,但云的差异性,导致用云效率差 企业的需要多云来提升业务连续性和降低供应商锁定风险 业务诉求内部客户需求:BOMS跨域融合/异构资源需求/三朵云融合/企业降本增效.外部客户需求:东数西算/企业多云混合部署与实时调度/多资源类型需求n 国家集团战略、内外部诉求驱动跨域、跨云算力的融合中中国国移移动动算算网网发发展展背背景景2 0 2 3 企业上云暨算云融合产业
5、大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会n AI应用场景的高速发展,赋智应用场景激增。模型训练,需要海量训练数据,和专用GPU算力资源,是典型的大计算量场景,对AI算力提出新需求。算力供需不均衡算力成本差异训练数据管理尤其是高端的加速卡,在AI中心里都是紧缺资源,单中心在承载的AI计算达到一定数量后,很难快速的增加新的资源,来满足业务的需求。其他算力中心的算力资源,可能处于空闲状态,资源无法有效利用。不同地域,不同中心的机
6、房,运营成本不同。例如,东部的机房用地用电相较于西部,往往要高。如果能有效分布计算任务,就可以获得降本增效。AI模型准确度要求越来越高,准备的训练数据集越来越大,所占用的存储也也来越多,特别是,模型训练需要不断累积数据。这些数据在不训练时,属于冷数据,需要考虑如何低成本存储管理。AI场场景景业业务务背背景景2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会分布式云原生一体化调度引擎四大核心能力覆
7、盖多样化场景应用应用多云部署东数西存东数西训应用容灾跨域多样化算力基础设施东部私有云西部省内私有云一级私有云私有云公有云移动云公有云支撑算力感知汇聚执行指令下发第三方私有云华为云一级云移动云三方私有云华为云入网感知编排调度智能运维统一管控四大特性 汇聚全局资源,可视可管不同区域存算力资源、不同类型的存算力资源、不同云存算力资源实现一点汇聚、一点看全看清 融合三力调度,最优部署对存算力进行温冷热分级管理,根据SLA要求,计算出最优的部署路径 统一多云操作,极致体验面向使用者提供一致的部署体验、一致的运维观测体验、一致的操作体验n 面向多样化的异构算力,构建分布式云原生调度服务,实现在使用多样化算
8、力时,感受不到地域、环境、技术栈、资源类型的差异,提升算力使用的便捷性及一致性。算力调度存力调度运力调度 智能运维,故障自愈 综合应用故障感知、定界、决策和自愈AIOps场景能力,打造智能化故障治理体系算算网网实实践践总总体体设设计计2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会东部n 借助于算力调度平台的“算力分析”、“算力调度”以及“数据存储调度”的能力,完成模型训练场景的算力调度的工作
9、,在西部算力资源充足的情况下,实现“西训”的目的。主要功能训练数据待推理数据算力分析(计算资源、数据位置)算力调度任务状态管理任务编排算力调度西部任务执行训练任务编排推理任务编排训练任务执行推理任务执行集中镜像仓库集中数据存储东东数数西西训训场场景景设设计计架架构构 推理服务跨中心调度 训练模型跨中心使用,推理服务的跨中心部署与调度 任务自动调度 考虑任务资源需求,结合算力空闲及数据位置,实现自动按需调度 任务集中监控管理 跨地域多中心任务的全生命周期集中监控,了解任务执行情况 任务集中编排 训练/推理任务一处编排,多处执行2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算
10、云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会模型训练在西部资源池完成;训练数据跨中心传输共享;训练得到的模型,跨中心共享,可以部署在东部和西部不同资源池;功能目标服务目标通过算网大脑Agent之间的通信和协同,自动匹配最佳算力,解决GPU高价值算力资源“最优化“使用,同时保障对服务请求的”透明化“。12东数西训智能调度东东数数西西训训场场景景两两大大目目标标2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企
11、业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会“东东数数西西训训”-数数据据西西迁迁和和异异地地训训练练依托n 依托于算力调度引擎能力,分别实现“数据调度”和“训练调度”,完成数据的西迁、异地的模型训练。融数注智,调度引擎智能决策算力网关算网智能化算网数据感知算网一体化基础设施原生编排算网数据感知,实现调度链路数据实时上报算网智能化,依托算网资源等模型智能决策原生编排,提供原子化的能力接口数据调度,大规模数据安全传输异地训练,算力资源评估计算东数西训,算力调度分布式训练数据模型训练内蒙 (西
12、部)算力平台江苏(东部)算力平台数据迁移训练服务训练编排算力网关训练调度2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会“智智能能调调度度”服服务务发发布布、服服务务路路由由n 服务使用方调用AI推理服务,算网调度引擎在接收到服务请求后,实时判断各个算力资源池忙闲,通过“路由调度策略”调度到恰当的算力池。东部算网资源推理服务部署业务受理单稽核算力调度流量策略路由策略流量调度内蒙南京苏州西部算网
13、资源算力调度流量网关服务编排服务请求甘肃2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会东东数数西西训训落落地地业业务务 -业业务务受受理理单单稽稽核核稽核内容签名照是否存在稽核:判别单据中是否存在手写电子签名图片。电子签名与受理对象一致性稽核:判别受理人对象姓名与手写电子签名是否一致。证件照与受理对象一致性稽核:判别受理人对象姓名与身份证识别结果姓名是否一致。过户场景下证件合规性稽核:判别业
14、务类型为过户,且证件类型为二代身份证时,原/新客户姓名与证件姓名是否一致。二代身份证件合规性稽核:判别二代身份证是否为标准身份证,包括姓名合规性、性别合规性、名族合规性、出生日期合规性、常住户口所在地住址合规性、公民身份号码合规性、证件有效期合规性、签发机关合规性、照片合规性稽核:证件照是否相互遮挡稽核:判别身份证字段公民身份证号码、签发机关内容是否存在,若为空则判断为位置不正确。签名与印章位置重叠稽核:判别签名图片与印章是否相互遮挡。水印是否存在稽核:判别身份证上的水印是否存在。水印是否正确稽核:判别水印内容是否为:“江苏移动业务受理”1、业务受理单日生成总数40万左右,批量稽核11个稽核点
15、,“一次稽核+二次复核”。于此同时,提供证照类实时稽核能力,2、从过去5%人工抽检,改进为100%稽核。2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会东东数数西西训训场场景景技技术术难难点点算网数据感知多算网资源差异大跨域状态管理复杂算网大脑决策难算网调度引擎Agent采集并实时上报网络要素数据、资源要素数据,其中网络要素不限于:延迟、抖动、丢包率等;资源要素不限于:CPU、GPU、NPU、
16、内存利用率等。在算网数据感知的基础上,对异构的资源进行归一化建模,迭代提供小型、中型、大型、超算力等不同等级的跨多区域的CPU/GPU/NPU等算网资源模型。从而屏蔽底层算网资源的差异。训练、推理任务由算网引擎调度后,需要集中监控各任务的执行情况,实现训练任务、推理任务统一状态上报框架,通过算网大脑进行状态汇集,将各资源中心的执行情况与编排记录关联监控。本次试点将基础平台业务网关进一步下沉,并通过算网大脑提供AI原子服务编排,将南北向流量转化为东西向流量,实现服务治理、统一服务调度,并依托算网资源等模型智能决策。1432技术难点2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云
17、暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会经经验验及及应应用用推推广广 算力供需互利,提升整体资源利用率 借助于空闲资源池资源,实现AI场景的计算推理。保障AI业务稳定运营的同时,提升空闲资源中心的资源利用率,实现空闲资源价值输出。降本增效,满足业务高速发展 借助于西部资源中心低成本的优势,扩大基础资源池,为赋智场景的高速发展,提供最优的硬件投入。训练、推理流程跨地域多中心串接训练任务结束后,算法模型数据跨中心分享,推理任务服务即可自动拉取使用,实现了
18、两种计算任务在编排流程上的无缝衔接。算力资源的自动分析,任务自动调度任务调度时自动进行分析,采用合适的调度策略,选择最优的资源中心,自动调度任务。训练、推理任务一处编排,多处执行编排训练、推理任务,评估SLA需求,跨中心调度,实现一处(东部)编排,多处(东部、西部各合适的资源中心)执行。应用价值业务落地经验 智慧医疗AI诊片:样本数据传输至西部资源池,进行模型训练,网络延迟满足AI诊片的实时性要求。场景推广 证券趋势分析:基于历史数据对股票进行离线趋势预测,处理量大,无实时性要求。智慧交通AI指挥:根据历史路口交通数据,分析预测合理的红绿灯间隔,缓解路口拥堵情况。2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会THANKS!2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会2 0 2 3 企业上云暨算云融合产业大会