《北京金融科技产业联盟:金融数据中心人工智能算力建设指引(2023)(68页).pdf》由会员分享,可在线阅读,更多相关《北京金融科技产业联盟:金融数据中心人工智能算力建设指引(2023)(68页).pdf(68页珍藏版)》请在三个皮匠报告上搜索。
1、 金融数据中心 人工智能算力建设指引 北京金融科技产业联盟 2023 年 8 月 I 版权声明 本白皮书版权属于北京金融科技产业联盟,并受法律保护。转载、编摘或利用其他方式使用本白皮书文字或观点的,应注明来源。违反上述声明者,将被追究相关法律责任。II 编制委员会 编委会成员:王长江 聂丽琴 张海燕 编写组成员:赵春华 王妍娟 葛金磊 张浩然 吴仲阳 宋 虎 余学山白 阳 符海芳 李书建 黄志鹏 徐 旭 陆碧波 薛 亮谭 翔 马庆杰 李 洁 郭 亮 王 月 吴 刚 郭江波吴战立 雷昭燕 袁 智 王伟锋 李 培 彭 晋 李俊奎杨海悌 俞颖熙 程归鹏 张贯忠 李鸿鹏 宋 飞 玄凌博郑鹏飞 黎世勇
2、王云凤 编审:黄本涛 周豫齐 王妍娟 张浩然 III 参编单位:北京金融科技产业联盟秘书处 北京国家金融科技认证中心有限公司 中国工商银行股份有限公司 华为技术有限公司 浙江网商银行股份有限公司 中国信息通信研究院 腾讯云计算(北京)有限责任公司 新华三技术有限公司 蚂蚁科技集团股份有限公司 中科寒武纪科技股份有限公司 超聚变数字技术有限公司 北京百度网讯科技有限公司 IV 前 言 前 言 人工智能基础设施作为“新基建”的重要组成部分,是数字化走向智能化的核心力量,是金融机构智慧再造的关键载体。近年来,我国发布多项政策文件,进一步明确人工智能的发展规划,对人工智能算力建设指出方向。2021 年
3、底,中国人民银行发布金融科技发展规划(20222025 年),提出抓住全球人工智能发展新机遇,以人为本全面推进智能技术在金融领域深化应用,着力打造场景感知、人机协同、跨界融合的智慧金融新业态,实现金融服务全生命周期智能化。人工智能算力数据中心是以数据中心为基础的人工智能基础设施。具体来说,人工智能数据中心是在超算中心和云计算数据中心大规模并行计算和数据处理的技术架构基础之上,通过大数据和深度学习技术保障其高效、安全运营,以人工智能专用芯片为计算算力底座,融合公共算力服务、数据开放共享、智能生态建设、产业创新聚集“四位一体”的综合平台,可提供算力、数据和算法等人工智能全栈能力,是当前人工智能快速
4、发展和应用所依托的新型算力基础设施。“数据、算法、算力、开放平台”是人工智能基础设施的核心内容,其中算力包括 AI 芯片、AI 平台、智能计算中心等产品,提供高性能、低成本、绿色的计算能力是算力建设的关键目标。本报告阐述了国内外人工智能算力建设情况,梳理了当前金 V 融数据中心人工智能算力建设面临的挑战,从整体上提出人工智能算力数据中心的架构,围绕基建、硬件及软件基础设施给出了人工智能算力建设指引,并进一步分析了传统与新型算力、数据中心算力与边缘算力、算力与网络等关键技术的协同建设问题,探索了人工智能算力数据中心绿色低碳运维模式,最后通过成功案例展望未来,以期为金融机构数据中心建设人工智能算力
5、基础设施提供指引与参考。关键词:关键词:人工智能、AI 算力、人工智能算力数据中心、AI 使能软件、AI 开发框架 VI 目 录 目 录 第一章 发展背景和研究目标.1 一、发展背景.1(一)国家政策及“十四五”规划要求.1(二)金融科技发展的基础支撑.4(三)国内外当前 AI 算力建设情况.4 二、研究目标.9 第二章 面临的挑战和难点.10 一、整体看.10(一)数据中心 AI 算力发展不均衡.10(二)数据中心 AI 计算能力不足.10(三)数据中心 AI 算力连接和协同能力不强.10(四)数据中心 AI 算力调度不灵活.11 二、分层看.11(一)数据中心选址问题(L0 层).11(二
6、)能耗及供电问题(L1 层).12(三)AI 算力底座与周边设备及网络的问题(L2 层).12(四)支持不同业务场景的 AI 应用问题(L3 层).13 第三章 建设指引.14 一、人工智能算力数据中心架构.14(一)总体架构.14(二)分层布局.15 二、基建基础设施层(L0-L1).20 三、硬件基础设施层(L2).20(一)AI 芯片.20(二)AI 服务器.21(三)AI 计算子系统.22 四、软件基础设施层(L3).22 VII(一)芯片使能软件.22(二)AI 开发框架.23(三)使能软件.23 第四章 建设协同.30 一、整体原则.30 二、传统算力与新型算力协同.30(一)算力
7、产品特征.30(二)算力协同建设.32 三、数据中心算力与边缘算力协同.37 四、算力与网络协同.39(一)广域算力网络架构.40(二)广域算力网络关键技术.43(三)数据中心算力网络关键技术.44(四)算力网络协同关键技术.46(五)算力网络数字化能力.47 第五章 运维和节能管理.49 一、运维管理.49(一)人员组织.49(二)日常运行维护.50 二、节能管理.50 第六章 成功案例和未来展望.53 一、成功案例.53(一)工商银行基于高性能网络的中高算力集群探索.53(二)蚂蚁集团 AI 算力端云协同发展实践.54(三)网商银行基于卫星遥感的 AI 算力服务农村金融实践.56 二、未来
8、展望.57(一)AI 算力的建设需求快速提升.57(二)AI 算力的金融价值不断凸显.58 参考文献.60 1 第一章 发展背景和研究目标 一、发展背景(一)国家政策及“十四五”规划要求 人工智能基础设施是“新基建”的重要组成部分,是数字化走向智能化的核心力量,是金融机构智慧再造的关键载体。“数据、算法、算力、开放平台”是人工智能基础设施的核心内容,其中算力包括 AI 芯片、AI 平台、智能计算中心等产品,提供高性能、低成本、绿色的计算能力是算力建设的关键目标。近年来,我国发布多项政策文件,进一步明确人工智能的发展规划,对人工智能算力建设指出方向。人工智能已上升为国家战略,人工智能的发展迎来重
9、大机遇。表 1 汇总了近年来国家和相关部委发布的人工智能及算力相关政策。表 1 人工智能及算力相关政策 时间 时间 内容 内容 2017 年 3 月 国务院总理李克强 2017 年政府工作报告,指出要加快培育壮大包括人工智能在内的新兴产业,“人工智能”首次被写入了国家政府工作报告。2017 年 7 月 国务院出台新一代人工智能发展规划,提出三步走的战略目标。2017 年 12月 工业和信息化部印发促进新一代人工智能产业发展三年行动计划(20182020 年),明确了到 2020 年人工智能在推动战略性新兴产业总体突破、推进供给侧结构性改革、振兴实体经济、建设制造强国和网络强国方面的重大作用和具
10、体目标。2 时间 时间 内容 内容 2018 年 3 月 国务院总理李克强在十三届全国人大一次会议作政府工作报告时表示,要加强新一代人工智能研发应用,在医疗、养老、教育、文化、体育等多领域推进“互联网+”。2018 年 5 月 习近平总书记在两院院士大会上指出,“要推进人工智能同实体经济深度融合,做大做强数字经济。”2018 年 12月 中央经济工作会议,重新定义了基础设施建设,把 5G、人工智能、工业互联网、物联网定义为“新型基础设施建设”。2019 年 3 月 国务院总理李克强在2019 年国务院政府工作报告中明确提出深化人工智能等研发应用。紧扣国家发展战略,加强新一代信息基础设施建设。2
11、019 年 7 月 中央政治局会议,强调要加快推进信息网络等新型基础设施建设。2020 年 3 月 中共中央政治局常务委员会召开会议再次强调“新基建”,要求加强人工智能等新型基础设施建设。2020 年 4 月 国家发改委首次明确“新基建”范围,强调数据中心、智能计算中心就是算力基础设施的代表。2020 年 7 月 国家标准化管理委员会、中央网信办、国家发展改革委、科技部、工业和信息化部印发 国家新一代人工智能标准体系建设指南,指导人工智能标准化工作有序开展。2020 年 10月 科技部印发国家新一代人工智能创新发展试验区建设工作指引(修订版),明确要布局建设 20 个左右国家人工智能创新发展试
12、验区。2020 年 11月 2020 年 11 月 17 日,国家信息中心信息化和产业发展部发布智能计算中心规划建设指南,对智能计算中心的概念、内涵、技术架构、投建运模式等进行全面解读。3 时间 时间 内容 内容 2021 年 3 月 国务院发布中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要,提出要强化国家战略科技力量,加强原创性引领性科技攻关。新一代人工智能作为重要的科技攻关领域,重点投入前沿基础理论突破,专用芯片研发,深度学习框架等开源算法平台构建,学习推理与决策、图像图形、语音视频、自然语言识别处理等领域创新。2021 年 5 月 国家发展改革委、中央网信办
13、、工业和信息化部、国家能源局联合印发全国一体化大数据中心协同创新体系算力枢纽实施方案,明确在京津冀、长三角、粤港澳大湾区、成渝,以及贵州、内蒙古、甘肃、宁夏等地布局建设全国一体化算力网络国家枢纽节点(以下简称“国家枢纽节点”)。在金融行业,银保监会于 2019 年发布关于推动银行业和保险业高质量发展的指导意见,提出既要充分利用人工智能强化业务管理,改进服务质量,降本增效,又要发挥人工智能在打击非法集资、反洗钱、反欺诈等方面的积极作用。在相关宏观政策的指导下,各地结合自身区域特点和行业发展状况因地制宜出台相关政策推动智能金融的特色化发展,相关行业标准规范逐步完善。2021 年,中国人民银行发布
14、人工智能算法金融应用评价规范(JR/T 02212021),规定了人工智能算法在金融领域应用的基本要求、评价方法、判定准则。金融行业以智能化为目标,提升金融数字化水平,通过业务流程自动化降低人力成本,4 通过解决信息不对称问题弥合数据信息差,通过个性化的千人千面提供普惠金融服务,从而实现业务的增长、风险成本的降低、运营成本的改善。(二)金融科技发展的基础支撑 金融科技发展提出人工智能、大数据分析等场景,响应金融监管政策的要求。2021 年 12 月,中国人民银行印发金融科技发展规划(20222025 年),提出“坚持发展与监管两手抓,推动金融科技在实体经济的沃土中落地生根。大数据、云计算、人工
15、智能、区块链等技术金融应用成效显著。金融服务覆盖面逐步扩大,优质金融产品供给不断丰富,金融惠民利企水平持续提升。”人工智能作为金融机构数字化转型的重要手段,助力金融行业在产品设计、市场营销、风险控制、客户服务以及其他支撑性业务领域和场景中实现整体升级。金融科技发展规划(20222025 年)在“智慧为民”基本原则中,提出“抓住全球人工智能发展新机遇,以人为本全面推进智能技术在金融领域深化应用,强化科技伦理治理,着力打造场景感知、人机协同、跨界融合的智慧金融新业态,实现金融服务全生命周期智能化,切实增强人民群众获得感、安全感和幸福感”,加快金融服务智慧再造,提升数字绿色的服务体系中的智能应用水平
16、。(三)国内外当前 AI 算力建设情况 1.1.国内外算力规模发展 国内外算力规模发展 5 2020 年全球算力总规模达到 429EFlops1,增速达到 39%,其中基础算力规模为 313EFlops,AI 算力规模为 107EFlops,超算算力规模(换算为 FP32)为 9EFlops。预估未来五年全球算力规模将以超过 50%的速度增长,到 2025 年整体规模将达到3300EFlops。全球算力竞争激烈,基础算力方面以中国和美国为第一梯队,其中美国占 43%份额,中国占 26%份额。智能算力方面,中国智能算力占算力的比重由 2016 年的 3%提升至 2020 年41%,以人工智能算力
17、数据中心为代表的 AI 算力基础设施发展迅猛。2020 全球计算力指数评估报告显示“全球计算力水平top5 行业分别是互联网、制造、金融、政府和电信”,金融行业综合排名进入前三。2.2.金融业务应用系统需求 金融业务应用系统需求 在新一轮科技革命和产业变革的背景下,金融科技蓬勃发展,人工智能、大数据、云计算、物联网等信息技术与金融业务深度融合,为金融发展提供源源不断的创新活力。同时 2020 全球计算力指数评估报告显示“金融行业信息化和数字化起步较早,金融行业因对算力的稳定性、可靠性、实时性、安全性等方面要求较高,对于算力的投资规模处于行业领先水平且比较稳定。从全球来看,金融行业是人工智能算力
18、投资最大的传统行业,据IDC数据,全球 AI 算力支出的 24.9%来自金融行业,人工智能作为金融行业数字化转型过程的关键部分,被广泛用于反欺诈、风险 1 EFlops:百亿亿次,Flops 指的是每秒浮点运算次数,E 代表的是一百京,一个 EFLOPS(exaFLOPS)等于每秒一百京(=1018)次的浮点运算。6 管控、合规管理、运营流程、自动化客服、智能 CRM 和量化交易等领域,辅助金融企业降低成本、提升效率和提高客户体验”。人工智能应用对算力最大的挑战来自数据中心的模型训练。具有海量参数的模型训练几乎完全依赖于核心数据中心的算力支撑。比如 2020 年微软发布的智能感知计算模型 Tu
19、ring-NLG,参数量高达到 175 亿;OpenAI 发布的 GPT-3 模型,参数量更达到 1750 亿,是 GPT-2 的 100 余倍。由于其庞大的参数体量,在给人工智能应用提供便利的同时,对 AI 算力提出了更高的要求。尤其是在金融行业数字化转型的浪潮中,人工智能的算法越来越依赖于算力的发展。3.3.国内金融业AI典型业务场景 国内金融业AI典型业务场景 人工智能与金融行业深度融合,金融行业数字化、智能化改革已经初见成效,金融人工智能整体呈现业务智能价值创造,全面覆盖产品设计、市场营销、风险控制、客户服务等主流业务场景。从技术价值来看,人工智能技术正逐步解决行业痛点问题,在实现业务
20、流程自动化、弥合信息差、构建普惠金融方面发挥着关键作用,已经在获取增量业务、降低风险成本、改善运营成本、提升客户满意度方面进入价值创造阶段。从应用场景来看,以机器学习、机器视觉、生物特征识别、知识图谱等技术赋能的金融行业,衍生出智慧网点、量化交易、智能投顾、智能风控等多个典型场景。表 2 列举了 AI 算力金融行业应用的十大典型业务场景。7 表 2 AI 算力金融行业应用的典型业务场景 场景名称 场景名称 描述 描述 智慧网点 场景:场景:标配“无人、无证、无卡”,提供普惠金融服务、财富管理服务、智慧金融服务、国际业务等服务。技术:技术:依托身份识别、数字人、人脸识别、语音识别等技术提供服务。
21、数字员工 场景:场景:模拟人工完成图像识别、关键信息提取、数据录入、报表生成、行为分析、合规分析、结果决策等。技 术:技 术:光 学 识 别 技 术 OCR(Optical Character Recognition)、RPA(Robotic Process Automation)技术、数字人、NLP(Natural Language Processing)技术、图像分类。智能客服 场景:场景:广泛应用于各类金融机构,提供 24 小时不间断问答服务。技术:技术:依托自然语言理解、语音识别、RPA、知识图谱、NLP 等技术提供智能交互服务。量化交易 场景及技术:场景及技术:依托先进的数学模型替代
22、人为的主观判断,量化交易有很多种,包括跨平台搬砖、趋势交易、对冲等。跨平台搬砖是指当不同目标平台价差达到一定金额,在价高的平台卖出,在价低的平台买入。智能身份识别 场景及技术:场景及技术:人脸识别、声纹识别、静脉识别、指纹识别等。8 场景名称 场景名称 描述 描述 智能投研 场景:场景:B 端金融机构用户,整合各类研报数据。并自动撰写研报,给出机构投资意见。技术:技术:智能投研依赖知识图谱和深度学习技术的进一步发展,通过智能数据收集、清洗、分析,实现对投资标的的发展趋势判断与风险预测。智能投顾 场景:场景:通过一系列智能算法综合评估用户的风险偏好、投资目标、财务状况等基本信息,并结合现代投资组
23、合理论为用户提供自动化、个性化的理财方案。其实质是利用机器模拟理财顾问的个人经验。技术:技术:核心环节包括用户画像、大类资产配置(投资标的选择)、投资组合构建和动态优化等。智能营销 场景:场景:聚焦存贷款产品营销、信用卡分期、理财产品、节假日关怀等。技术:技术:依托推荐引擎和机器学习技术,通过分析用户数据并聚类用户特征,做到“千人千面”的智能推送。利用知识图谱和自然语言处理等技术建立客户画像,实现精准的营销定位与需求挖掘。智能风控 场景:场景:聚焦金融业交易等风险防控场景,如支付、信贷,反洗钱等。技术:技术:依托机器学习和知识图谱等技术,通过数据驱动风险管理与运营优化。智能反欺诈 场景:场景:
24、主要集中在支付和金融账户登录等场景。技术:技术:包括人脸识别、声纹识别、指纹识别、虹膜识别、光学识别等。9 二、研究目标 本课题的研究目标分为两方面。一是一是基于当前金融机构积极探索和建设新型人工智能业务系统及人工智能算力数据中心的情况,广泛吸取金融行业目前较为优秀的建设经验和解决方案,编制研究报告,为金融机构数据中心建设人工智能算力基础设施提供指引与参考。二是二是在完成研究报告的基础上,进一步编制相关标准,以规范金融数据中心人工智能算力基础设施建设。10 第二章 面临的挑战和难点 一、整体看(一)数据中心 AI 算力发展不均衡 在当今金融业庞大的数据处理量面前,数据中心规模总量和能耗总量不断
25、增长,而且 AI 算力业务天然存在波动,存在部分能耗闲置现象。数据中心特别是西部地区一些数据中心算力资源未能充分利用的问题也常被业内专家提及。我国东部算力资源紧张与西部算力需求不足的问题并存,区域数字基础设施和应用空间布局亟待优化。数字化时代的今天,“东数西算”备受瞩目,他与“南水北调、西电东送、西气东输”一样,成为国家级的超级工程,也是解决算力发展不均衡的基本国策。(二)数据中心 AI 计算能力不足 伴随数据的激增和算法的日益复杂,算力将成为决定人工智能发展上限的重要因素。人工智能算力数据中心能耗总量较大,且保持不断增长。以人工智能专用芯片为计算算力底座,在其上开发的 AI 框架、AI 应用
26、呈现出多样化、复杂化、碎片化的态势。电力的潜能已经全被释放,算力的潜能随着数据的产生和数字化的进展,还会持续释放。合理架构网络,优化算法,运用新技术使得软硬件不断推陈出新,使算力不断指数级提升,从而满足智能应用的多元化需求。(三)数据中心 AI 算力连接和协同能力不强 在全产业数字化转型的大形势下,新兴技术应用成为算力提 11 升最主要的驱动力,尤其是人工智能带动的 AI 算力需求。政府、企业一同建设,集约化不够,利用率有限,成本居高。并且算力服务器成本居高不下,尤其 AI 算力服务器。如果建成人工智能算力数据中心,实现设备网络共享,降低成本,可以发挥我国的制度和行业优势。如何实现人工智能算力
27、数据中心间互联,分支边缘算力互联,第三方算力协同互联,AI 算力物联终端互联,这是一个体系化的布局。政策性设计为基础,其中资源匹配、网络部署、算力对接等都是本课题研究的重点。(四)数据中心 AI 算力调度不灵活 在国家碳达峰、碳中和的目标下,实现在不同数据中心间算力协同调度、削峰填谷、精细化能耗控制的要求。算力的灵活调度尤为重要。数据每丢失千分之一,吞吐量就会下降 50%,浪费算力资源。一方面,对网络提出要求,尽量实现无损网络。另一方面,通过自动混合并行、全局内存管理、可视化调优以及分布式推理等核心技术,强化对人工智能网络的灵活调度,以提升人工智能算力数据中心的调度协同水平。二、分层看2(一)
28、数据中心选址问题(L0 层)新建或改扩建的人工智能算力数据中心位置,一方面受地方政府规划局限,另一方面还要考虑当地政府对 PUE3等的绿色环保 2 人工智能算力数据中心分层布局详见第三章第二部分 人工智能算力数据中心架构。3 Power Usage Effectiveness 的简写,是评价数据中心能源效率的指标,是数据中心消耗的所有能源与 IT 负载消耗的能源的比值。PUE=数据中心总能耗/IT 设备能耗,其中数据中心总能耗包括 IT 设备能耗和制冷、配电等系统的能耗,其值大于 1,越接近 1 表明非 IT 设备耗能越少,即能效水平越好。12 要求。当前人工智能算力数据中心的建设现状主要为政
29、府主导建设和头部企业自行建设。为加快推动数据中心绿色高质量发展,建设全国算力枢纽体系,落实国家“东数西算”工程,统筹围绕国家重大区域发展战略,根据能源结构、产业布局、市场发展、气候环境等,建议人工智能算力数据中心在国家枢纽节点布局建设,发展数据中心集群,引导数据中心集约化、规模化、绿色化发展。国家枢纽节点之间进一步打通网络传输通道,提升跨区域算力调度水平。(二)能耗及供电问题(L1 层)人工智能算力数据中心远远高于一般数据中心对于电力能耗的需求,需要向当地电力供应部门申请电力配额,以解决供电等突出问题。另外,传统数据中心在改扩建过程中,传统机柜电力不足以支撑能耗巨大的 AI 算力服务器,需要液
30、冷等更高能效的设备,在提升算力的同时降低对电力能耗的需求。对已建成的传统业务设施改扩建过程,为确保金融业务的平稳过渡和无缝衔接,需要经验丰富的公司执行。(三)AI 算力底座与周边设备及网络的问题(L2 层)人工智能、HPC(High Performance Computing,高性能计算)、元宇宙等新兴应用需要大量数据吞吐和运算能力,GPU(Graphics Processing Unit,图形处理单元)随着性能的提升,功耗也在显著提升,服务器等 IT 设备,特别是 AI 服务器的功耗呈上升趋势(AI 服务器单台能耗甚至要突破 10kW),数据中心面临能耗 13 和散热的挑战。通过云网融合,整
31、合云、数据中心资源和优质网络资源,把连接和计算整合在一起,从而提升 AI 算力水平,攻克“数据上不来,算力下不去”的难题。(四)支持不同业务场景的 AI 应用问题(L3 层)AI 框架及主流框架纷繁多样,金融机构需要时间提升对框架和工具的使用能力,对金融机构的服务也具有一定挑战。在设计具体场景的 AI 业务软件系统时,由于开发人员缺少相关标准和应用接口的参考,因此对特定行业计算系统的适应性、可裁剪性、可伸缩性等细节特性的考虑不充分,缺少在各种严苛条件下系统的可靠性、可服务性以及对整体软硬件系统性能影响的考虑,这就加大了 AI 算力业务落地的成本。14 第三章 建设指引 数据中心 AI 算力指标
32、包含 4 大核心要素:通用计算能力、高性能计算能力、存储能力、网络能力。数据中心 AI 算力的建设应满足 3 大要求:一是 AI 算力建设对电力动力等的要求。二是数据中心 AI 算力软硬件技术要求,包括核心 AI 处理器架构、AI 训练产品性能、集群互联系统能力、AI 主流软件适配能力、软件平台和工具的完备性、主流机器学习和深度学习网络支撑能力等。三是 AI 算力和通用算力协同建设及改造指引,包括以 AI算力建设作为主算力的 AI 计算集群软硬件建设要求,与通用计算集群、网络及存储集群的软硬件协同建设的要求。一、人工智能算力数据中心架构 计算是人类能力的延伸,算力的建设与社会的发展需求紧密结合
33、,在不同历史阶段出现了超级计算中心、云计算数据中心、人工智能算力数据中心等不同形态的算力基础设施。人工智能算力数据中心是当前人工智能快速发展和应用所依托的新型算力基础设施。(一)总体架构 人工智能算力数据中心借鉴了超级计算中心和云计算数据中心大规模并行计算和数据处理的技术架构,但以人工智能专用芯片为计算算力底座。人工智能算力数据中心由基建基础设施、硬件基础设施、软件基础设施及行业应用等组成。为了能高效、清晰地对人工智能算力数据中心建设展开研究,15 把人工智能算力数据中心建设划分成 5 层,总体架构如图 1 所示。图 1 人工智能算力数据中心总体架构 土建层(L0)土建层(L0),包括地基和建
34、筑体。基础设施层(L1)基础设施层(L1),包括 IT 运行环境、风火水电及运维管理。硬件基础设施层(L2)硬件基础设施层(L2),包括 AI 芯片及服务器等硬件设备。软件基础设施层(L3)软件基础设施层(L3),包括应用软件、开发框架、软件平台和数据。行业应用层(L4)行业应用层(L4),包括智能识别、智能投顾、智能客服等金融行业应用。L0 和 L1 相关度较大,统称为基建基础设施层。(二)分层布局 人工智能算力数据中心分层布局如图 2 所示,其中与人工智能算力建设相关的部分包括基建、硬件及软件基础设施 3 层。行业应用行业应用 软件基础设施软件基础设施 硬件基础设施硬件基础设施 基建基础设
35、施基建基础设施 人工智能算力数据中心人工智能算力数据中心 16 金融行业应用智能识别智能投顾智能客服智能营销量化交易智能风控人工智能算力数据中心软件基础设施行业算法:AI与金融业务融合金融市场:AI与数据要素流动数据管理智能诊断模型开发数据标注自动学习大规模AI训练预置算法云边端部署芯片使能资源云化算力调度AI开发框架多租户隔离云边端协同使能软件使能软件AI系统软件GPUNPUFPGAASIC存储子系统网络子系统规划设计机房土建L0L1L2L3L3L3L4AI计算子系统弹性共享云平台基础软件基础软件硬件基础设施基建基础设施TPU风火水电IT运行环境运维管理 图 2 人工智能算力数据中心分层布局
36、 1.1.基建基础设施层(L0-L1)基建基础设施层(L0-L1)基建基础设施层包括人工智能算力数据中心规划设计和为中心提供空间、电力、水源、冷量、防火等基本条件的机房土建、风水火电、IT 运行环境及运维管理建设等底层设施。2.2.硬件基础设施层(L2)硬件基础设施层(L2)硬件基础设施层是人工智能算力数据中心的核心基础,由AI计算子系统、存储子系统、网络互联子系统组成,如图 3 所示。17 图 3 硬件基础设施架构图(1)AI芯片。(1)AI芯片。依据承担的功能,AI芯片可划分为训练和推理芯片。训练芯片涉及海量数据和大规模计算,对算法、精度、处理能力要求非常高,当前仅适合在中心端部署。推理芯
37、片更加注重综合能力,包括算力能耗、时延、成本等因素,支持计算机视觉、视频处理、自然语言处理和搜索推荐等推理应用场景,可部署在中心端、边缘或终端侧。目前GPU、NPU(Neural network Processing Unit)、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Intergrated Circuits)等是AI芯片行业的主流技术路线。(2)AI计算子系统。(2)AI计算子系统。AI计算子系统一般由高密度、集成化机柜式设计的集群基础单元组成,每个集群基础单元包括若干AI服务器,每台AI服务器均搭载AI芯片
38、,在芯片和服务器之间通过互联网络传递人工智能网络模型的梯度参数更新等数据。各集群基础单元可支持约40kW的散热功耗,实现低PUE数据中心能源效率。硬件 基础 设施 AIAI 计算子系统计算子系统 AI 集群基础单元 GPU NPU FPGA ASIC AI 服务器 供电 制冷 AI 集群 基础 单元 AI 集群 基础 单元 存储 节点 存储子系统存储子系统 网络互联子系统网络互联子系统 数据中心交换机 数据中心交换机 数据中心交换机 18(3)存储子系统。(3)存储子系统。存储子系统提供高性能、高可靠、高扩展性和易备份的分布式存储。存储子系统部署存储节点,提供对象存储、块存储等存储服务,为人工
39、智能训练平台提供高吞吐,大带宽的样本原始数据。(4)网络互联子系统。(4)网络互联子系统。网络互联子系统为整个AI硬件基础设施层各子系统间提供互联互通支撑。3.3.软件基础设施层(L3)软件基础设施层(L3)软件基础设施层包含基础软件、AI 使能4软件、行业算法和AI 市场,如图 4 所示。图 4 软件基础设施架构图(1)基础软件(a)芯片使能软件。(1)基础软件(a)芯片使能软件。芯片使能软件构建于 AI 芯片驱动层之上,是人工智能软件加速库(算子)集合,为深度学习提供必不可少的计算优化功能。各大芯片厂商都推出了针对自身芯片进行优化的使能库,如对于以 GPU 和 NPU 为基础的两类 AI
40、芯片,其 4 使能,其英文为“Enable”,使能软件是增强原有系统或基础软件能力的一种软件,使其具备更多新的能力。软件 基础 设施 行业算法行业算法:AIAI 与行业业务融合与行业业务融合 AIAI 市场市场:AIAI 与数据要素流动与数据要素流动 数据管理 智能诊断 模型开发 数据标注 自动学习 大规模 AI 训练 预置算法 云边端部署 芯片使能软件 资源云化 算力调度 AI 开发框架 多租户隔离 云边端协同 使能软件使能软件 基础软件基础软件 弹性共享 AIAI 系统软件系统软件 云平台云平台 19 芯片使能软件的代表分别是 CUDA(Compute Unified Device Arc
41、hitecture,计 算 统 一 设 备 架 构)和 CANN(Compute Architecture for Neural networks,神经网络计算体系结构)。(b)AI 开发框架。(b)AI 开发框架。AI 开发框架封装卷积运算、激活函数、损失函数计算、优化器使用等基本操作,提供人工智能网络模型开发环境。主流 AI 开发框架包括 MindSpore、TensorFlow、PyTorch 和 PaddlePaddle 等。(c)云平台。(c)云平台。基础软件中还包括云平台,对计算、存储及网络资源进行统一调度和管理,提供统一的算力支持。(2)使能软件(2)使能软件 人工智能算力数据中
42、心面向大规模分布式模型训练、全流程人工智能应用支撑,需要对大规模算力资源进行管理和调度。使能软件基于硬件基础设施的组网特点实现对算力资源的统一管理、调度和监控,进行细粒度的资源实时分配,支持海量任务的智能自动调度、任务管理、数据加载和预处理,支持大规模人工智能计算场景,并能够提供丰富的人工智能场景应用和API 服务,使用户能够在该平台上进行一站式人工智能开发和应用部署。软件 API 服务主要包括提供智能语音语言类和计算机视觉服务。智能语音语言类服务主要提供语音识别、语音合成、声纹识别、语音听转写等在线服务,计算机视觉类服务主要提供物体检测、人脸识别、人脸检测、图像识别、光学字符识别等服务。20
43、 产业侧使能软件包括华为的modelArts、百度的AI studio、第四范式的 sageEE、寒武纪的 CAIP 算力平台、新华三的傲飞AMPHA、亚马逊的 AWS sageMaker 等。(3)行业算法和 AI 市场(3)行业算法和 AI 市场 行业算法通过行业知识的积累,预置各样经验,从而更快、更高效地为行业赋能。AI 市场则支持数据和 AI 模型的有效流动和共享。二、基建基础设施层(L0-L1)在数据中心选址方面,除符合国家标准 GB 50174 的 4.1.1、4.1.2 和附录 A 中选址相关技术要求和使用需求外,还应符合JR/T 0265 中 7.2 规划及布局的基本要求。在数
44、据中心环境、建筑与结构、空气调节、电气、电磁屏蔽、网络与布线系统、智能化系统、给水排水、消防与安全方面,除符合国家标准 GB 50174 第 5 章至第 13 章及附录 A 相关技术要求外,还应符合 JR/T 0265 中第 7.3 章节至 7.11 章节的基本要求。三、硬件基础设施层(L2)(一)AI 芯片 1.1.AI芯片架构 AI芯片架构(1)应采用适合的AI芯片架构,提供高AI算力和能效比。(2)应支持高速互联技术。(3)应支持高度集成化、模块化和冗余设计。21 2.2.AI加速芯片 AI加速芯片(1)应支持专用的矩阵乘法运算加速单元和向量乘加运算加速单元。(2)应支持片上配备高速缓存
45、,加速数据存取与多核通信。(3)应提供 FP32、FP16、TF32 浮点运算精度。对于推理卡,FP32 不小于 20TOPS 或 FP16 不小于 250TOPS;对于训练卡,FP32 不小于 64TFLOPS 或 FP16 不小于 280TFLOPS,TF32 宜不小于 128TFOPS。(4)推理卡应具备 INT8 定点运算能力,宜不小于 250TOPS。(5)应支持内存、算力等资源的切分和良好的隔离。(6)应具有 PCIE 或 OAM 接口,以便与主机 CPU 进行高速数据传输。(7)包含专用加解密运算单元,应提供可信的 AI 运算环境。(二)AI 服务器 AI 服务器根据形态可分为通
46、用型 AI 服务器和模组型 AI 服务器,根据功能又可分为 AI 训练服务器和 AI 推理服务器。1.1.通用型AI服务器 通用型AI服务器 通用型 AI 服务器需要支持承载不同形态的加速卡的算力需求,主要采用 CPU+AI 加速卡为主体的服务器架构。在自主可控背景的影响下,服务器需要支持 AI 加速卡,如寒武纪 MLU 加速卡,燧原、华为等厂商的 GPU 加速卡和华为的 NPU 加速卡。数据中心训练型 AI 服务器机型一般建议支持 8 张双宽 GPU 卡。推理 22 型服务器根据 GPU 卡的密度需求不同,数据中心建议使用支持 8张及以上双宽或单宽 GPU 卡的 4U 机型,边缘数据中心可选
47、择支持 4 张及以上的双宽或单宽 GPU 卡的 2U 机型。2.2.模组型AI服务器 模组型AI服务器 模组型 AI 服务器主要目的是为支持多加速卡间互联,从而获得更高的卡间带宽,提升训练性能。模组型 AI 服务器主要用于数据中心的 AI 训练场景。(三)AI 计算子系统 1.可以实现同一服务器的卡间、跨服务器间的高速数据通信能力,并进行横向和纵向扩展。2.有专用的卡间互联高速接口,满足训练和推理过程中卡间大数据量交换传输的需求。3.具备常见的分布式集合通信原语实现,支持主流分布式框架。4.支持集群通过高速通信协议进行横向和纵向扩展。5.存储子系统应满足高效AI算力子系统的要求。6.网卡配置应
48、满足AI算力子系统对带宽、ROCE5及TCP网络等的需求。四、软件基础设施层(L3)(一)芯片使能软件 1.提供基于C和Python语言的算子开发接口,使用户具有自 5 ROCE(RDMA over Converged Ethernet),是在 InfiniBand Trade Association(IBTA)标准中定义的网络协议,允许通过以太网络使用 RDMA。23 定义算子开发的能力,如英伟达CUDA、寒武纪bang C/bang Python、华为CANN等。2.具备容器镜像部署能力,方便开发生产环境的快速部署。3.AI产品可以使用k8s进行算力资源的运维管理,并提供AI产品主要指标的
49、监测能力。4.提供高性能推理引擎,完备的深度学习调优、调试、监控工具,加速深度学习模型的开发流程。(二)AI 开发框架 1.1.开发框架兼容能力 开发框架兼容能力(1)提供 AI 主流软件适配能力,支持国内外主流深度学习框架。(2)宜 支 持MindSpore、TensorFlow、PyTorch、PaddlePaddle、Horvod 等至少 1 种深度学习或分布式框架。(3)宜支持麒麟、CentOS 等至少 1 种国内外操作系统。2.2.主流机器学习和深度学习支撑能力 主流机器学习和深度学习支撑能力 支持常见的视觉分析、NLP 和语音识别功能。视觉分析宜支持 resnet50、yoloV5
50、 等神经网络,NLP 宜支持 bert、Transformer等神经网络,语音识别宜支持 tacotron2、waveRNN、FlySpeech等神经网络。(三)使能软件 1.1.数据接入 数据接入 数据接入是人工智能开发平台的基础环节,根据项目需求,24 平台按照不同方式接入不同类型的数据,并在此基础上开展后续环节。主要功能包括:(1)支持接入不同类型的数据,包括结构化数据(如数据库表)和非结构化数据(如文本、图像、视频及音频等格式)。(2)支持本地数据接入、各类接口协议接入等数据接入方式。(3)支持接入数据的参数配置。2.2.数据预处理 数据预处理 经过清洗、转换等操作,数据预处理部分可以
51、解决数据可能存在的质量问题(如不一致、无效、缺失、重复等),将数据加工为模型开发能够直接使用的形式,并在此基础上开展后续环节。主要功能包括数据清洗(如去重、异常值检测、缺失值填充等)、数据转换、数据增强。3.3.数据标注 数据标注 数据标注是认知数据特征的重要过程,标注质量与模型效果息息相关,平台应提供面向不同类型数据(如文本、图像、视频及音频等)的人工标注及自动标注工具,并提供可灵活扩展的团队标注和智能标注模式。4.4.数据管理 数据管理 数据管理是人工智能开发平台的支撑环节,平台应支持用户对其权限内的数据进行统一管理,并以数据集的形式服务于后续环节。主要功能包括:25(1)支持创建、删除、
52、修改、查看及导出等数据集操作。(2)支持数据集信息展示和查询,如名称、原始数据、标注信息、标签等。(3)提供权限与版本管理、拆分与合并等数据集管理功能。5.5.数据分析 数据分析 数据分析支持使用统计方法分析数据并提取有效信息,及时发现数据特征或分布上的问题,从而有针对性地优化处理。主要功能包括:(1)不同类型的数据预览,如结构化、半结构化、非结构化的数据。(2)数据集分析,如结构化数据的质量分析、特征分析,非结构化数据的特征分析。6.6.特征工程 特征工程 特征工程是从原始数据或者预处理后的数据中提取、变换为更易解决问题的特征数据的过程,旨在去除数据中杂质和冗余量。特征工程是传统机器学习中尤
53、为重要的一个环节,直接影响到最终模型结果。7.7.模型开发 模型开发 模型开发为开发者提供一个便捷的开发环境,使用户更加聚焦在模型本身的设计上。本模块中集成 AI 框架,免去繁琐的安装配置过程。针对不同层次的开发者,开发环境采用更加人性化的操作接口,如拖拽式的可视化建模环境、JupyterLab、命令行 26 建模等,也可帮助用户完成模型脚本在线编辑。主要功能包括:(1)支持主流的传统机器学习框架(库)、深度学习框架,及深度学习预训练模型。(2)针对不同层次用户提供多种建模方式,如交互式编码、可视化建模等。8.8.模型训练 模型训练 模型训练是按照既定的训练规则,通过训练数据集来完成算法实例化
54、的过程。训练过程中,根据业务需求提供不同的训练模式,包括单机训练和分布式训练。平台对用户屏蔽算力设施的底层复杂组网和配置,通过简易的设置即可实现不同的训练模式。平台支持多种训练加速手段。整个训练过程有可视化指标形式呈现。主要功能包括:(1)支持单机、分布式训练。(2)支持 GPU、国产化等多种异构计算加速芯片。(3)训练过程中计算、内存等资源使用情况的可视化呈现。(4)训练过程中模型精度等关键指标可视化跟踪。(5)支持创建、启停、删除、修改及查询等训练任务操作。9.9.模型评估 模型评估 模型评估是通过既定的各类 AI 任务评估指标,对训练生成的模型进行质量评判,生成详细的评估报告,选择出符合
55、要求的模型用于后续环节。模型评估提供可视化的图表形式呈现不同模型版本的指标对比,使用户能快速分辨出模型优劣。同时,模型 27 评估对于分析模型对数据特征的偏好、模型的可解释性等方面也有指导意义。主要功能包括:(1)针对待评估模型生成评估报告。(2)常用模型如图像分类、目标检测等的评估指标。(3)模型指标的历史版本评估结果比较。(4)评估指标的可视化呈现,如精度、资源占用等指标。10.模型管理 10.模型管理 模型管理是针对已有的模型,提供模型的导入导出、查询检索、版本管理、模型格式转化等功能,支持主流的模型格式。对于一些资源紧张的部署环境,提供模型压缩功能来降低模型的资源消耗。主要功能包括:(
56、1)导入、查询、修改及删除等与模型文件存储相关的基本操作。(2)支持 ONNX、TensorFlow、PyTorch 等业界主流模型格式。(3)支持不同模型格式的转化。11.模型部署 11.模型部署 模型部署是按照一定的编排规则,将模型部署到生产环境中,对外提供智能服务。根据具体业务需求,可将模型部署在云端、边缘侧或终端侧等不同位置。利用云计算平台提供的基础功能,可实现 AI 模型的平滑升级、灰度测试、根据业务流量弹性伸缩模型实例等功能。主要功能包括:28(1)支持容器镜像部署方式。(2)支持部署为在线服务,如 REST、gRPC 接口。(3)支持部署为批量推理服务。(4)支持模型灰度发布及
57、AB 测试。12.模型推理 12.模型推理 模型推理是对用户调用模型服务接口返回执行结果的过程,是发挥模型价值的环节。平台应分配相应的计算资源,运行模型并输出结果。主要功能包括:(1)宜 支 持TensorFlow、PyTorch、MindSpore、PaddlePaddle中两种以上框架训练所得模型的高性能推理部署。(2)推理服务管理操作,如任务启动、停止,服务的限流、负载均衡等。(3)推理服务的接口信息查询和展示,如版本、实例数、接口格式等。(4)推理服务的使用情况统计,如运行状态、调用量、成功率等。13.资源管理 13.资源管理 AI 平台底层对基础设施如计算、存储、网络等资源进行管理和
58、配置,为 AI 的推理和训练场景分配资源和运行环境。主要功能包括:(1)支持异构加速资源的调度,如 GPU、国产加速卡等。(2)支持多种类型存储资源,如对象存储、块存储、文件 29 存储等。(3)支持 CPU 和 GPU 资源的虚拟化。(4)支持配置资源调度的颗粒度,如 CPU 核、GPU 卡数、内存数量等。(5)支持各类资源的使用情况展示、监控和告警。(6)支持各类资源的使用计量计费。30 第四章 建设协同 一、整体原则 建设金融人工智能算力数据中心是一个演进迭代的过程,一是需考虑原有的金融 IT 基础设施传统算力与新型算力之间的关系,二是需考虑人工智能算力数据中心建设与边缘计算的协同关系,
59、三是需考虑算力与网络融合的关系。建设协同的整体原则为:安全稳定。安全稳定。金融数据中心业务保持稳定运行是在建设协同中要考虑的首要因素。应采用灰度、增量、平滑迁移等方式,逐步实现金融人工智能算力数据中心建设。异构兼容。异构兼容。在建设协同过程中应充分考虑金融业 IT 基础设施架构的多样性,构建异构兼容生态,实现一体化的调度能力。结合实际场景寻求最佳架构实践,发挥异构兼容的特点,协同合作共同支撑业务发展。端边云协同。端边云协同。边缘计算发展驱动算力去中心化,释放云数据中心发展压力,实现算力负载均衡的优化。在规划中应统筹人工智能算力数据中心与边缘计算协同的端边云体系,赋能金融业务应用在边缘场景创新。
60、二、传统算力与新型算力协同(一)算力产品特征 1.1.算力分类(1)推理算力 算力分类(1)推理算力(a)推理加速模块。推理加速模块是一款高性能、低功耗 31 的 AI 加速模块,耗电量仅为数瓦。可以部署在其他通用服务器、终端上摄像头、无人机和机器人等设备上。(b)AI 推理卡。AI 推理卡提供多种数据精度,可广泛应用于数据中心和智能边缘。(c)AI 推理服务器。AI 推理服务器是面向边缘应用的产品,具有超强计算性能、高环境适应性、易于部署维护和支持云边协同等特点,可在边缘场景中广泛部署,通常以传统 X86 或ARM 服务器加配 AI 算力卡的形式存在。(2)训练算力(2)训练算力(a)AI
61、训练卡。AI 训练卡为数据中心提供强劲算力,可加快深度学习训练进程。具有高计算密度、大内存、高带宽等优点,适用于通用服务器。(b)AI 训练服务器。支持多个 AI 加速卡或板载加速模块,适应各种视频图像分析场景。主要应用于视频分析、深度学习训练等训练场景中。(c)AI 集群单元。AI 计算集群机柜基本单元,具有高密度、高性能、高能效、高可靠、易拓展、低 TCO 等特点,支持大规模、高性能 AI 训练业务。2.2.算力密度 算力密度 算力性能的高低通过算力密度进行衡量。算力密度指单位时间的算力水平,根据算力密度,可将 AI 算力分为超级算力、中高算力、普通算力。32 3.3.算力形态 算力形态
62、常见的 AI 芯片根据形态分为 GPU、NPU、FPGA、ASIC 等。(二)算力协同建设 算力协同建设的目的是在实现异构算力一体化调度的基础上,实现不同类型算力计算效率的最大化。不同算力协同合作,共同支撑业务发展,其关系如图 5 所示。图 5 算力协同示意图 1.1.AI算力设备可直接部署的建议 AI算力设备可直接部署的建议 用于推理和训练的芯片和加速卡通常可直接部署在通用服务器设备上,启动设备和相关驱动,即可搭建好相关环境。训练服务器部署时,通常需要 2U4U 的机柜空间,2kW3kW 的电力部署,可在传统数据中心直接使用。2.2.AI算力对数据中心的改造或新建建议 AI算力对数据中心的改
63、造或新建建议 目前机房多采用风冷散热方式。在使用 AI 集群时,所承载算力形态 统一调度、统一管理 训练框架 算力调度 租户隔离 算力协同 资源池化 传统 TCP/IP 网络 高性能网络(IB/RoCE)算力分类 算力密度 GPU FPGA ASIC NPU 推理加速 AI 推理卡 推理服务器 AI 训练卡 AI 训练服务器 AI 集群单元 普通算力 高密度算力 33 AI 训练作业的计算复杂度和计算量较大,对应的制冷系统应满足其散热需求,可进一步采用液冷或其他更高效率制冷技术对散热进行改造。液冷场景分为风液混合液冷(简称混合液冷)和全液冷两种场景。混合液冷场景中,计算节点上的 CPU、NPU
64、、GPU处理器等大功耗部件通过液冷冷板散热,其余通过机房空调散热。全液冷场景中,计算节点上产生的热量全部由液冷散热。通常CPU、NPU、GPU 处理器等大功率部件通过液冷冷板直接散热,其余热量通过无源液冷背门实现液冷散热。液冷系统 CDU+二次侧管路示意图如图 6 所示,浸没式液冷的示意图如图 7 所示。图 6 CDU+二次侧管路示意图 图 7 浸没式液冷示意图 一次侧一次侧 冷塔/冷机 一次管道 CDU 二次侧管路 液冷 机柜 二次侧二次侧 液冷 服务器 工质 34 液冷新技术与普通空调管路的区别如表 3 所示。表 3 液冷系统二次侧管路与普通空调管路的区别 项目 项目 液冷二次侧管路 液冷
65、二次侧管路 普通空调管路 普通空调管路 标准化 技术新,目前仅有团体标准,如数据中心温水冷板式间接液冷设备通用技术要求(T/CIE 0902020)、温水冷板式间接液 冷 数 据 中 心 设 计 规 范(T/CIE 0912020)等。具体质量要求如杂质容忍度等建议参考相关团体规范,尽量减少排他性。有国家标准,有明确的标准要求。质量影响 管路中 0.1mm 杂质可导致快接头堵塞漏液。管路中材料与服务器散热材料不兼容会导致金属材料发生电化学腐蚀,非金属材料产生老化腐蚀,长期作用下导致服务器漏液。管路系统的杂质,材料兼容性只影响空调系统漏水,堵塞,不会影响服务器,不会导致高价值物料损坏。质量管理
66、体系 “食品药品级”全流程质量管理体系,具备可追溯、全流程管理能力。质量管理需要细化到原材料、生产设备、生产工艺、工艺参数、装制程的端到端过程管理。原材料和部件需要和液冷系统进行长期材料兼容性测 普通建筑工程质量,只要求成品质量。工程化现场交付无法保证质量一致性。临时原材料,临时部件选型无法保证长期材料兼容性。35 项目 项目 液冷二次侧管路 液冷二次侧管路 普通空调管路 普通空调管路 试。供应商资质 液冷系统管路的制作能力和检测能力,尤其是工厂化的制程能力。有明确的焊接、表面处理及检测设备要求。不要求工厂化的制程能力。依赖人工设备,要求低,一般无专业的焊接、表面处理及检测设备要求。交付模式
67、工厂化生产(工装夹具焊接+体系化表面处理+超声波清洗+洁净车间)+现场拼装(现场只打螺丝+去离子水冲洗)。现场焊接+现场表面处理+现场清洗+粉尘环境。杂质容忍度 0.1mm(10 倍普通管路要求)1mm 材料兼容 要求高,25%乙二醇+去离子水+缓释剂 要求低,普通自来水+阻垢剂。质量追溯 焊接质量,冲洗质量由工厂设备、工艺及参数确定,制程稳定则加工质量稳定,可追溯性好。现场有工程督导进行管路可靠性和洁净度质量验收,可追溯性好。无工厂交付,严重依赖人力保障质量,焊接质量依赖人工技术水平和责任心,冲洗环节依赖责任心,可追溯性差。现场交付环节一般只关注打压泄露测试,可追溯性差。36 各改造流程说明
68、、责任主体等相关信息见表 4。表 4 改造流程说明 序号 序号 流程名称 流程名称 流程说明 流程说明 输入 输入 输出 输出 1 首次工勘 组织一线服务进行工勘。机 房 改 造需求 整机工勘报告 2 是 否 可 改造 组织整机工勘报告评审,给出是否可以进行改造的结论。整 机 工 勘报告 是否可评审结论 3 是 否 由 能基承接 组织评审,确认承接主体。可 改 造 结论 确认承接主体 4 按 能 基 改造 标 准 流程执行 按能基改造标准流程执行。确 认 承 接主体能基 能基本完成机房改造 5 总 集 采 购CDU+二 次侧管路 组织总集沟通机房改造 CDU+二次侧管路采购。确 认 承 接主
69、体 是 总集 总集确认采购CDU+二次侧管路 6 采 购 自 有编码 CDU 总集采购 CDU。总 集 确 认采购 CDU CDU 发货 7 采 购 推 荐第 三 方 二次 侧 管 路供 应 商 的方案 推荐第三方二次侧管路供应商的方案,供应商协助总集采购二次侧管路规格参数。总 集 确 认采 购 二 次侧管路 确定采购二次侧管路方案 8 第 三 方 二次 侧 管 路供 应 商 工勘、设计和报价 第三方二次侧管路供应商对机房管路部署进行工勘、设计和报价。确 定 采 购二 次 侧 管路方案 给总集输出工勘、设计和报价 37 序号 序号 流程名称 流程名称 流程说明 流程说明 输入 输入 输出 输出
70、 9 二 次 侧 管路 预 制 加工 第三方二次侧管路供应商启动二次侧管路预制加工。给 总 集 输出工勘、设计和报价 完成预制加工 10 厂 验 是 否通过 在预制加工过程,开展质量督导,发现不合格及时要求供应返工返修。启 动 预 制加工 质量验收报告 11 现 场 交 付安装 工厂完成二次侧管路预制加工后运到现场进行交付安装。完 成 预 制加工 完成现场安装施工 12 验 收 是 否通过 在现场安装过程,对现场安装完成质量督导,发现不合格及时要求供应返工返修,直到项目完成验收。启 动 现 场安装施工 质量验收报告 三、数据中心算力与边缘算力协同 端边云协同是 5G 新兴领域的一个重要基础技术
71、,可有效应对物联网领域海量数据增长、服务实时响应、数据隐私安全等挑战。金融行业加强金融创新,加快边缘计算布局,推动端边云协同体系建设。38 图 8 端边云协同体系 打造端边云协同体系(见图 8),提供资源、数据、技术等协同服务,探索形成金融业端边云协同模式,赋能业务应用和场景创新。边缘计算应包含资源协同、数据协同、技术协同能力。协同计算框架示意见图 9。图 9 协同计算框架示意图 技术协同。技术协同。以数据中心算力进行训练、边缘算力进行推理为普通传感器 音视频摄像头 云 非结构化数据(海量)边缘侧 存储 边缘侧分析处理 端 边 结构化数据 业务系统、新技术平台 挖掘/归档 控制决策 分行本地存
72、储 业务 场景 安全 应用安全 数据安全 网络安全 资源安全.信贷管理 押品远程监控 尽职调查 客户服要客识别 远程服务 客户营销 直播电商 智能广告 运营管理 网点服务质检 客户行为检测 物联网 边缘计算 云计算 区块链 大数据 人工智能 生物识别 音视频 协 同 协 同 计 计 算 框 架 算 框 架 技术协同 应用管理 边缘智能 数据布局 数据处理 数据分析 数据决策 数据协同 运维 运维 设备 计算 存储 网络 资源协同 安装部署 运行监测 运维操作 39 整体原则,边缘算力将数据预处理结果上传数据中心算力进行AI模型训练,训练后的模型在边缘算力侧部署,完成 AI 算法数据、模型训练和
73、推理的闭环。资源协同。资源协同。边缘侧对边缘终端设备进行本地管理,数据中心应建设集中管理平台,对边缘节点和终端实现统一管理和调度。边缘资源管理应具备根据业务场景需要进行资源编排调度部署能力,应支撑 CPU、GPU、TPU、FPGA、NPU 等多种异构计算能力,应具备如 WIFI、蓝牙、5G 等多种接入能力。数据协同。数据协同。应建设金融业数据协同框架,针对低价值、非核心、非涉密的探测数据应实现源数据就近保存,且建立边缘侧数据生命周期管理机制,控制数据规模,减少系统资源浪费。对于高价值、核心、涉密等数据,应实现上送数据中心集中存储,并进行数据分析、数据价值挖掘等进一步利用。协同安全。协同安全。应
74、根据金融业网络系统安全管理规范,结合端边云安全架构,针对性加强边缘计算安全管控。在云侧,可增加对边缘设备的节点监控功能。在边缘侧,可采用应用加固、数据脱敏、数据备份保护、模型加密、虚拟化安全等多种手段加强安全。在端侧,采用端侧物联网安全体系满足对终端安全的要求。四、算力与网络协同 近年来,国家规划数据中心布局实现东中西部协调发展,集约化、规模化发展水平显著提高,形成数网协同、数云协同、云边协同、绿色智能的多层次算力设施体系。提出了“东数西算”40 国家枢纽节点建设布局。在此基础上,算力网络是面向计算与网络融合的新架构,是实现东数西算和数据流动的关键支撑。如何建设 AI 算力环境,在数据中心内部
75、,以及广域网互联的多个数据中心之间形成新型的一体化算力网络,为当下及未来金融 AI 算力提供高体验、高价值的网络服务,成为金融机构网络建设的关键考量因素。(一)广域算力网络架构 金融广域网络基于 IP 技术构建,是 AI 算力在数据中心、分支边缘、第三方机构、物联终端之间的互联枢纽,主要场景及架构建设示意见图 10。云云边缘计算前置边缘计算前置设备认证设备接入全局数据分析数据可视化业务对接边缘计算服务群组边缘计算服务群组数据认证隐私保护边缘应用部署边缘配置管理设备生命周期管理监控运维业务编排用户管理决策指令下发算法框架数据标注算法构建模型训练模型运营机器学习平台大数据平台机器学习平台大数据平台
76、数据湖大数据分析人脸识别边缘引擎虹膜识别边缘引擎生物特征识别平台生物特征识别平台镜像仓库日志中心云计算平台云计算平台边边边缘计算边缘计算资源隔离轻量AI推理边缘分析处理边缘存储数据处理终端管理端端端侧采集端侧采集传感器音视频摄像头侧端节能采算一体一体机数据存储 图 10 主要场景及架构建设示意图 1.1.人工智能算力数据中心间互联 人工智能算力数据中心间互联(1)广域网络建议采用分层架构,核心层负责数据高速转 41 发、接入层提供算力数据中心接入 POP6网关。(2)核心层根据业务诉求建议采用全互联拓扑,保证任意数据中心间的数据及算力平台的互访跳数一致性。(3)POP 接入点建议采用双设备高可
77、用接入,数据中心通过双归方式接入 POP 网关。(4)整网建议采用 IPv6 地址,优选 SRv6 作为广域路由协议承载,支持基于不同 AI 算力需求(带宽、时延、丢包率、利用率、线路类型等)进行路径自动发现,按需选择。(5)数据中心间需具备带宽弹性扩缩能力,根据算力需求的潮汐规律、业务节假日突发等场景,提供弹性带宽调整。(6)数据中心间带宽需考虑链路冗余及带宽冗余,极端情况下,可保障最高业务等级相关算力传输的带宽。(7)广域线路选择需要满足 AI 算力数据传输的要求,需要线路供应商提前确认高可用性、线路时延、丢包率及 MTU 等相关参数需求。(8)广域网应具备智能链路负载分担能力,提供基于网
78、络路径服务质量的动态负载均衡,可实现不同 AI 算力模型下数据流并发的均匀哈希模式。2.2.分支边缘算力互联 分支边缘算力互联(1)广域网针对边缘分支应提供就近接入能力,包括 5G 等无线接入能力。6在计算机网络中,POP 表示入网点(Point Of Presence),pop 位于数据中心和企业网络的边缘外侧,是访问数据中心和企业网络内部的进入点,外界提供的服务通过 pop 进入,这些服务包括 Internet 接入、广域连接及电话服务(PSTN)。42(2)广域网针对分支边缘算力节点应提供到数据中心的冗余多路径能力,实现算力协同、数据回传的高可用。(3)在边缘节点所在区域基础设施条件满足
79、的情况下,尽量采用扁平化架构,减少数据回传,算力协同的转发跳数。3.3.第三方算力协同互联 第三方算力协同互联(1)广域网针对第三方接入应提供专用的互联接入网关,不建议与机构自有的互联接入网关共同部署,以提供差分服务、业务隔离能力,减小故障域影响和风险。(2)第三方互联应定制统一、标准化的对接模型,包括但不限于地址规范、路由规划、转发策略规划、QoS 规划、安全防护策略等。(3)第三方接入建议根据地域进行多点 POP 就近接入能力。(4)第三方接入建议通过单独的 VPN 在广域网进行数据转发,与企业自有业务数据进行安全隔离。(5)第三方接入边界可部署安全防控设备,对数据安全访问、合规策略、异常
80、行为、恶意攻击进行防护。(6)第三方接入的隐私计算建议采取联邦学习等技术实现任务运行以黑盒状态处理数据,实现数据安全。(7)第三方算力协同互联实现业务开放、数据开放,典型业务场景包括第三方支付、授信、对账和查询等。4.4.AI算力物联终端连接 AI算力物联终端连接(1)AI 算力需要针对物联网相关数据进行分析、训练和计 43 算,应提供海量物联终端接入能力,支持广域数据回传。(2)物联网关应支持企业内部所需物联近场通信协议的互转,提供上行广域 IP 回传能力。(3)应支持 IPv6 数据回传能力,提供千万级物联终端接入回传能力。(4)建议金融业建设统一的专用物联网络,可以是物理专用物联网络,也
81、可以通过 VPN Overlay 提供虚拟化物联专用网络,避免因建设多张网络带来的管理复杂及成本高的问题。(5)支持点对多点互联、任意多点互联和 full-mesh 全互联组网模型。(二)广域算力网络关键技术 广域算力网络用于提供远距离算力数据传输,需具备确定性时延、算力感知和优先级调度、流量路径动态调优、网络智能运维等能力,对应的网络关键技术要求如下。1.1.支持基于SRv6 TE Policy技术和SDN架构的流量路径编排、自动质量调优能力 支持基于SRv6 TE Policy技术和SDN架构的流量路径编排、自动质量调优能力(1)SRv6 是 SR 技术在 IPv6 平面上的实现,通过在路
82、径头节点压入途经节点信息,实现快速路径编程。(2)具备全网链路流量状态信息提取感知能力,结合 SRv6的快速路径编程能力,实现流量动态调优的目标。2.2.支持基于SDN、iFIT和Telemetry的智能运维能力 支持基于SDN、iFIT和Telemetry的智能运维能力(1)网络设备通过 iFIT 技术实现对业务随流检测统计,通 44 过 Telemetry 上送到广域网 SDN 控制器,SDN 控制器根据统计信息计算出逐跳或者端到端的时延、丢包等参数。(2)Telemetry 上送算力网络所有状态和统计信息。(3)控制器具备 AI 分析能力,实现网络故障的自动发现、定位和闭环、算力数据流量
83、预测等能力。3.3.支持基于APN6、网络切片、QoS的算力感知和调度能力 支持基于APN6、网络切片、QoS的算力感知和调度能力(1)网络支持对算力业务标识 APN6 字段的识别,并基于APN6 的 SLA 需求分配对应的网络服务,实现算力应用、算力数据与算力网络的协同映射。(2)支持网络切片、SRv6 切片,实现基于应用的确定带宽供给和差异化调度。4.4.业务标识协同能力 业务标识协同能力 广域网络边界支持数据中心、分支边缘算力节点、第三方机构的算力业务标识协同,包括不限于VLAN、VXLAN、IPv4五元组、IPv6五元组、DSCP、APN6等。5.广域网加密能力广域网加密能力 在IPv
84、4及IPv6的环境下,提供网络有状态加密、网络无状态加密等能力,可集成商用密钥、国密和量子密钥,网络加密能力要支持未来3至5年的数据转发能力要求。应考虑加密对传输性能的影响,结合应用层二次加密等因素综合评估广域网加密能力的应用场景。(三)数据中心算力网络关键技术 45 数据中心算力网络传输协议分为基于 TCP/IP 的以太网传输协议和基于信任和流控制的 InfiniBand 协议。从数据中心局域网传输协议发展趋势看,以太网关注不同系统之间流畅的信息交换,具有兼容性优势。InfiniBand 在传输带宽和延时方面具备明显性能优势,但是其传输距离受限且与以太网络基础设施不兼容,一直以来其应用范围关
85、注于如何实现系统内部不同部件之间的高速互联。自 2007 年始,InfiniBand 中的 RDMA7技术与以太网出现技术融合,整合了以太网的兼容性和 InfiniBand 的高性能传输优势,并有 iWARP、RoCEv2 等典型技术实现,近年来已成为局域网技术领域的热点。数据中心算力网络关键技术演进如图11所示。图 11 数据中心算力网络关键技术演进图 随着大数据、人工智能技术的快速发展和应用,使得深度学习往往还需要更多的数据来训练更为复杂的模型,这些复杂的模 7 RDMA(远程直接数据存取)就是为了解决网络传输中服务器端数据处理的延迟而产生的,无需使用 CPU,就可以从一个主机或服务器的内
86、存直接访问另一主机或服务器的内存。IBTA IETF RoCEv1 iWARP IBTA SDR 10Gbps IBTA QDR 40Gbps IBTA FDR 56Gbps IBTA HDR 200Gbps 802.3u 802.3z 802.3ae 802.3by 100Mbps 1Gbps 10Gbps 25/100Gbps 25G/50G Ethernet Consortium 25/100Gbps 1995 1998 2003 2014 2016 2000 802.3ba 40/100Gbps 2010 802.3bs 400Gbps 2017 2006 2011 2007 以太网
87、InfiniBand RDMA 融合 RoCEv2 IBTA 46 型对算力的要求更高,需要整合多节点分布式训练和并行运算来提升训练效率。业界典型的分布式训练框架通过分布式并行训练实现,整个系统的吞吐量随着 GPU 卡的数量呈线性扩展。多节点间分布式训练框架对节点间高带宽、低延时的高速通信有非常高的要求。远期看,网络、内存、存储、处理器等计算机软硬件技术的巨大发展将引领数据中心基础设施的变革,如以太网带宽从10Gbps 走向 400Gbps,未来 RoCEv2 网络会成为人工智能、大规模分布式训练通信的优选技术。金融业算力数据中心应用依托 RoCEv2 等高性能网络技术,构建规模化“高速网络”
88、,通过其高带宽、低延时的特性在分布式计算领域、人工智能领域为金融业务赋能。(四)算力网络协同关键技术 网络是影响 AI 算力的重要环节之一。云网协同技术可实现数据中心内部网络、骨干网络和数据中心云资源的协同管理运营,随时随地发放并按需部署计算、存储和网络资源,实现算力资源自动化部署和智能化调度,从而提高算力资源调度效率,并通过SLA 稳定的网络承载确保算力能效。云网协同方案通过对数据中心网络(DCN)算力业务进行区分筛选,并将标识映射到骨干网(DCI),再利用骨干网调优能力,以实现跨数据中心算力业务的无损传输。云网协同方案的关键能力包括以下两部分。47 1.DCI 网络1.DCI 网络。针对算
89、力业务的调优能力,保障业务 SLA。2.DCN 与 DCI 网络2.DCN 与 DCI 网络。实现算力业务的识别及保障需求的相互传递。从现有技术体系能力及网络演进趋势来看,可通过 DSCP标记、VXLAN 与 SRv6 转化、APN6 协同等技术实现。(1)DSCP 标记(1)DSCP 标记。DCI 边缘设备需支持基于 ACL/策略路由识别算力业务,对该业务进行 DSCP 的 remark 标识,再根据 DSCP入 SRv6 隧道。该方式需要在 DCN 和 DCI 进行静态配置,即依赖人工方式实现 DCN 和 DCI 网络能力的协同,有一定复杂度。(2)VXLAN 与 SRv6 转化(2)VX
90、LAN 与 SRv6 转化。DCI 边缘设备需支持 VXLAN 与SRv6 路由转换技术,重新生成 SRv6 VPN 和 VXLAN VPN 路由。该方式不依赖人工配置,可自动完成 DCN 和 DCI 算力业务的平滑对接,实现 DCN 内租户级信息与 DCI 的 VPN 级信息的自动传递感知。(3)APN6 协同(3)APN6 协同。DCI 边缘设备需支持算力业务 APN6 的识别感知,自动引流入 SRv6 隧道,SRv6 隧道可根据 APN6 的 SLA 要求动态调整最优的路径进行转发保障。该方式可实现 DCN 和 DCI算力业务的自动衔接,且粒度更细。(五)算力网络数字化能力 算力网络的数
91、字化是以数据和模型为基础,融合 AI、大数据等前沿技术,在数字世界里力求完整地还原现实物理网络,进而对传统网络运维方式进行创新和重塑,提升算力网络的自动化和智能化水平。主要功能包括:48 1.支持全网动态拓扑呈现,实时展示整网的组网、连接和健康状态。2.支持对AI应用的感知,实现对数据中心集群算力数据交互,以及AI系统组件路径的可视追踪。3.支持对AI应用的网络SLA监测,感知应用质量。4.支持针对不同类型的AI应用提供差异化的网络SLA保障。5.支持网络故障快速定位溯源、故障根因推导。6.支持基于AI算力因子的网络调优,实现算力网络的智能调度,保障AI算力的高效使用。49 第五章 运维和节能
92、管理 一、运维管理 为满足数据中心的运营管理需要,应对数据中心的运维提出规范化管理以及精细化运营的要求和目标。数据中心运维管理需对管理范畴进行界定,并对运营管理架构进行定义,从人、事、物及各种场景的管理应对上进行说明,并按数据中心的层级建立分级的运营体系。在 IT 运营、基础设施运营以及物业安保 3 个团队管理工作的基础上,延伸到生命周期管理、资源与费用管理、资产管理与业务交付管理等重要板块,运维管理中要定义各板块相关的部门和职责。(一)人员组织 数据中心在企业 IT 信息基础设施中居于基础和核心地位,数据中心建立合理的组织架构形式和清晰明确的职能定位,对于企业达成业务目标,实现高效能、高效率
93、、高安全的数据中心运维,具有巨大的牵引和指导作用。在人员的组织架构设计上,数据中心分可为 3 大块,每个部分再细分,建设完善的运维系统,如表 5 所示。表 5 数据中心运维人员组织结构 数据中心运维组 日常运维管理(IT 管理)网络运维 服务器运维 应用软件运维 存储运维 云平台运维 50 基础设施管理 电气运维 空调运维 消防运维 监控运维 物业安保与保洁 保安部 保洁部 后勤管理部(二)日常运行维护 数据中心的日常运行管理涵盖值班管理、巡检管理、清洁管理、应急预案及演练管理(EOP)、操作指导书(SOP)、配置程序(SCP)等工作,主要包括设备运行方案制定、设备轮巡管理、数据中心巡检管理和
94、应急预案及演练(EOP)等内容。运行管理的目的主要包括制定数据中心基础设施运行方案、延长设备使用寿命、安排数据中心巡检计划以及提升人员应急能力等。数据中心的日常维护管理涵盖预防性及预测性维护、应急演练、系统可用性检查、生命周期管理和风险管理等内容。维护管理的目的主要包括降低设备发生重大故障的可能性、及早发现潜在风险、提高数据中心可用性以及延长数据中心的使用寿命等。数据中心应有一套成熟、高效的基础设施智能运维平台,提供机房可视化管理、巡检管理、能耗管理、监控管理、告警管理、容量管理、配置管理、数据中心服务门户等功能,支持对数据中心的电力系统、制冷环境、安防环境等进行监控和智能化分析,并为数据中心
95、外部客户提供透明化的服务体验。二、节能管理 51 我国数据中心年用电量已占全社会用电的 2%左右,且数据量仍在快速增长。全国在用的大型数据中心平均 PUE 为 1.55,超大型数据中心平均 PUE 为 1.46。为确保实现碳达峰碳中和目标,需要在数据中心建设模式、技术、标准、可再生能源利用等方面进一步挖掘节能减排潜力,处理好发展和节能的关系。通过国家枢纽节点和数据中心集群建设,扩大绿色能源对数据中心供给,提升数据中心建设的能效标准,推动数据中心绿色高质量发展。根据贯彻落实碳达峰碳中和目标要求 推动数据中心和 5G等新型基础设施绿色高质量发展实施方案,到 2025 年,数据中心运行电能利用效率和
96、可再生能源利用率明显提升,全国新建大型、超大型数据中心平均电能利用效率降到 1.3 以下,国家枢纽节点进一步降到 1.25 以下,绿色低碳等级达到 4A 级以上。针对 AI 算力的节能管理,主要通过两方面实现节能减排。一是发展绿色计算,利用技术优化流程,降低数据中心能耗。二是发展绿色算法,构建绿色集约的大模型,提升基础设施能效比。绿色计算的主要载体是终端设备、计算机、服务器和相关子系统数据中心机柜、配电单元及制冷系统,例如数据中心、云计算、服务器、CPU、GPU、算法调度和能耗优化上,除此之外,还包括了资源管理、空间利用、二氧化碳、噪声、辐射等。绿色计算的研究主要是从功耗问题开始,绿色的含义可
97、分为 3 层,即能源和资源的节约,能源和资源的高效利用与循环利用,对人和环境的友好,即低碳与无害。计算可理解为终端设备、计算机、服 52 务器和相关子系统。绿色计算的目的是优化计算资源的设计、建设、使用及回收过程,消除计算机系统对环境的不利影响,实现节能、环保和节约的目的。绿色计算的手段主要为计算机软件优化,计算机硬件优化制冷方案优化,空间布局优化及回收与循环利用。当前,发展 AI 算力能耗管理在评价考核、效果评估等方面还存在一些问题,包括数据中心使用绿电仍面临能耗双控考核、绿色算法衡量标准体系尚未建立、缺少健全的碳排放统计核算体系等。探索数据中心碳排放双控,对数据中心使用绿电部分的额度不计入
98、能耗考核,实施分级分类管理,适度放宽能耗审核标准,推动全国加快开放绿电跨省市交易。同时建立兼顾性能和能耗的绿色算法度量标准,倡导人工智能领军企业构建能效高、性能优的预训练大模型,并向行业开放,引导企业研发、采购低能耗的AI 芯片,与绿色算法更好适配。加快完善碳排放统计核算体系,开启国家核证自愿减排量签发,并加快建立科技减排的方法库和行业标准。53 第六章 成功案例和未来展望 一、成功案例(一)工商银行基于高性能网络的中高算力集群探索 在金融行业数字化转型的趋势下,为满足大规模智能化应用需求,在智慧金融领域,中国工商银行积极开展信息技术创新实践,对传统金融模式进行数字化重构,致力于 AI 技术与
99、金融业务场景深度融合及关键 IT 基础设施技术创新。2021 年底,中国工商银行落地基于 100G RoCE 高性能网络的中高算力 GPU 服务云并在典型金融业务场景进行实践,如在金融凭证识别场景中,大规模图片数量训练周期由 1 周压缩为 1 个工作日,模型训练效率显著提升,进一步赋能 AI 业务创新。在技术创新方面,一是应用高算力高能效 GPU 专用服务器技术一是应用高算力高能效 GPU 专用服务器技术,创新采用中高密度算力节点,减少节点间网络通信开销,提升整体处理性能。同一个模型训练任务,迁移至该集群运行不仅可以有效降低总能耗,同时可以减少机柜占用,提高集群算力密度,实现基础资源降本增效,
100、为中国工商银行业务创新提供了有力的基础技术支撑。二是建设高性能 RoCE 网络二是建设高性能 RoCE 网络,使用高带宽、低延迟的 RoCE 网络组建集群,实现中高算力训练任务节点间数据高速传输,相比传统以太网整体性能提升约 20%。实时采集流量特征和网络状态,基于 AI 算法,本地实时决策并动态调整网络参数配置,使得交换机缓存被合理高效利用,实现整网 0 丢包。采用 100G 大带宽和开放标准的 RoCE 网络协议,完全替代了常规 54 GPU 集群的 InfiniBand 交换机组网方案,适合更大规模的应用部署,更加符合技术发展趋势。三是协同联动提升 AI 训练效率,三是协同联动提升 AI
101、 训练效率,通过跨集群协同的训练环技术,实现了超大规模 AI 训练场景,通过自研策略路由技术解决了亲和性和协议栈路由的一致性问题,进一步提升网络传输性能。实现“断点续传”功能,提升在故障情况下的 AI 训练可持续性水平。支持计算节点内 GPU 卡资源池化及按需调度能力,提升 GPU 算力资源整体利用率。四是建设中高算力 GPU 训练集群的上层训练平台,四是建设中高算力 GPU 训练集群的上层训练平台,根据 AI 建模任务需求,通过 AI 工作站选择算法、数据集等模型训练任务配置及参数,并向异构调度框架下发;异构调度框架的任务调度管理机制根据任务请求信息,自动分配到合适的 GPU 算力集群上运行
102、。打造 GPU 资源统一调度引擎,支持在高性能负载、多作业分布式训练场景下 GPU 资源精细化调度。中高算力 GPU 服务云的落地,意味着中国工商银行的人工智能模型训练算力建设进入新阶段,为后续规模化的人工智能建设和应用打下坚实的技术基础。充分发挥中国工商银行在人工智能领域的引领优势,助力金融行业数字化转型。(二)蚂蚁集团 AI 算力端云协同发展实践 2015 年,蚂蚁集团内部启动首个“端特征”的研究项目,迈出蚂蚁“端云协同风控”研究的第一步,开启将 AI 算力分布在端云两侧的探索。2021 年蚂蚁集团基于可信 AI 技术自研的、IMAGE 智能风控体系中的“E端云协同风控”能力已经覆盖了 5
103、5 99%的业务场景。“端云协同风控”(Edge to Cloud),成为隐私保护中的第三视角,将需求隐私数据计算在用户智能终端(如手机)中进行计算,将不含隐私信息的决策结果输送到云端,以实现“端云协同”的风控保障。“可信 AI 中的隐私保护”是一个比隐私计算更大的概念,持续创新视角和解决方案,是践行隐私保护的重点。将数据放在“端”上计算,却不影响“云”提供的安全保障服务,这是对用户隐私最有效的保护。例如,最初在智能终端(如手机)上,机器学习技术的研发及应用并不成熟,需要技术团队打破传统的建模方式,来解决诸如“端数据表征”等技术问题。同时,由于智能终端之间的巨大差异,能在苹果手机上跑的模型,低
104、端机却未必跑得了。蚂蚁安全实验室的技术团队就此提出了“动态千机千模”的方案,通过对模型的有效简化和适配,选择匹配用户智能终端的风控模型下载计算。2021 年创新了“AI 算力网络”,以实现“端”和“云”之间算力的全局化调配。解决了计算能力的问题,还需要应对安全挑战。在端云协同的过程中,模型和信息的加密在智能终端上、决策也在智能终端上,一旦“端”被攻破,如果“云”不能及时获知,风险控制将无从谈起。自 2018 端云协同风控上线以来,不仅为用户提供了基于隐私保护的安全防御能力;也帮助支付宝在大促等流量高并发期,极大地缓解了风控计算压力计算压力分流至“端”;56 更为“云”上风控模型提供了更大的响应
105、和计算空间,为进一步降低资损率,提供了可能,可谓“三赢”。(三)网商银行基于卫星遥感的 AI 算力服务农村金融实践 2020年初,网商银行(以下简称“网商”)推出卫星遥感贷款技术,在全国690个县开始全面推广,解决农户贷款难世界级难题。中国也成为全球第一个把这项科技运用在农村贷款领域的国家。简单来说,就是把照相机架在卫星上,用卫星拍照。拍下来后,再用人工智能去识别种了何种作物。知道种了何种作物,才好估算产量产值,给农民贷款。使用遥感服务时,银行需要在卫星图片精度、数据处理能力和总体成本间权衡。卫星的分辨率越高,价格越贵。银行出于成本考虑,通常会选择中低分辨率的卫星图片,但这对AI算力和GPU资
106、源的利用率带来极大的挑战。针对不同通信模式下的分布式训练任务和数据规模,网商设计了一种GPU拓扑感知的调度模块,达成两个目的:一是为分布式训练任务提供尽可能快的通信链路,二是减少GPU资源碎片浪费。例如,一个Ring All-Reduce的分布式训练任务提交时,拓扑感知模块将生成资源分配计划,根据任务所需卡的数量生成多种GPU卡组合的方案,同时依据组合内同服务器、同机架、同机房,以及网络设备性能等因素,计算出对应的通信成本表,优先选择通信成本最低的拓扑方案,保证训练任务参数传递的通信性 57 能最优。相反,当一个计算密集的单点任务提交时,拓扑感知模块,将优先分配GPU碎片资源,提高GPU集群的
107、资源利用率。网商GPU拓扑感知模块的尝试,优化了分布式训练任务的参数传递性能,提高了GPU资源的利用率,为后续大规模GPU集群的AI任务调度奠定了基础。而AI算力在卫星遥感方面助力农村金融场景的落地,打开了科技银行的数字普惠金融局面。二、未来展望(一)AI 算力的建设需求快速提升 2020 全球计算力指数评估报告 显示,过去一年各国算力评分均有提升,其中中国增幅最大,同比增长 13.5%,以总分 70分进入全球领跑者行列,计算力指数排名全球第二,仅次于美国,中国在算力方面的投入持续增加。同时,数字经济与实体经济之间的融合呈加速之势,算力对于产业变革和国家竞争力的支撑价值获得全球公认,未来各主要
108、经济体之间竞争加剧已无悬念。未来,预计政府层面将继续推动智能计算中心有序发展,打造智能算力、通用算法和开发平台一体化的新型智能基础设施。技术上,算法模型发展愈加复杂,巨量模型将是规模化创新的基础,“源 1.0”等巨量模型的出现,让构建大模型、提升 AI处理性能成为发展趋势。一是单体数据中心的规模和密度仍将逐步提高。一是单体数据中心的规模和密度仍将逐步提高。在单体数据中心堆集更多的服务器一直是扩充算力的重要方式。近年来,集 58 约化、大型化数据中心加快发展。工业和信息化部通信发展司发布的全国数据中心应用发展指引(2020)显示,截至 2019 年底,我国在用数据中心机架总规模达到 314.5
109、万架,其中超大型数据中心机架规模约 117.9 万架,大型数据中心机架规模约119.4 万架,同比规模增速为 41.7%。大型数据中心增加了机柜和服务器的密度与数量,推动数据中心布局、供电、功耗、制冷、网络和运维管理等各方面技术的持续创新突破。二是异构算力充分融合。二是异构算力充分融合。算力是人工智能应用的基础,传统数据中心仅依靠 CPU 通用服务器已无法满足机器学习、无人驾驶、工业仿真、人工智能模型训练等新兴应用场景所需的算力。除在数据中心部署更多 48 核或 64 核等高核心 CPU 来应对激增的算力需求外,引入 GPU、FPGA、ASIC 等异构算力来承担新算力需求已成为必然趋势。适应异
110、构算力融合,相关的算力虚拟化调度、面向 AI 调度的数据中心网络、AI 及大数据混合计算加速等技术均在快速发展,以在数据中心基础上,有效实现高性能算力的高效利用和灵活共享分配。(二)AI 算力的金融价值不断凸显 在应用层面,金融智能化是金融业进化的高级形态。今天数据逐渐作为生产要素,计算能力尤为重要。实践看来,低代码开发和 RPA 技术将提升计算能力,深层次赋能金融业的数字化、自动化、智能化转型。在普惠层面,全真互联时代的到来,将加速金融普惠,实现 59 数实融合。全真互联具体的技术特征包含无限算力、实时处理、极致传输,将为金融普惠提供底层助力。在可持续发展层面,绿色算力将保障社会可持续发展,
111、应对气候变化,实现净零排放的目标。算力正在向绿色化和集约化方向加速演进,同时算力能够帮助企业应对减排压力,并助力企业在数字化转型中取得商业先机。60 参考文献 1 金融科技发展规划(20222025 年)(中国人民银行)2 智能计算中心规划建设指南(国家信息中心)3 人工智能金融应用评价体系研究报告(北京国家金融科技认证中心)4 金融人工智能研究报告(2022 年)(中国信通院)5 人工智能基础设施发展态势报告(2021 年)(中国信通院)6 中国算力发展指数白皮书(2021 年)(中国信通院)7 全球人工智能基础设施战略与政策观察(中国信通院)8 2020 全球计算力指数评估报告(浪潮信息联合国际权威机构 IDC 发布)9 人工智能开发平台系统功能要求(中国人工智能产业发展联盟)10人工智能数据中心研究(信息通信技术与政策2021 年第 4 期)