上海品茶

用时:49ms

云计算研究报告-PDF版

您的当前位置:上海品茶 > 人工智能 > 云计算
  • 中国移动研究院:B400G以太网助力智算中心光互联(2023)(19页).pdf

    B400G以太网助力智算中心光互联程伟强中国移动研究院-基础网络技术研究所2算力成为数字经济时代的核心竞争力AI大模型带动算力成为数字经济时代的核心竞争力。到2025年,我国算力规模将超过300 EFLOPS,智能算力占比达到35%;算力基础设施将成为推动我国经济转型升级和培育新动能的重要力量2022年中国移动全球合作伙伴大会发布新一代智算中心网络技术白皮书2023年5月2022年12月2023年8月2023年中国算力(基础设施)大会发布中国移动NICC新型智算中心技术体系白皮书2023云网智联大会发布面向AI大模型的智算中心网络演进白皮书智算中心将成为支撑和引领数字经济发展的关键信息基础设施,将有效促进AI产业化、产业AI化的进程国家发改委:全国一体化大数据中心协同创新体系算力枢纽实施方案2021年5月2022年7月工信部:加速推进高端芯片、新型数据中心等领域研发突破2022年1月国家发改委:我国将布局八大算力网络国家枢纽节点 加快数字经济发展2023年5月中央网信办:以算力、赋能、产业发展互动 走出数字经济特色化发展道路2023年10月工信部等六部门联合印发算力基础设施高质量发展行动计划3单个流量:数量多、带宽小、异步累积流量:抖动幅度较小,具有随机性单个流量:数量少、带宽大、同步累积流量:波峰、波谷效应明显,具有周期性单个流量累积流量单个流量累积流量传统DC流量模型智算中心大模型(All-to-all)流量模型GPU停工等待其他GPU完成工作传统DC与智算中心流量模型区别4面向大模型训练,网络成为AI算力瓶颈AI大模型以GPU集群分布式训练为基础,带来大量节点间通信消耗,网络成为AI算力“瓶颈”当前业界主流智算中心网络技术被国外厂商垄断,网络芯片存在代际差距,网络可能成为我国AI发展的“新卡点”集群有效算力GPU单卡算力*总卡数*线性加速比*有效运行时网络可用性决定GPU集群稳定性2%的丢包就会使RDMA吞吐率下降为0网络设备能力决定GPU集群组网规模芯片容量提升2倍,组网规模提高4倍网络性能决定GPU集群算力加速比GPU集群性能 单GPU性能*N随着GPU单卡算力受限,以网强算成为提升大模型训练效率的关键,探索以太网的新调度机制、新接口速率和新安全方案,提升智算中心网络性能和整体算力水平5目录以太网新调度机制GSE以太网新接口速率B400GE以太网新安全方案PHYSec6GSE技术体系-核心理念中国移动提出全调度以太网(GSE)技术架构,最大限度兼容以太网生态,创新基于报文容器(PKTC)的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展从“局部”决策到“全局”调度从“流”分发到“报文”分发从盲发 被动控制到感知 主动控制将业务流拆分到不同“报文容器”转发,提供逐“报文容器”负载均衡机制,提升带宽利用率从被动拥塞控制,到基于“授权请求和响应机制”的主动流控,最大限度避免网络拥塞产生全局视野的转发调度机制,实现集中式管理运维、分布式控制转发,提高网络可用性当前:逐流负载,链路利用率低、发生拥塞被动降速未来:逐报文容器转发,链路负载均衡,全局调度,避免拥塞创新以太网转发机制,实现三大核心机制转变源leafSpineSpineSpine目的leaf2213213拥塞拥塞21321321丢包丢包7报文容器以太报文报文容器1以太报文报文1报文2报文1长度报文2长度GSE HeaderGSE Header报文容器是区别于CELL转发的一种核心转发机制,该机制下以太网报文根据最终设备或者设备出端口被逻辑分配并组装成”逻辑等长”的虚拟报文容器,并以该”容器”为最小单元在交换网络中传输源节点根据报文容器长度以及已经占用的字节数为到达该节点的报文分配相应的容器ID,并记录其归属的报文容器编号及在该容器占用的字节数Packet基于确定长度的容器转发提升多链路均衡性早期 链路速率低 长短包转发差异性大切CellCell1Cell2Cell3报文容器将来链路速率高 总转发带宽增大 Cell相应增大组容器Packet1Packet28DGSQ 调度在输入端口将发送到不同端口(或者优先级)的数据包虚拟成不同的队列,并且彼此互不影响,解决HOL从Send-based到Receive-based,避免网络入向流量大于网络容量,从源头避免网络拥塞GSE报文信令请求获取信道资源INOUT无阻塞低时延 无损高带宽vs逐流负载均衡 高时延 甚至 丢包容器负载均衡 长尾时延低,网络利用率高低时延1000流量负载(%)报文时延非均匀到达模型下时延vs负载9负载均衡和重排序负载均衡方式 轮询 随机 基于拥塞感知每个转发节点根据自身负载情况对PKTC进行负载均衡,且同PKTC内的报文转发路径相同,高精度负载均衡方式,消除网络微突发,获得转发低延迟目的节点依照PKTC为单位进行容器间解乱序,同PKTC内报文严格保序容器间排序 大大降低排序压力.GSFGSFGSPGSPGSP.容器1容器210目录以太网新调度机制GSE以太网新接口速率B400GE以太网新安全方案PHYSec11IEEE802.3 B400GE标准目标演进IEEE P802.3df&dj 800GE和1.6TE规范目标 以太速率 信号速率电通道50m MMF100m MMF 500m SMF2km SMF10km SMF40km SMFAUIBPCu800Gb/s100Gb/s800GAUI-8800GBASE-KR8800GBASE-CR88 pairs800GE-VR88 pairs800GE-SR88 pairs800GE-DR88 pairs800GE-DR8-2200Gb/s800GAUI-4800GBASE-KR4800GBASE-CR44 pairs800GE-DR44 pairs 800GE-DR4-2 4 800GE-FR44 800GBASE-LR4800Gb/s1 pair800GE-LR11 pair800GE-ER11.6Tb/s100Gb/s1.6TAUI-16200Gb/s1.6TAUI-81.6TBASE-KR81.6TBASE-CR81.6TBASE-DR81.6TBASE-DR8-2802.3df802.3dj802.3dj智算中心内光互联智算中心间光互联潜在继续分化出子项目200G/lane 光 电BaselineD1.0D2.0D3.0800GE(4200G)1.6TbE(8x200G)802.3dj2022202420232026 20252021D1.0D2.0D3.0100G/lane光 电800GE(8x100G)802.3df200G/lane电800G单波相干D1.0?/D2.0?800GE(1800G)1.6TE(2800G)?800GE(4200G)1.6TbE(8x200G)B400GE标准演进时间线12B400G以太网技术标准化进展 802.3df:单通道100Gb/s的800G以太网标准,目前已完成Task Force Review形成D3.1版本草案“IEEE P802.3df/D3.1,14 Nov.2023”,正在进行标准协会(SA)范围审查 802.3dj:单通道200Gb/s FEC采用低复杂度Hamming(128,120)内码级联RS(544,514)外码;PMA逻辑层方案已确定,光层Baseline目前还未确定,仍处于技术讨论阶段,需要更长的时间完成方案收敛 802.3dj:面向10km和40km场景的单波800Gbps相干标准进展缓慢,800GE LR1已确定采用KP4 BCH的FEC方案,但O波动和C波段之争逐渐白热化;800G ER1采用相干已获得业界共识,FEC和光层PMD方案尚未明确800Gbps以太网标准1.6Tbps以太网标准 802.3dj:1.6TE PCS/FEC方案已确定,电接口形态包括16通道100Gbps(16AUI-16)和8通道200Gbps(1.6TAUI-8);1.6T 500m/2km PMD子层方案尚未明确,2km采用相干技术可行性更高 1.6Tbps LPO和CPO等技术已出现商用产品形态,在智算中心场景也将具有广泛的应用潜力13推动800G 10km目标立项,确立相干技术路线中国移动积极参与并推动IEEE802.3df&dj工作组完成800G 10km目标立项,完成800G 10km相干技术路线确立,提交10余篇标准文稿需求文稿Application Requirement for Beyond 400GE from Telecom Operators Perspective 分析文稿提出B400GE需求,引领技术方向Towards consensus on a coherent based 800G 10/40 km specification800G 10km方案对比分析,凸显相干方案优势Consideration on 800Gb/s coherent solutions for 10km800G-LR1/ER1的GMP bypass方案分析标准文稿提出800G 10/40km发射和接收标准规范建议提出基于oFEC的800G 10km/40km规范建议提出800G-LR1/ER1与800ZR一致性规范建议标准文稿分析文稿Considerations on GMP bypass for 800G-LR1/ER1Update to oFEC-based single lambda baseline for 10km and 40km objectives标准文稿Alignment of 800GBASE-LR1 and 800GBASE-ER1with OIF800ZR Implementations-a baseline proposal14800GE(8100G)500m/2km高速接口测试本次测试800GE短距光模块性能整体较为稳定,模块功耗在15w左右和工作温度在5060范围仍有待优化空间;800GE光模块与路由器设备和测试仪适配性能良好,业界支持800GE设备厂家还较为单一测试拓扑:可插拔光模块插入测试仪表进行环回测试测试内容:非成帧误码率、FEC功能、发射机频率偏移、收发传输时延、通道时延偏差、固件功能等光模块性能测试800GE光模块性能测试800GE光模块与路由器设备适配测试模块类型A厂商B厂商500m500m2km500m500m非成帧误码率通道11.0e-096.5e-103.3e-091.1e-073.3e-06通道23.9e-101.6e-103.8e-082.3e-074.9e-06通道31.4e-109.6e-101.7e-084.3e-081.6e-06通道46.9e-118.4e-112.5e-084.9e-083.8e-06通道52.7e-092.4e-092.3e-084.8e-082.3e-06通道66.5e-106.0e-103.4e-086.1e-081.7e-06通道72.0e-084.5e-093.6e-084.6e-093.0e-07通道81.1e-101.0e-093.4e-086.9e-081.8e-06模块时延传输时延 51ns52ns43ns92ns90ns时延抖动3ns 3ns 4ns 4ns3ns测试拓扑:路由器设备800G接口对接测试仪表进行互通测试测试内容:包括流量转发功能、业务功能等设备能力测试注:802.3df规定的非成帧误码率BER 2.4e415目录以太网新调度机制GSE以太网新接口速率B400GE以太网新安全方案PHYSec16PHYSec:物理层加密,更低时延、更低开销、协议透明6NowL2物理层L3L4L5TimeTLS/DTLSMACSecPHYSecsoftwareSoftware hardwareHardwareHardwareMACIPTCPMACIPMACMACCipher textCipher textCipher textCipher textRDMASecHardware2022MACUDPCipher textIPIPSec?智算中心基础设施承载大量数据传输处理,安全诉求极高;RDMASec、MACSec等安全方案在加解密带宽开销、时延、硬件支持等方面存在性能瓶颈,暴露的帧头部信息仍存在安全漏洞PacketMACPCSPMAPMAPMDxAUIPHYSec光模块加密接口芯片加密PacketMACPCSPMAPMAPMDxAUIPHYSecor探索新层次:将传统密码学思想应用到以太网物理层PHYSec,解决现有技术方案的安全漏洞与性能瓶颈,具有极低开销、时延以及低功耗和成本等优势17L1.5层PHYSec:基于“64B/66B码块”的PHY芯片实现MAC(Preamble Padding FCS)RSAMDeskewAM LockPHY芯片RS-FECSymboldistributionReorderPMAEn/Decode(64B/66B)256B/257B(De)ScrambleDistribution/InterleaveMAC(Preamble Padding FCS)RSAMDeskewAM LockPHY芯片RS-FECSymboldistributionReorderPMAEn/Decode(64B/66B)256B/257B(De)ScrambleDistribution/InterleavePMDPMA光模块SerdesPMDPMADencryptionSerdes光模块Encryption技术优势:安全功能硬化,高吞量 安全加密能力不占用设备CPU资源,安全能力卸载 实现底层光通道不感知(OTN/SPN)的端到端数据加密加密后的64B/66B400GE400GE400GE400G OTN64B/66BGMPOTUOTUGMP64B/66BL1.5-PHYSec400GEL1.5-PHYSec18L1层PHYSec:基于“比特流”的光模块实现MAC(Preamble Padding FCS)RSAMDeskewAM LockPHY芯片RS-FECSymboldistributionReorderPMAEn/Decode(64B/66B)256B/257B(De)ScrambleDistribution/InterleaveMAC(Preamble Padding FCS)RSAMDeskewAM LockPHY芯片RS-FECSymboldistributionReorderPMAEn/Decode(64B/66B)256B/257B(De)ScrambleDistribution/InterleavePMDPMAAM LockEncryption光模块SerdesPMDPMAAM LockDencryptionSerdes光模块技术优势:安全功能可插拔、硬化,高吞量 无需升级设备硬件,即可具备安全加密能力 安全加密能力不占用主设备资源,安全能力卸载 实现端口-端口的链路级数据加解密AMAMAMAMVLane1VLane2VLane3VLane4400GEL1-PHYSecL1-PHYSec400GE19总结与展望 AI/ML带来海量算力需求持续增长,新型智算中心网络涉及技术领域多,国内外尚处在技术研究阶段,创新机遇大,不确定性也大 GSE最大限度兼容以太网生态,凝聚产业力量,形成自主可控、标准开放的技术体系,成为产业共识 B400G高速接口标准和商用化进程相对稳定,须重点关注B400G相干技术实现复杂度,谨慎评估功耗成本等因素 以太网物理层高安全能力有待进一步增强,PHYSec将成为新的安全解决方案 业界共同推动B400G以太网技术成熟和商用,助力智算中心快速发展

    浏览量0人已浏览 发布时间2023-12-08 19页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • AI算力行业深度研究报告:智算供给格局分化国产化进程有望加速-231204(24页).pdf

     y 计算机行业计算机行业 报告日期:报告日期:20232023 年年 1212 月月 0 04 4 日日 摘要:摘要:国产大模型发展方兴未艾。大模型规模、数据量和数量的全面国产大模型发展方兴未艾。大.

    浏览量0人已浏览 发布时间2023-12-07 24页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 中国移动:OpenCOCA白皮书(2023)(31页).pdf

    OpenCOCA 白皮书白皮书(2023)主编单位主编单位中国移动云能力中心参编单位参编单位(排名不分先后排名不分先后)云计算开源产业联盟、深圳云豹智能有限公司、上海燧原科技有限公司、上海云脉芯联科技有限公司、昆仑芯(北京)科技有限公司、锐捷网络股份有限公司、中科驭数(北京)科技有限公司、上海壁仞科技股份有限公司、中兴通讯股份有限公司、华为技术有限公司、新华三技术有限公司、珠海星云智联科技有限公司、瀚博半导体(上海)有限公司目录1.算力基础设施发展现状与挑战.11.1 发展现状与趋势.11.2 应对机遇与挑战.32.COCA 软硬一体片上计算架构打造国家级自主可控算力基础设施.52.1 COCA-DPU 重构计算架构.62.2 COCA-GPU 融通算力生态.122.3 COCA-HPN 提供海量 AI 算力.153.从 COCA 走向 OpenCOCA,业内首个开放式的软硬一体片上计算平台.213.1 能力共享,激发行业活力.213.2 行业共治,规范行业标准.223.3 协作共赢,创造行业价值.234.展望与倡议.234.1 布局开放式智算生态,带动国内智算产业成熟发展.234.2 共建产业联盟,自主掌握云计算技术标准.234.3 联创高精尖技术,引领云计算市场下一个黄金十年.24缩略语列表.25参考文献.28OpenCOCA 白皮书(2023)11.算力基础设施发展现状与挑战算力基础设施发展现状与挑战1.1 发展现状与趋势发展现状与趋势当前,以云计算、人工智能、大数据为代表的新一代信息技术蓬勃发展,传统产业与新兴技术加速融合,推动数字经济的快速增长。算力基础设施作为各行业信息系统运行所依赖的核心能力,在经济社会运行中不可或缺。近年来,我国对算力基础设施的重视程度不断提升,国家发展和改革委员会在 2020 年 4 月明确定义新基建,即基于新一代信息技术演化而成的基础设施,其中包括以数据中心和智能计算中心为代表的算力基础设施。在狭义上算力基础设施指以算力资源为主体的基础设施,自下而上包括底层设施、算力资源、管理平台和应用服务等,覆盖超算中心、智算中心等多样化算力体系。在广义上算力基础设施指一体化 ICT 服务,包含融算力生产、算力传输和 IT 能力服务。作为新基建的核心组成部分,算力基础设施在我国数字经济发展过程中扮演着重大支撑角色。一方面,通过互联网、大数据、人工智能等新兴技术的深度应用,传统基础设施转型升级形成融合基础设施;另一方面,通过对科学研究、技术开发和产品研制的持续支持,算力基础设施驱动技术革新和产业应用创新。超算智算成为算力规模增长主驱动超算智算成为算力规模增长主驱动算力作为一种新型生产力,主要包含信息计算力、数据存储力等要素,通过算力基础设施向社会提供服务。在数据存储力方面,根据 IDC 数据统计,最近 5 年全球数据每年以两位数速度持续快速增长。同时,国家互联网信息办公室发布的数据显示,我国数据资源规模快速增长,2022 年我国数据产量达 8.1ZB,同比增长 22.7%,全球占比达10.5%,位居世界第二,预计到 2025 年数据总量将跃居世界首位,占比达到全球总量的三分之一。在信息计算力方面,随着云计算服务的日趋成熟,算力发展呈现单要素向多要素融合转变。随着“十四五”规划持续推进,截止到 2022 年底,我国算力总规模达到 180 EFLOPS,排名全球第二,其中,通用算力规模为 137 EFLOPS,智能算力规模为 41 EFLOPS,超算算力规模为 2 EFLOPS,近五年来,我国整体算OpenCOCA 白皮书(2023)2力规模保持近 30%的增长速度。随着算力规模持续扩大,智算和超算逐渐成为新的算力增长引擎。智算方面,根据 ICPA 智算联盟统计,截至 2022 年底,全国已投运的人工智能计算中心有20 余家,在建的也超过 20 家。地市企业依托智能计算中心的算力服务,结合本地产业特色,加快人工智能应用创新,聚合人工智能新业态。例如武汉人工智能计算中心陆续孵化出紫东太初、武汉 LuoJia 等大模型1。超算方面,2023 年 6月发布的最新全球超级计算机 TOP500 榜单中,中国以 134 套上榜数量位居全球第二,占 26.8%。应用创新促进数据中心融合升级应用创新促进数据中心融合升级近年来随着HPC(High Performance Computing)、人工智能和大数据等应用的蓬勃发展,原来的传统数据中心已无法满足新型应用的承载需要,新型应用以集群式服务为载体,具有超大规模并行计算的特征,往往依赖数十TB的高质量数据集、数十万CPU核和上万块GPU,以及节点间高效率的集合通讯,需要算力、算法、数据多要素的融通协同,迫使传统数据中心向新型数据中心演变。新型数据中心不仅是某些设备的集合,而且是包含计算、存储、通信能力以及环境、安全等配套能力,可通过内部设备传递、处理、展示数据信息,最终服务于客户的数据服务系统,具备高技术、高算力、高能效、高安全的特点,具体表现在算力规模与密度的逐步提高、“绿色低碳”新技术应用逐步扩大、本地或跨域智慧化运维管理逐步升级、信息技术与运营技术的一体化安全得到保障。从我国总体算力供需格局来看,东西部算力供需失衡,东部地区算力应用需求大且资源紧张,而西部地区算力资源相对宽裕,通过国家“东数西算”战略构建布局合理的新型数据中心将成为推动未来社会数字化发展、促进社会产业化变革乃至重构全球竞争格局的关键举措。随着人工智能和物联网技术的发展,新型数据中心算力整体需求结构逐渐发生变化,基础算力所占比重逐步降低,智能算力与超算算力比重正快步攀升。(1)智能计算中心智能计算中心是指基于最新人工智能理论,采用领先的人工智能计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施。智能算力主要是基于GPU(Graphics Processing Unit)、FPGA(Field ProgrammableGate Array)、ASIC(Application Specific Integrated Circuit)或其他加速器支撑的高OpenCOCA 白皮书(2023)3并行、高密集计算能力的异构算力。近年新推出的大语言模型(LLM,LargeLanguage Module)所使用的数据量和参数规模呈现“指数级”增长,带来智能算力需求的爆炸式增加。智能计算中心主要应用于多模态数据挖掘、智能化业务高性能计算、海量数据分布式存储调度、人工智能模型开发、模型训练和推理服务等场景,所产生的大规模生产算力将为智慧医疗、智慧城市、智慧交通等领域的应用提供基础支撑。(2)超级计算中心超级计算中心是指配备高性能计算设备和软件,拥有超级数据存储和处理能力,且能够提供超级计算服务的综合产业化基地。超级计算指利用超级计算机的集中式计算资源来处理极端复杂和数据密集型的问题。超算芯片以CPU为主,可含部分GPU加速器,主要提供双精度浮点数(64 位)计算能力,其中每秒千万亿次的运算被称为“P级”超算,每秒百亿亿次的运算被称为“E级”超算。近年来,我国超算中心发展迅猛,目前已拥有 14 所国家级超级计算中心。超算中心主要运用于尖端科研、国防军工、产业升级和重大社会问题等大科学、大工程、大系统中,是国家科研实力的体现,也是国家科技发展水平和综合国力的重要标志。超算中心所提供的算力将广泛应用于石油气勘探、生物医药、海洋工程、气象预测和智慧城市等众多领域,深刻影响着国家产业和人民生活。新算力和新技术相互促进协同发展新算力和新技术相互促进协同发展一方面,基础设施计算技术加速演进,异构计算成为智算/超算中心的主流架构。在摩尔定律放缓、颠覆技术尚未成熟的背景下,以AI大模型为代表的多元应用创新驱动算力技术加速进入智能计算新周期,进一步带动计算产业的发展。智能计算时代,搭载各类计算加速芯片的AI服务器将成为智能算力的主要来源。另一方面,先进计算体系化创新活跃,创新模式和重点发生了转变,呈现出软硬融合、系统架构创新的特征。技术创新持续覆盖基础工艺、硬件、软件、整机不同层次,互联持续高速化、跨平台化演进,异构融合加速超级计算和智能计算协同发展。1.2 应对机遇与挑战应对机遇与挑战2023 年 10 月 8 日,六部委重磅发布 算力基础设施高质量发展行动计划,从计算力等四个方面提出了到 2025 年发展量化指标,提出到 2025 年算力规模超OpenCOCA 白皮书(2023)4过 300 EFLOPS,智能算力占比达到 35%2,算力基础设施的高质量发展面临如下挑战。随着摩尔定律的放缓,传统以 CPU 为中心的数据中心体系存在性能瓶颈、成本压力等问题,一方面,带宽性能增速比失调,通用 CPU 的性能增长已无法满足新型算力基础设施的数据增长需求;另一方面,云服务商的 TCO(Total Costof Ownership)急剧增加,百 Gbps 的高性能网络就需要 12 颗以上 Xeon CPU 的核。因此,数据中心的体系架构需要从“以计算为中心”转向“以数据为中心”,即将“CPU 处理效率低下、GPU 处理不了”的虚拟化计算、网络、存储等负载卸载到专用 DPU(Data Processing Unit),提升整个计算系统的性能、降低系统的 TCO。AI(Artificial Intelligence)场景各厂家 GPU 芯片技术碎片化3、大模型需要激发 AI 芯片性能,AI 推理场景下 GPU 资源的利用率较低。多样化的 GPU 生态导致用户使用不同 GPU 芯片时增加了迁移成本;其次,模型的参数及数据量的倍增要求智算中心具备高效的训推套件来提升效率;最后,整卡或固定比例的 GPU算力资源的分配方式,使得在推理场景下资源的利用率较低且算力资源调度不灵活。大模型运算中,通信是一个重要组成部分,部分 GPU 进行运算,运算完成后还需要与其他 GPU 之间交互数据。一方面,通讯带宽越大,数据同步越快,GPU 的使用率就越高。另一方面,大模型对时延和丢包要求也很高。因为,多个 GPU 运算同一个任务,花费时间最长的 GPU 运算完,才算完成一个运算任务。丢包对 GPU 训练的影响明显,在极端情况下,丢包甚至会导致 GPU 训练失败。XPU(eXtreme Processing Unit)算力资源从体系结构设计到指令集架构再到接口设计,都是相对封闭的,相互之间不兼容,且难以修改或进行普适性扩展。整合多种异构算力资源并采用统一编程框架对现有计算平台来说复杂度高,需要一套标准化且能高效管理异构算力资源的开放平台。为了应对上述挑战,中国移动提出 COCA(Compute on Chip Architecture)软硬一体计算架构。其中,COCA-DPU 模块,针对数据中心场景,通过计算、存储、网络、安全和管控五大引擎实现云化加速;COCA-GPU 模块,用于提高 GPU 训练推理效率和提升 GPU 资源利用率;COCA-HPN(High Performance Network)模块,用于提供大带宽、低延时及零丢包的高性能网络服务能力,释放 AI 集群性能。OpenCOCA 白皮书(2023)5既是挑战也是机遇,为了实现构建更宏大的算力、更高效的连接和更可靠的算力体系愿景,秉承“开放 共赢”理念,中国移动同步孵化 OpenCOCA(OpenCompute on Chip Architecture)开源项目,包含 DPU、GPU 和 HPN 三个模块,用于共建 XPU 产业联盟,联创高性能技术,破解算力体系生态封闭难题,同时布局国产化智算生态,带动国产化智算产业成熟发展。2.COCA 软硬一体片上计算架构打造国家级软硬一体片上计算架构打造国家级自主可控算力基础设施自主可控算力基础设施COCA 以构建普惠的高性能算力为核心目标,以打造自主可控的高性能算力基础设施为宏伟愿景,助力数字中国建设。遵循“软件定义,硬件加速”的理念,COCA 主要由 COCA-GPU 模块、COCA-DPU 模块、COCA-HPN 模块组成。其中,COCA-DPU 模块,围绕计算、存储、网络、安全、管控形成“五大卸载引擎”,基于软硬一体重构算力基础设施的数据中心;COCA-GPU 模块围绕 AI 抽象、AI 加速、AI 池化技术,拉通 GPU产业上下游,共同化解不同 GPU 平台“碎片化”的问题;COCA-HPN 模块,针对大规模集群一方面需要海量的 GPU 算力,另一方面也将面临更为严重的网络拥塞问题的特点,提升算效突破算力互联瓶颈。COCA 以 DPU 为基础,通过 HPN 与国产 GPU 生态的深度融合,重构算力基础设施,联创高性能网络技术,共建自主 DPU GPU 产业联盟,带动国产化智算产业成熟发展。图 2-1 COCA 软硬一体片上计算架构OpenCOCA 白皮书(2023)62.1 COCA-DPU 重构计算架构重构计算架构DPU 是一种提供数据中心基础设施服务的处理器,可以卸载及加速网络、存储、安全和管控等基础功能,释放更多的 CPU 算力供客户使用4。DPU 通常由通用处理单元和专用加速引擎组成,通用处理单元处理控制平面业务,专用加速引擎保证数据平面的处理性能,在保证通用性的同时,突破通用基础设施虚拟化的数据处理性能瓶颈。将虚拟化软件框架由单 CPU 平台支撑扩展至由CPU DPU 双平台支撑,可大幅增强云基础设施的数据处理能力。COCA-DPU 模块通过对算力基础设施的数据中心进行软硬一体重构,能对计算、存储、网络、安全和管控等功能进行加速和卸载。COCA-DPU 模块通过抽象的驱动适配层实现对 DPU 的标准接入,可分为计算、存储、网络、安全、管控五大引擎,其中计算引擎提供标准化的 virtio-net(Virtual I/O Network)、virtio-blk(Virtiual I/O block)后端接口,实现虚拟化 I/O 的数据面和控制面的加速和卸载;存储引擎在 DPU 上实现存储接口后端,通过加载标准 virtio-blk 或NVMe(Non-Volatile Memory Express)驱动实现块存储的读写,无需额外的厂商专用驱动;网络引擎采用标准的卸载接口和流表实现网络流量的卸载与加速;安全引擎通过通过信任根机制以及标准的 IPsec 等加密通讯协议对系统和多租户网络进行安全防护,并基于 DPU 提供有效的卸载方案;管控引擎屏蔽了裸金属、虚拟机和容器的产品形态差异,从而实现 DPU 资源统一管理和全链路管控运维。图 2-2 COCA-DPU 系统架构OpenCOCA 白皮书(2023)72.1.1 计算引擎计算引擎计算引擎聚焦在 I/O 虚拟化卸载和热迁移。计算引擎通过 DPU 提供的标准化的 virtio-net、virtio-blk 后端接口,实现虚拟化 I/O 的数据面和控制面的加速和卸载。基于 Linux 内核层面和用户层面(例如DPDK、SPDK)的 virtio-net、virtio-blk 前端驱动,DPU 能够和 host 侧的 VM 或者裸金属实现无缝对接,提升网络 I/O 的性能,完全卸载 host 侧 CPU 对 virtio接口处理的资源开销。图 2-3 COCA-DPU virtio-net/blk 卸载为了实现现代算力基础设施资源灵活快速管理,计算引擎需要支持热迁移功能。vDPA(Virtual Data Path Acceleration)技术是其中一种有效的途径。vDPA 技术的核心是 vDPA Framework,能够实现 virtio 控制面和数据面的分离。通过在virtio 控制面和厂商私有控制面之间设置中间适配层,既避免了全直通下控制面过于暴露存在的安全隐患,又能屏蔽硬件差异,使不同硬件卸载厂商之间的热迁移成为可能。vDPA 框架可在用户态也可在内核态实现,计算引擎适配和支撑vDPA 的不同技术演进路径,提供针对算力基础设施的热迁移功能。OpenCOCA 白皮书(2023)8图 2-4 vDPA 框架5672.1.2 存储引擎存储引擎在云计算中,DPU 可以为云主机或裸金属提供存储加速功能,通过软硬件结合方式实现存储协议卸载,灵活实现存储 IOPS(Input/Output Operations PerSecond)高性能和 guest CPU 低占用率的要求。数据中心通过 DPU 弹性存储实现了数据中心存储资源的池化,使数据中心计算实例可以按需分配存储资源,并实现弹性伸缩,提高资源利用率,从而降低数据中心运营成本。在弹性存储中的云盘挂载与云盘启动过程中,COCA-DPU 可以实现裸金属实例的快速部署,通过将裸金属实例和虚拟机实例的部署流程、镜像资源和网络配置归一化,简化了部署过程,提升了用户体验,降低了运营成本。DPU 实现 guest 侧存储接口的卸载,主要方式为在 DPU 上实现存储后端接口,并提供 virtio-blk 或 NVMe(Non-Volatile Memory Express)的块设备接口,guest中加载标准 virtio-blk 或 NVMe 驱动实现块存储和文件存储的读写,无需额外的厂商专用驱动。DPU 网络侧接口则将业界常用的远端存储协议,包括iSCSI(Internet Small Computer System Interface)、Ceph RBD(Ceph Rados BlockDevice)、NVMe-oF(NVMe over Fabrics)910前端卸载到 DPU,其中基于 DPU 提供的 RDMA(Remote Direct Memory Access)网络功能实现的 NVMe-over-RDMA网络存储协议可以完成数据中心对各种存储设备的资源池化,大幅度提升了块存储性能,满足了租户对存储性能的需求。OpenCOCA 白皮书(2023)9图 2-5 COCA-DPU 存储卸载2.1.3 网络引擎网络引擎随着 CPU 与网卡性能“剪刀差”的产生,传统的、围绕 CPU 的网络加速方案逐渐难以应对不断增长的 I/O 需求,而投入更多 CPU 来换取 I/O 性能的做法则相对低效。COCA-DPU 通过网络引擎将虚拟交换机的功能卸载到 DPU,降低主机 CPU 在网络转发业务功能上的开销,提高主机可售卖计算资源,同时提升虚拟机的网络性能。图 2-6 COCA-DPU 网络卸载DPU 作为数据处理的核心,在以 DPU 为中心的数据中心架构下,网络 I/O请求由 DPU 处理和加速,可以将网络消耗的 I/O 资源全部卸载到 DPU 上,完全释放服务器的 CPU 资源。一方面因为 DPU 低功耗的特点,数据中心 I/O 的能耗可以大幅降低。另一方面,CPU 资源可 100%用于计算,这提升了单台服务器的计算密度,与同等规模的数据中心相比,该架构可以提供更多的计算资源。OpenCOCA 白皮书(2023)102.1.4 安全引擎安全引擎COCA-DPU 采用基于数字签名的可信根方式确保固件启动的安全性和完整性。DPU 中的一次性非易失存储区中存放公钥,该区域一次烧结后,不能再被更改,该公钥作为 DPU 安全启动的可信根计算基础。在 DPU 固件发布时,将采用数字签名系统的私钥进行加密。私钥为签名系统保留,不被外泄。当 DPU 启动时,将采用逐级验签的方式,确保系统固件的安全性和可靠性。公有云多租户场景,数据流量以明文形式进行传输存在风险,为保证数据的安全可靠,可以通过 COCA-DPU 以租户为粒度对客户的原始报文进行加解密,防止数据在传输过程中被非法窃取。首先,DPU 对主机侧发来的业务 VM 虚机流量进行分析,触发本端和对端的 DPU 引擎进行 IKE(Internet Key Exchange)协商,建立 IPsec(Internet Protocol Security)加密隧道。其次,当 IPsec 加解密隧道建立后,本地 VM 的感兴趣流经过本端 DPU 引擎时,本端 DPU 安全引擎会将此流量进行加密并添加新的报文头,然后发送到目的端 DPU。目的端 DPU 引擎收到密文后,对密文解密,并上送目的 VM,从而完成了数据加密传输流程。上述过程,除 IKE 协商外,均可以通过网络引擎和安全引擎对业务进行加速。图 2-7 COCA-DPU 安全卸载82.1.5 管控引擎管控引擎管控引擎可以为云平台提供裸金属、云主机和容器的资源管理和监控功能,通过将此部分下沉至 COCA-DPU,屏蔽了裸金属、虚拟机和容器的产品形态差异从而实现 DPU 资源统一管理,同时提供 DPU 全链路管控运维能力。基于管控引擎将云平台管理组件从主机 CPU 卸载到 DPU,不仅解决了主机 CPU 资源占OpenCOCA 白皮书(2023)11用的问题,增强了计算实例的性能和稳定性,也提高了计算实例的安全性。此外,除云主机管理组件外,VNC(Virtual Network Console)、监控脚本、系统日志等相关运维组件同样卸载到 DPU 上,可以降低虚拟化场景下主机 CPU 资源开销,为裸金属提供和虚拟机一致的交付和运维体验。图 2-8 COCA-DPU 管控系统架构与此同时,将管控组件部署在 DPU 中具有如下优势:DPU 可直接接入管控系统,实现上线、拉起和运维自动化,将管控系统与主机解耦,提高运维效率;对主机 CPU 系统零侵入,实现管控与主机系统解耦,提高管控开发和部署效率;实现裸金属和虚拟化场景 VM 和 BM 的并池,提高计算资源利用率;OpenCOCA 白皮书(2023)12图 2-9 COCA-DPU 管控部署架构另外,管理组件本身对 CPU 的计算性能要求不高,DPU 中的通用 CPU 性能完全可以满足需求,而且管理组件卸载到 DPU 之后能够将全部主机 CPU 资源提供给上层业务使用,同时也减小了管理软件对上层业务应用程序的干扰,进一步提升整体算力基础设施的算力密度和安全性。2.2 COCA-GPU 融通算力生态融通算力生态COCA-GPU 模块包括 AI 抽象、AI 加速以及 AI 池化三大技术,分别解决AI 生态割裂、大模型训练/推理性能加速以及算力资源调度不灵活的问题。AI 抽象屏蔽底层硬件差异构筑统一的 AI 生态;AI 加速为大模型分布式训练及生产部署提供了一套加速套件全面提升 AI 性能;AI 池化通过软件定义算力,在细粒度切分算力的同时打破物理边界实现算力资源的灵活取用。通过上述三大模块,COCA-GPU 可以有效帮助客户降低迁移成本,提高 GPU 训练推理效率及 GPU资源利用率。OpenCOCA 白皮书(2023)13图 2-10 COCA-GPU 系统架构通过在框架和 GPU 计算库之间新增 AI 抽象层定义了统一的算子标准,使得上(框架)下(GPU)两层有效解耦。不同厂商基于这一套标准里抽象的函数声明列表,根据自己的硬件封装算法及内存拷贝、流创建销毁等设备操作功能,标准化地接入 COCA-GPU。2.2.1AI 抽象抽象AI 抽象旨在屏蔽不同架构 GPU 芯片的软硬件差异,联合国内外 GPU 行业联盟共同构筑一套统一标准,实现 AI 应用跨芯片的无感迁移,解决当前 AI 生态的多样化、碎片化的问题,带动国产 GPU 统一生态的发展。图 2-11 COCA-GPU AI 抽象一是面向用户提供主流框架适配器,针对不同 GPU 芯片及软件栈为用户提供了统一抽象层,实现无感知的跨 GPU 迁移部署 AI 应用。二是面向 GPU 厂商联合制定了一套统一的算子标准支撑 AI 模型的开发应用,各硬件厂商基于自家OpenCOCA 白皮书(2023)14硬件特性主动适配接入,构建标准化的硬件接口,推动国产生态繁荣发展。三是面向 AI 应用提供了统一的算力 API,简化了各类 GPU 厂商软硬件栈,建立统一纳管及映射机制。算子标准制定了一套抽象的接口规范,并衍生出一系列的统一算力 API 接口。对下由各厂商根据该接口及参数列表实现具体的功能,对上供COCA-GPU AI 抽象提供的框架适配器调用。由于上层框架直接调用统一算力API,屏蔽底层硬件差异,因此可以实现一次编码在不同 GPU 执行,大大降低用户的研发和迁移成本。2.2.2AI 加速加速AI 加速是面向 AI 任务提供的加速引擎包括训练和推理加速套件,针对底层硬件、网络、通信及算子库对训练/推理过程进行优化,充分发挥硬件能力,进一步提升 AI 应用性能表现及效率,降低客户及企业的成本。图 2-12 COCA-GPU AI 加速分布式训练过程中,卡间及机间的通信往往成为制约大模型训练过程的主要性能瓶颈点。CTK(Compute on Chip Architecture Training Kit)为用户提供了开箱即用的训练加速套件。分布式通信策略一方面通过在梯度传递过程中同步进行计算操作,来提高整体的训练效率;另一方面通过降低通信频次及数据量来优化分布式训练的通信过程。高性能通信库根据网络拓扑并结合 RDMA 网络最大程度地优化分布式训练中的通信拓扑与时长,提升整个训练过程的效率。训练完的模型直接投入生产部署,其推理性能通常较差并且算力资源的使用效率很低。CIK(Compute on Chip Architecture Inference Kit)推理加速套件提供计OpenCOCA 白皮书(2023)15算图优化以及高性能算子库助力用户的业务模型可以针对不同硬件特性进行优化加速。图优化在模型真正执行推理前,通过图精简以及算子融合等技术对模型的计算量进行压缩,从而提升推理速度;高性能算子库则针对显存访问及算法优化等实现了一系列高性能场景化算子,帮助用户编译最优的部署方案,提升推理性能、降低生产成本。2.2.3AI 池化池化AI 池化通过软件定义 GPU 算力,打破原有的 AI 应用直接调用物理硬件的方式,增加软件层对 GPU 算力进行统一的抽象,实现算力的细粒度切分以及 AI应用与物理 GPU 的解耦。图 2-13 COCA-GPU AI 池化管理调度组件是 AI 池化单元的核心组件,负责管理集群所有服务器上物理GPU 设备、软件定义的虚拟 GPU 算力、服务器网络信息。提供虚拟 GPU 算力的统一调度、GPU 计算节点上其他功能组件的服务注册与发现功能。算力服务插件部署于每台 GPU 服务器之上,用于发现节点上的物理 GPU 资源,通过软件定义的方式将 GPU 算力进行细粒度切分与抽象,并上报到管理调度组件。同时通过配合客户端运行时组件实现虚拟算力的远程挂载。客户端运行时组件部署在用户云主机、容器或者裸金属之上,当使用 GPU算力执行 AI 应用时,相关算力请求会被客户端运行时组件接管并分发到对应的算力服务插件,对用户实现无感知地本地调用远端算力。2.3 COCA-HPN 提供海量提供海量 AI 算力算力OpenCOCA 白皮书(2023)16随着 ChatGPT(Chat Generative Pre-trained Transformer)的出现,AI 大模型相关应用百花齐放,纷纷进入到亿级参数网络时代,彻底引爆了智算中心领域对算力规模的需求。当前智算中心规模化算力部署扩展趋势上主要分为节点内算力连接和节点间算力连接两个主要方向。其中,节点内芯片间高性能互联网络以NV-LINK(NVIDIA-LINK)和 CXL(Compute Express Link)1112技术为代表,其主要特点是高带宽、低延迟、低功耗和高密度;另外,节点间高性能互联网络以IB(InfiniBand)13和 ROCE(RDMA over Converged Ethernet)v2 技术为代表,其主要特点是高带宽、低延迟、机房内传输和规模化互联。用于分布式训练框架通信的高性能集合通信库通过发现拓扑并选择最优通信路径进行集群通信,进而实现可以线性扩展的规模化异构算力集群。在 HPN 智能管理运维方面,智能管控系统不仅能够对节点内和节点间高速互联网络进行管理监控,还能够根据监控数据智能化调整网络配置参数以及故障诊断和排除。综上,通过软硬一体、端网协同等方式共同实现智能化管理运维的异构算力互联网络。图 2-14 COCA-HPN 异构算力互联架构2.3.1 高性能高性能集合通信集合通信库库高性能集合通信库在 AI 大模型训练过程中主要负责管理异构算力芯片间的数据通信,业界主流应用于异构算力通信的开源 GPU 集合通信库,如NCCL(NVIDIA Collective Communications Library),无法做到在任何网络结构中都发挥出极致的通信性能,大规模训练任务的集群效率存在极大的改善空间。基于移动云能力中心自定义的异构计算互联网络拓扑结构的特点,COCA-HPN 正OpenCOCA 白皮书(2023)17自研定制化的高性能集合通信库,在 AllReduce 和 All-to-All 等常用通信模式下,能够有效利用内外部互联带宽能力,预计数据通信效率能提升 20%以上。同时,在设备管理、拓扑感知、通信选路等方面 COCA-HPN 也将进行定制化设计。(1)多轨网络的流量路径规划:异构算力 GPU 之间通信路径存在多种异构拓扑,如节点内部互联网络 NVLINK 和 PCIe Switch 等,节点间互联网络 RDMA。集合通信库在路径规划过程中应充分考虑物理拓扑结构,充分利用节点内和节点间网络。在多轨网络中,异构算力节点分配需结合算力连接智能管理系统,将算力资源分配在具有亲和性的网络位置,尽可能实现节点间互联网络在一跳交换机上实现互通。同时,充分利用异构算力节点内网络通信高吞吐的特点,优先将数据在节点内同步,再利用多轨网络进行节点间数据通信。(2)异构网络数据传输优化:异构网络将节点间数据传输的会话数量大幅减少,流量规模按节点内传输、机架内一跳交换机传输和三跳交换机传输依次递减,同时,将短数据流在节点内汇聚为长数据流的方式来减少会话数量,降低对RDMA 智能网卡上 RDMA QP 数量规模的要求,从而提升整网的传输性能。(3)通信原语拓扑自适应:异构算力集合通信库通过对异构网络拓扑的感知,在集合通信过程中使用不同通信原语时,充分利用网络拓扑特点,选择数据通信方式。如节点内互联方式是点对点时,做 Ring AllReduce 需要建立多个 Ring,充分利用节点内互联网络带宽;如节点内互联方式是 Switch 时,做 RingAllReduce 则无需建立多个 Ring。2.3.2 内部互联网络系统内部互联网络系统大模型的训练和推理场景中,需要使用到多张 GPU 卡联合进行计算,计算过程中需要多张卡对计算结果进行分发、收集和规约计算等数据交互操作。执行这些数据交互操作所需要的时间,通常占到整个训练或推理过程耗时的 30%-40%左右。因此,节点内通信的性能,直接影响了模型训练或推理的整体性能。当前算力基础设施的节点内通信,主要分为如下两种互联方案。(1)PCIe(Peripheral Component Interconnect express)Switch 互联随着 PCIe 技术的发展,以 PCIe x16 双向传输为例,总的双向传输带宽从Gen3 的 32GB/s 发展到 Gen4 64GB/s,再到 Gen5 128GB/s。PCIe/PCIe Switch 作为异构算力互联的基础拓扑得到了广泛应用,进一步依托 GPUDirect P2P 技术实现节点内 GPU-GPU、GPU-DPU 芯片间互联通信。在提供通信带宽扩展方面,OpenCOCA 白皮书(2023)18PCIe/PCIe Switch 的通信带宽限制了点对点间的线性扩展能力,进而限制了高性能异构算力在节点内互联互通的应用规模。(2)芯片间高速总线互联受限于 PCIe Switch 的通信性能,英伟达提出了自定义的高速总线互联技术NV-LINK,作为 PCIe 的替代技术,实现 GPU-GPU 以及 GPU-CPU 之间高速大带宽总线互联和内存共享能力。NVLINK 核心技术体现在增加连接密度的同时还能有效控制数据传输功耗,同时实现内存地址空间共享和互访。如下图,经过 4代 NVLINK 技术的迭代,在 NVLINK4 中单个 GPU 已经支持 18 个 NVLINK 连接,共 900GB/s 的双向总带宽能力。图 2-15 英伟达 NVLINK 演进过程14此外,CXL 也是目前业内重点关注的标准化协议。CXL 联盟于 2019 年由英特尔发起,联合了众多 CPU 厂商、服务器厂商和云厂商,共同推进 CXL 标准发展,目前标准已经更新到第三代,能够有效提升异构算力芯片缓存级和内存级通信效率。紧跟行业技术发展的路径,移动云提出 COCA-HPN X-LINK,通过卡间直连以及设备内存统一管理,提升卡间数据交互的效率。(1)加大卡间互联的数据传输带宽GPU 通过 PCIe 接口与主机相连,一般的卡间通信需要经过 GPU1 显存-主机内存-GPU2 显存的冗长链路,经历多次设备侧和主机之间的数据传输。为了解决这个问题,X-LINK 提供额外的数据传输通路,从而提供了更高的卡间带宽,且避免了数据多次搬运。(2)减少卡间数据传输的额外开销由于 PCIe 设备内存和主机内存处于不同的物理空间,难以做到统一的管理OpenCOCA 白皮书(2023)19和协作,并导致不同设备和主机间进行数据交互时,产生大量额外开销,降低了数据传输效率,且增加了数据传输过程中的不稳定性。支持 CXL 设备,可以将设备内存与主机内存作为一个逻辑整体来统一管理,从而减少设备和主机间的数据传输开销,提升整机协作效率。类似的,在同一台服务器内的多个 CXL 设备,也可以减少彼此之间的数据传输开销,从而提升数据传输的效率和稳定性。2.3.3 外部互联网络系统外部互联网络系统除了提升和解决节点内物理连接层面的带宽时延问题之外,COCA-HPN 也聚焦节点间的互联能力,旨在提供一套统一、可扩展、高可靠的网络连接。主流的被应用于 HPC、智算中心的节点间计算通信的网络协议包括:IB、ROCEv1、ROCEv2、iWARP、SRD(Scalable Raliable Datagram)15以 及Solar-RDMA16等。目前 IB 和 ROCEv2 得到了更多的发展机会,IB 是一种原生RDMA 协议,在物理层和传输层上都进行了优化,提供了非常高的数据传输带宽和低延迟,但是与特定的硬件耦合较强,部署成本高昂。ROCEv2 突破 ROCEv1只能运行于 L2 子网的限制扩展到 L2、L3 层网络,从而有了更大的应用空间,同时配合多种的拥塞控制算法,例如 DCQCN(Data Center Quantized CongestionNotification)、HPCC(High Performance Congestion Control)17、Timely、Swift 等,提升了网络性能,从而使得 ROCEv2 在 HPC 和分布式大模型训练逐步得到应用和推广。当前大模型训练数据量和参数数量仍在成倍增长,AI 模型的规模在过去 4年维持了每年 10 倍的增长,除了 GPU 本身的算力仍需提升外,超大的规模集群还将面临更为严重的网络拥塞问题。COCA-HPN 能解决这一问题,移动云推出面向 RoCE 的“乌蒙”高性能网络,其原创的“乌蒙”拥塞控制协议,实现了高精度的拥塞信号检测能力,可降低拥塞时延,提升集群算效。在智算中心的典型“中长流”场景下,集群网络性能可以提升 48%,可支持万卡级智算集群组网能力。OpenCOCA 白皮书(2023)20图 2-16 COCA-HPN 自研“乌蒙”拥塞控制协议2.3.4 HPN 智能管控系统智能管控系统当前新型智算数据中心场景,运维手段在应对高性能参数网络的高稳定性需求时存在着挑战,主要表现在:一是无法及时发现故障及网络性能波动,部分故障从发生到发现通常到小时级别,而且一些微突发的故障因为监控粒度不够导致监控遗漏。二是故障响应及解决速度慢,主要在于发现故障之后的排障分析耗时长,无法快速解决故障从而造成 GPU 运算资源的浪费。针对以上问题,移动云推出 COCA-HPN 智能管控系统,在自研的智能管控分析平台上通过链路状态监测、RoCE 网络性能实时监控分析以及快速故障根因分析来解决如上问题。(1)网络链路状态检测对全网链路进行主动的连通性探测(可通过 IPIP 标准协议,不绑定网络设备),秒级快速探测全网所有网络路径,及时发现端口、线卡、设备、协议等异常引起的链路连通性故障。(2)RoCE 网络性能实时监控分析RoCE Telemetry 关键指标监控:通过 gRPC 遥测手段,秒级(部分指标毫秒级)收 集 端 口、芯 片 队 列、PFC(Priority-basedFlowControl)、ECN(Explicit Congestion Notification)等关键指标信息进行负载情况监控、拥塞情况监控、丢包统计、端口队列缓存监控,并针对超限事件及时告警,及时发现微突发、负载不均衡问题。RDMA 流级可视:通过 ERSPAN 镜像 RDMA 控制面报文,通过控制面报文OpenCOCA 白皮书(2023)21进行 RDMA 流统计和流参数的性能监控,及时发现网络性能波动,辅助调优。(3)故障根因分析根据告警信息、链路状态监控信息、Telemetry 监控指标等,结合专家经验和知识图谱进行故障的多维关联分析,分钟级自动定界定位,帮忙快速进行根因分析、解决故障。3.从从 COCA 走向走向 OpenCOCA,业内首个开放业内首个开放式的软硬一体片上计算平台式的软硬一体片上计算平台当前算力基础设施相关产业面临严峻的竖井化技术生态挑战,各厂商围绕自身硬件特性构建相对独立且排他的工具链系统。构建 COCA 技术架构的初衷是为了突破这种困境,而不是再造一个新的“竖井”,因此,中国移动决定突破创新,以世界一流信息服务科技创新公司的胸怀,开源 COCA 软硬一体片上技术架构,从 COCA 走向 OpenCOCA,打造业内首个开放式的软硬一体片上计算平台。3.1 能力共享,激发行业活力能力共享,激发行业活力COCA 以 DPU、GPU、HPN 三大单元为主体方向,当前已在 DPU 计算、存储、网络、安全、管控等关键技术实现突破,具备成熟的商用能力。秉承“开放 共赢”的理念,移动云将 COCA 基础核心能力提取出来创建OpenCOCA 开源项目,当前,OpenCOCA 项目已受到多家合作伙伴的关注与支持。图 3-1 OpenCOCA 开源理念OpenCOCA 拟筹 OpenCOCA 委员会、项目(群)办公室、技术运营委员会、OpenCOCA 白皮书(2023)22综 合 运 营 委 员 会,技 术 运 营 委 员 会 下 设 OpenCOCA-DPU 工 作 组、OpenCOCA-GPU 工作组和 OpenCOCA-HPN 工作组。其中项目(群)办公室负责架构、版本规划等项目管理工作,处理项目需求、跟踪问题反馈,并协调各工作组联合运营;OpenCOCA-DPU 工作组负责 DPU 五大引擎的架构设计、开源开发及维护;OpenCOCA-GPU 工作组负责 AI 抽象、AI 加速以及 AI 池化相关内容,设计统一的 GPU 接入标准,开发提供针对异构 GPU 池化管理的统一 SDK 或插件;OpenCOCA-HPN 工作组负责端网协同等融合技术,开发打造高性能,包容开放的高性能网络单元。图 3-2 OpenCOCA 委员会通过 OpenCOCA 开源项目,希望可以为行业内各芯片厂商提供开源应用实践平台,深化算力赋能行业应用,激活行业活力。3.2 行业共治,规范行业标准行业共治,规范行业标准以 OpenCOCA 开源项目为媒介,中国移动希望与产、学、研各界合作伙伴精诚合作,携手制定算力基础设施标准和规范,注重行业顶层技术规划,坚持技术协同,避免碎片化研究和低质量的重复工作,与各方一道,在以“软件定义、硬件加速”为核心理念的基础上,凝聚共识,共同推进算力基础设施标准化、规范化。OpenCOCA 开源项目拟将各家 DPU、GPU、FPGA 等算力芯片的能力集合分类梳理,制定异构算力能力标准规范,制定异构算力芯片接入标准规范;同时面向云平台提供标准化 API 接口。基于 OpenCOCA 软硬一体片上计算平台,云平台可以忽略底层设备差异,而专注于异构算力的编排调度,更加快速完成高性OpenCOCA 白皮书(2023)23能算力基础设施建设,通过基础设施并池的方式实现统一化运维与管理。基于OpenCOCA 相关标准,各芯片厂商可有效保障自身算力芯片的通配性,降低芯片产品接入云平台的适配成本,以便快速融入市场。3.3 协作共赢,创造行业价值协作共赢,创造行业价值为实现“打造自主可控的高性能算力基础设施”的宏伟愿景,OpenCOCA 将继续发挥“开放 共赢”优势,实现算力基础设施行业相关的需求感知传递与能力聚集呈现。将客户所提出的行业市场需求及时通过 OpenCOCA 向下传递至社区,引导芯片厂商和研究机构关注到更被迫切需要的技术能力;将各厂商具备的最新技术特性通过 OpenCOCA 向上暴露给云上租户,实现行业赋能的同时为各厂商提供实践应用平台及相应的市场份额。通过 OpenCOCA 开源事项推动算力基础设施行业内的良性循环,落地实施算力应用创新案例,创造行业价值。4.展望与倡议展望与倡议本白皮书基于算力基础设施的现状,围绕目前面临的挑战和技术革新,大胆畅想了高性能算力基础设施的未来发展。中国移动认为18,新型智算中心当前处在“集群时期”,已经按照集群的思想构建算力基础设施。面向中远期,我们将重点攻关“超级池化时期”的关键技术,尽快形成行业共识,加速相关核心技术和产业成熟。4.1 布局开放式智算生态,带动国内智算产业成熟发展布局开放式智算生态,带动国内智算产业成熟发展OpenCOCA 致力于构建以 GPU、DPU、HPN 为核心的异构超算力一体化开放式架构,有助于充分调动算力,满足高效、敏捷、弹性、安全等需求,是面向新一代基础设施建设的重要布局。OpenCOCA 将继续聚焦“算力 连接 能力”,以高效、开放可控、可信的计算架构为基石,持续构建“云为核心,网为基础”的算力网络,带动国内智算产业成熟发展,全力支撑国家算力互联互通、算网生态聚合,为数字中国建设贡献更大的力量。4.2 共建产业联盟,自主掌握云计算技术标准共建产业联盟,自主掌握云计算技术标准中国移动多措并举构建 OpenCOCA 框架开源生态,营造创新良好的算力基础设施发展环境。我们倡议遵循开源开放原则,联合建设开源社区,鼓励我国高OpenCOCA 白皮书(2023)24校、企业、行业组织等产业各方融入开源社区生态,孵化更多像 OpenCOCA 这样的开源项目,共建产业联盟,自主掌握云计算技术定义权。配套建设开源风险监测、开源生态监测等平台,强化开源生态治理意识。我们从标准工作切入,推进算力基础设施框架统一的标准化,加速 COCA 框架形成支持跨平台迁移部署的能力,为算力基础设施筑起协同生态。4.3 联创高精尖技术,引领云计算市场下一个黄金十年联创高精尖技术,引领云计算市场下一个黄金十年注重顶层技术规划,坚持自主可控,中国移动依托 COCA 计算架构完成算力基础设施升级,依托 OpenCOCA 解决算力体系生态封闭问题。鼓励企业增加技术创新投资,与合作伙伴联创高精尖技术,强化对 DPU、GPU、xPU、RNIC(RDMA Network Interface Controller)等单芯片的设计和创新能力,逐步实现关键核心领域自主可控,推动算力基础设施全面国产化稳步落地,引领云计算市场下一个黄金十年。OpenCOCA 白皮书(2023)25缩略语列表缩略语列表缩略语缩略语英文全称英文全称中文释义中文释义AIArtificial Intelligence人工智能ASICApplication Specific Integrated Circuit应用特定集成电路Ceph RBDCeph Rados Block DeviceCeph 提供的块存储能力ChatGPTChatGenerativePre-trainedTransformer生成型预训练变换模型CIKComputeonChipArchitectureInference Kit软硬一体片上计算架构推理套件COCACompute on ChipArchitecture软硬一体片上计算架构CPUCentral Processing Unit中央处理器CTKCompute on Chip Architecture TrainingKit软硬一体片上计算架构训练套件CXLCompute Express LinkINTEL 推出的开放性互联协议DCQCNData Center Quantized CongestionNotification一种广泛采用的拥塞控制算法DPUData Processing Unit数据处理器ECNExplicit Congestion Notification显性拥塞通知FPGAField Programmable GateArray可编程阵列逻辑GDRGPU Direct RDMAGPU 之 间 直 接 通 过RDMA 通信GDSGPU Direct StorageGPU 直接访问存储设备GPUGraphics Processing Unit图形处理器HPCHigh Performance Computing超级计算HPCCHigh Performance Congestion Control高精度拥塞控制HPNHigh Performance Network高性能网络IBInfiniBand无限带宽技术OpenCOCA 白皮书(2023)26IKEInternet Key Exchange因特网密钥交换协议IOPSInput/Output Operations Per Second每秒读写(I/O)操作次数IPSECInternet Protocol Security互联网安全协议iSCSIInternet Small Computer SystemInterface计算机系统接口LLMLarge Language Module大语言模型NCCLNVIDIA Collective CommunicationsLibraryNVIDIA 集合通信库NV-LINKNVIDIA-LINK英伟达开发并推出的总线及其通信协议NVMeNon-Volatile Memory Express非易失性内存标准NVMe-oFNVMe over Fabrics一种传输层协议规范,旨在使用NVMe通过网络将主机连接到存储OpenCOCAOpen-source Compute on ChipArchitecture开源软硬一体片上计算架构PCIePeripheral Component Interconnectexpress高速串行计算机扩展总线标准PFCPriority-based Flow Control基于优先级的流量控制RDMARemote Direct Memory Access远程直接内存访问RISCReduced Instruction Set Computer精简指令集计算机RNICRDMANetwork Interface ControllerRDMA 网络接口控制器ROCERDMAover Converged Ethernet基于融合以太网的RDMASRDScalable Reliable Datagram可扩展的可靠数据报TCOTotal Cost of Ownership总体拥有成本virtio-blkVirtiual I/O block虚拟块设备virtio-netVirtual I/O Network虚拟化网络设备驱动程序VNCVirtual Network Console虚拟网络控制台OpenCOCA 白皮书(2023)27vDPAVirtual Data Path Acceleration虚拟数据路径加速XPUeXtreme Processing Unit异构处理器单元OpenCOCA 白皮书(2023)28参考文献参考文献1 中国算力发展指数白皮书R,中国信通院,20232 算力基础设施高质量发展行动计划R,工业和信息化部、中央网信办、教育部、国家卫生健康委、中国人民银行、国务院国资委,20233 面向智算的算力原生白皮书R,中国移动,20224 云计算通用可编程 DPU 发展白皮书R,中国移动,20235 Ariel Adam,Amnon Ilan.Achieving network wirespeed in an open standardmanner:introducing vDPA.6 Jason Wang,Ariel Adam.vDPAkernel framework part 1:vDPAbus for abstractinghardware.7 Jason Wang,Ariel Adam.Introduction to vDPAkernel framework.8 https:/ NVMe Overview,https:/www.nvmexpress.org/wp-content/uploads/NVMe_Overview.pdf10 NVMe over Fabric Overview,https:/nvmexpress.org/wp-content/uploads/NVMe_Over_Fabrics.pdf11 Compute Express Link Specification,June 2019,Revision:1.112 Compute Express Link CXL:ACoherent Interface for Ultra High SpeedTransfers,Kurt Lender,Intel,Flash Memory Summit 201913 Introduction to InfiniBand,Mellanox White Paper,https:/ https:/ ACloud-Optimized Transport Protocol for Elastic and Scalable HPC16 SIGCOMM22 From Luna to Solar:The Evolutions of the Compute-to-StorageNetworks inAlibaba Cloud17 HPCC:High Precision Congestion Control,Yuliang Li,Rui Miao,HongqiangHarry Liu,etc.,SIGCOMM 19,2019 Conference of theACM Special Interest Groupon Data Communication18 中国移动 NICC 新型智算中心技术体系白皮书R,中国移动,2023

    浏览量0人已浏览 发布时间2023-12-04 31页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 阿里云:2023云原生节点管理最佳实践白皮书(42页).pdf

    引言背景介绍随着云计算和云原生技术的广泛应用,越来越多的应用程序在诞生初期就成为云的原著民。在云原生的浪潮下,Kubernetes 集群在规模和数量上快速增长,进而使得在大规模集群中,节点管理的重要性日益突出。在这样的环境下,高效的节点管理成为确保集群稳定性、性能优化和资源利用率最大化的关键因素。计算节点作为云原生架构的关键组成部分,节点的管理直接影响着整个云原生应用的成本和稳定性。然而,现有的基础架构管理方法更偏向于传统的虚拟机管理理念,缺乏对工作负载的深度感知,无法适应大规模集群的节点管理要求。面对大规模的节点管理的场景,越来越多的人愿意尝试云原生式的节点管理模式。云原生节点管理是基于云原生理念,使用专为此目的设计的操作系统底座ContainerOS 和配套基础设施,提供的一种有效的节点管理方案。这种新的管理方案旨在优化云上环境的大规模节点的管理成本,并同时提供更佳的弹性、灵活性、稳定性和安全性。节点管理现状和面临的挑战计算节点是云原生架构的基石,承载着工作负载和集群核心组件,对整个系统的可用性和性能至关重要。有效的节点管理能够确保节点的稳定性、弹性和安全性。在云原生环境下,传统的节点管理方式面临着以下挑战。挑战 1:大规模节点的自动化部署和扩容Kubernetes 提供了弹性的部署环境,可以迅速扩展 Pod 副本以适应业务压力的迅速增长。为此,在 Kubernetes 集群中需要预留一定的计算资源来支持Pod 的横向扩展,这预留的标准就是集群预警水位。预警水位的高低直接影响了集群使用成本,如果水位过低,就会因为机器的闲置而导致资源的浪费。在云上环境中,依托于云厂商云主机(如阿里云 ECS 等)的弹性,使得 Kubernetes 集群可以采用较高的预警水位,在业务高峰期提前扩容 Kubernetes 节点以支持更多的工作负载。但是,Kubernetes 节点的扩容过程往往需要花费数分钟的时间,大规模的节点扩容甚至可能需要十几分钟,时间敏感的业务可能会因瞬时容量不足导致业务损失。挑战 2:节点状态的实时监控和故障恢复当集群的规模足够庞大时,集群中节点在运行过程中出现故障会成为常态,例如网络抖动、异常重启、底层硬件故障等。而且,对于分布式系统来说,由于爆炸半径各有大小,如何实时监控节点状态,快速响应故障情况以避免故障扩大,成为新的挑战。同时,节点监控本身也需要消耗资源,例如 cgroup 的采集、proc 系统的采集等。在密集部署工作负载的情况下,这种资源消耗会更加严重。如何以更低的成本监控节点的健康状况成为高密度容器部署所需要考虑的首要因素之一。挑战 3:大规模节点的运维自动化在大规模集群中,即使是常规的运维操作也会变得充满变数,包括操作系统的升级、安全补丁的应用、软件包的管理、kubelet 或 containerd 的自定义配置等。为了保证将集群内的所有节点安全、平稳地更新到一致的状态,不仅需要具备大规模节点变更的能力,还需要具备变更操作的审计和回滚能力。在运维操作中,若由于错误而导致节点状态不一致,即部分节点的配置与预期不符,甚至同时存在多个版本的节点,不仅会大幅增加下次运维操作失败的风险,还可能使得相同的业务副本在部分节点上出现非预期行为,进而引入业务的稳定性风险。本白皮书的目的和范围本白皮书的目的是探索和总结云原生节点管理的新范式,重点介绍面向云原生场景设计和优化的 ContainerOS 及其在云原生节点管理中的关键角色。我们将深入了解 ContainerOS 及其配套基础设施的能力和特点,阐述为大规模集群管理场景进行的优化和云原生节点管理方案。本白皮书的范围将涵盖云原生节点管理的核心概念和关键技术,并结合行业最佳实践,提供降低节点管理成本,提高稳定性和安全性的可行方案和具体建议。我们希望通过本白皮书,引起读者对云原生节点管理的关注,并为他们提供全面的理解和应用指南。目录页一、云原生节点管理概述.71.云原生节点管理的定义.72.理解 Kubernetes 节点管理成本.83.降低节点管理成本的重要性.10二、ContainerOS 概述.121.传统操作系统在云原生场景面临的问题.122.ContainerOS 的设计原则.133.ContainerOS 在云原生节点管理中的角色.14三、ContainerOS 特性介绍.171.专注于容器化应用.172.安全提升.183.原子升级与镜像版本化.19四、节点的生命周期.221.千节点扩容的弹性.222.节点运维监控工具.233.节点声明式配置.254.节点故障自愈.28五、阿里云最佳实践和客户案例.311.在阿里云容器服务中使用 ContainerOS 实现极速扩容.312.ContainerOS 助力阿里云 ECI 极致弹性.343.蚂蚁安全科技镜像加速实践.35六、尾声.391.云原生节点管理的基本逻辑.392.未来节点管理的发展趋势.39云原生节点管理概述Overview Of The Cloud Native NodeManagement一、云原生节点管理概述7一、云原生节点管理概述Kubernetes 是开源的容器编排平台,用于自动化部署、扩展和管理容器化应用程序。Kubernetes 的基本架构由几个核心组件组成。首先是控制平面,它是集群的控制中心,负责管理整个集群的状态和配置。控制平面包括三个组件:API Server 提供集群的 API 接口,Scheduler 负责调度工作负载到合适的节点上运行,Controller Manager 处理集群中的各种控制器任务。其次是 Worker 节点,它是集群中的工作节点,负责运行和管理容器化应用程序。Worker节点核心包括两个组件:Kubelet 是节点上的代理服务,与 Master 节点通信并管理容器的生命周期,Container Runtime 负责运行容器。1.云原生节点管理的定义Worker 节点(简称节点)是构建云原生应用平台的基础,承载着管理容器生命周期和物理资源的重要任务。通常情况下,节点有以下具体的职责:一、云原生节点管理概述8提供容器运行环境:节点使用容器运行时来处理容器的创建、启动、停止和销毁。通过全生命周期管理,使容器能够始终保持在期望状态。合理分配资源:节点负责为工作负载分配所需的运行资源。包括计算资源(如 CPU 和内存)、持久化存储和网络资源等。通过合理的资源分配,节点不仅能够满足容器的运行需求,更能保证不同容器间的资源隔离。提供高可用和故障恢复:节点应具备基本的高可用和故障恢复能力,在可预料的异常发生时,主动干预使工作负载向期望状态靠拢,以提供基础的稳定性和可靠性。但同时,节点也存在局限性,一方面单节点无法解决非预期的错误,比如容器运行时的异常,节点的恢复手段十分有限。并且由于缺乏全局视角,在集群容量不足时,因单节点的故障导致整个集群的雪崩也时有发生。另一方面,由于宿主节点自身的管理并没有被Kubernetes 集群标准化,随着集群规模变得庞大时,千奇百怪的手动运维操作,极易使得集群中节点的配置存在差异,加剧环境腐化。云原生节点管理是指在云上环境中,利用云的弹性、可用性和计量计费等特点,最大化发挥节点的自管理能力,并通过集群化手段弥补单一节点的局限性,构建成本可控、易于管理、敏捷、安全和高可用的集群基础设施。通过云原生节点管理实践,可以有效的进行大规模集群的管理,满足不同工作负载的需求,并确保整个集群的稳定运行。这种管理实践对于构建可靠、可扩展的云原生应用平台至关重要。2.理解 Kubernetes 节点管理成本Kubernetes 是业界云原生应用平台的事实标准,同时也是一个复杂的分布式系统。Kubernetes 的创建者之一,Heptio(VMware)的 Joe Beda 曾表示:Kubernetes 是一个复杂的系统,它带来了很多新的抽象,但这并不适合所有问题。我确定,很多人通过更简单的工具实现 Kubernetes 的功能。和其他所有的具备生命周期的软件系统一样,集群并不是一成不变的,而是根据业务实际需求动态的调整。无论是在集群内增减部署集,还是根据实际情况对集群节点进行扩缩容。day2 运维操作使得集群的整体状态一直处于变化中。一、云原生节点管理概述9作为分布式系统,Kubernetes 也天然具备了分布式系统的复杂性和风险,而环境动态变化引入的不一致问题,加剧了故障的可能性和排查难度。所以,随着集群规模的增加,集群的可用性反而会下降,节点管理成本也会不可避免的上升。所幸 Kubernetes 的使用和运维可以利用系统化和工程化的手段降低复杂度,并提高整体可用性和降低管理成本。但首先我们需要理解什么是节点管理成本,节点管理成本主要涉及硬件成本和运维成本两部分。硬件成本是指集群所管理的资源成本。在提高部署集规模的同时,对计算资源的需求也会相应增加,为了满足负载需求,需要考虑节点的计算能力、存储空间和网络带宽是否足够,这给容量规划带来了较大的挑战。合理的容量规划可以避免因硬件资源不足而导致的性能问题和系统崩溃,而不合理的容量规划会导致大量资源闲置,产生资源浪费。运维成本是指在日常的部署和节点运维中,需要投入的资源和人力。一方面,需要确保工作负载符合预期,另一方面,也需要保持节点配置和状态一致,以避免环境腐化。无论是操作系统和集群版本的升级操作,还是系统或容器运行时的配置和调优,大规模的节点管理是一个复杂的任务。需要时刻保持正确且最终一致的部署形态和环境配置,否则很容易造成应用行为异常或引入稳定性风险。一、云原生节点管理概述10更多的节点数量,也意味着更大的节点故障可能性。当节点发生故障时,需要及时发现并采取相应的措施来恢复服务。这包括诊断故障原因、迁移工作负载以及修复或替换故障节点等。故障处理的复杂性随着节点数目的增加而增高,需要投入更多的时间和人力来保证集群的稳定性。3.降低节点管理成本的重要性降低节点管理成本在构建可持续发展的云原生应用平台中十分重要。在云上环境中,我们可以利用云的标准化和弹性等特点,以通过系统化手段降低集群整体复杂度的方式,获得更可控的管理成本和更稳健的应用平台。采用云原生节点管理实践,可以获得以下益处。节约计算资源成本:充分利用云上环境的极致弹性特点,对集群内的资源使用状况动态感知,可以根据实际需求进行峰时扩容,低谷时缩容,避免资源浪费。这种灵活的资源调配方式可以有效降低计算资源的开销,降低硬件成本。提高运维效率:通过大规模自动化和面向终态的配置能力,减少部署和配置的复杂性。自动化的节点管理流程可以减少人工操作的错误和时间消耗,提高运维效率,降低节点运维成本和故障风险,使运维人员能够更专注于核心业务,提高整体运维人效。提高可用性和安全性:一致的执行环境可以大大降低应用程序出现异常的可能性。通过节点实时监控和节点自愈能力,可以及时发现并解决节点故障,确保应用程序的稳定运行,减少业务中断和损失。一、云原生节点管理概述11ContainerOS 概述Overview Of ContainerOS二、ContainerOS 概述12二、ContainerOS 概述云原生节点管理是以云原生理念为基础的实践方法论,主要目标是在满足日常运维需求的同时,有效应地应对大规模集群节点管理的挑战。而操作系统作为节点底座,是云原生节点管理的重要组成部分。1.传统操作系统在云原生场景面临的问题Linux 内核诞生至今已三十余年,催生出众多的 Linux 发行版与繁荣的生态。为了适应各种使用场景和各式各样的软硬件环境,传统的 Linux 发行版提供了复杂而完备的功能,包括硬件驱动、软件包、系统库和系统服务等。然而随着容器技术的出现,业务逐渐容器化,业务的运行依赖已经通过容器镜像实现了自包含。这意味着底层操作系统只需要支持容器运行时即可,不再需要提供大量的额外功能。在云环境中,云厂商的虚拟化技术使得硬件资源的管理变得简单,不再需要操作系统内核提供过多的硬件支持。因此,传统的 Linux 发行版在云原生场景下存在如下问题。问题一:体积臃肿面向通用场景的传统操作系统发行版内置了过多容器场景不会使用的软件包和系统库,提供的多余功能不仅导致镜像体积增大,还会占用多余的 CPU 和内存资源。此外,这些多余的系统服务和软件包还可能引入额外的安全风险,因为它们可能存在未修复的 CVE 漏洞。问题二:版本零散传统操作系统以软件包为粒度进行系统的管理,一个操作系统镜像的版本等同于里面所有软件包版本的合集。管理员对操作系统的管理需要细化到每一个软件包的版本,管理复杂度高,随着集群规模的增加,运维工作量往往成倍增加。二、ContainerOS 概述13问题三:运维方式落后集群内网络、存储、常规系统资源(如 CPU、内存)都可以通过 Kubernetes 进行管理,唯独操作系统自身是独立于集群的控制平面的,对操作系统的运维大多通过 ssh 直接登录系统进行操作,即我们常说的黑屏运维。运维粒度为单机,运维效率低、难以追溯且容易出错,大规模集群环境下极易导致集群内各个节点状态不一致的情况。而且操作系统自身的状态很难被 Kubernetes 感知并进行协同。2.ContainerOS 的设计原则为了应对上述一系列问题,同时给云原生用户带来更好的体验,专为容器负载而设计的容器优化操作系统应运而生,也就是我们通称的 ContainerOS。顾名思义,ContainerOS 聚焦在云上容器场景的功能与业务需求,这样得以摒弃传统操作系统大而全的设计理念和历史包袱。基于如下一些原则,我们设计了一款 ContainerOS。原则一:小型化与极速弹性因为 ContainerOS 并不存在通用操作系统的负担,可以专门为容器场景优化,包括容器网络性能优化,资源监控和控制能力优化等,配合更精简的系统设计,用以满足大规模集群中业务 Pod 极速伸缩的诉求。原则二:安全增强容器化技术使得应用的运行依赖通过容器镜像实现自包含,这样对底层操作系统的依赖减少。基于此前提,我们可以通过一些相对“激进”的手段来确保操作系统自身的状态处于预期的状态。比如,将根文件系统设计为只读以防非法程序或逃逸容器篡改底层操作系统、受控的运维通道、默认启用 SELinux 强制访问控制等手段,尽可能避免相对开放的云计算平台带来的安全风险。原则三:镜像原子更新与版本化管理二、ContainerOS 概述14像管理 GIT 代码仓一样管理整个操作系统,任何文件的变更可被记录成为一个新的版本,版本变更过程可记录、可追溯、可回滚。原则四:云原生场景开箱即用默认提供云原生场景必备组件,整个系统无需过多配置,用户仅需要关注自身的业务部署情况。3.ContainerOS 在云原生节点管理中的角色云原生节点管理提供了集群侧管理和节点侧管理两个维度的理论实践和工具集。这些工具和 ContainerOS 一起构成了可开箱即用的基础设施,帮助用户更好地理解和掌握云原生节点管理的最佳实践。1)节点侧管理节点侧管理的实现主要基于 ContainerOS 以及其内置组件。ContainerOS 为容器化业务进行了内核级的优化,促进容器化业务更快更平稳地运行。同时操作系统层面提供 API 支持以整个镜像为粒度的原子升级能力和类似于容器镜像的分层更新能力。分层变更是一种基于声明式规则的动态变更机制,它可以动态地变更操作二、ContainerOS 概述15系统、Kubelet 和容器运行时的版本和配置。这种变更方式采用叠加层的方式进行,可以支持变更回滚和历史版本回溯。操作系统原子升级能力提供了内核版本和系统软件包的升级能力。ContainerOS 支持新旧两个系统版本同时存在,这意味着节点可以在运行期间准备新版本的操作系统,只需一次重启操作,就能完成系统和软件包的升级,大大减少停机时间。同时支持版本快速回退,符合云原生场景下常用的 RollUp&RollBack 的灰度发布、回滚运维动作。2)集群侧管理在集群侧,多个控制器通过声明式配置的方式相互协作,完成集群内节点的全生命周期管理。Autoscaler 提供了基于规则的集群扩缩容能力。它根据预设的规则灵活地控制集群的节点数量,以满足不同的业务需求。无论是在业务高峰期还是低谷期,Autoscaler 都可以自动增加或减少节点,提高资源利用率,减少运维工作量,并保持集群的稳定运行。Machine Operator 支持统筹编排节点任务,基于 ContainerOS 的原子 API 和云平台的能力,对集群内节点统一管理,包括操作系统变更、核心组件升级等。Machine Operator使用声明式管理,通过定义节点期望版本和状态,支持全自动的分批操作。从而保证集群的一致性和稳定性。Configuration Operator 实现了对操作系统、Kubelet 和容器运行时配置的统一管理。不仅可以基于声明式配置对节点分批修改,也支持配置的版本管理,使得配置变更可追溯、可回滚。声明式和自动化的批量节点操作,减少了中间状态,提高了集群的运维效率,保证了集群节点的一致性、安全性和稳定性。二、ContainerOS 概述16ContainerOS 特性介绍Introduction to ContainerOS Features三、ContainerOS 特性介绍17三、ContainerOS 特性介绍操作系统作为软件与硬件之间的桥梁,一直扮演着重要的作用。尽管随着云原生相关基础设施、应用服务的蓬勃发展,操作系统的概念逐渐被弱化,但它仍然就像空气和水,在整个云原生架构中处于不可或缺的位置。ContainerOS 从一开始的设计上,便是聚焦在容器场景,旨在给容器提供稳定、安全、高效的运行环境。我们不仅从操作节点侧提供各种优化措施和流程,来简化和规范应用操作与部署的方式,更是结合 Kubernetes 控制平面,提供大规模集群下节点管理的最佳实践。1.专注于容器化应用ContainerOS 默认集成 Docker、containerd、Kubernetes 等常规云原生组件,同时最小化运行环境。内核层面,云厂商的虚拟化技术使得云主机内的硬件变得非常简单,我们不需要支持过多的硬件驱动,必备的内核模块构建为 build-in 模式,大幅简化 udev 规则,云主机系统盘基本固定为 virtio-blk 或 NVME 设备,主流根文件系统也相对固定,这样便不需要 initrd 来加载 rootfs,简化内核启动流程。BaseOS 层面,仅保留容器运行所需的软件包与系统服务,剔除不必要的语言包,简化 systemd 服务,软件包数量缩减至 200 以下,相比传统操作系统减少 60%,镜像大小减少 70%。轻量的操作系统在制作、部署和使用上会带来以下好处:较小的镜像大小:一方面,减少操作系统镜像的存储空间需求,节省存储成本,另一方面,可减少镜像的下载时间,这意味着更快的部署和迁移时间。更快的启动时间:精简的操作系统只加载必需的组件,以阿里云上的 ecs.g7.large(2vCPU,8G 内存规格云主机)为例,ContainerOS 的首次启动时间保持在 3s 以内。更少的资源消耗:更少的系统服务就意味着更低的 CPU 和内存占用,将更多的资源释放给用户。提高安全性:更少的软件包数量与系统服务意味着较少的潜在漏洞和需要修补的安全问题。三、ContainerOS 特性介绍18使用 ContainerOS 作为节点,在集群化管理时将会拥有更多的可用资源,相同的节点配置下,ContainerOS 可以部署更高密度的 Pod。Kubernetes 还提供了强大的自动化和扩展能力。管理员可以定义自动伸缩策略,根据负载情况自动调整 Pod 的副本数量。ContainerOS 的极速启动可以支持更激进的扩容策略,这意味着即使集群水位不足,在面对高负载业务压力时,Kubernetes 快速的自动扩展的 Pod 副本能够和节点同步横向扩容,而在负载下降时,它又能够自动缩减资源以节省成本。2.安全提升许多行业都有特定的安全标准和法规要求,如 GDPR 和 HIPAA,云计算行业也不例外,因为安全问题导致的业务数据泄漏问题可能招致法律诉讼、罚款和声誉损失。与相对封闭的传统 IT 系统相比,开放的云计算平台其实面临更大的安全风险,操作系统作为基础设施的基石,其安全性就变得尤为重要。为此,我们对 ContainerOS 应用以下设计原则与流程来提升其安全性:快速迭代发布 Pipeline传统操作系统发行版通常具备固定的发布周期,发布流程冗长,周期短则几个月,长则半年或者一年,这导致用户获取到的操作系统版本在部署之时,可能已经有不少软件包版本落后,甚至包含一些安全漏洞。对于 ContainerOS,我们将云原生 Devops 理念引入镜像的制作发布流程中,为了适应云原生场景快速的演进节奏,最快可按天发布新的镜像,尽最大可能确保用户始终可以获取到包含最新漏洞修复的镜像。同时,针对每一个发布的镜像,使用自动化工具和流程来进行持续的安全测试,并确保及时修复发现的问题。不可变基础设施原则容器化技术的出现使得应用与其运行依赖被一同打包发布,业务运行所需依赖与配置均由容器镜像提供,这给不可变基础设施的实现提供了技术前提。ContainerOS 的根文件系统在此前提下被设计为只读,恶意软件或攻击者无法对其进行修改或操纵。进一步地,可选择使用 EROFS 这样的只读文件系统,将安全性再提升一个台阶。强化访问控制与安全审计三、ContainerOS 特性介绍19默认启用 SELinux,实施严格的访问控制策略,限制容器对敏感资源的访问权限。使用强密码和密钥管理来保护容器的访问凭证。除此之外,根据行业内的安全测评机构要求,对操作系统进行安全加固配置。这包括关闭不必要的服务、限制特权访问、启用防火墙等。传统 IT 运维人员习惯于通过 ssh 服务登录系统进行一系列难以追溯的黑屏操作,在ContainerOS 中,ssh 服务被默认关闭,我们推荐用户通过 API 或运维容器进行操作系统相关的操作,这样一方面可以进行操作过程的记录和审计,另一方面降低误操作带来的安全风险。启用内核 Audit 功能,记录系统中的各种动作和事件,比如系统调用,文件修改,执行程序和系统登入登出等众多与安全相关的事件,并根据记录的信息,给用户推荐相应的安全改进建议。3.原子升级与镜像版本化一个拥有众多节点的集群经过长时间的运行和多次的运维操作之后,集群内各个节点的状态将很难保持一致,每一台服务器就像一片独特的雪花一样独一无二,难以复制,这便是非常知名的雪花服务器问题。如果集群内的节点状态、配置等存在差异,即使是部署相同的应用程序,或批量下发同样的命令,也很有可能产生不同的结果,甚至,同样的命令只能在部分节点上执行成功,在其余节点上则各自产生不同的错误,当集群规模越大,问题越凸显。大规模集群环境下的节点一致性问题一直是困扰集群运维人员的关键问题之一。传统操作系统以 rpm 为粒度进行升级,一个操作系统镜像的版本等同于众多软件包与配置的版本合集,这无疑给系统的运维带来极大的困难。相比之下,我们给 ContainerOS 提出镜像版本的概念,借助 OSTree 技术,用户可以像管理 GIT 仓库一样管理操作系统的版本,结合 Machine Operator,节点以整个镜像为粒度进行版本的轮转升级。每个镜像经过内部严格的测试之后才会上线,相较于传统操作系统基于单个 rpm 包的升级带来的不确定性,以镜像为粒度的测试发布更能保证升级后系统的稳定性。运维人员也不必再关注操作系统内部组件的变更,可将更多的精力放在业务连续性保障上。三、ContainerOS 特性介绍20然而,在实际的业务交付过程中,我们时常发现,部分业务场景可能会对操作系统镜像有一些特殊要求,这些要求包括但不限于修改系统配置、修改启动参数等。同一个ContainerOS 标准镜像不一定能完全覆盖所有的业务场景。此外,不可变基础设施(只读根文件系统)的设计一定程度上使得运行时修改操作系统变得更加困难。于是,提供一种灵活易用、且能够版本化记录变更的操作系统镜像定制工具就变得尤为重要。受到容器镜像分层技术(overlayfs)的启发,我们为 ContainerOS 提供分层变更的能力。通过 lifseacli 组件,用户可以采用类似于 Dockerfile 的方式,选择一个官方发布的基础镜像,按照 Dockerfile 的语法,进行一定程度的修改,再构建成为自己的镜像并推送到远端仓库。然后,在已经运行起来的系统中,拉取自定义的镜像层,并应用到当前的 Rootfs中。三、ContainerOS 特性介绍21节点的生命周期The Lifecycle Of A Node四、节点的生命周期22四、节点的生命周期如果说 Pod 是 Kubernetes 最小的调度单元,那么节点就是集群最小的组成单位。随着工作负载和节点不停的变化,集群始终在变化中动态平衡。从集群的层面看来,节点和节点上的工作负载并没有本质差异,只不过是被控制平面统筹管理的、具备不同能力的资源:同样具备创建、运行、销毁的生命周期,同样可能会因状态异常需要外部控制器介入协调。有太多对 Kubernetes 的介绍只强调了 day1 的节点初始化,但事实上节点加入集群后还有漫长的变配、升级、日常运维等 day2 操作。节点的日常运维和节点的创建销毁同样重要,就像保持 Pod 的正常运行和成功创建 Pod 同样重要一样。1.千节点扩容的弹性Kubernetes 集群支持以弹性伸缩的方式管理集群节点,当面临突发流量急需工作负载水平扩容时,弹性伸缩可以迅速增加节点数量,确保集群能够快速响应并保持高可用性。通过节点的弹性伸缩,集群可以在短时间内适应不断变化的需求,保证工作负载的正常运行。这种弹性能力使得业务能够轻松应对高峰期的流量,并在需要时自动缩容以降低成本。快速的弹性伸缩能力还可以提高集群的可靠性和容错能力。当集群中的节点出现故障或不可用时,节点扩容可以快速替换故障节点,确保集群水位足以支撑工作负载的持续运行。新扩容的节点迅速填补故障节点留下的空缺,减少服务中断的风险,减少业务感知,对于关键业务和可用性要求较高的应用场景至关重要。节点扩容重要的指标是扩容速度,一般情况下,使用通用性操作系统的单节点扩容耗时 1-5分钟不等。但在大量的节点扩容时,扩容速度除了单节点的启动时间,更依赖集群基础服务的性能,比如 API Server、容器镜像服务等,使用传统操作系统的大规模节点扩容时间可能会飙升至十几分钟。因此我们将千节点扩容作为重要的指标,以衡量集群的横向拓展能力。众所周知,容器的秒级启动使得大规模部署十分的便利,而当集群的千节点扩容具备 1 分钟内完成的能力时,集群的弹性也将具备极大的纵深。使得集群可以采取更激进的容量管理策略,更大密度的部署形态,更高的预警水位线。四、节点的生命周期232.节点运维监控工具和传统操作系统不同,只读根文件系统的设计使得 ContainerOS 仅需很少的运维干预,而面向大规模集群的设计理念,使得 ContainerOS 提供了更为简单的原子运维 API,以供外部控制器批量运维使用。常规配置变更,包括 sysctl、kubelet、容器运行时的配置,Configuration Operator 根据声明式配置中定义的期望节点配置,自动分批下发,确保目标节点配置一致。系统软件包的增减、升级操作,ContainerOS 提供了系统分层构建和更新的能力以应对增量和存量节点的更新。Machine Operator 通过统一管理,当包含新版本操作系统镜像就绪时,修改声明式配置的镜像信息。新的分层数据会自动下载到节点中,等待集群进入运维窗口后,对集群中的节点版本分批推平,仅需一次重启,便可使得节点升级到期望的操作系统版本。1)运维容器单节点的登录不应该成为常规的运维手段,为了提高系统的安全性,ContainerOS 原则上不支持直接登录实例进行操作,也不提供 ssh 登录功能。但为了满足用户的非常规的运维需求,ContainerOS 提供了一种新的解决方案:运维容器。通过启动并登录运维容器,用户可以进行系统的黑屏运维操作。相比主机,运维容器拥有更多的软件包,并且支持使用包管理软件 Yum 安装所需的软件包,以满足用户的调试需求。在运维容器中,用户可以轻松查看系统进程信息、网络信息、系统配置等关键信息,以便进行系统的监控和管理。将用户的操作隔离在运维容器中,一定程度上得以降低误操作带来的破坏性。四、节点的生命周期242)节点监控节点监控也是 day2 运维中不可缺失的一环。对节点进行实时的监控和管理,有助于及时发现节点的故障或异常情况,并触发相应的预警机制。除此之外,节点监控可以提供节点的性能指标和资源利用情况,帮助管理员了解节点的负载情况、瓶颈和优化空间。ContainerOS 除了支持常规监控组件如 Prometheus、kube-state-metrics、cAdvisor的部署之外,还提供 ECOS(Economical Cloud Native Operating System)工具集用于内核特性的友好配置、系统异常分析报告与常规内核监控指标的透出。ECOS 工具集主要分为以下几个部分:ECOS Configurator:ECOS Configurator 以更偏向于用户的视角,封装 ContainerOS内核提供的特性。通过提供一系列稳定的 API,屏蔽不同版本内核之间的配置差异,简化运维人员对内核特性的学习和使用成本。ECOS Analyzer:ECOS Analyzer 用于整机运行状态的分析,包括但不限于对磁盘用量、网络状态、内存压力、整机负载状态、kubelet和容器运行时健康状态等常规指标的检查,并提供异常分析诊断结果。ECOS Monitor:目前行业内大多数监控组件通过频繁多次调用不同的内核接口来获取四、节点的生命周期25监控指标,在高密度 Pod 部署或压力负载环境下,监控组件本身将会消耗让人难以忽视的系统资源,严重时甚至影响业务 Pod 的运行。ECOS Monitor 旨在以更轻量的形式透出内核的监控指标,技术上通过 eBPF 的形式聚合内核指标。上层应用、管控链路或运维人员仅需调用 ECOS Monitor 提供的少量聚合接口就可以获得常规的监控指标数据。3.节点声明式配置声明式配置是一种以声明方式描述期望状态的配置方法,它可以简化节点配置的过程和维护的复杂性。通过定义系统的期望状态,系统可以自动向期望靠拢,保持实现与之一致的状态。声明式配置也是 Kubernetes 的核心理念之一,它强调通过描述系统所需状态来定义所需的目标状态,而不是编写一系列命令来实现状态转换。在声明式配置中,用户通过 Yaml 文件定义期望的系统状态,然后将这些配置文件提交给 Kubernetes 控制平面。CRD(Custom Resource Definition)是 Kubernetes 中的一种常见的自定义资源扩展机制,CRD 允许用户定义自己的 API 资源类型,将自定义资源纳入 Kubernetes 控制平面的管理范围内。我们通过引入节点池自定义资源用于描述一组节点的期望状态,节点池是一个描述一组节点的逻辑概念,在同一个节点池中,节点具备相同的规格和架构,使用相同的基础软件版本和配置。通过定义有限个数的节点池,便可以轻松管理集群中所有的节点。四、节点的生命周期261)Configuration Operator节点池最重要的两个期望配置项是节点基础软件配置和机器配置。对于云原生场景来说,基础软件配置包含 sysctl、kubelet 和容器运行时的配置。在大规模集群中,软件配置的难度和复杂度在于配置一致和版本控制。在少数几个节点上执行没有问题的命令,在大规模集群却总会存在非预期的返回。而这种非预期的失败会加剧集群的不一致,导致后续的变配操作更容易因环境脏数据而失败。对存量节点修改完成后,往往还需要注意新增节点的配置,而常规运维中增量和存量的逻辑是分开管理的,不仅容易导致误配、错配、漏配,更导致配置的版本管理失效,在不同时间创建的节点拥有不同长度的版本树。Configuration Operator 通过简单的声明式配置,仅需要配置节点池的当前期望,一方面,Operator 会自动对当前的存量节点进行配置轮转,并对新创建的节点使用最新的期望配置。另一方面,配置管理可以直接复用节点池声明式配置的版本管理,从整个集群和节点池维度进行配置变更和版本回滚,使节点的管理不再受节点的生命周期影响。四、节点的生命周期272)Machine Operator节点机器配置主要包含节点规格、存储、网络、操作系统版本等。当需要对节点配置和系统软件栈变更时,仅需要修改对应的期望配置即可。当需要更改节点规格、存储、网络时,Machine Operator 会立刻修改新增节点模板,保证增量节点使用新的期望。同时,发起旧节点轮转任务,通过分批轮转操作,将节点池中的节点更新为期望状态。当需要对集群内的节点增删软件包,升级内核版本时,可以通过构建新的 ContainerOS 镜像并推送到 registry 中来实现。一旦推送完成,可以修改节点池的操作系统配置,不仅使得新的节点可以从 registry 中获取最新版本的镜像信息,同时,存量节点也会感知声明式配置的变化,根据 registry 中记录的分层元数据信息,将需要变更的分层更新到节点中。四、节点的生命周期28声明式配置管理带来了多个优势,不仅简化节点配置的过程和维护的复杂性。还可以避免黑屏运维带来的风险和错误。同时,声明式配置结合 ContainerOS 分层更新的能力,使得无论是存量节点还是新增节点,集群内的节点始终保持相同的配置,避免因为节点版本差异引发的非预期行为。另外,声明式配置还提供了可追溯性和版本控制的好处,可以更好的实践 IaC 理念,简化了问题排查和回滚操作。通过声明式配置和 git ops 相结合,追溯每个节点的配置历史和变更变得十分简单,这为系统维护和故障处理提供了便利。4.节点故障自愈节点故障自愈是指在集群节点池中,当节点发生异常时,自动进行节点恢复操作,以保持节点的正常运行状态。节点自愈功能包括问题诊断、恢复决策和恢复任务。节点故障自愈是通过将专家经验自动化,并根据故障特异性指标进行自动排查和故障恢复。自动化的前提是节点处于统一、可预期的状态。对于容器场景,业务应用通过 Pod 部署在节点中,通过存储卷持久化业务数据,通过 Lifecycle Hook 完成对 Pod 的生命周期管四、节点的生命周期29理,大部分节点上的配置并不会影响工作负载的行为。同时,ContainerOS 不可变的设计理念使得集群内的节点始终在可预期的状态。因此对于 ContainerOS 的节点,可以高度自动化的解决绝大部分的节点异常。当节点发生故障时,基于事件的控制器会快速感知异常,并根据故障原因,自动执行相应恢复任务。例如,如果 Kubelet 意外停止工作、PLEG 健康检查失败或 PodSandbox 残留,通过执行相应的恢复操作,使得节点恢复正常状态,如重启 Kubelet、清理PodSandbox、重启 ECS 实例等。节点自愈的好处不仅可以提高集群的稳定性和可靠性。系统自动的诊断和恢复节点异常状态,还可以减少手动排查和修复故障的时间和精力成本。更及时的发现节点异常情况,并在故障放大前采取相应的恢复操作。减少故障对用户的影响,提高了系统整体的容错能力。四、节点的生命周期30阿里云最佳实践和客户案例Alibaba Cloud Best Practices And CustomerCase Studies五、阿里云最佳实践和客户案例31五、阿里云最佳实践和客户案例1.在阿里云容器服务中使用 ContainerOS 实现极速扩容在阿里云容器服务 ACK 集群中实现弹性扩容,是一项基础、关键且被很多弹性场景的用户所十分看重的能力,尤其是在应对业务突发流量时,如何快速扩容节点、恢复资源水位对业务连续性至关重要。在节点自动伸缩场景,ACK 通过组件轮询判断集群内资源是否充足,一旦出现不足则自动触发扩容节点。如果在这种情况下,节点扩容速度慢,则会严重影响自动伸缩效果,甚至因为资源水位长期不足而影响用户业务。目前的节点扩容速度在 ACK 节点自动伸缩端到端耗时中占比超过 90%,可以说节点扩容速度的优化的程度决定了自动伸缩的体验。以某量化公司的扩容场景为例,在其长期提供服务的过程中,经过了上千次百节点级别的扩容活动,平均每次扩容 P90 节点就绪耗时(即单次扩容活动开始至 90%的节点处于就绪状态)超过 2min,耗时较长,且受网络抖动干扰大,时常出现部分节点就绪时间超长。若能将节点就绪时间稳定收缩在一个范围内,将大幅提高用户在节点扩容场景中的体验。为了达到上述效果,ContainerOS 基于 ACK 弹性扩容场景进行了端到端优化。通过预置集群管控必备组件的容器镜像以减少节点启动过程中因镜像拉取而带来的耗时,并结合ACK 管控链路优化(例如调节关键逻辑的检测频率、调整高负载下系统瓶颈中的限流值等),成功将节点扩容时间稳定控制在 1min 以内。五、阿里云最佳实践和客户案例32接下来介绍如何在 ACK 中配置使用 ContainerOS 实现节点极速扩容。1)前置条件已在 ACK Pro 创建 Kubernetes 集群,容器运行时为 Containerd,且 Kubernetes版本为 1.24.6 及以上,节点池类型为托管节点池。集群使用默认的网络插件(Terway)与存储插件(CSI)。2)操作步骤创建 ContainerOS 的节点池登录容器服务管理控制台,在左侧导航栏选择集群。在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择节点管理 节点池。在节点池页面右上角,单击创建托管节点池。在创建托管节点池对话框,配置操作系统为 ContainerOS 类型,例如 ContainerOS1.26.3,并按需配置其他选项,然后单击确认配置。五、阿里云最佳实践和客户案例33关键组件限流调整如果您有同时启动大量节点(超过 100 个节点)的业务场景,建议进一步手动配置以下几个优化项以达到更好的弹性效果。部分 API 默认支持的最大连接数为 100,因此同时启动少于 100 个 ECS 节点时无需额外配置。KCM(Kube Controller Manager)限流调整登录容器服务管理控制台,在左侧导航栏选择集群。在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择运维管理 组件管理。在组件管理页面的核心组件页签,定位到 Kube Controller Manager,然后单击卡片右下方的配置。在参数配置对话框,配置 kubeAPIQPS 为 800、kubeAPIBurst 为 1000,其余选项按需配置,然后单击确定。说明:基于测试数据,推荐您按照上方数值进行配置。如有其他需求,您也可以按照自身业务场景灵活配置。Kube Scheduler 限流调整登录容器服务管理控制台,在左侧导航栏选择集群。在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择运维管理 组件管理。在组件管理页面的核心组件页签,定位到 Kube Scheduler,然后单击卡片右下方的配置。在参数配置对话框,配置 connectionQPS 为 800、connectionBurst 为 1000,其余选项按需配置,然后单击确定。五、阿里云最佳实践和客户案例34说明:基于测试数据,推荐您按照上方数值进行配置。如有其他需求,您也可以按照自身业务场景灵活配置。APIServer 数量调整集群内 APIServer 的副本数量根据负载进行弹性伸缩。如果同一时间弹出节点较多,APIServer 会自动进行扩容,一定程度上增加点就绪的耗时。若追求极致扩容时间,您可以提交工单,提前调整 APIServer 的副本数量,优化扩容效果。2.ContainerOS 助力阿里云 ECI 极致弹性阿里云弹性容器实例 ECI(Elastic Container Instance)是一款基于轻量级安全沙箱,面向 Serverless 场景的云产品。用户无需管理底层服务器,也无需关心运行过程中的容量规划,只需要提供打包好的容器镜像,即可在云上快速、安全地部署自己的应用,并仅为容器实际运行消耗的资源付费。随着云原生进入下半场,业界对容器启动速度、资源消耗、稳定性的要求越来越高,而这些也是 ECI 相对普通容器会面临的挑战。在 ECI 中,每个 Pod 之间都是 VM 级别的虚拟化安全隔离(安全沙箱),从安全沙箱创建、调度,到计算、存储、网络资源的初始化,再到应用启动,流程非常长。倘若安全沙箱使用传统操作系统,则单纯安全沙箱自身启动时间就可达分钟级,根本无法适应 ECI 所面临的大规模、突发流量的场景。除此之外,由于安全沙箱间内核隔离,过大的操作系统本身也会占用额外系统资源,无法达到机器高密度部署要求。因此,轻量、秒级启动的 ContainerOS 成为 ECI 安全沙箱 OS(GuestOS)的不二之选。五、阿里云最佳实践和客户案例35使用 ContaienrOS 作为 GuestOS 的 ECI 可以在 6 秒之内弹出 3000 个容器实例,成功支撑了弹性容器实例 ECI 业务每日最高超百万的创建量,通过极致的高密和弹性表现大幅增加业务的核心竞争力。不仅如此,ContaienrOS 除了提供轻量、极速的运行环境,还提供了快速迭代发布Pipeline,通过灵活和标准化的制作每个安全沙箱镜像,极大程度上降低 ECI 管控人员在镜像制作维护上的成本。镜像的制作、测试、发布周期可缩短至数小时,足以应对瞬息万变的云原生用户需求。3.蚂蚁安全科技镜像加速实践ZOLOZ 是蚂蚁集团旗下的全球安全风控平台,通过业内领先的生物识别、大数据分析和人工智能技术,为用户和机构提供安全又便捷的安全风控解决方案。ZOLOZ 已为中国、印尼、五、阿里云最佳实践和客户案例36马来西亚、菲律宾等 14 个国家和地区的 70 余家合作伙伴提供数字化转型过程中的安全风控技术支持。目前,已经覆盖金融、保险、证券、信贷、电信、公众服务等领域,累计服务用户超 12 亿。随着 Kubernetes 和云原生的大爆发,ZOLOZ 应用开始在公有云上进行大规模容器化部署。在公有云上容器化持续推进的当下,ZOLOZ 应用主要遇到如下挑战:集群机器拉起时间长,难以满足流量突增时,弹性自动扩缩容。拉取算法镜像耗时长,在集群扩容大量机器拉取镜像文件会容易导致集群网卡被打满,影响业务正常运行。针对 ZOLOZ 遇到的实际问题,ContainerOS 结合行业内多种相关解决方案,通过整合Nydus RAFS(Registry Acceleration File System)能力,支持用户构建 Nydus 格式的镜像。一方面,ContainerOS 通过简化 OS 启动流程,预置集群管控必备组件的容器镜像以减少节点启动过程中因镜像拉取而带来的耗时,极大地提高了 OS 启动速度,降低了节点扩容时间。另一方面,依托于 Nydus 与内核 EROFS 的优势,用户容器镜像得以进行块级别数据去重,大大降低了镜像的上传和下载数据量,Nydus 镜像提供按需加载能力,容器启动时仅需拉取少部分启动必需的数据,后续容器内业务 IO 请求哪些文件的数据,再从远端 Registry 拉取这些数据,这样避免镜像大量数据拉取阻塞容器的启动,大幅提升容器内业务就绪的时间。五、阿里云最佳实践和客户案例37ContainerOS 通过提供标准化、全流程的解决方案,以及更高的安全性和免运维的特点,给 ZOLOZ 整体的业务部署、研发效率、线上稳定性带来了质的飞跃。五、阿里云最佳实践和客户案例38尾声Conclusion六、尾声39六、尾声1.云原生节点管理的基本逻辑由于云原生技术的指数级增长,越来越多的业务和应用会运行在 Kubernetes 中,Gartner曾预测,2027 全球范围内将有 90%的应用以容器形态部署。而大规模的集群运维使得传统的集中式节点管理方式已经无法满足高效、灵活且可自动化的要求。云原生节点管理的核心目标,是基于云原生的理念,利用针对容器场景进行优化的操作系统和配套基础设施,实现自动化运维,以降低节点管理成本并提升生产效率。从节点维度上,ContainerOS 作为容器场景优化的操作系统,通过针对性剪裁,不仅减少系统资源的占用,提高节点利用率和安全性。也通过提供系统运维 API 和分层构建、更新的能力,使得节点运维和变更变得更加高效。从集群维度上,实现自动化运维是降低节点管理成本的关键。自动化运维能够减少运维人员的工作量,依托于操作系统提供的原子 API 和声明式配置,可以快速、准确地配置和部署节点,避免了手动操作可能引发的错误和延误。而节点的一致性和自动化使得自动诊断、节点故障自愈成为可能,这些优化措施共同提高了管理效率、降低人力成本,较少的人力投入足以维护规模庞大集群的正常运行。2.未来节点管理的发展趋势节点管理领域仍然具有广阔的发展前景。随着人工智能、大数据和边缘计算等新技术的发展和应用,节点管理将面临更多的挑战和机遇。一方面。这些新的技术和业务场景会对 Kubernetes 的使用和运维提出更高的要求,另一方面,这些新技术的发展也会反哺 Kubernetes 等基础设施,为节点管理带来更多的智能化和自动化的可能性。六、尾声40同时,随着 DevSecOps 的兴起,越来越多的人意识到容器和节点安全的割裂局面,节点管理还将面临更多的安全威胁和风险。未来也将更加注重节点安全和容器安全的统筹管理,包括容器安全加固、自动化安全性测试、审计和合规加固等措施。云原生节点管理作为一种全新的节点管理范式,是根据当前 Kubernetes 集群的使用局限性提出的系统化和工程化的解决方案。随着技术的不断前进和创新,云原生节点管理始终以云原生理念为指导,以具体的场景和痛点为抓手,面向未来的发展,迎接更广阔的机遇和挑战。六、尾声41白皮书作者(以下排名不分先后)彭媛洪陈海波

    浏览量0人已浏览 发布时间2023-11-24 42页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 行云创新:2022云原生技术应用情况调研报告(29页).pdf

    111.1.为什么会有这样一份报告?为什么会有这样一份报告?如果说云原生是企业数字化转型的最短路径,那么云原生研如果说云原生是企业数字化转型的最短路径,那么云原生研发就是企业业务创新的源动力。发就是企.

    浏览量0人已浏览 发布时间2023-11-23 29页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 电子标准院:云原生标准体系白皮书2023(52页).pdf

    云原生标准体系白皮书(2023)编委会名单编制单位:编制单位:中国电子技术标准化研究院、华为技术有限公司、蚂蚁科技集团股份有限公司、阿里云计算有限公司、腾讯云计算(北京)有限责任公司、浪潮云信息技术股份公司、北京百度网讯科技有限公司、中移(杭州)信息技术有限公司、浪潮电子信息产业股份有限公司、京东科技信息技术有限公司、北京凌云雀科技有限公司、中移系统集成有限公司、杭州谐云科技有限公司、中移(苏州)软件技术有限公司、安超云软件有限公司、中兴通讯股份有限公司编委成员:编委成员:杨丽蕴、陈行、汪维敏、李峰风、赵华、彭晋、郭智慧、吴涛、王永霞、何世友、李萌、颜秉泰、郑佳佳、崔凯、查丽、孙正君、喻涵、亓开元、张百林、韩冬、曹锐、田睿、王郁文、朱宇昕、边鹏旭、方佳伟、郭旸、隋成龙、李响、梁力晨云原生标准体系白皮书(2023)前言云原生正成为推动数字化转型和云计算跨越式发展的关键路径。从时代发展看,云原生是顺应数字中国与数字经济建设的重要模式;从产业升级看,云原生加速了全局创新效率与云上生态应用;从技术演进看,云原生代表着先进系统理念和软件生产力。2022 年,全国信标委云计算标准工作组(TC28/WG20)研判国内外云原生标准化重要趋势,在工作组下成立云原生专题组,系统性组织推进云原生标准化工作。2023 年,工作组报批国内首个云原生国家标准计划,启动了一系列云原生标准预研,并进一步组织产业界开展云原生标准体系研究,编制形成本白皮书。本白皮书主要围绕云原生标准化,研究分析国内外标准化历程和关键内涵,给出云原生标准体系的顶层设计、实施路径和建设内容,结合典型场景实践案例,为云原生服务提供商、技术开发者以及标准化从业人员等,系统性提供体系化的云原生标准化指导。版权声明:本白皮书版权受法律保护,凡转载、引用、摘编或以其它任何形式使用本白皮书内容,请务必注明来源出处,对违反者将追究法律责任。版权声明:本白皮书版权受法律保护,凡转载、引用、摘编或以其它任何形式使用本白皮书内容,请务必注明来源出处,对违反者将追究法律责任。云原生标准体系白皮书(2023)I目录一、云原生的标准化背景.1(一)云原生的定义史:从概念化到标准化.1(二)云原生的技术线:从体系化到标准化.4(三)云原生的应用面:从原生化到标准化.8二、云原生标准及组织.11(一)国际标准及组织.11(二)国内标准及组织.16(三)云原生开源项目及社区.20三、云原生标准体系.23(一)体系框架.23(二)建设内容.24附件:云原生标准化应用实践案例.29(一)商务服务.29(二)自动驾驶.31(三)电子政务.33(四)网络电商.35(五)能源化工.37(六)金融科技.39(七)银行货币.41(八)智慧家庭.42(九)医院医疗.44云原生标准体系白皮书(2023)II(十)互动娱乐.46云原生标准体系白皮书(2023)1一、云原生的标准化背景(一)云原生的定义史:从概念化到标准化(一)云原生的定义史:从概念化到标准化2023 年 6 月,由全国信标委云计算标准工作组(SACTC28/WG20,以下简称工作组)组织,华为技术有限公司、中国电子技术标准化研究院等近三十家企事业单位,完成编制报批了我国首个云原生领域国家标准信息技术 云计算 面向云原生的应用支撑平台功能要求。该文件给出了基于云原生支撑应用生存周期过程的平台功能框架,规范了支撑能力的功能要求,明确了“云原生”的标准术语定义,即:基于云计算架构设计和构建应用程序的技术集合与方法明确了“云原生”的标准术语定义,即:基于云计算架构设计和构建应用程序的技术集合与方法。利用云原生构建的应用具备弹性、敏捷、松耦合、易交付、易观测等特征。标志着“云原生”概念定义的首次国家标准化落地。标志着“云原生”概念定义的首次国家标准化落地。回顾云原生概念和技术演进过程,产业界对其内涵定义不断更新丰富,云原生的概念演进史传承着云计算发展史回顾云原生概念和技术演进过程,产业界对其内涵定义不断更新丰富,云原生的概念演进史传承着云计算发展史。2010 年 5 月,Paul Fremantle 在博客中首次提出 Cloud云原生标准体系白皮书(2023)2Native 架构概念,意在描述应用程序和中间件在云环境中的良好运行状态,并初步定义云原生架构应具备分布式、松散、多租户、自服务、按需计量计费、持续部署与测试等主要特征。2011 年,PaaS 提供商 Heroku 提出 12 因素(12-factor),旨在引导促进更好地利用云计算 PaaS 能力构建 SaaS 或云原生应用程序。该 12 因素为:一个代码库,一个应用程序;依赖管理;设计、构建、发布和运行;配置、证书和代码;日志;易处理;后端服务;环境等价;管理进程;端口绑定;无状态进程;并发性。而后,Kevin Hoffman 修订增加了三个额外因素,即:API 优先、遥测;认证和授权。上述 15 因素后发展为著名的云原生架构设计经典方法论。2015 年,Pivotal 公司 Matt Stine 提出云原生应用具备的主要特征:符合 12 因素、微服务架构、自服务敏捷、基于 API 的协作以及抗脆弱性。后进一步将云原生凝练概括为:六大特质(模块化、可观察、可部署、可测试、可替换、可处理),及四大要点(DevOps、持续交付、微服务以及容器化)。云原生标准体系白皮书(2023)3同年,Google 联合 Linux 基金会成立 CNCF 组织,标志着云原生从概念理念加速步入开源产业化。CNCF 定义云原生为:云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的应用。云原生的代表技术包括容器、服务网格、微服务、不可变基础设施和声明式 API。同时,CNCF 进一步建议云原生应用程序应采用6 大基础支柱:云及其基础服务模型;现代设计原则;微服务;容器化和容器业务流程;基于云的后备服务,例如数据库和消息代理;自动化,例如基础结构即代码和代码部署。总而言之,云原生的概念、定义、特性、理论和方法,随着产业发展与广泛应用而更加清晰。从概念定义看,云原生是一种更优利用云计算资源、服务和能力的架构理念,是一套更好构建和运行云上现代化应用程序的实践方法,是一个更加符合敏捷特征的先进技术体系。总而言之,云原生的概念、定义、特性、理论和方法,随着产业发展与广泛应用而更加清晰。从概念定义看,云原生是一种更优利用云计算资源、服务和能力的架构理念,是一套更好构建和运行云上现代化应用程序的实践方法,是一个更加符合敏捷特征的先进技术体系。云原生标准体系白皮书(2023)4(二)云原生的技术线:从体系化到标准化(二)云原生的技术线:从体系化到标准化发展至今,在云原生概念定义的指引下,目前形成了以容器、微服务、Serverless、Devops 等为典型代表的技术体系。其中,各个云原生关键技术点成为产业化提质增效的最佳实践,这些以点串线的云原生典型技术,通过标准化更加有效促进了技术体系的建设应用。标准化的容器单元开创了云原生应用部署的事实标准标准化的容器单元开创了云原生应用部署的事实标准。容器技术将应用及其所有依赖项打包,使应用不再受环境限制,在不同计算环境间快速、可靠地运行。Docker 容器引擎的开源,在很大程度上降低了容器技术的使用复杂性,加速了容器技术普及,极大提升了系统的应用部署密度和弹性。Docker 镜像的创新应用打包规范,解耦了应用与运行环境,使应用可以在不同计算环境间一致、可靠地运行。借助容器技术,让开发所需要的灵活性、开放性,以及运维所关注的标准化、自动化达成相对平衡。微服务架构标准化开创了云原生应用模块化设计标准微服务架构标准化开创了云原生应用模块化设计标准。微服务架构作为一种分解复杂应用的方法,被纳入到软件开发的体系中。通过应用内部的解耦和拆分,以实现更好的可扩展性和故障隔离性。容器技术的出现是使微服务架构走向标准化的关键因素之一,特别是 Docker 的普及,为微服务提供了一种统一的、轻量级的部署和运行环境。这种环境隔云原生标准体系白皮书(2023)5离技术解决了微服务架构中的许多挑战,为微服务的开发、部署和管理提供了一种一致性的解决方案。面向服务模式的标准化设计帮助应用架构全面升级面向服务模式的标准化设计帮助应用架构全面升级。服务化架构是符合企业发展需求和应用趋势的新型软件设计方法,通过微服务、服务器无感知(Serverless)、服务化网格等技术,帮助企业实现从单体应用到服务化架构的升级,让企业开发者更关注业务本身,无需关注基础设施,实现应用环境标准化,有效简化应用迁移与托管,提高编排和运维效率。此外,FaaS、BaaS 等为用户屏蔽云端复杂度,简化云应用开发,提高应用开发上线效率。更灵活的管理闲置资源,进一步提升了系统资源利用率。此外,组装式交付通过低代码、应用集成等技术,快速复用基础组件,通过简单的托拉拽实现快速交付新应用。标准化的统一管控调度实现异构资源的高效协同标准化的统一管控调度实现异构资源的高效协同。智能调度、微服务、动态编排等技术为应用提供了统一的资源池,让多种应用可以混合部署。通过这种面向应用的调度,可在同一集群内支持多种不同的应用类型,借助业务资源请求互补性大幅提升资源使用率、减少应用运维成本。同时,随着应用资源的急剧增加,多维资源调度统一计算节点技术将在调度方面实现资源分层、协同调度,通过屏蔽多元化算力资源差异,以精细化调度进一步实现资源利用率的有效提升。云原生标准体系白皮书(2023)6可观测能力与应用交付管理能力的标准化进一步完善IT 成 本 优 化可观测能力与应用交付管理能力的标准化进一步完善IT 成 本 优 化。随 着 云 原 生 技 术 社 区 Prometheus、OpenTelemetry、OpenMetrics 等项目发展,应用可观测性领域在日志、监控、链路追踪等领域进一步标准化和融合,使得多指标、根因分析的数据集更加丰富。此外,Kubernetes声明式 API、面向终态的应用交付方式,提供了更加一致的管理运维体验。Service Mesh 非侵入的数据遥测能力以及服务流量管理能力,可以在不修改现有应用的前提下获取更加丰富的业务指标,提高 AIOPS 的 AI 层面准确率和覆盖率,并实现以透明的方式对应用进行管理和自动化运维。分布式云原生技术帮助客户统一规划、调度、运维多个云提供商的容器云平台以及不同物理位置的集群资源分布式云原生技术帮助客户统一规划、调度、运维多个云提供商的容器云平台以及不同物理位置的集群资源。关键技术包括分布式云治理、全域应用调度、全域流量调度、流量跨云协同、数据跨云协同等,其中如分布式云治理技术支持多地域基础设施的统一注册、认证、访问、配置、分区管理以及合规治理,提供统一入口和管理工具,降低客户学习成本和操作复杂度。全域应用调度技术帮助用户掌控全域资源动态信息,包括接入位置、网络 QoS、可用资源等,根据业务 QoS、亲和性、时长等要求提供不同的全域调度算法和推荐实例资源,协助客户优化成本。多活高可用、全局负载均衡等韧性技术,实现多活应用部署、自动诊断、MTTR 恢复的分钟级效率多活高可用、全局负载均衡等韧性技术,实现多活应用部署、自动诊断、MTTR 恢复的分钟级效率。多活高可用可以云原生标准体系白皮书(2023)7保证应用在不同的地域或可用区同时运行,提高应用的可靠性和稳定性。全局负载均衡可以根据应用的流量和性能情况,动态地分配和调整请求到最优的服务节点,从而实现负载均衡和故障转移,提高应用的响应速度和用户体验。自动诊断、恢复(MTTR)可以利用智能的监控和分析技术,快速地发现和定位应用的故障和异常,从而实现自动化的修复和恢复,提高应用的恢复时间和效率。在未来支撑企业深度用云的趋势下,驱动计算、存储、网络等基础实施围绕应用将进一步优化,催生构建云原生2.0 技术体系,涵盖软硬协同、服务网格、云原生存储等。深度软硬协同能力为客户提供近裸机体验的性能,同时降低通过软件实现网络、存储等功能的 CPU 开销。服务网格则以更加解耦的方式将服务治理能力变成独立进程,对应用访问进行非侵入管理,全面提升应用治理能力。基于独立存储网络通道、Operator 机制等技术,容器存储的共享存储网络吞吐受限,以及虚拟化性能折损、跨级全迁移等难点问题将有效解决。云原生标准体系白皮书(2023)8(三)云原生的应用面:从原生化到标准化(三)云原生的应用面:从原生化到标准化云原生“为云应用而生”,为完善云应用的生命周期管理保障,标准化的技术和管理理念,加速推动了以“应用原生化”为核心的持续开发交付、稳定性保障、运维自动化、系统可观测等管理模式变革加速推动了以“应用原生化”为核心的持续开发交付、稳定性保障、运维自动化、系统可观测等管理模式变革。云原生应用开发与交付的标准化,有效革新了应用开发模式、提升了软件交付效率云原生应用开发与交付的标准化,有效革新了应用开发模式、提升了软件交付效率。传统开发方法存在过多重复性、烟囱式工作,技术和人力投入成本高,导致软件应用交付周期长、定制能力弱,进一步积压业务需求,难以敏捷响应快速变化的市场需求。DevOps 开发运维一体化通过标准化和自动化方法,显著加快应用开发、测试和部署。通过对 DevOps全流程的标准化管理与实施,有效提高“开发-测试-发布-运维”各环节研发工具的支撑能力和一站式服务水平。实现随时随地在云端享受代码托管、代码扫描、流水线管理、代码编译、镜像构建、应用部署发布等功能和服务。此外,DevSecOps 主张将安全性嵌入 DevOps 各环节,以便在开发过程早期识别安全问题,作为敏捷、DevOps 的延续和趋势,是打通管理与协同、设计与开发、CI/CD、应用管理、运维、安全可信等全链条各环节的一体化理念、技术和方法。同时,低代码无代码相关产品标准化,进一步统一产品功能要求、应用范围和服务能力,满足企业对于数字化业务需求快速响应、快速开发的目标。低代码无代码技术降低应云原生标准体系白皮书(2023)9用开发准入门槛,使非开发人员利用图形化界面,以拖拉拽方式快速搭建软件应用,以搭积木方式组成满足各类需求的应用产品,减轻对专业工程师的依赖,降低人力和时间成本。此外,应用程序的构建和部署极易出错,在繁杂的代码中识别错误会拖慢开发进度。通过标准化的 CI/CD 工具自动将新引入代码进行测试和集成,保证生成可部署的应用,并将其推送至生产环境,极大提升开发效率。可观测性技术和工具的标准化,保障业务系统稳定运行。可观测性技术和工具的标准化,保障业务系统稳定运行。云原生体系下的应用由单体架构转换为微服务架构,同时给运维管理带来全新挑战。一方面,数量众多的微服务之间互相调用的关系极为复杂,使用传统运维方式难以掌握业务系统整体的运行状态;另一方面,微服务架构下系统环境动态性增强,每个服务实例存在周期极短,系统复杂度提升而导致日志数据大规模增加,给系统根因定位带来极大挑战。由此,云原生的运维管理也从传统的被动监控系统数据转向主动观测应用关联的各类数据。通过对可观测性相关管理和实施,使得业务系统发生故障时能够迅速进行根因定位,提高故障修复效率。云原生应用运维标准化,有效保障信息系统的可靠性、安全性和业务连续性云原生应用运维标准化,有效保障信息系统的可靠性、安全性和业务连续性。随着企业核心业务系统由云化演变为云原生化,为客户提供更好的安全可靠容灾备份、流量治理等解决方案成为云原生标准体系考量的关键因素。由于云原云原生标准体系白皮书(2023)10生稳定性保障工具与传统方式不同,为了更主动的探测系统潜在故障,云原生技术体系衍生出以混沌工程为代表的新型管理工具,充分保障复杂的分布式系统稳定运行。通过标准化的监控、日志和指标收集,帮助开发和运维团队全面了解应用程序的运行状况,及时发现和解决问题,提高应用的稳定性和性能。在未来,软件业务模块规模化、部署环境多样化、系统架构复杂化等程度进一步加剧,对于软件研发迭代、运维运营保障、企业组织管理等多方面提出了极大挑战。在云原生场景下,软件应用服务围绕需求诉求对应构建,云原生架构将非功能性特性从业务代码中剥离到云计算基础设施中,使得业务开发人员专注于业务逻辑开发,有效降低企业上云用云的门槛和心智负担。随着云原生技术的不断发展,全面云原生时代将为企业数字化和智能化转型,谱写体系化改革新篇章。云原生标准体系白皮书(2023)11二、云原生标准及组织(一)国际标准及组织(1)ISO/IEC(一)国际标准及组织(1)ISO/IEC国际标准化组织(ISO,International Organizationfor Standardization)是目前世界上最大、最有权威性的国际标准化专业机构。其目的和宗旨是“在全世界范围内促进标准化工作的发展,以便于国际物资交流和服务,并扩大在知识、科学、技术和经济方面的合作”。其主要活动是制定国际标准,协调世界范围的标准化工作,组织各成员国和技术委员会进行情报交流,以及与其他国际组织进行合作,共同研究有关标准化问题。国 际 电 工 委 员 会(IEC,InternationalElectrotechnical Commission)负责有关电气工程和电子工程领域中的国际标准化工作,其宗旨是促进电气、电子工程领域中标准化及有关问题的国际合作,增进国际间的相互了解。目前,IEC 的工作领域已由单纯研究电气设备、电机的名词术语和功率等问题扩展到电子、电力、微电子及其应用、通讯、视听、机器人、信息技术、新型医疗器械和核仪表等电工技术的各个方面。目前,自联合开发基金会(JDF)被批准为 JTC1 PAS 提交人后,ISO/IEC JTC 1/SC 38 已开展研究合作可能性。由于云计算的创新动力源于众多 OSS 项目(如 Docker、云原生标准体系白皮书(2023)12Kubernetes 等),SC 38 正与 JTC 1 密切合作,研究云计算开放源码项目涉及的接口规范等标准化工作。(2)ITU(2)ITU国际电信联盟(ITU,International TelecommunicationUnion)是由法、德、俄等 20 个国家在巴黎会议上为了顺利实现国际电报通信而成立的国际组织,其实质性工作由国际电信联盟标准化部门、国际电信联盟无线电通信部门和国际电信联盟电信发展部门等三大部门承担。其中电信标准化部门由原来的国际电报电话咨询委员会(CCIR)和标准化工作部门合并而成,主要职责是完成国际电信联盟有关电信标准化的目标,推进世界范围内的电信标准化。2022 年 7 月,ITU-T(国际电信联盟电信标准化部门)SG13 立项Requirements of next generation networkevolution to support container-based network entities项目,是 ITU-T 在电信网络中首次引入云原生技术应用的标准,是我国运营商在推动网络云原生国际标准工作的里程碑。该项目提出在下一代网络演进中,引入容器化网元来解决虚拟化网元的启动慢、交付时间长、资源利用率低等问题,项目范围包括对容器基础设施、网元以及对容器化网元管理系统等方面要求。2023 年 4 月,ITU-TSG13 完 成 报 批 Cloudcomputing Functional requirements of Platform as a云原生标准体系白皮书(2023)13Service for cloud native application(云原生应用 PaaS功能要求)标准。该标准定义了 PaaS 服务场景、PaaS 能力类型、云原生概念、云原生应用基本设计原则、典型云原生技术等,面向云原生应用的开发、测试、部署、运维等环节共提出 43 条 PaaS 功能要求,覆盖容器资源、DevOps、可观测性能力、微服务管理、数据服务、流量控制、PaaS 服务管理等。该标准填补了 ITU 云计算标准体系中 PaaS 领域标准的空缺,为业界提供了云原生 PaaS 基本能力参考。2023 年 7 月,在 ITU SG13 WP2 会议上立项云间容器管理 功 能 架 构 标 准(CloudcomputingFunctionalarchitecture of container management in inter-cloud),持续推进算力网络泛在算力调度领域标准布局。此次中国移动在 ITU 主导的云间容器管理功能架构标准立项,针对跨多云的容器算力管理架构、关键功能设计、业务流程与参考接口等内容进行研究和标准制定,加速推动多云容器管理架构与关键方案的成熟发展。该标准填补了该技术领域在 ITU 组织的架构标准空缺,为算力网络多方云原生算力互联互通技术方案实现提供重要技术参考。(3)ETSI(3)ETSI欧洲 电信 标准学 会(European TelecommunicationStandards Institute,ETSI),是制定和发布欧洲电信标准的非营利性区域组织,总部设在法国尼斯。1987 年,欧共云原生标准体系白皮书(2023)14体委员会在其发表的关于发展欧洲电信政策绿皮书中,建议成立一个欧洲电信标准化机构,以加速制定和协调电信标准,推动欧洲统一电信市场的建立。ETSI 是第三代合作伙伴计划(3GPPTM)的国际合作伙伴,参与研究和制定 4G 和 5G移动通信标准,也是物联网国际标准化伙伴组织(OneM2M)发起者之一,共同制定机器对机器通信标准。2023 年 6 月,ETSI 多接入边缘计算行业规范小组(ISGMEC)发布白皮书,详细阐述了“边缘原生”的概念和愿景,指导开发人员了解边缘计算的原则和特定要求,以及如何将它们与云原生引入的现代架构方法相结合。多接入边缘计算通过采用基于云的技术,如虚拟化、基于服务的管理和异构硬件管理,为部署和管理边缘应用程序提供了灵活的环境。自 2014 年成立以来,ISG MEC 一直致力于通过标准提供互操作性足迹、确保普遍采用 API 设计原则,进一步充分利用边缘功能并采用应用程序开发的边缘原生设计原则,则需要开源和标准的共同努力。2023 年 5 月,ETSI 发布 Evolving NFV towards the nextdecade白皮书,该白皮书旨在探讨 NFV 未来十年的发展方向与关键驱动力,为未来的 NFV 技术和市场趋势的探索提供指 导。NFV 即 网 络 功 能 虚 拟 化(Network FunctionsVirtualization),是指利用虚拟化技术在标准化的通用 IT设备(如 X86 服务器、存储、交换设备等)上实现网络功能。云原生标准体系白皮书(2023)15NFV 的目标是取代通信网络中私有、专用和封闭的网元,实现统一通用硬件平台和业务逻辑软件的开放架构,将对未来通信网络发展产生重大影响。此外,ETSI GS Cloud Native Architecture提供了云原生应用程序设计和架构指南,包括最佳实践、技术要求和设计原则,旨在帮助开发人员在构建云原生应用程序时提高弹性、可伸缩性和可靠性。ETSI GS Cloud Automation提供了自动化云原生基础架构和应用程序的指南,包括自动化部署、配置和管理等方面,旨在帮助提供商和服务提供商实现高效、可靠和可扩展的自动化云原生系统。ETSI GSCloud Data Management提供了云原生数据平台的设计和管理指南,包括数据存储、数据处理和分析等方面,旨在帮助开发人员和提供商构建高效、可扩展和可靠的云原生数据平台。ETSI GS Cloud Container和ETSI GS CloudMicroservices Architecture等有关容器技术和微服务架构的标准,提供了容器技术和微服务架构的通用框架和指导,支撑构建高效、可伸缩和可靠的云原生应用程序。(4)3GPP(4)3GPP第三代合作伙伴计划(3rd Generation PartnershipProject,3GPP)成立于 1998 年 12 月,由中美日欧等七个国家和地区的电信标准组织联合成立,是全球范围内最具影响力、最重要的移动通信标准化组织。云原生标准体系白皮书(2023)162023 年 7 月,3GPP SA(业务与系统)全体会议通过了 Study on Management of Cloud Native VirtualizedNetwork Functions(云原生化 VNF 管理研究)项目结项和相关新标准项目立项。其中,已结项的 FS_MCVNF 研究项目输出的 TR 28.834 是 3GPP 在云原生化 VNF 领域的首个研究项目文件,围绕云原生化的 VNF 的创建、配置、性能、故障等管理方面展开需求、用例和解决方案研究,填补了 3GPP网络云原生标准领域的空缺,为电信行业促进网元的云原生化发展起到重要推动作用。同时,通过立项标准项目后续将遵循云原生设计原则的虚拟化网络功能,提出相关的标准化管理需求及解决方案,该立项进一步推进了中国在 3GPP 网络云原生领域的标准布局。此外,如 3GPP TR 24.802 标准提供了关于移动网络中云原生应用的要求和架构,包括云原生应用的定义、云原生平台的要求和云原生平台的架构等。旨在为移动网络和服务提供商构建云原生应用架构提供指导。(二)国内标准及组织(1)全国信标委云计算标准工作组及云原生专题组(二)国内标准及组织(1)全国信标委云计算标准工作组及云原生专题组2012 年,经全国信标委第一次主任委员办公会审议,决定成立全国信息技术标准化技术委员会云计算标准工作组,负责云计算领域的标准化工作,包括云计算领域的基础、技术、产品、测评、服务、安全、系统和装备等国家和行业标云原生标准体系白皮书(2023)17准的制修订工作,对口 ISO/IEC JTC1 SC38。2022 年,立足新发展时期我国云计算技术与产业应用生态建设诉求,为更好地响应与时俱进的产业标准化需求,推进建设我国云计算高质量标准体系,在第十一届中国云计算标准和应用大会上,工作组正式宣布下设成立首批专题组,统筹加速推进云计算国家标准化。云原生专题组作为首批成立的重点专题组之一,承担着完善新一代云计算标准体系建设的关键任务。2023 年 6 月,云原生专题组完成报批了信息技术 云计算 面向云原生的应用支撑平台功能要求国家标准计划。该标准历时两年时间完成,近三十家重点单位、超过百余位行业专家参与过程研制,是我国云原生领域首个批准立项并完成编制的国家标准。该标准围绕应用开发交付、运行、运维、管理等生存周期过程,规范了云原生支撑平台的功能性要求。为用户理解采用云平台 PaaS 服务提供指导,同时将有力配合工信部政策导向,指导和规范各厂商的应用支撑平台服务,推动实现应用深度上云,支撑行业数字化发展。此外,全国信息技术标准化技术委员会云计算标准工作组自 2016 年以来,已面向云原生容器、存储、DevOps 等典型技术领域,研究形成了一系列重要成果,包括基于开源技术的云计算系统实现指南 2.0企业级容器云平台技术要求信息技术 云计算 云开发通用技术要求等团体标云原生标准体系白皮书(2023)18准,以及容器技术及其应用白皮书开发运维一体化两岸共通标准研究报告云开发技术实践白皮书云原生内存数据库技术及标准化白皮书(2020)等。在 2023 年,依托云原生专题组进一步启动了 Serverless 服务能力、可观测性体系等标准化研究。(2)开放原子云原生工作委员会(2)开放原子云原生工作委员会2023 年 6 月,开放原子开源基金会联合 29 家单位倡议,号召国内云产业相关企业、机构,共同发起开放原子云原生工作委员会,共建、共治、共享,推动云原生技术的创新发展。云原生工作委员会旨在通过构建开源、开放的云原生技术生态,探索云原生技术创新,推进云原生技术在中国发展,赋能千行百业数字化转型。目前,委员会在云原生和容器领域已发布相关标准和研究 成 果。如 OpenContainerInitiative(OCI)Specifications标准是由开放容器倡议(OCI)制定的容器镜像和运行时规范,定义了容器镜像的格式、创建、验证和分发的标准,以及容器运行时的行为和接口的标准,规范了容器的可移植性和互操作性。CNCF Cloud NativeInteroperability Initiative(CNSI)旨在促进云原生技术互操作性,定义了云原生系统关键组件和接口的标准,包括容器平台、服务网格、存储和数据库等,促进不同解决方案的相互集成和协同协作。CNCF Serverless White Paper云原生标准体系白皮书(2023)19给出了无服务器计算的概念、优势、应用场景和最佳实践等,为开发人员和架构工程师提供具体指导。(3)中国电子工业标准化技术协会(3)中国电子工业标准化技术协会中国电子工业标准化技术协会(China ElectronicsStandardization Association,CESA)是全国电子信息产业标准化组织和标准化工作者自愿组成的社会团体。协会宗旨是团结和组织全国电子信息产业标准化组织和标准化工作者,加强电子信息产业各有关部门、地区、企事业单位之间的联系、协调与合作,开展电子信息产业各技术领域标准化活动,加强国际交流,提高电子信息产业标准化的科学技术水平,推动电子信息产业标准化工作,促进电子信息产业高质量发展。2023 年 4 月,CESA 公示云原生数据库技术要求团体标准,该标准明确了云原生数据库定义,确定了云原生数据库的基础功能、技术特性、安全能力和运维管理能力。该标准顺应云计算发展趋势,指导各行业数据库实现云原生化,为数据库上云起到良好的引导和规范作用,促进数据库与云计算技术更好的融合利用。此外,如 2020 年 7 月发布云计算原生平台技术要求和测试方法标准,规定了云计算原生平台的技术要求和测试方法,包括平台架构、功能要求、性能指标、安全保障等方面要求。云原生应用容器技术要求和测试方法标准规云原生标准体系白皮书(2023)20定了云原生应用容器的技术要求和测试方法,包括容器镜像、容器运行时、容器编排等方面要求。(三)云原生开源项目及社区(三)云原生开源项目及社区云 原 生 计 算 基 金 会(CloudNativeComputingFoundation,CNCF)成立于 2015 年 12 月,致力于云原生技术的普及和可持续发展。CNCF Landscape 给出了云原生路线图和全景图。其中,路线图(Trail Map)是 CNCF 指导云原生用户使用开源项目以及推荐相关云原生技术,其包括十个步骤,各步骤是用户或平台开发者将云原生技术在实际环境中落地时,需要循序渐进思考和处理的问题,指导用户基于路线图选择供应商产品或开源项目。云原生全景图从云原生的层次结构和不同功能组成上,让用户了解云原生体系的全貌,帮助用户面向不同组件层次选择适用的软件和工具。目前,“Docker Kubernetes”是云原生最关键的开源项目之一,成为资源调度和容器编排领域的事实标准目前,“Docker Kubernetes”是云原生最关键的开源项目之一,成为资源调度和容器编排领域的事实标准。2013年,Docker 容器技术正式发布,容器技术开始普及。大量容器的共同参与催生了进一步容器统筹工具的需求,在此背景下,2014 年 Google 发布容器编排工具 Kubernetes,凭借较高的社区活跃度及丰富的组件,于 2017 年脱颖而出,成为了容器编排的事实标准,市场份额远超其他厂商。目前在容器底层技术领域,“Docker Kubernetes”已成为主流。KubeSphere 是在 Kubernetes 之上构建的开源容器平KubeSphere 是在 Kubernetes 之上构建的开源容器平云原生标准体系白皮书(2023)21台,提供全栈的 IT 自动化运维能力,极大简化企业 DevOps工作流台,提供全栈的 IT 自动化运维能力,极大简化企业 DevOps工作流。KubeSphere 将前端与后端分开,实现面向云原生的设计,后端各功能组件可通过 REST API 对接外部系统。KubeSphere 无 底 层 的 基 础 设 施 依 赖,可 运 行 在 任 何Kubernetes、私有云、公有云、VM 或物理环境(BM)之上。此外,能够支持部署在任何 Kubernetes 发行版上。Kube-OVN 是全球首个被 CNCF 纳入托管的开源容器网络项目,是容器网络领域最具代表性和影响力的开源项目之一Kube-OVN 是全球首个被 CNCF 纳入托管的开源容器网络项目,是容器网络领域最具代表性和影响力的开源项目之一。支持跨云网络管理、传统网络架构与基础设施的互联互通、边缘集群落地等复杂应用场景,增强了 Kubernetes 容器网络的安全性、可运维性、管理性和性能。目前,Kube-OVN已成为开源社区最受欢迎的 Kubernetes 网络解决方案之一,在 Github 镜像下载量超 230 万,社区成员突破 3 千人,已实现上千集群级别的大规模企业级项目、海外项目落地和商业化探索,成为国内容器网络领域主流方案。此外,一系列云原生关键开源项目以标准化的理念,不断完善着云原生生态建设此外,一系列云原生关键开源项目以标准化的理念,不断完善着云原生生态建设。如开源监控软件 Prometheus 为云原生应用程序提供实时监控、警报和时间序列数据库功能,集成许多流行的开源数据导入、导出工具,已成为监控基于容器的基础设施的标准。Containerd 是工业级标准容器运行时组件,注重简单性、健壮性和可移植性,可在宿主机中实现便捷的容器镜像传输、存储、容器运行时等全生命周云原生标准体系白皮书(2023)22期管理。gRPC 是高性能 RPC(远程过程调用)框架,面向移动应用开发并基于 HTTP/2 协议标准设计,支持插件灵活扩展、双向流传输、负载均衡、运行状况检查和身份验证等。云原生标准体系白皮书(2023)23三、云原生标准体系(一)体系框架(一)体系框架结合国内外云原生技术演进趋势和产业化应用需求,为系统性、全局性推进云原生标准化工作,明确云原生标准化建设路径与规划,指导具体标准的立项与制修订,基于产业界云原生领域主要代表和实践方,研究形成云原生标准体系见图 3-1。包括“A 基础”、“B 技术与服务”、“C 管理”、“D 评估评价”四个部分。图 3-1 云原生标准体系其中,“A 基础”主要规范统一云原生相关概念和架构,为制修订其他各部分标准提供支撑,包括术语、架构、安全等方向的基础类标准。“B 技术与服务”主要规范云原生关键技术、服务/产品等方面的研发、设计与使用,包括容器、微服务、中间件等方向的标准。“C 管理”主要规范云原生涉及的应用开发交付、运行保障和服务运营等方面的生命周期管理,包括开发与交付、可观测性、稳定性保障、计量与计费等方向的标准。云原生标准体系白皮书(2023)24“D 评估评价”主要规范指导云原生化改造和能力建设,包括能力成熟度、评价指标等方向的标准。(二)建设内容(1)A 基础(二)建设内容(1)A 基础包括“AA 术语”、“AB 架构”、“AC 安全”等 3 个研制方向。其中:1)AA 术语规定容器、Serverless、FaaS、BaaS、Service Mesh 等云原生相关的角色、技术、概念、模式等术语定义,统一云原生认识与理解,为制修订其它标准提供指导。2)AB 架构规定微服务架构、Serverless 架构、存算分离架构等云原生相关架构或参考框架,为设计、开发和使用云原生系统及其能力提供指导。3)AC 安全规定云原生的应用安全、研发运营安全、数据安全、运行环境安全等方面的安全能力、安全框架或安全指南,为云原生生态和系统建设提供安全保障。(2)B 技术与服务(2)B 技术与服务包括“BA 容器”、“BB 存储”、“BC 网络”、“BD 中间件”、“BE 微服务”、“BF 服务网格”、“BG 调度”、“BH Serverless”、“BI 其它”等 9 个研制方向。其中:云原生标准体系白皮书(2023)251)BA 容器规定云原生容器集群、容器服务、容器接口、容器平台、容器管理等方面的技术要求、能力规范或产品功能,指导云原生容器的技术研发、产品选型及服务应用。2)BB 存储规定云原生分布式存储、对象存储、块存储、文件存储、云原生数据库等方面的技术要求、能力规范或产品功能,指导云原生存储的技术研发、产品选型及服务应用。3)BC 网络规定云原生网络功能、通信协议、网关服务、设备系统等方面的相关要求,指导云原生网络的建设与应用。4)BD 中间件规定云原生消息中间件、事务处理中间件、数据集成中间件、工作流中间件、安全中间件等方面的技术要求、能力规范或产品功能,指导云原生中间件的技术研发、产品选型及服务应用。5)BE 微服务规定云原生微服务方面的技术要求、能力规范或产品功能,指导云原生微服务的技术研发、产品选型及服务应用。6)BF 服务网格规定云原生服务网格相关的服务能力、交互协议、资源接口、服务质量等,指导云原生服务网格的技术研发、产品云原生标准体系白皮书(2023)26选型及服务应用。7)BG 调度规定云原生资源调度、分布式任务调度、服务编排调度等方面的技术要求、能力规范或产品功能,指导相关技术研发、产品选型及服务应用。8)BH Serverless规定云原生 Serverless 弹性伸缩、托管服务、BaaS API等方面的技术要求、能力规范或产品功能,指导 Serverless技术研发、产品选型及服务应用。9)BI 其它规定云原生与 AI、大数据等跨技术或跨场景融合应用方面的技术要求、能力规范或产品功能,指导云原生的生态建设与示范应用。(3)C 管理(3)C 管理包括“CA 开发与交付”、“CB 可观测性”、“CC 稳定性保障”、“CD 计量与计费”、“CE 资源管理”等 5 个研制方向。其中:1)CA 开发与交付规定云原生 DevOps、低代码/无代码、敏捷研发、持续集成交付、自动化工具等方面的技术要求、能力规范或产品功能,指导云原生开发与交付相关的技术研发、产品选型及服务应用。云原生标准体系白皮书(2023)272)CB 可观测性规定云原生日志事件、链路追踪、指标监控、关联分析等方面的技术要求、能力规范或产品功能,指导云原生可观测性相关的技术研发、产品选型及服务应用。3)CC 稳定性保障规定云原生容灾灾备、应用韧性、风险预测、故障自愈等方面的技术要求、能力规范或产品功能,指导云原生稳定性保障相关的技术研发、产品选型及服务应用。4)CD 计量与计费规定云原生计量模型、计费规范等相关要求,规范云原生服务按需计费、成本优化。5)CE 资源管理规定对云原生基础资源、平台资源、应用资源等方面的管理要求,指导构建、管理、调用统一资源池。(4)D 评估评价(4)D 评估评价包括“DA 评价指标”、“DB 能力成熟度”等 2 个研制方向。其中:1)DA 评价指标规范云原生弹性、韧性、性能、高可用、自动化、软硬结合、绿色低碳等非功能性评价指标,指导云原生系统的研发、设计、建设与应用。2)DB 能力成熟度云原生标准体系白皮书(2023)28规范利用云原生进行改造、优化、迁移、管理等方面的实现程度,指导云原生行业生态建设。云原生标准体系白皮书(2023)29附件:云原生标准化应用实践案例(一)商务服务(1)案例背景及难点(一)商务服务(1)案例背景及难点某商务服务企业致力于用科技构建开放数据平台,让公众更远、更透、更公平地看清世界,减少商业交易中的“信息不对称”,助力诚信社会建设。目前,已收录 3 亿社会实体信息,服务近 5 亿用户,但也面临着存量业务运营的新挑战和新需求。从内部视角看,亟需优化运营成本,提升业务质量及运转效率;从外部视角看,更需为业务发展提速、支撑快速创新。当下,原业务架构已掣肘提质、降本、增效、创新的整体战略。具体而言:一是一是数据架构与业务强耦合,业务代码直接进行库表操作,不仅安全性低,还影响迭代效率和开发难度。二是二是缺失大量数据冗余和数据模型,使得数据可扩展性差,另由于缺乏统一的数据开发框架和规范,导致新增业务模型的开发周期漫长、影响业务创新。三是三是应用架构复杂,导致服务间强耦合,单一特性修改往往牵涉成批服务改动,系统设计、编码、测试效率低下。同时,服务间复杂依赖导致业务弹性伸缩不灵活、问题定位定界困难,加剧产生因单个服务故障导致整体系统瘫痪的可能性。四是四是部署模式传统老旧,现有 IDC 架构和虚机管理资源利用率低,业务高峰期扩容效率低,已极大影响业务规模化增量。同时,传统的资云原生标准体系白皮书(2023)30产运维模式,导致资源与应用割裂,很难在故障发生时对问题快速定位恢复,增加了日常运维难度和压力。(2)案例实施成效(2)案例实施成效通过实施数据服务化、应用现代化、基础设施容器化,全面优化业务架构及相关的研发流程,不仅优化了CAPEX/OPEX,而且全面提升了业务创新能力。具体而言:一是一是实现数据服务化。将实时分析和离线分析业务分离,建立统一标准的 ETL 数据开发框架与开发规范,将数据开发效率提升 30%。将算法服务与 ETL 解耦,提升了算法处理效率 20%。精简业务数据模型,重构优化 300 数据表,减少数据冗余量 70%。统一数据访问模式,实现数据和业务解耦,提升了数据访问的安全性和便捷性。二是二是实现应用现代化。结合 Spring Cloud 框架对业务进行微服务化重构,实现模块间的分层和充分解耦,建立起包括业务能力、领域服务、基础工具等在内的六层微服务架构,将新特性开发效率提升 43%。微服务间通过统一网关互访,减少了业务流转的复杂度,各服务支持独立、灵活伸缩,单服务故障不再影响系统整体运行,问题定位定界更加清晰,提升了业务系统可靠性和运维效率。三是三是基础设施容器化。基于云原生基础设施构建的全新基础平台,极大提升了资产管理灵活性,将资源整体利用率提升 30%,实现业务秒级快速扩容,轻松应对突发业务量。云原生标准体系白皮书(2023)31基于标准化、开放、以应用为中心的容器平台,实现应用分钟级测试上线、故障秒级自动恢复;进行容器化改造后,面向企业的算法服务效率提升 20%。(二)自动驾驶(1)案例背景及难点(二)自动驾驶(1)案例背景及难点某科技出行企业在快速发展过程中面临关键难点:一是一是数据处理链路复杂。自动驾驶车联网数据链路长且数据增长快,因此数据时效性要求高。二是二是自动驾驶 AI 服务资源利用率低。缺乏有效的 AI 模型 GPU 训练和推理优化。三是三是可观测系统不完善。前端 Web 和后端服务缺乏有效的监控和分析,同时自建 Prometheus 稳定性不佳。四是四是支撑平台技术栈复杂。技术平台需要支持多种业务,并且需要建设如Workflflow CI 工作流、SRE 等工具平台,技术栈较为复杂。(2)标准化实践方案(2)标准化实践方案通过云原生产品支持出行业务的技术平台建设,数据处理、AI 训练与推理服务、工作流、SRE 运维设施均通过统一容器技术栈进行承载。云原生标准体系白皮书(2023)32(3)案例实施成效一是(3)案例实施成效一是弹性算力支持复杂数据处理。通过容器服务运行数据处理和数据脱敏任务,容器为实时任务提供了弹性算力。二是二是提升训练和仿真资源利用率。云原生 AI 套件支持自动驾驶大规模训练和仿真任务的调度和管理,提高了训练和仿真资源的利用率。同时,AI 套件还支持互联网技术中台和出行业务的 NLP、ASR 等推理业务。GPU 共享调度和隔离能力,成倍地提高了 GPU 资源的利用率。三是三是全链路可观测保障业务稳定。采用 ARMS Prometheus 服务、前端监控和 APM 等工具实现全链路监控系统,有效洞察业务稳定性风险,保障业务稳定性。四是四是统一云原生技术栈简化运维。除通过容器服务支持仿真、音视频转码、视频截图、图片处理、数据处理等相关业务外,还支持 Airflflow/Argo workflflow、Kubeflflow/Arena 等工作流平台。采用统一的技术栈运行各业务及其支撑系统,极大简化了运维复杂度。云原生标准体系白皮书(2023)33(三)电子政务(1)案例背景及难点(三)电子政务(1)案例背景及难点2022 年 4 月,国务院发布国务院关于加强数字政府建设的指导意见,提出“持续优化全国一体化政务服务平台功能,全面提升公共服务数字化、智能化水平,不断满足企业和群众多层次多样化服务需求,打造泛在可及的服务体系”。为持续优化利企便民数字化服务,提升公共服务能力,某主管部门积极推进基本公共服务数字化应用,打造“统筹共建、应用稳定、科学有序”的一体化建设管理体系,提升民生服务智能化水平。建设难点及要求包括:一是一是对系统稳定性及并发要求高,至少支撑 3 万 TPS,面对突发情况能够快速扩容;二是二是对接入层、网络层、应用层、数据层、基础设施均要求高 SLA,故障影响面小、运维成本本;三是三是具备可替代性及兼容性,有效降低迁移成本。(2)标准化实践方案(2)标准化实践方案基于分布式云平台为省平台提供技术成熟、安全运行、易于部署的基础设施,基于云平台的云原生支撑能力搭建平台支撑层,为该平台研发建设以及应用场景对接提供中台能力,保障平台安全、平稳、高效运行。云原生标准体系白皮书(2023)34该平台具有以下特点:一是一是具备微服务 容器保障的高可用能力。将前后端应用拆分成不同的微服务应用,部署在两个容器集群中,同时基于负载需求为微服务应用设置初始的副本数,并配置弹性扩容策略,保障高可用能力。二是二是DNS CDN 双活 SLB 提高负载能力。对外出口使用双活负载均衡,每组负载均衡配置对外提供服务,通过互联网 DNS 进行域名解析,CDN 提升传输速度与稳定性,对外提供统一域名访问能力。三是三是双轨并行降低迁移成本。基于 X86 测试环境系统进行双轨测试,通过流量分发实现应用的验证迁移,降低迁移成本。四是四是混沌测试提升系统整体可用性。通过覆盖容器集群、PaaS 产品、负载均衡等全链路的故障场景混沌验证,全面证明该平台在故障场景下的整体可用能力。(3)案例实施成效(3)案例实施成效目前,省平台已提供 200 工作节点,运行近 500 个 pod,云原生标准体系白皮书(2023)35日最大并发达 5 万 TPS,支持突发情况快速扩容能力,实现并发承载能力线性增长。该平台提供的微服务编排、治理、故障自愈、容器安全等云原生能力,提升系统整体可用性,保障 30%节点异常场景下业务稳定运行,实现应用上云成本降低 80%以上。(四)网络电商(1)案例背景及难点(四)网络电商(1)案例背景及难点当下,用户在网上商城一次次丝滑般秒杀、抢购、支付的背后,是巨大的 IT 资源成本投入。而在平时,这些资源大部分处于闲置状态。据统计,数据中心利用率平均约 10%,容灾、峰值、机器数冗余大,成本奇高。在此背景下,对于电商场景而言,主要面临三大技术难题。一是一是资源隔离。需对相关任务毫秒级自适性调度或限制,避免离线任务运行对在线任务造成影响,以保证高优先级的任务不受影响。二是二是存算分离。在面临多业务场景时,服务器集群量级会迎来爆发式增长,造成 I/O 读写不均,存储量受限制,故障无法恢复及数据易丢失等风险。三是三是资源的智能预测。支持能够对应用的未来资源使用情况预测,实现在线与离线应用的混合调度部署。(2)标准化实践方案(2)标准化实践方案通过构建云原生敏捷技术中台,以应用为中心在混合多云多芯场景下,兼具跨平台管理和运行环境供应的中台化运云原生标准体系白皮书(2023)36营模式。统一的云原生技术栈屏蔽了底层技术的复杂性,提供了丰富的云原生 PaaS 服务和支撑企业应用开发运行服务。此外,构建场景 PaaS 服务和行业 SaaS 应用市场,为企业数字化能力建设提供更多选择。该案例平台支持在多云形态下统一部署云原生运行环境,完成多云、多地域、多形态、多芯的基础设施整合。跨平台的融合编排帮助使用者在异构平台间快速部署业务应用,支持统一高效的运营运维,整体提升业务应用的迭代速度,保障系统稳定可靠、安全灵活。开放架构使平台能够构建良好生态,汇聚多方优秀的数智化能力,同时平台本身提供的高可用、高性能、稳定安全的架构降低了生态组件的管理复杂度,帮助使用者快速上手。(3)案例实施成效(3)案例实施成效案例实施后,通过容器网络组件和存储组件等扩展方式,极大优化了资源池的性能。支持云端边多技术栈业务场景,使用者可以按需灵活组合方案。敏捷技术中台有效提升云原生标准体系白皮书(2023)37整体协同能力和工作效率,丰富的 PaaS 服务减轻了运维人员自行搭建数据库、中间件带来的运维压力,通过场景 PaaS服务和应用市场,研发和运维工作效能大大提升。(五)能源化工(1)案例背景及难点(五)能源化工(1)案例背景及难点某油气公司启动信息化建设工作以来,一直以业务数据为核心,围绕着业务板块建立了核心应用系统,并形成以点到面进行扩散的全业务覆盖模式的信息化建设局面。目前,该公司应用架构主要以垂直的单体应用架构为主,应用系统架构处于原始的初级阶段。一是在开发模式方面,无法实现需求多变时业务的敏捷交付。二是在应用部署方面,形成了“一应用一虚机”或“一应用多虚机”的应用系统部署常态,现有运行模式造成的资源浪费和应用系统运维部署的压力巨大。三是应用系统面临零监控问题的被动式运维局面。(2)标准化实践方案(2)标准化实践方案平台底层兼顾新旧架构模式应用的高可用集群架构设计,应用自动化部署部分涉及高可用集群方案设计。应用监控平台建设针对该公司应用特点采用合适的监控方案。云原生标准体系白皮书(2023)38(3)案例实施成效(3)案例实施成效案例实施后,为该用户企业在多方面实现改进提升。一是一是应用系统性能优化提升。实现新老应用架构下应用系统的响应性能、持续服务能力、容量自动伸缩等能力的提升。二是二是应用系统部署运维效率提升。利用容器平台流水线的功能,自动化编译打包,自动化部署,实现开发测试运维流水线生产,提升应用系统部署运维效率。三是三是应用系统架构统一。实现公司所有应用系统的运行部署平台统一、开发的架构设计统计。四是四是业务组件复用集成。实现基础业务组件的快速集成,减少重复开发工作量,提供公司业务组件快速复用、应用敏捷集成管理的能力,为应用系统商品化改造提供底层支撑。五是五是公共服务支撑能力。实现统一用户、认证、授权、流程、日志等功能,通过应用集成管理云平台,打造公司应用公共服务支撑能力。六是六是业务门户的统一。云平台云原生标准体系白皮书(2023)39门户通过结合容器云平台、DevOps 平台、APM 监控平台,实现单点登录、统一管理。(六)金融科技(1)案例背景及难点(六)金融科技(1)案例背景及难点某金融科技公司秉持业务需求和技术创新相互驱动的发展理念,于 2018 年演进为云单元架构,但在业务应用过程中逐渐暴露出新旧系统难以互联互通和统一管理、研发和运维效率难以提升、机器资源使用率不高导致成本难以降低等关键问题。(2)标准化实践方案(2)标准化实践方案通过不断开展技术创新实践,围绕微服务治理、在离线混部、大规模调度、业务安全等方面,实现了从云单元架构到云原生架构的技术优化升级。该云原生架构体系包括自动化运维平台、应用服务框架、弹性资源调度、安全隔离的容器运行、可信服务运行环云原生标准体系白皮书(2023)40境五层。自动化运维是研发和运维的一体化平台,提供高效、稳定、安全的自动化及智能化服务能力;应用服务层采用Service Mesh 技术架构实现业务系统和基础设施的解耦,使得基础设施和业务的迭代速度大大加快,实现无侵入的分布式服务治理;在弹性调度层,结合智能调度画像数据,利用在离线混部,资源分时错峰,容量弹性伸缩等调度技术大幅提升了资源使用效率;在安全隔离层,采用自研内核级隔离安全容器技术,结合操作系统层和硬件层隔离技术,有效隔离在线和离线的资源,极大保障了大规模混部场景的安全稳定;在可信服务层,对异构服务器算力进行标准化,提供标准计算能力供上层调度系统调度,同时构建了基于安全沙箱技术、全站加密、以及全栈可信的三层防御纵深能力。(3)案例实施成效(3)案例实施成效该案例通过云原生架构体系升级,取得诸多关键成效。一是一是 ServiceMesh 全面落地,基础设施升级效率提升 10 倍。实现了数千应用的服务网格化,覆盖了大促核心系统全链路,基础设施升级能力从 1-2 次/年提升到 1-2 次/月。二是二是通过大规模混部,集群机器资源提升 2.5 倍。实现生产系统具备全天候资源弹性调度能力和资源分时复用,全站服务器计算利用率从 12%提升到 30%,资源分配率 90%以上。经测算,2021 年度,该案例项目合计节电超过 4600 万度,减排近 3万吨二氧化碳当量。其中,国产集群 CPU 利用率从 9%提升到云原生标准体系白皮书(2023)4126.4%,每年节省约 590.9 万度电,减排 1605 吨碳。三是三是全业务、全链路安全水位整体提升。为应用与数据提供了隔离性、机密性、与完整性保护,实现了身份认证、服务鉴权和通信加密。(七)银行货币(1)案例背景及难点(七)银行货币(1)案例背景及难点某银行从传统 IT 架构转变为新型云平台架构,规划引入容器技术,提高资源利用率、提高业务系统部署速度,建设高度自动化、深度集成的容器平台,提升运维自动化水平。在业务层面在业务层面,银行的互联网业务应用拥有庞大用户规模,随着手机银行类应用的普及和大规模推广,其业务系统时刻面临着突发性、并发性的业务应用访问挑战。其次,传统业务应用模式存在环节多、流程长、耗时久、创新容错不足等不足,难以适应市场快速变化。在技术层面在技术层面,业务飞速增长给承载业务系统的底层基础设施平台带来巨大资源压力。如何对资源使用量进行精确统计监控,并提升资源利用率成为银行数字换转型的最大难题之一。此外,现行运维模式缺乏自动化管理能力,亟需提升运维自动化水平、解放运维生产力。(2)标准化实践方案(2)标准化实践方案该银行通过采用容器云平台,能够支撑容器应用大规模部署,具备更高的安全管控能力,以及满足敏捷开发和智能化运维等需求。采用基于 Docker 和 Kubernetes 技术的容器云原生标准体系白皮书(2023)42编排解决方案,在开发测试、准生产、生产环境大规模落地容器化应用,从而实现应用的快速部署、实例的自动化弹性伸缩及高可用,保障应用的可靠性与稳定性。容器云平台进一步提高了资源利用率,将容器平台与云管平台进行深度对接,完成业务开发、上线等业务流程,实现开发与运维集成。同时在建设过程中,形成了容器部署、运维等方面标准规范。(3)案例实施成效(3)案例实施成效本案例建成开发、测试、准生产、生产等四套环境,支撑 300 多套系统实现容器化,覆盖手机银行超过 45%业务。从技术层面看从技术层面看,投产实现无人值守的灰度发布,从数小时提升至分钟级,版本更新和启停实现秒级,有效满足了实际业务快速增长的需求,实现秒级资源扩缩容。多数核心业务直接运行在物理点节上,提升业务应用性能约 34%。从业务层面看从业务层面看,包括机构客户交易平台、资产管理信用评级系统、信息安全门户、客户服务团队、行情中心、精准营销、质量和运维中心、服务治理等在内的迁移业务,均实现稳定运行和高效业务迭代。(八)智慧家庭(1)案例背景及难点(八)智慧家庭(1)案例背景及难点云原生技术以弹性可扩展、高可用、高灵活、强兼容和低成本的方式将云的价值最大化,使能智慧家庭业务场景实现敏捷、海量和简单的优势,满足经济社会数智化转型“线云原生标准体系白皮书(2023)43上化”、“智能化”和“云化”等新要求。本案例难点在于:一是一是市场快速发展和同质化竞争加剧,对新功能的上线要求越来越高,需要化解高速的业务发展和系统稳定之间的矛盾。二是二是如何支撑更多的视联新场景、新形态、新终端,构建支撑海量、高并发和高性能的业务系统架构能力,支撑线上转型。三是三是目标要通过自动化、智能化手段,提高运维效率和集群发布变更的敏捷性。(2)标准化实践方案(2)标准化实践方案智慧家庭平台以统一 K8S 技术栈为基础,完善以应用为核心的云原生技术标准,重视多样化算力体系和标准化体系构建,构建 X86/ARM 双平面算力资源,优化 CPU/GPU 算力支持,满足在不同业务场景下的应用需求。引入 Operator 模式,提升技术服务组件和平台内部组件的供给效率。在容器编排和应用管理之间,增加 OAM 应用管理平面,促进应用构建和部署的标准化。平台提供操作简便的一键式服务自动化部署、统一配置管理、应用的弹性扩缩容、微服务管控、DevOps 工具链、资源/服务/容器等多维度综合监控和安全管控等功能,并在此基础上持续集成 Serverless 和 AI 等创新能力。(3)案例实施成效(3)案例实施成效智慧家庭平台已在全网构建超过 100 个集群,纳管超过1.3 万台主机、超 30 万容器,提供云原生中间件、云原生数云原生标准体系白皮书(2023)44据库等 40 余种技术服务组件。基于该平台构建的智慧家庭合作生态,已有 800 硬件合作伙伴、200 应用服务伙伴和1000 款生态创新产品。支撑国家加速建设千兆光网政策,实现千兆 5G、千兆宽带与千兆 Wi-Fi 组网环境下 IOT 长连接能力的管控。支撑国家乡村振兴战略,集成自研云原生AIoTel、云原生视频传输等能力,打造农村信息化产品“平安乡村工程”。支撑国家数字家庭建设政策,打造全场景能力及服务平台,贯通 HDICT 全链路实现云边端的智能互通。支撑国家智慧社区建设政策,通过分布式云边端系统建设运营,完善了国家社会基层治理体系。(九)医院医疗(1)案例背景及难点(九)医院医疗(1)案例背景及难点某医院业务在运营中面临的主要问题:一是一是业务可用性要求高,需保证云平台等多层面的高可用;二是二是资产管理复杂,混合云、微服务架构等提升了基础设施与应用的复杂性,亟需构建对重大事故的及时预警、对关键业务运行过程的可观测性能力;三是三是技术门槛高,为有效应用容器、动态编排、服务治理等技术,需要高效易用的云平台产品;四是四是资源开销,业务的快速发展导致 IT 资源紧缺,如何能更高效的按时按需提供云资源。(2)标准化实践方案(2)标准化实践方案针对关键难点问题,为用户企业实施了云原生引擎方云原生标准体系白皮书(2023)45案。具体包括:一是一是双中心容器集群。支持跨同城两个数据中心部署单个大规模 Kubernetes 集群,并支持有状态和无状态应用。二是二是 ETCD 热备。Kubernetes 集群的 etcd 采用双机房热备方案,即在两个机房各部署一套etcd集群,并通过make-mirror做热备。三是三是均衡策略。通过预置策略将各机房网段的流量优先路由到该机房的 Kubernetes 节点进行处理,从而有效缩减跨机房数据流量。四是四是镜像管理。各机房分别部署定时相互同步的镜像服务,并对外提供高可用镜像服务。五是五是网络服务。使用高级网络组件提供容器网络服务,支持大规模场景下 EndpointSlice,以及通过网络拓扑感知实现多机房场景下的服务就近访问能力。六是六是业务弹性伸缩。支持业务应用按需进行水平、垂直弹性伸缩,同时提供基于负载压力的容器集群水平伸缩;七是七是资产管理。统一运维多数据中心的基础设施层、虚拟化层、容器化层和业务应用层,提供贯穿所有层的可观察性工具链。云原生标准体系白皮书(2023)46(3)案例实施成效(3)案例实施成效该案例实施后,一是一是提高了可用性,提供基础架构层面和控制层面的高可用性,通过构建跨机房容器集群,降低业务系统高可用架构的设计难度。二是二是提升了资产管理便捷性,提供多地域/多集群、资源、业务应用的统一管理能力。三是三是提升研发效率,为开发人员提供一致的开发体验,在任何地方都能快速构建和部署应用。四是四是降低运维成本,提供弹性伸缩、故障自愈和全局可观测性能力,提升运维质量并降低相关成本。(十)互动娱乐(1)案例背景及标准化实践方案(十)互动娱乐(1)案例背景及标准化实践方案某企业互动娱乐业务随着国际化市场服务加速发展,对于系统开发运维效率和成本控制等方面的要求不断提高。通过进行云原生和 Serverless 化改造后,更好助力业务快速上云。案例方案支持底层运算,单个虚拟服务器(VirtualServer)对应一个或多个云函数,便于用户创建并编写业务逻辑。通过 Serverless 提供完善的监控、日志能力,进一步对接后端服务和封装 DevOps 工具,为用户提供全托管、自动构建部署等功能。同时支持多种驱动方式,底层可对应不同函数触发器以触发 Virtual Server 实现业务运行。云原生标准体系白皮书(2023)47(2)案例实施成效(2)案例实施成效该案例实施后,一是一是实现开箱即用。用户无需额外购买、搭建和配置服务器,该架构加快软件发行和迭代速度,极大降低运维成本,保障了业务的稳定、安全和资源可用。二是二是支持动态扩缩容。Serverless 支持在访问量突增时,自动扩容保障业务正常运行。同时在流量低谷期,自动缩容以节约成本。三是三是支持实时监控。Serverless 提供的实时日志、监控面板,支持研发和管理人员实时监控业务运行状态,提供运行时间、状态异常等多维度告警能力,为用户实现问题快速定位。四是四是具备扩展性和灵活性。FaaS 特性支持业务灵活扩展,实现函数代码在线编辑功能,以及业务开发、部署、监控等一站式解决方案。五是五是满足用户多触发场景需求。案例实现十余种事件触发方式,包括定时触发器、API 网关触发器、对象存储触发器等。

    浏览量0人已浏览 发布时间2023-11-21 52页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 深信服&连用科技:桌面云技术与产业白皮书(2023年)(99页).pdf

    桌面云技术与产业白皮书(2023 年)二二三年 九月二十二日发布 桌面云技术与产业白皮书(2023 年)桌面云技术与产业白皮书(2023 年)版权声明 本白皮书版权属于深信服科技股份有限公司。未经许可,任何单位及个人不得以任何方式或理由对本报告内容进行使用、复制、修改或与其它产品捆绑使用。转载、摘编或引用本报告内容和观点应注明“来源:深信服桌面云技术与产业白皮书(2023 年)”本白皮书所涉及的部分内容来源于业内厂商、系统集成商、渠道以及客户和市场公开数据。由于收集方法本身的局限性,白皮书内容与市场真实可能存在误差。本白皮书版权属于深信服科技股份有限公司,并受法律保护,凡侵犯版权等知识产权的,将依法追究其法律责任。桌面云技术与产业白皮书(2023 年)桌面云技术与产业白皮书(2023 年)参编单位和人员 编写单位:深信服科技股份有限公司 参编单位:(排名按首字母先后顺序)北京华夏威科软件技术有限公司 飞腾信息技术有限公司 广州云岫信息科技有限公司 海光信息技术股份有限公司 麒麟软件有限公司 深圳市连用科技有限公司 上海泛云信息科技有限公司 统信软件技术有限公司 AMD Intel NVIDIA 主要参编人员:王 超 于志邦 李小龙 陈 旭 王保华 郑臣明 郭宇鹰 王 迪 高锦焱 尚 超 桌面云技术与产业白皮书(2023 年)桌面云技术与产业白皮书(2023 年)目录目录 目录目录.III 桌面云概述桌面云概述.6 桌面云定义及部署模式.6 桌面云定义.6 桌面云部署模式.6 桌面云相关技术架构分类.7 VDI 虚拟桌面基础架构.7 IDV 智能桌面虚拟化.9 VOI 虚拟操作系统架构.10 TCI 透明终端架构.10 RDS 远程桌面服务.12 桌面云的业务价值.13 桌面云市场发展现状及趋势.13 国外市场发展现状及趋势.13 国内市场发展现状及趋势.14 桌面云关键组件及核心技术分析桌面云关键组件及核心技术分析.17 桌面云关键组件.17 接入终端.17 接入管理平台.18 云桌面资源池.18 传输协议.18 桌面云核心技术分析.18 桌面云传输协议.18 桌面云可靠性技术.22 桌面云安全技术.24 深信服自主研发掌握核心技术.28 桌面云产业发展趋势分析桌面云产业发展趋势分析.33 混合办公成为新常态,桌面即服务成为未来发展趋势.33 基于零信任架构的数字化工作空间应用广泛,平衡安全与生产力.36 利用 AI 赋能桌面云,更加智能化.38 GPU 深度应用将成为桌面云计算密集场景专用方案.41 超融合架构将开辟桌面云发展的新天地.41 桌面云将覆盖更广泛的物联网终端.42 内生安全.43 满足信创要求.44 生态整合解决方案生态整合解决方案.46 华夏威科 AUDITSYS用户实体行为分析系统解决方案.46 桌面云技术与产业白皮书(2023 年)桌面云技术与产业白皮书(2023 年)应用背景.46 解决方案.48 方案价值.50 飞腾从端到云全栈云桌面解决方案.51 应用背景.51 解决方案.52 方案价值.53 云岫科技多云融合完全解决方案.53 应用背景.53 解决方案.55 方案价值.62 海光桌面虚拟化解决方案.64 应用背景.64 解决方案.64 方案价值.67 麒麟软件银河麒麟操作系统桌面云解决方案.67 应用背景.67 解决方案.68 方案价值.70 连用科技内容安全协同解决方案.71 应用背景.71 解决方案.71 方案价值.74 泛云科技 SIMCLOUD研发云解决方案.75 应用背景.75 解决方案.76 方案价值.78 统信软件统信 UOS 解决方案.79 应用背景.79 解决方案产品概述.80 产品特性.81 AMD 桌面云VGPU 解决方案.82 应用背景.82 解决方案.83 方案价值.83 INTEL超能云终端解决方案.84 应用背景.84 解决方案.84 方案价值.85 NVIDIA 桌面云VGPU 解决方案.86 应用背景.86 解决方案.87 方案价值.88 桌面云典型应用场景桌面云典型应用场景.89 桌面云技术与产业白皮书(2023 年)桌面云技术与产业白皮书(2023 年)政府领域应用场景分析.89 政府领域背景.89 面临问题.89 解决方案.90 金融领域应用场景分析.90 金融领域背景.90 面临问题.91 解决方案.91 企业芯片领域应用场景分析.92 芯片领域背景.92 面临问题.92 解决方案.92 教育领域应用场景分析.94 教育领域背景.94 面临问题.94 解决方案.95 医疗领域应用场景分析.95 医疗领域背景.95 面临问题.95 解决方案.96 参考文献参考文献.98 桌面云技术与产业白皮书(2023 年)6 桌面云概述桌面云概述 桌面云定义及部署模式桌面云定义及部署模式 桌面云定义桌面云定义 桌面云是一种通过网络将可伸缩、弹性的共享物理或虚拟资源池按需供应和交付桌面的云服务模式,通过将用户的桌面环境和应用程序从本地设备转移到云端服务器,实现了桌面的远程访问和管理。用户可以通过任何设备(如瘦客户机、个人电脑、笔记本电脑、平板电脑和智能手机)连接到云端桌面,享受高度灵活性和便捷性。桌面云部署模式桌面云部署模式 按照部署方式划分,桌面云可分为私有桌面云、公有桌面云以及混合桌面云,混合桌面云凭借其更强大的兼容适配能力,可以服务于更多的行业领域以及应用场景,更被市场接受,2021年中国桌面云市场中,混合桌面云、公有桌面云与私有桌面云市场占比约为2:1:1,未来几年,随着中国混合云市场的不断扩大,随着企业云础架构部署的不断深化,多云环境管理手段和方式不断优化,桌面云市场中混合桌面云部署比例会不断加大,未来将成为桌面云解决方案的主流部署形式。数据来:CCW Research,2022/02 图 1-1 2021 年中国桌面云市场各部署模式占比 常见常见VDI用例用例有有:远程远程/混合办公:混合办公:由于VDI使虚拟桌面易于从集中位置进行部署和更新,因此越来越多的公司正在实施 VDI 来支持远程工作人员和混合工作场所。自带设备自带设备(BYOD):):VDI 是允许或要求员工和外包商使用自己的设备的环境的理想解决方案。由于计算处理是在集中式服务器上完成的,因此 VDI 允许使用更广泛的设备,桌面云技术与产业白皮书(2023 年)7 例如瘦客户端、平板电脑甚至智能手机。它还提供了更好的风险缓解,因为数据位于服务器上,不会保留在最终客户端设备上。任务或轮班工作任务或轮班工作:非持久性 VDI 是一种无状态虚拟机映像,或者通过使用虚拟应用方式,特别适合呼叫中心等组织,这些组织有许多员工使用相同的软件来执行有限的任务,并且不需要访问过多的应用程序。桌面云相关桌面云相关技术架构分类技术架构分类 云桌面技术作为云计算虚拟化技术的一种方式,因与传统PC相比的巨大优势,越来越受到广泛关注。得益于其具有的灵活性、安全性等特点大大的简化了运维人员对于终端设备的运维工作,同时也让用户可以不在局限于设备、地点、时间,随时随地都可以通过网络访问自己的桌面系统了。因此越来越多的企业、政府、学校等机构开始应用桌面虚拟化,以提升办公效率,降低运营成本。在云计算持续发展背景下,桌面虚拟化相关技术提供商不断涌现,桌面虚拟化主要有两类架构,一类是主流的在服务器端进行集中计算的桌面云技术架构VDI(Virtual Desktop Infrastructure),即虚拟桌面基础架构;另一类是在用户端进行分布式计算的技术架构,有IDV(Intelligent Desktop Virtualization,智能桌面虚拟化)、TCI(Transparent Client Infrastructure,透明终端架构)、VOI(Virtual OS Infrastructure,虚拟操作系统架构)等架构。还有一种被用来远程访问桌面的架构服务RDS(远程桌面服务),其中VDI、IDV、TCI、VOI为主流交付架构。VDI 虚拟桌面基础架构虚拟桌面基础架构 VDI 是将终端的操作系统集中部署在数据中心的服务器上运行,将用户的桌面进行虚拟化。用户通过来自客户端设备(PC或瘦终端)的远程连接协议与虚拟桌面进行连接,用户访问它们的桌面就像使用传统本地安装的桌面操作系统一样。VDI的特点是由后端服务器硬件承载用户桌面的操作系统运行(VDI还有一种方式是可以直接托管物理PC上的操作系统),用户终端设备通过经过优化过的网络连接协议,访问运行在数据中心后台的用户桌面,进行图形图像的显示输出与用户信息的指令输入,从而实现集中运行、集中管控。VDI虚拟桌面架构是一种“集中运算、集中存储”的桌面云架构。运行模式非常类似家里的电视机顶盒,所有的影视内容都在电视台,机顶盒只是用于显示电视台的传过来的图像。VDI的后台架构就像一个大衣柜(服务器)通过挡板(虚拟化管理程序Hypervisor)分出了很多小格子一样(虚拟化成多个虚拟机),每个用户的桌面都是一个小格子,用户可根据自己的需求在小格子中存放不同的物品(安装不同需求的操作系统和软件)。软硬件解耦合的架构,所有系统与应用程序运行、数据存储都始终在后台,终端只用于桌面云技术与产业白皮书(2023 年)8 显示服务器端发送过来的画面,使得对终端设备的依赖性大大降低,可以支持任意的终端设备访问,如瘦终端、传统PC、笔记本、智能手机、平板电脑等。图 1-2 VDI 客户端通过远程协议于桌面云进行连接 VDI模式下,每个用户是一个独立的操作系统虚拟机,在逻辑上完全隔离。桌面的运行与数据存储都在后台,用户不直接接触数据,具备天生的安全性。用户所有的操作都是通过网络将键盘鼠标指令传递到后台,后台服务器再通过网络反馈图像的变化。整个网络的传输就像一个大水管一样,为了方便用户在使用VDI的时候也能够像本地PC一样方便的使用USB外设、打印机,音频等,在大水管中(桌面云传输协议)还划分了很多小的管道,每个小管道可以单独传输不同的内容,如专门用于连接本地USB设备的管道,音频管道,图像管道,键鼠管道等。有管道就有开关,管理员可以灵活的设置管道的开和关来实现用户的访问安全控制,如部分用户在内网可以使用USB设备但在外网不能使用,部分用户无论在什么位置都不能使用USB等。图 1-3 VDI 网络传输协议各个传输通道 VDI在资源按需分配、移动设备访问、集中管理控制、服务器架构设计、数据安全性、管理维护等方面都具有很大优势。它的劣势表现为:依赖网络环境,断网后就无法连接云桌面;同时集中存储运算的特点决定了需要配置高性能的服务器,前期投资成本较高。VDI 桌面云的架构优势:桌面云的架构优势:安全性高安全性高:VDI架构由于本身就具有数据不落地的特性,再加上有多套安全管控机制,桌面云技术与产业白皮书(2023 年)9 例如多副本技术,容灾技术,策略管控等,都可以有效的保障用户和系统数据安全。资源利用率高资源利用率高:由于底层是采用虚拟化的技术,通过多台服务器集群组成虚拟化资源池,充分的利用了后端的服务器资源。运维能力强运维能力强:由于资源和桌面集中管理,整体的运维难度大大降低,运维效率远高于传统PC。移动性强移动性强:VDI桌面只传输图像,不受地域和空间的限制,只需网络连通便可支持电脑、平板、手机等智能移动终端接入。IDV 智能桌面虚拟化智能桌面虚拟化 IDV是“集中存储、分布式运算”的技术架构,用户的虚拟镜像在服务器统一存储和管理,但是虚拟桌面的运行位置是在用户的终端设备上。后端服务器会将镜像通过网络下发到用户的终端上,由用户的终端直接运行该虚拟桌面镜像,虚拟桌面镜像在运行过程中不对网络形成过度依赖,因此支持离线运行。举例来说,如果把VDI比作在线视频(优酷、爱奇艺)的话,那么IDV就是本地视频(MP4、RMVB、MKV),好比管理员在某资源网站上分门别类上传了很多的视频文件(在服务器上创建出多个不同的虚拟机操作系统模板),小伙伴直接从网站上根据需求下载视频文件到本地,然后在本地安装播放器软件进行播放(在客户端安装虚拟化Hypervisor,然后根据需求把服务器上的虚拟机加载到客户端本地使用)。使用IDV虚拟桌面过程中,产生的个人数据可使用镜像同步或网盘方式同步到服务器端,实现数据的集中存储。IDV本质上属于终端管理的一种形式。图1-4 IDV智能桌面虚拟化架构 IDV桌面架构优势桌面架构优势:桌面云技术与产业白皮书(2023 年)10 接近本地物理接近本地物理PC体验体验:IDV的桌面使用体验接近于本地物理PC的使用体验,性能取决于本地终端的配置,外设兼容性表现优秀,不受网络波动影响。不依赖网络不依赖网络:IDV采用的是本地虚拟化技术,数据存放在本地终端设备上,不依赖网络,支持本地离线访问。成本较低成本较低:IDV的成本主要来自于终端设备的采购,相对于其他架构的桌面云,IDV的成本较低。VOI 虚拟操作系统架构虚拟操作系统架构 VOI是“集中存储、分布式运算”的技术架构,在服务端集中存储用户的桌面云镜像,在用户终端运行虚拟机操作系统和桌面应用,与IDV不同之处在于抛弃了硬件虚拟化层,而采用类似无盘工作站的方式启动客户端系统,让桌面完全运行在本地物理机只上,支持离线运行,支持桌面系统集中安全管理,桌面性能完全保持传统PC的体验,对服务器计算资源占用少。VOI与IDV一样,不支持移动办公和多桌面灵活切换办公,同时不支持计算资源弹性扩容,数据在本地终端落地会导致数据安全隐患;与IDV不同的是,终端没有虚拟化层,兼容性更好,终端的性能也没有损耗。VOI本质上也是属于终端管理的一种形式。图1-5 VOI虚拟操作系统架构 TCI 透明终端透明终端架构架构 与IDV一样,TCI也是“集中存储、分布式运算”的技术架构,是由Intel提出的一种云终端架构,称之为“透明终端架构”,与IDV需要在本地运行虚拟化软件不同,TCI是一种非虚拟化的软件解决方案。它基于固件,旨在解决云终端规模化部署与使用中可能出现的性能损耗、集中管理、系统个性化、安全性和可靠性等问题。桌面云技术与产业白皮书(2023 年)11 相对于IDV的虚拟化技术而言,TCI没有虚拟化层,是一种基于固件层(所谓固件就是直接嵌入在硬件上的软件,我们常用的BIOS也是一种固件)的技术,所以TCI中透明的意思就是用户感受不到软件底层的架构变化,可实现账户随人而动的计算环境迁移,而无需依赖于固定的终端硬件。同时它还具有出色的外设兼容性,可以兼容普通PC上的所有外设。TCI以虚拟磁盘镜像的方式管理客户端的软件系统,使得每个用户的软件环境仅与自己的个人账户关联,而不依赖于特定的硬件,改变了传统PC面向硬件的软件管理模式。终端用户的系统软件均通过后端统一管理,用户只需透明使用自己的业务软件,而无需关心系统软件(如操作系统)的日常维护。TCI设计中一个点是要尽量降低计算中的网络依赖性,由本地镜像缓存和差分文件共同构成可离线工作的计算环境。这一点在实际场景部署中是得到很多行业客户认同的功能点。通俗一点讲,我们可以把TCI服务器当作一个共享猫舍,每个用户可以从猫舍中领养一只猫(桌面系统),猫的领养方式有两种,猫领养后,这只猫就专属于该用户(桌面分配),用户可以把猫领到家中养两天(系统加载到本地运行),用户无需为了养猫专门在家中建猫舍(虚拟化),直接在自己小屋里养就行(裸机运行)。当自己要出差时,可以把猫再寄存回猫舍(桌面变化数据回传到服务器),出差回来后,还可以继续从猫舍将猫再接回来(系统再次加载)。TCI解决方案结合了IDV的优势同时屏蔽了IDV的缺点,去掉了虚拟化层,通过终端内置的硬件固件进行集中管理,客户端开机后直接基于裸机固件连接服务器获取操作系统镜像引导启动,操作系统直接运行在终端设备上,无虚拟化层的架构,对终端性能零损耗。TCI解决方案,通过端到端的部署,在本地计算,集中管理、外设兼容性和账户个性化配置方面具有强大优势。TCI 架构拥有账户导向型用户体验,可以做到高速批量操作系统部署、应用分发和用户数据保存,拥有离线连续计算、强大本地计算性能、I/O 设备/软件全兼容、集中镜像与数据管理等多种卓越特性。在数据保存方面,TCI服务器端可以保存所有用户的完整桌面数据,当用户使用时,桌面数据自动加载到本地终端使用,使用完毕后,自动上传到服务器端。同时,还支持用户的漫游使用,当用户更换位置使用其他终端时,只要登录个人账户,即可自动加载个人桌面数据到本地。桌面云技术与产业白皮书(2023 年)12 图1-6 TCI透明终端架构 RDS 远程桌面服务远程桌面服务 RDS(Remote Desktop Services)是基于Windows操作系统RDP的升级版,通过在一个Windows操作系统上创建多个用户帐号来使用,属于云桌面技术。其原理是基于多用户操作系统,在已安装了操作系统的服务器上安装共享云桌面的管理软件,再批量创建用户,然后通过传输协议发送到各个客户端上。RDS远程桌面架构与VDI虚拟桌面架构同属于云桌面架构,均支持数据安全不落地、使用任意设备随时随地访问。如果把普通VDI虚拟桌面比作一个专属私家车的话,RDS就是一辆公交车,所有用户的座位彼此隔离(会话间隔离),但共享同一辆公交车的基础空间(操作系统),个性化程度较低(不能自己安装应用程序)。RDS远程桌面架构不一定非要虚拟化,可以是物理机直接部署Windows Server供用户访问。RDS通常被各厂家隶属到VDI产品中,作为VDI的一种桌面类型,称之为“共享桌面”。图1-7 RDS远程桌面服务架构 桌面云技术与产业白皮书(2023 年)13 架构总结说明架构总结说明 通过以上的分析,我们不难发现,不同的技术架构有自己不同的特点和局限,适用的应用出场景也各有不同,但是单一的云桌面技术架构只能够解决企业一部分算力资源闲置、数据安全、移动办公应用等问题,但多数客户业务场景复杂多变。想实现桌面全云化,单一云桌面技术架构无法满足业务应用的需求。值得注意的是,为了解决用户复杂环节下的虚拟化应用,融合VDI、IDV、VOI、TCI多种架构的融合架构已经出现。桌面云的业务价值桌面云的业务价值 灵活性和便利性:灵活性和便利性:桌面云业务使用户可以随时随地通过网络访问自己的桌面环境,无论使用何种设备(如个人电脑、笔记本电脑、平板电脑或智能手机),都可以获得一致的工作环境和应用程序。用户可以在不同设备之间无缝切换,提高工作效率和灵活性。安全性和数据保护:安全性和数据保护:桌面云业务将用户的桌面环境和数据存储在云端服务器上,可以通过访问控制等安全措施来保护用户的数据安全。相比传统的本地存储方式,桌面云业务可以提供更高的安全性和数据保护,减少数据丢失和泄露的风险。桌面云可以为用户提供全方位的桌面安全防护,包括外设安全接入、网络带宽控制、应用黑白名单、屏幕水印和录屏、操作日志留存、数据不落地等安全措施。成本效益成本效益:由于计算处理是在服务器上集中完成的,因此对终端设备的硬件要求不那么严格。用户可以从旧设备、瘦客户端甚至平板电脑访问其虚拟桌面,从而减少了 IT 购买新的昂贵硬件的需要。桌面云业务还可以降低维护成本,用户也无需担心桌面环境的维护和升级,节省了用户的时间和精力。资源共享和协作:资源共享和协作:桌面云业务可以实现资源的共享和协作。多个用户可以同时访问和使用同一台云端服务器上的桌面环境,实现文件共享、协同办公和远程协作。这种方式可以提高团队的工作效率和协作能力,促进信息的共享和交流。可扩展性和灵活性:可扩展性和灵活性:桌面云业务可以根据用户的需求进行灵活扩展和调整。用户可以根据实际需要增加或减少服务器的资源,如计算能力、存储空间和带宽等,以满足不同规模和需求的用户。桌面云市场发展现状桌面云市场发展现状及趋势及趋势 国外市场发展现状国外市场发展现状及趋势及趋势 全球虚拟客户端计算市场年环比增长12.4%,在2022H1年达到34.927亿美元。俄乌冲突和通货膨胀对全球经济产生了一定的影响,桌面云软件市场在2021开始出现下降迹象,桌面云技术与产业白皮书(2023 年)14 由于全球经济衰退和通货膨胀压力,这些迹象在2022年上半年迅速加速。尽管疫情将增加虚拟客户端计算的机会,但与之相关的严重经济影响将导致中小型企业和小型企业预算相应减少。在各个方面积极影响下,大型企业可能会持续信息化建设投资,但投资的速度会有所下降。IDC预计未来将出现积极增长,市场预测2021至2026年的复合年增长率将达到12.5%,2026年将达到116亿美元。图 1-8 桌面云软件市场规模和增长,2019H1-2022H1,收入(百万美元)数据来自 IDC,November 2022 图 1-9 桌面云软件预测,2021-2026,收入(百万美元)在全球桌面云市场,Citrix、微软、VMware和亚马逊持续主导者虚拟客户端计算市场。市场表现出成熟市场的特征,75.1%的市场份额集中在前三名。Citrix被TIBCO收购,主要聚焦于只能数字化工作空间和SaaS产品主导的公司;由于用户对云服务的接受程度越来越高,微软和AWS的市场份额也在增加。国内市场发展现状国内市场发展现状及趋势及趋势 在国家上云政策的积极引导下,以及企业对数据安全和远程办公需求的强烈驱动下,桌面云解决方案的需求与日俱增,市面涌现出了越来越多的远程办公桌面云产品、服务和解决桌面云技术与产业白皮书(2023 年)15 方案。随着国内云计算的快速发展,桌面云产品在各场景渗透率不断提升,桌面云整体解决方案销售量增长。国内桌面云市场保持着蓬勃的增长态势。计世资讯发布的2021-2022年中国桌面云市场发展研究报告表明,2021年中国桌面云整体解决方案销售量达到299.4万个,较2020年增长21.7%。继续保持快速增长态势。2022年,国内疫情的反复对整体经济产生了负面影响,导致虚拟客户端计算软件市场增速有所下滑。随着市场逐步放开,经济慢慢复苏,在2023年和2024年逐步恢复增长。2022年,商业市场有显著增长,特别是制造业及金融垂直领域。但政府和教育受疫情影响较大,增速放缓。Daas占比大幅提升:桌面云厂商和电信运营商在Daas上开展更深的合作,获得更多的企业客户和个人客户。国内部分公有云厂商逐步布局DaaS业务,在计算密集场景中与增强和客户更多粘性。国外厂商和国内厂商比较:国内厂商更多聚焦信创桌面云需求满足,促使国外的厂商开发更多的商业市场及相关行业,比如医药制造、IT服务和互联网行业,涉及的有设计及研发场景相关;越来越多的国内厂商逐步开拓金融、制造、能源、电力、交通等大型企业市场。据IDC报告,2022年中国虚拟客户端计算软件市场的市场规模达到了3.5亿美元,同比增长10.1%;未来五年(2022-2027年)该市场仍然会保持17.2%的年复合增长率,预计2027年将达到7.9亿美元的市场规模。图1-10 中国虚拟客户端计算软件市场预测,2022-2027 桌面云行业继续保持增长态势,同时根据计世资讯调研。未来,企业上云用数赋智能力进一增强,企业研发、生产、销售等全流程环节开始进入数智化阶段,推动中国桌面云市场快速发展,并为企业数字化升级快速赋能。预计未来几年,中国桌面云市场销售量将以不低于20%的速度增长,到2025年,中国桌面云市场销售量将达到673.0万个。桌面云技术与产业白皮书(2023 年)16 数据来源:CCW Research,2022/12 图 1-11 2021-2025 年中国桌面云市场销售量及增长率 桌面云技术与产业白皮书(2023 年)17 桌面云关键组件及核心技术分析桌面云关键组件及核心技术分析 桌面云关键组件桌面云关键组件 桌面云整体架构由接入终端、接入管理平台、桌面云资源、桌面传输协议四部分组成,其中最为关键的技术为桌面云传输协议。见下图。图 2-1 桌面云关键组件架构图 国内外主流桌面云厂商,在关键组件的组成上相差不大,都拥有自研的桌面云传输协议,且各厂商都基于用户使用体验与数据传输安全等方面,在桌面云传输协议上做出了独特的优化改进,建立了各自的优势。但在传输协议的优化和云端的能力上参差不齐:云端能力国外厂商普遍高于国内厂商,云端的能力跟虚拟化的技术积累有关,需要国内厂商继续投入补齐;传输协议的优化上面,国内厂商近几年基于画面传输、外设映射、弱网使用等方面,不断地追赶国外领先水平,已有所建树;接入管理上,国内的厂商在调研用户使用习惯和细化需求上,更符合国内的现状,功能性和安全性上已经有了较大优势。终端用户使用桌面云的基本流程如下:终端用户通过接入终端发起用户认证,通过接入管理平台进行用户认证成功后,向桌面云资源池申请虚拟桌面资源,虚拟桌面资源通过桌面传输协议将虚拟桌面图像数据、外设数据传输给接入终端,同时接入终端可以将连接终端的终端数据、外设数据传递给虚拟桌面,实现数据交互,满足用户日常办公、日常研发等诉求。接入终端接入终端 接入终端属于软终端组件。桌面云的软终端组件安装在接入硬件终端或直接在终端行通过html5接入,用于用户登录认证,发起接入虚拟桌面等操作请求,进行桌面图像解码与显示。并通过底层桌面协议实现终端本地、输入输出设备与虚拟桌面之间的数据交互。用户接入设备包括瘦终端、笔记本电脑、平板电脑和智能手机等。桌面云技术与产业白皮书(2023 年)18 接入管理平台接入管理平台 云平台管理组件用于管理用户账号,处理用户认证,并向虚拟化平台申请云桌面资源。同时可以设置安全策略、为用户创建、分配虚拟机、管理用户虚拟机,提升使用体验、保护数据。云桌面资源池云桌面资源池 云桌面资源池整合了计算、存储、网络、GPU资源,以虚拟化技术为基础,通过远程桌面协议面向用户,交付易使用、易访问、易维护的云桌面、云应用。也可以托管物理工作站,通过远程桌面协议交付托管物理工作站方式,将整个物理工作站资源交付给用户使用。传输协议传输协议 桌面云传输协议用于接入终端与远程虚拟桌面/应用进行外设数据、图像数据交互。远程虚拟桌面/应用传送图形显示数据给终端,同时将终端输入的命令传输到远程虚拟桌面/应用。传输协议的效果是让用户感觉远程虚拟桌面上运行的桌面或应用似乎是在本地运行,保证用户体验。常见的桌面云协议如深信服HEDC、Citrix ICA/HDX、RDP、SPICE、VMware PCoIP/Blast。桌面云核心技术分析桌面云核心技术分析 桌面桌面云传输协议云传输协议 桌面云传输协议是一种用于在云环境中传输桌面图像和用户输入的协议,是决定用户体验的关键技术之一。它允许用户通过云服务访问远程计算机的桌面界面,就像直接坐在本地计算机前一样。桌面云传输协议从架构上看主要分为桌面外部及桌面内部协议。桌面云外部协议桌面云外部协议 桌面外部协议通常指协议客户端直接连接的对象为物理主机层,而虚拟机层通过特殊的显卡驱动方式将虚拟机内的变化信息传输给物理主机层,典型的桌面外部协议如Spice、VNC等,在局域网内由于网络质量较好,通常能够获得较高质量的桌面体验。桌面外部协议的优势是能够覆盖虚拟桌面的全生命周期的输入输出过程,能够从虚拟桌面外部对虚拟桌面进行方便的管理和维护,即使是断网,蓝屏等极端状态,亦可从容应对。桌面云技术与产业白皮书(2023 年)19 劣势是通常与主机平台“紧耦合”。图 2-2 桌面云外部协议架构图 桌面云内部协议桌面云内部协议 典型的桌面内部协议架构如:Citrix ICA/HDX、VMware的PCOIP、微软的RDP,优点是能够方便的跨平台,局域网表现与带内协议相当,广域网在带宽不太充裕时依然可以实现流畅操作。缺点是对虚拟机网络以及虚拟机内的操作系统依赖程度高,虚拟机网络故障或操作系统服务未就绪,桌面将无法连接,蓝屏或网络故障,将只有管理员在管理平台才能维护。此外,终端接入虚拟机之前,必须保证终端与虚拟机之间网络互通,由此可见终端与虚拟机是没有完全网络隔离的,需要通过桌面流量代理等组件规避此问题。数据安全需求较高的客户(如政府、军工、金融),终端与虚拟机隔离往往会纳入安全检查。终端与虚拟化层不隔离,会有安全性风险,如外设插入引入病毒、外网接入存在攻击风险等。图 2-3 桌面云内部协议架构图 结合虚拟桌面内部协议和外部协议的优缺点,国内部分厂商采用了融合协议的方式,在客户端和管理平台中默认集成两种协议,在配置时,同一套用户名密码等配置信息,自动匹桌面云技术与产业白皮书(2023 年)20 配到两种协议的配置文件中,在连接时,自动探测连接网络质量,自动选择最优的连接协议,从而获得最佳的用户使用体验。桌面云传输协议关键优化技术桌面云传输协议关键优化技术 桌面传输协议成为决定桌面云用户体验的关键决定性因素之一,主要的原因在于桌面云架构路径冗长,任何一个环节的延迟、阻塞都会造成用户体验的感知。目前国内外传输协议的技术关键点有以下几方面:(1)传输算法优化)传输算法优化 由于虚拟桌面传输协议的关键技术是将人机交互的界面和核心的计算分离开来,后台负责所有的计算,前端负责人机交互。如果需要把后台产生的桌面变化完整及时地反馈到前端,需要处理两个问题:一是要处理显示系统的数据传输,二是压缩解压缩处理及传输产生造成的延时问题。首先,对于数据量大的数据传输问题,桌面云一般采用两种方法,一种方法基于增量更新画面的方法,也就是说界面刷新时只传输界面更新的部分,一般是通过客户端画面缓存机制,在桌面图像传输时,识别客户端是否有相同的缓存图像区域,如果有缓存,则认为是重复的图像,不需要传输,如果是非重复图像,则需要传输到终端,从而实现虚拟机画面增量更新的目的。另一种方法是在每一种指令集内部采用压缩的方法,在后台在对每一条指令内部选择合适的压缩方法进行压缩,经过传输,在前端先进行解码,然后再解析相应的指令,转化成相应的数据格式刷新到界面上。其次,对于影响用户体验感知的延时问题,目前诸多厂商选择在画面质量,网络流量,压缩解压缩CPU 资源占用之间进行一个权衡折中是最主要的优化方向,画面质量可以通过降低分辨率、调整画面质量、降低画面帧率等方式,调整到可接受的最差的画面质量来实现,为了不影响正常的用户体验,还可以区分文本图像和非文本图像,针对文本图像不进行压缩,仅压缩非文本图像;网络流量尽量调整在大众可接受的最大网络流量范围上,压缩解压缩CPU负载也同样需要选择合适的压缩算法,在资源占用与压缩比之间取得最佳平衡。(2)协议安全优化)协议安全优化 桌面云传输协议中安全技术是保证虚拟桌面数据传输的关键,大多数厂商都采用自研的加密算法进行协议加密,保证数据删除安全性;如果画面流量经过网关设备,还会通过网关设备进行二次加密,双重加密让桌面云数据传输的安全性进一步提高。(3)协议体验优化)协议体验优化 视频优化视频优化 桌面云使用场景中,视频播放是桌面云中最基本的能力之一,桌面云视频播放有两种方式:桌面云技术与产业白皮书(2023 年)21 服务端渲染,即用虚拟机的CPU进行编解码、渲染后,发送到客户端进行显示,传的是图像,这时主要消耗的是虚拟机的CPU,如果多用户基于服务器端渲染,会造成单台主机视频播放的并发密度低;客户端渲染,虚拟机内客户端或浏览器播放的视频文件是经过分片、压缩、打包、通过传输协议传输到客户端,利用客户端上的播放器程序进行播放,利用客户端本地的软件或硬件解码能力,完成视频的解码和播放。此时服务器端虚拟机的CPU消耗基本忽略不计,可以提高单台主机上虚拟机的视频并发密度。音频优化音频优化 桌面云使用场景中,音频质量也极大的影响用户体验。常见的音频优化方式,服务端模拟一个音频设备给虚拟机,虚拟机直接使用标准的音频驱动即可,音频APP调用系统音频处理接口(录音、放音API),虚拟声卡设备进行交互,实现高质量、低延时的音频交互。外设兼容性优化外设兼容性优化 在桌面云使用过程中,不同行业应用场景有不同的的外设需求,例如:金融、证券、保险、运营商、政务的营业厅通常需要对接大量的各式针式票据打印机、身份信息采集设备、密码键盘、SIM卡读写器、高拍仪、签字手写屏、评价器等外置设备,经常会碰到设备无法识别,能够识别设备但应用程序无法识别或工作或者功能不完整或效率低下等问题。通常各桌面云厂商会采用诸如:针对驱动程序兼容性不好问题,通过优化传输协议,虚拟化底层去做外设映射,即不需改变和依赖虚拟机操作系统,保留了和PC一样的总线通道,这样可以完全消除总线和设备驱动的对接问题,不需要在虚拟机中安装专用USB设备驱动,虚拟机使用外设驱动与物理PC使用外设驱动保持一致,兼容性极大提升,让用户可以像在PC一样使用各种外设。针对在同一台服务器中并发会话访问,且多用户使用同一型号外设时需要针对会话外设隔离问题进行定制开发会话隔离技术确保用户与设备的隔离并发访问,用户可以在终端设置外设映射到使用的某一个虚拟桌面,灵活切换外设,满足多桌面正常办公需求。针对图像传输优化,使用云终端自身的处理能力进行图像处理,并将处理后的结果压缩后传输到服务器,如高拍仪外设,终端获取的外设数据通过终端压缩后,可在虚拟化层对摄像头数据进行解压,降低数据传输流量,提高外设使用体验。3D应用优化应用优化 桌面云在Office办公场景能够满足绝大多数用户的需求,但是对于对图形性能要求较为苛刻的AutoCAD、3D Max类图形密集型用户,桌面云中难满足他们对图形和计算性能的需求。目前,各厂商主要的解决方案有如下技术路线:共享GPU,基于GPU虚拟化厂商提供的共享GPU能力,将物理GPU虚拟成多份具有完整GPU功能和指令集的GPU,可满足绝大多数2D和3D图形密集型用户的需求。桌面云技术与产业白皮书(2023 年)22 GPU直通,将显卡上的单个物理核心透传给虚拟机使用,并通过远程协议使得用户可以从远程进行接入。GPU直通方式,将承载虚拟机的云平台的物理节点上的 GPU 显卡绑定分配给用户虚拟机,终端用户通过终端远程接入用户虚拟机,这样虚拟机就可以使用 GPU 获得 3D加速能力。vGPU,将硬件资源切分,按需分配给虚拟机使用,能有限增强现有桌面云的图形处理能力,如支持较低版本的OpenGL和DirectX,同时保留云的特性,可实现跨主机迁移。3D软件在桌面云中使用,其光标是服务端光标,即光标是显示在虚拟机端,通过显示通道将虚拟机画面传输到客户端渲染,显示通道中的数据量比较大,显示的效果受到服务端编码压缩、客户端解码渲染、网络延迟等因素影响,效果会有明显的延迟感,体验效果较差。因此各厂商为了优化用户体验,会进一步研究光标优化方法,大多数采用的光标优化方式是将3D软件的光标信息从服务端抓取到,信息通过光标通道传递到客户端缓存并渲染,不会受到编码解码的影响同时网络的影响也变小,此时的光标移动就会和本地光标移动同样流畅,大大增加了体验效果。桌面云可靠性技术桌面云可靠性技术 桌面云采用集中部署的方式,桌面云架构的可靠性是保证业务连续性的关键,桌面云可靠性技术主要分为以下几个方面:分布式架构设计分布式架构设计 桌面云架构通常采用无中心化的设计,每个节点都是独立对等的工作节点,不存在单节点故障风险;集群内部平台通过算法自动选举主控节点,如果主控节点发生故障,平台会自动重新选举新的主控节点,确保集群管理能力的可用性,主控节点切换过程中,虚拟机业务、存储服务、网络服务正常运行不受影响。服务器数据可靠性服务器数据可靠性 为了确保服务器数据的可靠性,服务器节点所有管理数据,包括网卡配置信息、相关配置信息、数据库信息、虚拟存储配置信息,通常会每天自动备份到到其他节点,当某一个服务器节点故障且数据丢失的时候,可以通过重建桌面云系统,快速恢复重建系统盘数据。同时服务器主机一般采用双系统盘,系统盘数据自动同步,单出现一块数据盘故障,另一块数据盘会自动接管,采用双系统盘冗余的方式提高可靠性。当主机硬件出现故障时,可以用新的服务器安装桌面云系统,然后采用更换主机的方式对主机进行故障迁移,虚拟存储的数据会同步到新加入的主机里面,数据自动恢复。桌面云技术与产业白皮书(2023 年)23 虚拟机数据可靠性虚拟机数据可靠性 为了确保虚拟机数据可靠性,各厂商一般会采用对虚拟机进行快照或备份的方式保护虚拟机数据,虚拟机出现故障后,可通过恢复快照或备份的方式恢复数据。快照。虚拟机快照机制采用写时拷贝技术,实现对虚拟机磁盘文件的秒级操作,保证整个虚拟机快照操作可以在分钟级内完成。写时拷贝技术即在进行快照的时候,只需要对磁盘文件进行记录即可,创建一个快照记录,然后就可以继续读写磁盘,在涉及写磁盘操作时,再进行数据拷贝操作和更新操作。从而保证虚拟机快照可以在很短时间内完成,并且不影响虚拟机的数据读写操作。快照恢复则直接将磁盘数据恢复到之前的快照记录即可,这个快照恢复也可以在很短时间完成。备份。为保证虚拟机数据备份性能与备份速度,各厂商一般会采用快速备份机制来应对,技术上采用首次全量备份 非首次增量备份 bitmap技术(bitmap的方式标记了QCOW2文件的变化的位置,也称脏数据位置,大多数厂商会采用该备份方式)实现快速备份。备份可以在本地分布式存储中进行,也可以将虚拟机数据备份到外置存储。当虚拟机出现故障后,用户可以通过虚拟机备份重建虚拟机数据,还原一个完整的虚拟机。多副本。多副本机制是将数据保存多份的一种冗余技术,当单份数据损坏时业务不会因为无法访问数据而中断;多副本机制通过虚拟存储的副本复制模块来保证副本的一致性和副本之间的数据同步,避免多份副本数据存在差异,副本数据差异时将导致上层应用访问到不同数据影响业务结果。副本对上层业务服务是透明的,业务不感知副本的存在。虚拟机数据副本存放位置必须满足主机互斥原则,即同一数据的多个数据副本不允许存储在同一台主机上,当主机发生故障时,其他主机上仍然有数据副本可用。虚拟机高可用虚拟机高可用 对于外部环境故障(比如主机网线断了,所在存储不能访问等)和虚拟机操作系统故障两种情况导致的业务中断问题,一般会提供成熟可靠的虚拟机高可用机制保障业务不中断或短暂中断。虚拟机高可用(High Availability高可用性集群),通常需要两个或者两个以上的主机节点组成集群,当启用了高可用功能的虚拟机所在节点发生意外(比如主机掉电、断网等)时,集群心跳机制侦测到后,将选择一台资源充足的节点自动重启故障虚拟机,从而实现业务的不中断或短暂中断。虚拟机热迁移虚拟机热迁移 虚拟机热迁移(也称在线迁移)技术是指虚拟机业务几乎不中断地把虚拟机从一台物理桌面云技术与产业白皮书(2023 年)24 服务器迁移到另一台物理服务器上;设备维护时,可通过热迁移将应用迁移至另一台服务器,维护结束后再迁回来,中间应用不停机,减少计划内宕机时间;也可以可通过热迁移方式实现虚拟机业务不中断地切换为高性能主机。桌面云安全技术桌面云安全技术 桌面云的出现,变革了传统办公桌面的IT安全架构。首先桌面云将桌面数据集中存储,用户终端与数据分离,用户终端无任何存储数据,实现数据不落地。其次通过云计算技术,在数据中心运行用户桌面云虚拟机,通过专用传输协议传输屏幕、鼠标、键盘、外设等信息,最终实现基于数据不落地的终端桌面环境,从根本上解决传统PC桌面数据泄露的问题。常见的桌面云数据安全技术主要有以下几种:终端安全终端安全 各厂商对云终端内置的存储进行了硬件级别的加密,加密算法与硬件特征状态(硬盘序列号、网卡MAC、磁盘信息等)的唯一信息绑定,使得终端的内置存储放在其他任何一台机器上(包括其他的 PC、瘦终端),都无法引导,也无法访问该存储内置的信息。这种设计能够有效的防止客户端的数据被篡改,保证客户端本地系统的安全。在终端入网前,可通过802.1X协议等安全认证方式,认证通过后,终端才能接入网络,防止非法的终端接入,同时可以设置接入终端的IP范围,保证终端入网的合法性与安全性。其次还可以设置终端自定义安全检查规则,其规则有操作系统、文件、进程、注册表、登录IP、登录时间、终端识别、终端类型等相关规则,终端必须满足规则要求才能正常登录,进一步保证终端接入安全。认证安全认证安全 为确保用户登录桌面云认证安全,各厂商都进行了多种认证方式组合来保证认证安全,常见的认证方式有下列几种:用户名密码认证。即管理员创建一个本地用户,然后给用户设置密码,然后在登陆页面输入用户名和密码即可完成登陆,获取桌面云资源。证书认证。大多数厂商认证组件都内置了CA证书中心,同时企业或者事业单位可自建CA证书中心,用户可不必购买单独的CA证书认证体系,为企业减少了投入成本,采用证书认证体系保证认证安全。USB-Key认证。采用硬件USB-Key进行认证时,当USB-Key插入终端后,终端解析USB-Key里面的证书,与证书服务器进行校验,通过证书认证体验保证认证安全。桌面云技术与产业白皮书(2023 年)25 外部认证。外部认证需要配置外部服务器,即管理平台本地不做认证校验,管理平台将用户名和密码发送到外部服务器进行认证,外部服务器校验用户名和密码,然后将认证结果返回给管理平台,常见的外部认证有AD域认证、CAS认证等方式。硬件特征码认证。硬件特征码是根据终端的磁盘ID、MAC、SN码等硬件特性按一定的算法生成的一个序号,由于硬件特性的唯一性,使得该硬件特征码也是唯一的、不可伪造的,所以对于不同的计算机,此序号必然不同。通过将用户与硬件特征码绑定,可限制用户只能在特定设备上登录,保证认证安全。短信认证。短信认证即管理平台短信网关会使用发送短信的方式向该用户的手机号码发送一个动态生成的随机密码,即短信验证码,登录用户必须输入该验证码,才能成功登录桌面云,访问内网资源。动态令牌。动态令牌认证是Radius服务器的一种扩展使用,通过与Radius服务器结合并为用户配发动态令牌,通过动态令牌上的动态密码进行登录,由此增加登录的安全性。在使用动态令牌认证之前,需要添加动态令牌服务器,用来进行动态令牌的认证。用户认证分为主认证和辅助认证,常见的主认证有用户名密码、证书、USB-key、第三方认证、,常见的辅助认证有硬件特征码、短信、动态令牌认证,主认证与辅助认证自由组合,保证用户认证安全。网络传输安全网络传输安全 为了防止桌面云数据在传输过程中被嗅探、复制、窃取、伪造、截断,桌面云传输安全从以下几个方面保障数据安全的完整性、机密性和有效性。用户接入、管理员接入均采用HTTPS,传输通道采用SSL加密;接入终端与虚拟机之间采用SSL加密代理模式进行数据传输;桌面云组件之间通信采用专用通道进行传输,包含鉴权、加密特性。同时为避免共用网口带来的网络性能问题与网络冗余性问题。各厂商桌面云提供业务网/管理网隔离服务,业务数据与管理数据通过不同网口传输。不仅避免了不同业务使用同一个网口可能造成的网络拥塞,也摒除了一个网口故障导致业务通信与管理通信皆中断的可能性。桌面云技术与产业白皮书(2023 年)26 图 2-4 桌面云网络隔离示意图 业务平面业务平面 以桌面云服务器业务通信端口作为物理传输端口,对接虚拟机虚拟机网卡的虚拟机业务数据通信平台,供虚拟机访问外部业务。存储平面存储平面 通过服务器分布式存储组件或对接共享存储,为虚拟机提供存储资源,存储网络原则上不直接与虚拟机通信,而通过虚拟化管理平台进行管理和连接。存储数据通过独立服务器网口进行通信。管理平面管理平面 承担桌面云平台管理、业务部署、平台更新等流量。该平台通过独立服务器网络进行通信,且通常与其他平面隔离。隔离安全隔离安全 在数据中心桌面云平台内部能够提供有效的安全防护措施,主要从两方面考虑:一方面是虚拟化平台和外部之前的安全隔离;另一方面是虚拟机之间的安全防护。采用分布式防火墙提供VM到VM级细颗粒度的访问规则配置能力,对平台所有虚拟机提供东西向流量的安全防护,有效防止病毒等安全威胁横向扩散;分布式防火墙还可提供南北向流量的安全防护;可以与终端杀毒软件结合提供针对虚拟机的更好的安全防护,及时做好查杀工作;数据安全数据安全 为了防止桌面云数据外泄,虚拟桌面数据集中在云端服务器集群中进行管理,可以对用户设置数据外发权限,避免数据外发,导致数据泄密,同时还能够对桌面数据进行水印、防截屏、防录屏等安全保护,进一步保护桌面数据安全,常见的数据安全管控方式有如下几种。桌面云技术与产业白皮书(2023 年)27 USB权限控制。权限控制。USB存储设备在桌面云端服务端通过加密策略实现根本的数据隔离,并且增加对USB存储设备底层访问的读写、只读命令控制,让攻击者无从下手,管理员可以根据不同用户的权限,设置USB存储器数据的读写权限。同时可以对其它USB设备控制是否允许映射使用。剪切板权限控制。剪切板权限控制。剪切板实现原理为剪切板映射,当开启“虚拟桌面单向拷贝至本地桌面”,则虚拟桌里面的剪切板可以映射到本地桌面,实现数据从虚拟桌面单向拷贝至本地桌面;当开启“本地桌面单向拷贝至虚拟桌面”,则本地桌里面的剪切板可以映射到虚拟桌面,实现数据从本地桌面单向拷贝至虚拟桌面;当开启“双向拷贝”,则虚拟桌面、本地桌面的剪切板会相互映射,实现数据双向拷贝。同时还能够实现剪切板内容过滤,实现逆向仅允许拷贝字符,不允许拷贝文件。管理员可以根据用户等级设置剪切板权限,保证本地PC与虚拟桌面之间的数据交互安全。文件导出审计。文件导出审计。由于部分用户有文件外发需求,但是用户外发的文件可能含有敏感信息,因此为了进一步规范用户文件外发行为,可以对用户外发的文件数据进行审计。通过在虚拟机内部实现驱动模块进行USB存储设备、剪切板等的访问控制,开启文件导出审计功能后,除导出审计进程以外其他所有的进程都不能向USB存储设备写数据,也不能通过剪切板向其他桌面拷贝数据,导出审计进程在导出数据到USB存储设备、本地映射磁盘的同时将导出的内容上报到审计中心进行审计,满足规范用户文件数据外发行为,同时满足事后追溯的需求。屏幕水印。屏幕水印。通常桌面水印分两种实现方式,客户端水印和虚拟机内部水印。客户端水印通过客户端绘图实现水印效果,而虚拟机内部水印将水印做到虚拟机里面,通过水印进程实现,但是虚拟机内部水印进程容易被用户重命名或杀掉,导致水印无法正常显示,存在安全风险,且水印进程运行在虚拟机里面,会导致虚拟机需要消耗额外的CPU资源。水印可以显示桌面云帐号、虚拟机IP、虚拟机MAC地址、虚拟机时间等信息,当用户拍照、截屏等操作,会携带用户的水印信息,对用户截图、拍照等外发桌面数据具有威慑作用,同事也可以通过水印满足事后追溯的要求。防截屏。防截屏。开启防截屏后,以及拦截可能切换顶层到窗口的命令,保证虚拟桌面窗口永远是置顶全屏显示。保证鼠标无法在本地进行操作,所以无法在本地系统通过鼠标操作截屏软件对独享桌面进行截图。同时,开启防截屏后,虚拟桌面窗口接管键盘输入,所有的键盘数据都不能传递到下层的窗口处理函数或者底层系统,这样就保证键盘消息无法传递到本地的其他应用程序,所以无法在本地系统通过键盘操作截屏软件对独享桌面进行截图,从而保证用户桌面数据安全。防录屏。防录屏。开启防录屏功能,虚拟机窗口会从底层进行保护,此功能使应用程序能够保护自己的屏幕窗口内容,不被通过一组特定的公共操作系统功能和API捕获或复制屏幕窗口,达到防录屏的效果,从而保护虚拟桌面数据。桌面云技术与产业白皮书(2023 年)28 文件流转审批。文件流转审批。运维安全运维安全 为了保证桌面云运维安全,各厂商通常采用管理员分级分域的权限设置,给不同的管理员赋予不同的管理权限,从源头防止管理员越权导致数据外泄。不同的管理员可以属于不同的管理员角色,不同管理员角色拥有对不同功能的“编辑”或者“查看”权限。同时用管理区域来区分管理员可管理的虚拟机、用户、策略等资源范围,管理员在有权限的情况下,只能管理属于自己区域内的资源,有效控制管理员的管理权限。同时管理员的操作记录、问题处理记录都记录在日志中心,可以通过日志审计和追溯管理员行为。行为安全行为安全 为了保证重要岗位和业务操作行为合规规范,桌面云不仅需要记录操作系统关键日志和业务日志,同时要将桌面云内所有操作行为进行全程监控,实现桌面云行为安全加固。既可以帮助企业了解涉敏岗位操作行为,用于事后审计监督,也可以防止别有用心的员工(或外包商)等的不正当操作给企业带来安全事件和风险。行为安全主体由两个关键技术组成:行为审计和行为风险分析。行为审计技术:行为审计技术:用户登录桌面云后所有的操作动作自动生成日志,并形成完整的用户操作录屏画面证据链,同时录屏数据可以检索。当发生安全事件后,通过关键动作能够快速定位到责任人且完整还原当时操作画面,极大提高审计工作效率,弥补了传统依赖于有限的操作系统日志,且可视化程度不直观的特点。行为风险分析技术:行为风险分析技术:基于海量的操作行为日志自动发现高危行为,提前发现潜在的内部威胁。对于已知的潜在风险,利用安全规则在海量操作行为中发现高危风险行为;对于未知的潜在风险,利用机器学习算法,在大量的高危行为中自动发现异常行为,实现精准定位内部威胁和风险。对于业务操作风险,可以通过频次或时间异常监控,比如敏感信息查询次数分析和查询时间的监控,自动发现异常操作人员。深信服深信服自主研发掌握核心技术自主研发掌握核心技术 深信服桌面云(aDesk)是基于超融合架构的新型桌面模式,通过深度整合服务器虚拟化、桌面虚拟化及存储虚拟化,只需桌面云一体机和云终端两种硬件设备,即可实现云平台的快速交付,为用户提供操作体验及软硬件兼容性媲美物理PC,更安全、更高效的云桌面。目前深信服桌面云产品已在政府、企业、金融、教育、医疗等行业规模化部署应用,帮桌面云技术与产业白皮书(2023 年)29 助用户实现统一运维、数据安全、移动桌面、降低运行成本等IT建设目标。深信服桌面云核心技术突破深信服桌面云核心技术突破 自研传输协议技术自研传输协议技术 通过对三代传输协议更新迭代,成为国内首家技术突破实现广域网VDI自适应算法和流量削减的厂家。深信服自研HEDC协议是Sangfor自主研发的远程协议,其有带宽占用低、CPU资源消耗小等优势,并支持了vGPU、视频重定向支持、H264压缩等,使得云桌面的体验性远远优于SPICE和RDP协议,且带宽消耗低于它们。深信服自研的 SRAP 高效交付协议,采用高效流压缩、智能数据缓存、动态图像优化等多项优化技术,相对 RDP 协议提升 6 倍传输效率,最大程度保障用户桌面体验。首家零信任安全架构体系首家零信任安全架构体系 随着办公终端多样化和协同技术发展,通过传统的终端加固来防止数据泄密会越来越难,而桌面云数据不落地架构正好适应组织的业务需求,随着近些年,安全威胁往往通过组织内部活动完成渗透,例如钓鱼邮件和网站,传统的被动式防御安全架构有一次面临挑战,所以深信服不断投入研发人力,推出国内首家零信任架构桌面云,通过aDesk内置的动态访问控制权限等策略,实现精细化的颗粒度授权,保护桌面使用安全不同用户,不同终端位置,匹配不同的安全访问策略。支持全双活容灾桌面云架构支持全双活容灾桌面云架构 很多组织都有计划通过桌面云来取代传统PC,IT决策者不仅面对体验和场景适配的挑战,还要面对成千上万个桌面运维与管理的难题,随着容器化及AIOps逐步成熟,越来越多的桌面云常常开始将这两项技术应用于桌面云领域;容器化技术主要将桌面系统上的应用软件和用户数据分离并可独立存储,真正实现了桌面,软件和数据的松耦合;根据业务需要,IT管理员可以动态无缝地将应用软件和数据漫游到不同桌面,极大降低了桌面管理和运维的复杂度;桌面云技术与产业白皮书(2023 年)30 图 2-5 深信服桌面云容器化分层技术示意图 容器化主要应用于两个领域容器化主要应用于两个领域:UPM(用户配置文件管理)由微软和Citrix率先提出,主要用于大规模桌面部署场景下用户配置文件与数据的集中管理,例如还原桌面和SBC应用的数据保留;随着用户数据量的爆发式增长,上一代基于文件NAS存储的模式已经无法满足用户体验需求,而新一代基于容器化的UPM不仅兼容性更好,而且用户体验更接近于PC本地配置文件;软件分发早期产品主要有微软Remote App和VMware Thin App,主要解决大规模桌面部署场景下应用部署安装与管理,第一代软件分发基于文件级别处理,类似于绿色软件模式,兼容性和性能较差,不利于大规模推广和部署;而新一代基于容器化的软件分发技术,不仅在兼容性处置和性能上都有质的飞跃,已经成为当前桌面云大规模部署中的关键核心技术;应用容器化技术的典型厂商:应用容器化技术的典型厂商:CSG(Citrix)的UPM(用户配置文件管理)和App Layering(软件分发)深信服的UPM2.0和软件分发2.0 VMware App Volume软件分发 AIOps技术主要将AI技术应用于智能排障、性能数据分析、桌面效能分析和安全威胁识别等等,AI技术在运维领域的广泛应用将提升运维效率和保障业务连续性,从而达到降低组织TCO的整体目标;桌面云技术与产业白皮书(2023 年)31 图 2-6 深信服桌面云智能运营平台 利用利用AIOps技术的典型厂商技术的典型厂商 CSG(Citrix)的Citrix Director和Citrix analytics 深信服的IOM智能运营监控平台 VMware vRealize Operations(vROps)技术架构重大创新技术架构重大创新 深信服提供端到端、从软件到硬件融合的极致体验。以更安全,更高效的桌面云解决方案为目标提供给用户。整套产品方案只需要云终端、桌面云一体机(预装桌面虚拟化、服务器虚拟化、存储虚拟化等软件平台)两种硬件,即可完成整套桌面云的快速上线,是国内首家打造深度融合的VDI解决方案厂商。深信服桌面云和超融合架构一体化已经被业界认可,具有高可靠(分布式存储加多重实时副本,确保大规模部署时业务高可用)、高性能(分布式存储并发性能支撑,满足所有核心业务系统需求)、易扩展(性能和容量同时水平扩展)、易管理(基于软件实现网络、计算、存储功能,更加高效,更易管理)等技术优势。国内首家拥有基于KVM vGPU方案的厂商 发布基于AIOps的智能运营平台IOM SBC多场景适配和创新 全场景的桌面云交付架构 信创技术融合信创技术融合 围绕安全构建核心优势,打造数据安全全链条的信创安全办公,深信服信创桌面云关键技术主要体现在以下几个方面 桌面云技术与产业白皮书(2023 年)32 关键技术指标全面对标非信创,例如传输协议、桌面云安全能力及超融合架构技术;通过技术创新加快适配多种软硬件架构体系,推动“多模”统一架构,满足客户复杂的业务需求;构建广泛信创生态体系,让信创架构真正好用,促进客户实现“真替真用”;通过技术创新例如提升虚拟机密度,适配低成本终端等,不断降低信创桌面云总体拥有成本;图 2-7 深信服信创桌面云统一纳管架构图 桌面云技术与产业白皮书(2023 年)33 桌面云桌面云产业产业发展趋势发展趋势分析分析 随着云计算技术的不断发展和普及,桌面云技术也在不断发展和完善。未来,桌面云产业将会呈现以下几个发展趋势:1.桌面云技术将更加普及。随着云计算技术的不断发展和普及,越来越多的企业和个人用户将会采用桌面云技术,以提高工作效率和使用体验。2.混合办公成为新的常态。混合云技术是指将公有云和私有云相结合,形成一种新的云计算模式。在桌面云领域,混合云技术可以实现桌面环境和应用程序等资源的灵活部署和管理,提高了桌面云的可靠性和安全性 3.桌面云技术将更加智能化。桌面云技术结合AIOps、人工智能技术、元宇宙等技术,实现更加智能化的桌面环境,为用户提供更加个性化、智能化的服务。4.桌面云技术将更加安全可靠。桌面云技术结合零信任、区块链技术、加密技术等安全技术,保证用户数据的安全性和隐私性。5.桌面云技术将更加开放和标准化。桌面云技术将会更加开放和标准化,以促进产业的发展和创新。混合办公成为新常态,桌面即服务成为未来发展趋势混合办公成为新常态,桌面即服务成为未来发展趋势 什么是混合办公?IDC定义混合办公:“是一种工作者在多个地点(例如本地、现场、居家和差旅等远程)和多种时间节奏(例如固定的,变化的,或临时的)中开展业务的动态工作模式。”图 3-1 混合办公工作模式 过去三年的疫情推动了远程办公的发展,混合办公模式已经被越来越多的企业和员工所桌面云技术与产业白皮书(2023 年)34 接受。这也将成为未来的市场趋势之一,并且已经成为许多员工追求的福利。因此,吸引和留住人才已成为企业采用混合工作模式的最大动力之一。IDC的调研数据显示,随着社会发展以及工作方式的改变,远程和混合工作模式以及智能数字工作空间在未来最有可能在企业中持续下去。企业将在能够提供更加灵活办公方式的工具和服务上投入更多。随着混合工作成为新常态,提高用户的访问、效率和安全性,无论他们身处何地,访问企业内部和云端的资源,都将是现代企业的优先任务。据IDC报告显示,2022年桌面即服务(Desktop as a Service,简称DaaS)的市场规模达到了3.5亿美元,同比增长156.8%;未来五年(2022-2027年)该市场仍然会保持83.3%的年复合增长率,预计2027年将达到73亿美元的市场规模。图 3-2 中国桌面即服务市场预测,2022-2027 疫情的影响,对企业的业务连续性和员工的正常办公带来了巨大挑战,使人们对混合办公和远程办公的需求更加迫切。同时,疫情催生了企业实现工作方式转型的迫切性和动力。通过数字化工作空间和混合办公模式,企业能够适应不断变化的环境和需求,更好地应对未来的挑战。预计全国范围内的远程办公用户使用习惯将进一步提高。随着市场经济的恢复、企业对灵活的远程办公模式的接受、对数据安全的需求以及对国产品牌的偏好、各大厂商(桌面云厂商、电信运营商、云厂商等)的持续发力,同时将推动未来几年虚拟桌面软件及DaaS市场的增长。DaaS能够帮助客户减少前期资本支出、采购和供应负担,并具有按需购买、按时付费、易于维护、随时随地使用等优点,因此在中小型和创新型企业中得到广泛接受。而对于大企业来说,其带来的灵活性和高算力,也非常具有吸引力。桌面云技术与产业白皮书(2023 年)35 图 3-3 混合业务部署模式逐步成为主流 DaaS 的优势的优势:灵活性:灵活性:DaaS支持便捷的环境迁移,仅用几小时(而不是几天)就可以完成各种应用程序与桌面的部署。即用即付:即用即付:DaaS采用的是一种简便、透明的“即用即付”服务订购模式,用户仅需要按用量支付费用。节约成本:节约成本:采用DaaS之后,用户不必再为数据中心维护投入任何硬件成本。更可预测的成本,如果用户想避免任何意外成本,因为在Daas上成本定义相对明确,可以通过迁移到运营支出模型来控制。按需调整规模:按需调整规模:DaaS不仅支持即用即付的订购模式,还支持便捷的按需规模调整。提升提升IT工作效率:工作效率:由云服务合作伙伴代为执行日常管理、提供基础架构支持,让IT部门节省大量时间与资源,进而提升工作效率与效果。安全与合规:安全与合规:数据安全地存放在云平台,不用再担心因设备遗失导致重要数据泄漏。成套服务:成套服务:DaaS服务提供商能够帮用户完成大部分的桌面日常管理工作。简化管理:简化管理:DaaS属于成套服务,易于管理,能够消减很多IT管理工作。DaaS 的挑战的挑战:安全安全:对于某些组织而言,DaaS 代表了利用服务提供商的安全专业知识和资源的机会。但是,在政府、医疗保健和金融服务等高度监管和安全意识的行业中,组织将有更多的工作要做,以找到满足其要求的供应商。或者,他们可能不认为共享资源的风险是可以接受的。不受控制的成本飙升不受控制的成本飙升:尽管DaaS承诺降低成本,但随着时间的推移,用户可能会有更多的僵尸/未使用的资源来消耗用户的预算。当用户没有合适的云成本管理工具时,这可能会增加成本。建立正确的 KPI 有助于降低基础架构成本。灵活性较低灵活性较低:购买供应商定义的解决方案时,无法自定义超出特定点的环境。如果用户桌面云技术与产业白皮书(2023 年)36 需要杠杆来更改配置或使用本地环境中免费的硬件,则最好开发客户端定义的DaaS或纯 VDI 环境。DaaS 的常见用例的常见用例:长期项目支持长期项目支持:随着组织在新地区的扩张,快速配置新资源既耗时又费力。使用DaaS 可以解决这一挑战,同时还支持扩展。短期需求短期需求:例如由于折扣、劳动力扩张、紧急情况等原因导致客户数量激增。用户无需购买新的基础架构和资源,可以通过Daas模式解决。减少管理责任减少管理责任:在没有充足的IT预算及专门的管理人才时,用户可以将桌面虚拟化环境的管理工作留给Daas后台专家。此外,如果用户需要支持全球客户群,确保用户的环境全天候运行。DaaS 以可预测的价格为用户提供合适的工具,用户不需要深入了解所有系统。VDI和和DaaS的的3个主要区别个主要区别:管理管理:VDI通常需要更多管理,包括硬件,桌面系统,应用等自行管理。除非用户使用同类VDI最佳的解决方案(例如Sangfor提供的一体化交付解决方案),否则需要更熟练的管理团队。相比之下DaaS环境由供应商管理。应用程序仍然需要IT部门进行一些实际管理。但是,所需的学习曲线和技能并不像VDI那样广泛。成本成本:VDI利用本地基础架构,因此可能更昂贵。IT还需要考虑可扩展性所需的额外容量。加上电力、冷却和空间成本。在DaaS的情况下,用户可以按使用量付费,可能更便宜。但是,这些成本会随着环境的发展而增长,因此IT需要保持警惕。最终用户体验的灵活性最终用户体验的灵活性:VDI可以在虚拟机资源和桌面配置选项方面提供更大的灵活性,因此,可以根据不同的用例和工作负载更精细地调整用户体验。此外,通过使用应用分层,软件分发,应用商店等解决方案,IT可以进一步简化应用程序生命周期管理。使用 DaaS,大多数用例都需要定制和更多时间投资。或者在某些情况下,某些用例甚至可能难以复制。通常情况下用户的业务系统先上云,桌面再上云,可以更好的增强用户访问体验。基于零信任基于零信任架构架构的数字化工作空间的数字化工作空间应用广泛应用广泛,平衡安,平衡安全与生产力全与生产力 受疫情的催化作用,混合办公、随处办公以及分布式的办公模式已经成为职场中的常态,尤其受年轻人的青睐。在混合办公的趋势下,接入公司网络的设备五花八门,接入网络、接入地点、接入方式的多样化使整体办公环境的复杂程度翻倍。同时,随着云化、移动化或数字化的兴起,企业业务变得更加开放,企业的数据资产越来越分散,网络边界、物理安全边界日益模糊,给企业带来了巨大挑战。混合办公趋混合办公趋势下的四大挑战势下的四大挑战 桌面云技术与产业白皮书(2023 年)37 企业从传统的集中办公转向“随处可用的工作空间”模式,面临四大挑战。首先是可见。企业IT管理人员需要清楚“看见”公司网络中有多少设备,有多少员工在公司,有多少员工不在公司办公,员工的设备在哪里,有哪些种类等等。如果“看不到”员工和设备,IT管理将无从谈起,因此“可见性”非常重要。第二是响应。大量员工分散在全国各地的不同场景下办公,一旦出现问题,服务响应时间要足够及时,任何场景下出现问题,IT要能在第一时间知道并且能够快速处理。第三是体验。无论员工在哪里办公、无论用什么设备接入,必须保障员工在任何地点都能继续使用公司的业务系统、获取公司数据,包括核心系统和数据,并且能够获得一致的访问体验。第四是安全。要保障员工在任何地点上班都不能有任何安全漏洞,尤其是个人设备参与办公后,员工的生活和工作完全融合,很难区分开。一旦黑客攻击了员工的个人设备,那么可以随时破坏企业应用、攻击企业内部系统。随着设备的增多,企业面临的安全风险陡增。面对以上挑战,传统的VPN方案虽然能解决部分远程问题,但是存在业务暴露面大、过度授权、数据泄露等弊端。为了更加安全,部分企业采用“VPN 桌面云 堡垒机 共享桌面”等方案组合,但因为不同终端需要采用多种接入方式、多次登录、多个密码,限制较大,访问体验很差。总之,采用现有方案,安全和效率很难平衡、兼顾。基于零信任 桌面云结合的架构,构建了统一的零信任桌面云工作空间新方案在金融、医疗、能源、企业制造、企业设计院、政府等行业应用越来越广泛。新方案采用零信任安全架构、虚拟桌面及虚拟应用、沙箱、UEBA等技术相互融合,构建一个安全的数字化工作平台,既能提供高效办公体验,又能确保访问业务的端到端安全。在这个统一的零信任桌面云工作空间,内部员工、外包人员、甚至是供应商、合作伙伴,都可以在不同地点,采用不同类型的终端或不同操作系统接入,经过零信任组件进行身份验证后,即可访问权限范围内的桌面、应用、文件与数据。例如:OA、邮件等低密级业务可以通过零信任构建加密隧道直接访问;BI等涉及业务敏感数据的中密级业务,可以通过沙箱构建一个隔离的环境进行访问;研发代码、财务数据等高密级或高风险业务,可以通过云桌面或云应用进行访问,确保数据不落地。以一个科技型公司为例,用户声音:“我需要同时访问市场、研发、财务、采购等不同密级的业务,只需要在统一的门户里点击一下图标就可以访问,整个过程很方便。如果要访问经营管理系统、财务系统、成本系统等相对敏感的系统,会调用云应用访问,云应用可以防截屏。如果需要访问研发业务和数据,或者财务经营报告,需要登录到云桌面访问。”桌面云技术的架构与零信任安全理念紧密结合,从而构建了更加安全和灵活的工作环境。以下是融合架构特点:一致性办公体验,无边界工作空间环境:云桌面技术消除了传统办公环境中的地理和桌面云技术与产业白皮书(2023 年)38 设备限制。用户可以通过任何设备(包括个人电脑、移动执法终端、平板电脑、智能手机等)、任何时间、任何地点访问其云桌面,内外网一致性的办公体验,实现真正的移动办公。这种架构与零信任的理念相契合,因为访问不再取决于特定的网络位置。多维度身份认证与访问控制:在云桌面架构中,身份认证不仅仅限于用户本身,还涵盖了设备、应用程序等多个维度。用户需要进行身份验证后,才能访问其云桌面。这种多维度的认证与零信任的核心原则一致,确保访问的安全性。数据隔离与安全性:云桌面技术通过在云端维护用户的工作环境,实现了数据的隔离和集中管理。敏感数据不再存储在本地设备上,减少了数据泄露的风险。此外,零信任的思想也在这一层面体现,只有经过授权的用户才能访问特定的数据和应用。桌面内动态访问授权,保护核心业务:传统的桌面云方案实现了数据不落地级的防泄密效果,但是用户一旦接入桌面云后,访问内部业务将会完全依靠桌面云开放的网络访问权限,无法实现动态业务访问权限控制,传统的零信任架构将在桌面云内访问内部业务时变得毫无意义,如在用户不同环境接入桌面云后严格限制业务网络访问权限,面对不同类型人员访问需求,网络管理员将会设置复杂网络ACL访问策略,效率低,体验差。采用新型桌面云 零信任融合架构,允许资源动态分配,根据用户需求提供所需的计算和存储资源。这种灵活性有助于提高效率,并降低成本。同时,融合后也强调了访问控制的动态性,用户的权限和访问范围可以根据实时需求进行调整。通过零信任“持续验证、永不信任”结合桌面云内防火墙或零信任组件,实时检测用户终端健康状态,自动调整可访问的业务系统范围,让外网和内网变得同样安全。云桌面技术与零信任安全理念的融合,为组织提供了更加安全、高效的办公环境。通过将工作环境从本地解放出来,实现了真正的混合办公,同时也在安全性方面迈出了重要一步。这种架构不仅满足了组织的云化、集约化需求,还为未来的工作方式奠定了坚实的基础。利用利用 AI 赋能桌面云赋能桌面云,更加智能化,更加智能化 AIOps赋能桌面云,更加智能化的运维管理赋能桌面云,更加智能化的运维管理 相比于传统pc,桌面云赢得用户青睐的一大特性就是其省心便捷的运维能力。但真正投入使用时,却发现运维没那么简单。虚拟机故障停摆后,监控平台的告警才姗姗来迟;用户反馈桌面云卡慢后,无法快速找到根本问题;哪些桌面云闲置,哪些桌面利用率比较高,哪些桌面需要扩容,哪些应用影响用户体验,桌面使用情况,应用使用情况,从集群到物理主机到虚拟机到应用,是否有必然的关联影响,面对这些问题,管理员常常被动应对和管理,无法运筹帷幄,了如指掌。桌面云的运维,似乎也没有那么简单。在桌面云领域,管理员正在逐步通过AIOps赋能桌面云,利用AIOps可以实现更加智能化的运维管理,具体来说利用AIOps可以实现以下几个方面的优化:桌面云技术与产业白皮书(2023 年)39 自动化运维:AIOps可以通过自动化的方式来完成一些重复性的、繁琐的运维任务,如监控、告警、日志分析等,从而减轻运维人员的工作负担,提高运维效率。智能化故障诊断:AIOps可以通过分析桌面云的运行数据,识别出潜在的故障点,并给出相应的解决方案,从而提高故障诊断的准确性和速度。预测性维护:AIOps可以通过分析桌面云的历史数据,预测出未来可能出现的故障,并提前采取相应的措施,从而避免故障的发生,提高桌面云的可靠性。自适应优化:AIOps可以根据桌面云的实际运行情况,自动调整配置参数,优化桌面云的性能和资源利用率,从而提高桌面云的效率和稳定性。ChatOps赋能桌面云,赋能桌面云,提高工作效率提高工作效率 桌面云管理员通过深入利用AIOps可以实现桌面云的智能化运维管理,为桌面云管理员提供更加优质的服务。我们也发现一些组织正在通过更的AI能力赋能帮助桌面云使用者提供更优质的服务。在过去,当用户终端访问桌面云或桌面云内使用一旦出现问题,包括不可预见故障或工作流协作等问题,用户大多通过求助IT或者自行百度处理,求助IT需要排队等候;自行解决往往处理难度高,也会带来更多的问题出现。这样不仅对用户的体验不佳,也会成为管理员运维负担。ChatOps是一种基于聊天工具的工作方式。通过ChatOps赋能桌面云,有以下几个方面优点:提高问题处理效率:用户可以一键求助此工具,对话式AI持续给出处置建议,通过将机器人植入聊天会话,形成人、机器、数据的自动化、透明化的联动,使运维团队能够高效执行任务和沟通协作,提升用户问题解决体验及减少管理员运维工作量,“用聊天的方式来做运维工作”成为可能,持续对话式处理问题,直至最后解决问题,无需挨个寻找解决方案,高效率处理复杂故障。简化工作流程:通过桌面云和ChatOps的结合,用户可以在一个集成的环境中完成各种任务,无需切换不同的工具和界面。他们可以通过聊天界面直接与桌面云进行交互,执行各种操作,如启动应用程序、访问文件、管理虚拟机等,从而简化了工作流程。提高工作效率:桌面云结合ChatOps可以提供快速、实时的反馈和响应。用户可以通过聊天界面发送指令,桌面云会立即执行相应的操作,并将结果返回给用户。这种实时的交互方式可以大大提高工作效率,减少等待时间。增强协作能力:ChatOps使得团队成员可以在一个共享的聊天环境中进行实时协作。通过桌面云结合ChatOps,用户可以与团队成员共享桌面、文件和应用程序,进行实时的讨论和协作。这种协作方式可以促进团队之间的沟通和合作,提高工作效率和质量。提供更好的可追溯性和可管理性:通过ChatOps,用户可以在聊天记录中查看和追溯所有的操作和交互。这种可追溯性可以帮助用户更好地管理和跟踪工作进展,及时发现和解决桌面云技术与产业白皮书(2023 年)40 问题。同时,ChatOps还可以提供权限管理和审计功能,确保操作的安全性和合规性。图 3-4 通过聊天的方式完成各种任务 总之,桌面云结合ChatOps可以为用户提供更简化、高效、协作和可管理的工作环境,帮助他们更好地完成任务并提高工作效率。当前桌面云结合ChatOps还处在初级结合阶段,完成简单的问题处理能力,未来将会发挥更大的价值!桌面云可能是桌面云可能是元宇宙切入办公场景的入口元宇宙切入办公场景的入口 元宇宙是一种虚拟的数字世界,可以模拟现实世界中的各种场景和体验,包括社交、娱乐、教育、商业、办公等。在后疫情时代,人们在现实世界中自由出行受到限制,这在一定程度上也激发了远程交互技术和产品的发展,以帮助人们跨越物理的限制。元宇宙概念的流行,不仅满足了人们对于未来娱乐生活的想象,也映射出当下现实的需求。桌面云作为一种基于云计算技术的服务,未来可以为元宇宙提供云上办公基础设施和支持,为用户提供更加便捷、高效的办公体验。例如,用户可以通过桌面云在元宇宙中访问自己的桌面环境和应用程序,进行办公和协作,同时也可以与其他用户进行社交和交流。在理想状态下,元宇宙可以应用于任何事物。元宇宙办公平台,可以让员工在任何地方进行虚拟工作。图 3-5 虚拟的工作空间 桌面云可以通过应用AI技术提供更智能化的办公方式,例如自动化的文件管理、智能化桌面云技术与产业白皮书(2023 年)41 的日程安排、语音识别的办公助手等。这些功能可以大大提高员工的工作效率和协作能力,同时也可以增强员工的使用体验。此外,一些科技型公司正在打造“员工体验平台”,如微软Viva等。这些平台旨在通过联系、成长和学习机会、更好的见解以及对业务目标的一致性来改进员工体验和员工生产力。这些平台通常包括智能化的办公工具、个性化的工作环境、以及丰富的员工福利和社交活动等。“员工体验平台”一个面向企业的AI信息中心,未来桌面云与“员工体验平台”更好的融合,公司可以提高员工的满意度和忠诚度,从而提高企业的生产力和竞争力。总之,利用AI技术赋能桌面云,可以为企业带来更加高效、协作、智能、人性化的工作方式,从而提高员工的工作效率和企业的竞争力。GPU 深度应用将成为桌面云计算密集场景专用方案深度应用将成为桌面云计算密集场景专用方案 基于GPU构建的桌面云产品具备更高性能、高密度的良好用户体验,无论是采用GPU直通模式还是GPU虚拟化模式,都会保障用户在复杂的图像数字场景中享受流畅的云桌面体验,伴随桌面云客户业务持续创新,企业对大数据分析、复杂图形处理、多媒体编辑、VR与AR等应用场景的GPU需求持续增长,带有GPU的桌面云解决方案市场有望持续扩容。超融合架构将开辟桌面云发展的新天地超融合架构将开辟桌面云发展的新天地 有观点认为,超融合架构是实现“软件定义数据中心”(SDDC)的终极技术途径,其类似Google、Facebook后台的大规模基础架构模式,可以为数据中心带来非常优秀的效率、灵活性、规模、成本和数据保护。由于超融合技术可以给IT部门带来的简化管理、扩容方便,以及具备极致性能的特点,在桌面云市场也得到了广泛的应用。桌面云通过超融合基础架构技术虚拟化产生的移动工作空间,融合了企业级的服务器和虚拟化所需的功能和优势,采用集中管控的云主机替代传统的PC,最大化企业IT资源的效率和利用率,为企业带来高效、可控的办公环境和一致的用户体验。用户可以通过瘦客户端、PC、PAD、手机或者其他任何与网络相连的设备,访问跨平台的应用程序以及整个客户桌面,帮助用户突破时间、地点、终端的限制,随时随地接入自己办公桌面实现移动办公。桌面云技术与产业白皮书(2023 年)42 图 3-6 超融合架构无缝运营 超融合架构和桌面云结合的优势如下:简化管理:超融合架构将计算、存储和网络资源整合在一起,而桌面云提供了集中式的虚拟桌面管理。结合两者可以实现统一的管理平台,简化了整个系统的管理和维护工作。提高灵活性:超融合架构的弹性扩展和虚拟化技术使得资源的分配更加灵活,而桌面云可以将虚拟桌面随时分配给用户。结合两者可以实现按需分配和动态调整资源,提高了系统的灵活性和适应性。提升性能:超融合架构的高性能存储和计算能力,结合桌面云的虚拟化技术,可以提供更高的性能和响应速度。用户可以在任何时间、任何地点通过桌面云访问资源,享受到高性能的体验。提高安全性:超融合架构和桌面云都注重安全性。超融合架构通过数据冗余和备份保护数据安全,而桌面云通过集中管理和访问控制保护用户数据。结合两者可以提供更全面的安全保护,减少数据泄露和风险。降低成本:超融合架构和桌面云的结合可以减少硬件设备和维护成本。超融合架构整合了计算、存储和网络设备,减少了设备的购买和维护成本;桌面云提供了虚拟桌面,减少了终端设备的需求。整合两者可以降低总体的IT成本。综上所述,超融合架构和桌面云的结合可以简化管理、提高灵活性、提升性能、提高安全性和降低成本,为企业提供更高效、可靠和安全的IT解决方案。桌面云将覆盖更广泛的物联网终端桌面云将覆盖更广泛的物联网终端 随着物联网技术的快速发展,借助下一代桌面云的前后端混合计算特性,物联网终端的计算能力将被充分发挥,同时随着物联网底层硬件操作系统和驱动问题的逐步解决,下一代桌面云将可以适配不同类型的物联网终端设备,真正为万物互联提供稳定的管理支撑。在基于5G甚至未来6G技术的助力下,桌面云应用的交付速度将大大加快,甚至能够媲美基于本地终端的桌面应用交付速度,让广域网环境下的桌面云也能拥有与局域网相同的应桌面云技术与产业白皮书(2023 年)43 用体验,这将让下一代桌面云的应用范围大大扩展,并覆盖到更多的物联网终端。多样化智能办公设备,不仅仅提升工作效率,更将赋能混合办公模式在不同物理空间之间无缝连接。图 3-7 多样化设备无缝连接 内生安全内生安全 桌面云内生安全是指在桌面云环境中,通过内生安全技术来保障桌面云环境的安全性。这种技术可以在桌面云环境中实现自动开启防护,安全隔离、数据加密、访问控制等安全措施,从而保障桌面云环境的安全性。通过桌面云内生安全,桌面上线即安全,用户的希望是桌面云在创建和上线的时候就实现安全,并通过自动化、向导化的方式来实现安全的效果,而减少用户操作上的难度,为组织提供更加安全、可靠的桌面云服务。我们认为,桌面云内生安全主要包含桌面安全、网络安全、数据安全3个方面。在桌面安全方面,可以实现虚拟机创建的时候,就自动安装相关的桌面安全组件、自动开启实时防护、自动打快照等,整个过程无需繁琐的、手动安装和处置。在网络安全方面,过去,桌面上线后,需要到防火墙上人工配置ACL策略。现在,通过平台在底层内置了分布式防火墙,实现东西向、南北向安全防护,支持基于单个用户和用户群组一键生效安全策略,颗粒度可以到虚拟这个层面,而且这个安全策略会随着云桌面迁移、扩展而跟随。在数据安全方面,最常用的USB外设管控、违规外联管控、文件导出管控、防截屏防录屏等都是直接以无插件的方式支持,安全策略都是基于用户层级来设置的,无论桌面资源怎么调整、采用什么终端设备、在什么地点登录,策略都是生效的,实现了更广泛、更灵活的管控。桌面云技术与产业白皮书(2023 年)44 桌面云内生安的价值和意义主要体现在以下几个方面:提高安全性:桌面云内生安全可以通过多种技术手段,如虚拟化、隔离、加密等,来保护用户数据和系统安全,从而提高整个桌面云环境的安全性。降低风险:桌面云内生安全可以有效降低因为用户操作不当、恶意软件攻击等原因导致的安全风险,从而保障用户数据和系统的安全。提高效率:桌面云内生安全可以自动化管理和监控安全事件,减少人工干预,提高安全管理效率。降低成本:桌面云内生安全可以通过共享安全资源、自动化管理等方式,降低安全管理成本,提高整个桌面云环境的经济效益。总之,桌面云内生安全是未来发展的趋势之一,随着技术的不断发展,桌面云内生安全的安全性能将会不断提升,安全管理将会更加智能化,安全防护措施将会更加多层次,安全合规性将会更加注重。这些趋势将会为桌面云的安全提供更加全面和有效的保护。满足信创要求满足信创要求 桌面云诞生之初,Citrix和VMware两家国外桌面云厂商占据了我国大部分桌面云市场。当国内互联网厂商效仿亚马逊开始开拓云计算市场时,一些传统IT厂商(包括一些创新企业)开始基于服务器虚拟化技术推出了国内桌面云产品。经过十余年的发展,国内桌面云产品凭借着其优异的性能、实惠的价格和更符合国人习惯的产品设计成功占据了国内桌面云市场的半壁江山。如今,各行业所看到的桌面云应用场景80%以上来自国内桌面云厂商,越来越多的行业用户选择国内厂商产品取代国外厂商实现数字化转型。近几年,随着信创基础软硬件的飞速发展,国内厂商也推出了全栈信创桌面云解决方案,并在一些行业得到了应用,预计不久桌面云解决方案在性能、性价比和用户体验上会得到快速提升,可以和非信创类桌面云解决方案媲美。信创桌面云依托信创芯片服务器,承载主流信创操作系统,通过基于信创操作系统的云桌面、云应用资源服务模型,逐渐满足各行业场景多元化、个性化的桌面需要,持续不断地提高用户桌面的使用体验。信创桌面云满足信创要求成为趋势,但是也存在以下挑战:(一)关键能力差距导致推广受到阻碍 从桌面云的关键部件、核心技术到供应链安全情况分析,国内桌面云整体上与国外厂商接近,且在部分场景下也建立了一定的领先优势,但若要持续稳定发展和进一步突破,需要持续补充短板差距。首先,在桌面云关键部件方面,桌面云资源池即云端虚拟化能力与国外厂商存在差距,国内桌面云对于虚拟化层(Hypervisor)的技术积累较少,很多是基于国外开源的Hypervisor组件进行修改,缺乏自主的虚拟化技术突破,需要持续追赶和补齐;其次,桌面云技术与产业白皮书(2023 年)45 在供应链安全方面,国内CPU在性能上仍和国外主流CPU(诸如Intel、AMD)存在一定的差距,如主频低、功耗大、并发核数不足等,集中表现在一些复杂业务在桌面云上运行时效果不佳,这导致桌面云解决方案在制造设计、企业开发等高性能场景下的推广受到阻碍。(二)复杂生态加重桌面云软硬件适配工作 当前,我国的信创基础软硬件生态比较复杂,主要表现为存在多个互不兼容的信创CPU指令集,围绕这些CPU指令集建立起来的信创生态相互孤立。比如,我国现有信创CPU包括X86指令集、ARM指令集、LoongArch指令集等,他们相互不兼容,导致运行在其上的信创操作系统和应用软件相互不兼容。由于现有应用软件编程技术限制,研发的应用软件目前很难做到跨异构硬件架构,导致桌面云软件必须适配多种类型的信创CPU和信创操作系统,极大增加了桌面云厂商的信创适配工作量。当前我国桌面云产品已基本适配了X86和ARM架构,但针对LoongArch架构的适配还未完全完成,除此之外ARM架构方案上还存在桌面云功能与X86架构不对齐、上层应用软件缺乏等问题;如在架构对比上,ARM架构的桌面云产品的功能相比X86桌面云要少很多,基于ARM架构开发的应用软件也较少,尤其是和行业相关的业务类软件十分缺乏,难以支撑设计、制造等行业的业务运行。(三)缺少行业标准阻碍生态建设 桌面云建设一方面面临着从评估、适配到项目实施、运维等完整项目周期系统化标准的缺失,另一方面又面临着国家、行业到各地区等多层标准的正确解读与遵循。从CPU到整机服务器厂商,到PC终端厂商,从操作系统到数据库、中间件及上百种国内化业务软件,桌面云的生态面临着上千种无序的组合。并且项目完成后并不意味着就已经完成了桌面云的建设,桌面云中的业务系统仍需要较长时间周期的检验,简单的桌面运维不能解决此阶段出现的问题,仍需要各厂商深度的联合排障甚至定制开发。当前桌面云很多关键技术(例如多核心高性能CPU芯片、桌面操作系统,软件生态,应用管理等)还依赖于WinTel平台,Windows Intel联盟根深蒂固,明确的指引和生态扶持政策有助于生态建设,如根据市场自然规律来选择,很难打破WinTel垄断;(四)人才匮乏导致项目建设复杂 桌面云项目的实施缺少信创服务器、操作系统、软件等专业资质的项目实施人员,缺少专业的培训机构开展针对性的课程,能够帮助企业深刻理解信创的政策、生态、管理要点、技术细节、故障排错经验等。桌面云技术与产业白皮书(2023 年)46 生态整合解决方案生态整合解决方案 华夏威科华夏威科 AuditSys 用户实体行为分析系统解决方案用户实体行为分析系统解决方案 应用背景应用背景 北京华夏威科软件技术有限公司(以下简称“华夏威科”)成立于2011年,总部位于北京,2021年被评定为北京市“专精特新”企业。拥有多年云计算、大数据、行为安全分析等领域市场经验,是中国内控管理市场领导者。公司总部设在北京,在上海、深圳、长沙设有办事处。配备专业的技术服务人员,研发与技术服务团队占比达70%,良好的服务体系能快速响应客户需求。自主研发项目申请专利7项、软件著作权59项。针对各行业、企业级客户,梳理出超过100 典型案例,有效的覆盖了各体量、各类型的客户信息化需求。自主研发的产品SinoUEBA(AuditSys),利用大数据、UEBA实现用户内部人员行为可视化及行为风险数字化管理,是中国内控管理市场领导者。帮助企业发现来自内部的威胁和风险,实现行为审计与追溯、内部威胁管理、应用访问控制、工作效率分析、动态水印应用、敏感数据保护;产品主要应用于金融、能源、电信、政府以及制造业等各行业客户,尤其在金融领域得到了广泛的应用,Top10银行客户占有率70%、Top10保险客户占有率60%、Top10证券客户占有率60%、Top10基金客户占有率70%。桌面云提供了一个完整的桌面应用平台,构建了一套数据不落地的安全模型,从很大程度上确保了数据安全,但无法量化用户在桌面云上的操作行为及操作风险,应用场景涵盖研发中心、呼叫中心、营业厅或分支机构、运维中心、远程居家办公等,具体需求挑战表现如下:研发中心场景需求研发中心场景需求:1、人员需求逐年増加,大部分是外包人员,难以管理,无法评估工作饱和度;2、人员成本高,按照人均30万计算,200人外包,年投入约6000万;3、目前行为监控采用人工检查方式,监控效率低,无法全程监控;4、虽然已经有DLP产品,不能实现对研发岗离职前审计和离职后追责、不能对文件的流转做全程的监控,且不能分析监控敏感数据浏览行为;5、2021年12月银保监会发布银行保险机构信息科技外包风险监管办法,在研发场景下,如何满足外包研发的监管要求?呼叫中心场景需求呼叫中心场景需求:1、呼叫中心岗位工作质检要求:传统双录(录音、录像)不能满足业务发展要求,需要增加录屏质检,即录音、录像、录屏的三录。桌面云技术与产业白皮书(2023 年)47 2、传统安全手段无法满足信息防泄露需求:不能做用户实体行为分析,无法识别压缩、加密等动作,导致无法识别外发的加密文件内容;传统的DLP类产品改变用户使用习惯,影响用户办公效率,而且资源消耗大,影响终端性能;无法判断呼叫中心的B/S业务系统是否明文显示个人信息;如何保护屏幕上的信息安全?3、窃取个人信息犯罪行为呈组织化、专业化、高科技化发展趋势:内外勾结、安排人员到企业应聘、利用专业破解软件等获取客户完整身份证号码和手机号,已成为窃取用户隐私的常态。营业厅或分支机构场景需求营业厅或分支机构场景需求:1、营业厅、网点数量多,而且地域分布广,营业厅、网点工作人员的个人信息保护、业务飞单监控、合规检查等,成为监管难点。目前通常采用去现场进行人工检查(走查)方式,但该方式存在以下问题:成本高:一级分行、二级分行、支行或营业网点较多,去现场进行人工审计(走查)投入成本较大;效率低:现场安全审计监控效率低,无法全程监控;无法实现实时安全审计及时发现不合规行为;营业厅业务形式的独特性。2、营业厅地域分散、且无IT维护人员,对于营业厅上、下午交易时间,网络资源要优先保证交易系统,即交易时间尽可能不传输非交易数据。并且营业厅没有机房,需要有独特的架构设计才能实现网点的监管。运维中心场景需求运维中心场景需求:1、审计存在盲点:堡垒机系统不支持的应用软件无法审计,例如:Google浏览器;2、数据采集能力薄弱:仅仅能获得复制文件、运维命令及回显内容,不能获得窗口标题、文件操作、B/S操作、C/S操作、邮件操作等行为数据;3、事件追溯时间长:无法直接定位和检索行为,安全事件调査等工作时间长;4、异常行为无法发现:无法判断和识别其中的异常和风险行为,无法对风险行为进行监控和告警;5、无法实现大量行为数据处理:基于传统的关系型数据库作为存储,无法对大量行为数据进行分析和处理。远程居家办公场景需求远程居家办公场景需求:桌面云技术与产业白皮书(2023 年)48 1、传统的日志审计产品完全依赖云桌面日志,而实际上云桌面日志信息非常少,通常只记录登录、退出、登陆失败等信息,无法掌握云桌面用户的具体操作情况,如何满足等保2.0的安全审计要求?2、如何在海量行为中发现以及监控风险行为?3、脱离职场办公,居家办公(远程办公)终端屏幕信息成为潜在的风险点,如何保证屏幕信息安全?4、如何科学量化居家办公的工作状态?通过虚拟桌面日志计算工时的方法,无法准确反映居家办公的工作状态。解决方案解决方案 企事业单位信息化建设过程中,部署了终端安全产品或数据防泄漏产品,但敏感信息泄露事件等安全问题呈上升趋势。桌面云结合华夏威科AuditSys用户实体行为分析系统可以很好的解决这个问题,方案以“人”的操作行为为管理核心,将桌面云内的操作行为数字化,实现内部人员的风险行为和异常行为监控、应用访问控制、行为审计与追溯、工作效率分析以及用户行为画像分析。为企业提供更加安全可靠的一体化办公平台,提升企业核心竞争力,为企业信息化数字化转型保驾护航。AuditSys利用大数据、UEBA技术理念实现用户内部人员的行为分析,通过在桌面云内部署行为数据采集器(Agent),实现内部授权用户所有行为全程监控、自动生成操作行为日志、全程分析发现内部异常行为以及信息泄露风险画像等。(一)行为全面记录、审计与追溯(一)行为全面记录、审计与追溯 实现云桌面用户所有操作行为全面采集、记录,风险全程可视可追溯;同时视频记录可以和操作内容文本记录进行匹配,精确定位操作画面及操作内容信息。弥补桌面云操作行为审计监控的缺失,对运维、研发、业务等办公人员进行多维化、桌面云技术与产业白皮书(2023 年)49 全流程监控,加强内控管理;敏感信息泄露事件发生时,提供不可抵赖录屏证据,佐证操作行为真实性;华夏威科行为审计与追溯产品,自动生成所有操作行为日志,并可选择录屏取证,为审计合规管理提供可视化、不可抵赖的证据;所有录屏视频可以检索,可以通过检索迅速定位到操作视频,极大提高审计工作效率;可以支持分支机构或多中心部署模式,在总部随时可对任何人、任何时间、任何业务操作进行审计,极大提高审计的广度和深度。(二)(二)行为安全管理,行为安全管理,监控高危风险操作,发现内部威胁行为监控高危风险操作,发现内部威胁行为 通过预置或自定义风险行为规则,自动发现和统计风险行为,减少信息安全风险,比如监控飞秋程序的使用,飞秋程序极易造成数据泄露。并减少审计工作量,更有效的提升审计效率和质量;对操作行为进行数据泄露风险分析,提供员工的个人信息泄露风险画像,提前发现可疑人员,帮助企业做好敏感信息保护;实现高危操作行为人员画像,分析异常操作行为。运用大数据及机器学习算法模型,通过多维度计算异常操作风险,对潜在可能造成数据泄露人员进行风险评分;安全防护软件失效,或者恶意绕过行为提供实时预警能力,及时发现潜在安全风险事件,避免因信息泄露给企业产生负面社会影响;华夏威科内部威胁管理产品,实现对操作行为风险的全程监控。对于已知的潜在风险,利用安全规则在海量操作行为中发现高危风险行为;对于未知的潜在风险,利用机器学习算法,在大量的高危行为中自动发现异常行为,实现精准定位内部威胁和风险。对于业务操作风险,可以通过频次或时间异常监控,比如敏感信息查询次数分析和查询时间的监控,自动发现异常操作人员。(三三)敏感数据保护敏感数据保护 华夏威科敏感数据保护系统基于UEBA理念的数据泄露管理,全程记录并监控内部人员的所有操作行为,对操作行为进行数据泄露风险分析,提供员工的个人信息泄露风险画像,提前发现可疑人员,帮助企业做好敏感信息保护。(四四)工作效率分析工作效率分析,提高工作效率,提高工作效率 工作效率分析系统基于用户行为分析和大数据技术,按企业的组织架构和业务,对不同岗位的人员进行业务操作、非业务操作的工作分析,实现人员的工作状态监督、工作效率分析、工作饱和度的可量化管理。(五五)屏幕动态水印屏幕动态水印,保护屏幕信息安全,保护屏幕信息安全 华夏威科的屏幕动态水印技术,震慑手机拍照或截屏操作行为。水印内容可为当前账号和时间戳。当发生数据信息外泄时,结合水印信息和SinoUEBA(AuditSys)行为风险监控和审计系统,迅速定位和找到责任人。桌面云技术与产业白皮书(2023 年)50 方案价值方案价值 在桌面云内部署华夏威科AuditSys用户实体行为分析平台,可以解决用户的多种行为安全问题,满足桌面云中关于安全审计要求:开发人员离职前审计、离职后追责开发人员离职前审计、离职后追责:可以审计、发现研发人员离职前,是否有危害公司利益的行为;对于已经离职人员一旦有侵犯公司知识产权行为,可以审计追溯其在职时行为,为起诉、追责提供证据。及时及时发现发现违规行为违规行为:对于安装绿色软件、卸载安全防护软件、抹除浏览器操作轨迹、改变防火墙状态、修改注册表、打印敏感文件等高危行为进行监控。监控文件流转过程监控文件流转过程:监控文件、代码流转过程,包括文件外传到GitHub上的行为。保护客户信息保护客户信息:发现业务软件明文显示个人敏感信息的情况,如身份证号码、手机号;发现业务系统个人信息已做脱敏,但被“内鬼”利用业务软件漏洞窃取个人信息的行为;发现包含个人敏感数据的文件传入U盘、QQ、微信等,造成客户信息泄露事件;发现文件的隐匿外发行为,包括文件压缩、加密后的外发行为。运维高危指令监控运维高危指令监控:Linux系统运维、DBA数据库运维等高危命令监控、B/S应用关键操作标签监控。弥补传统堡垒机在审计方面的盲点以及堡垒机采集信息不足的问题弥补传统堡垒机在审计方面的盲点以及堡垒机采集信息不足的问题:堡垒机在工作中经常出现被绕过不能审计的情况,并且在信息釆集方面,只能获得运维命 令、回显结果等,不能获得窗口标题、B/S运维系统操作标签、POST表单信息等等各个方面的 信息,对于Windows应用支持不足。工作饱和度分析:工作饱和度分析:统计分析电脑上的工作时长,监督开发工作,提升工作效率。屏幕动态水印屏幕动态水印:震慑手机或其它设备拍照行为,减少屏幕信息泄露事件,增强屏幕信息安全。提升提升审计效率:审计效率:基于专有技术将录屏和操作行为日志关联播放,实现员工操作行为快速回溯,简化事故调查和根因分析,极大地缩短安全事件调查时间,提升审计效率。降低降低审计审计成本成本:非现场审计方式,大大减少现场审计工作时间,满足经常性审计监督的需要,且可以扩大审计覆盖面,并降低审计成本;法规遵从:法规遵从:满足等保2.0中关于桌面云用户行为审计的要求,保障系统安全审计基虚拟桌面云技术与产业白皮书(2023 年)51 化环境安全;树立行业榜样,提升公司核心竞争力树立行业榜样,提升公司核心竞争力:率先开展UEBA探索与实践,帮助做好信息安全管理、内控管理和工作效率管理,为信息安全和实现数字化转型服务,助力信息安全、审计、合规以及提高人员工作效率;树立行业榜样,提升公司核心竞争力。飞腾从端到云全栈云桌面解决方案飞腾从端到云全栈云桌面解决方案 应用背景应用背景 云桌面是计算、存储、交换资源的虚拟化,在服务器上运行虚拟化操系统并通过云桌面协议推送到云终端办公使用的技术。在虚拟化技术的支持下,网络软件和硬件设备之间的联系会更加灵活,可拓展性也会大大提升,使得它在教育、医疗、政务等领域迅速成为传统商用PC的替代。云桌面优势如下:第一:信息安全,所有数据都在云平台,员工本地没有任何数据;第二:维护方便,所有的应用程序和数据都在云平台,可以由维护人员统一安装、统一杀毒、统一升级、统一备份数据,再也不用一台电脑一台电脑的去进行维护了;第三:节能,云终端一般是很多个(几千、几万甚至几十万)用户产生几千瓦或者几万瓦功耗送,平均下来功耗在10万以下。第四:快速部署,新员工报道,领一台云终端,配上外设就能办公;第五:设备更换频率低,普通电脑,一般34年后就会因为性能不高需要淘汰更新;而对于云桌面方案,云平台后续发现性能不够时,增加新的服务器和磁阵扩容就可以,使用寿命可达810年。传统PC办公在安全、运维效率等方面存在诸多问题。比如在政企办公存在计算机噪音大、能耗高、故障多、维护难、使用体验差问题;教育行业由于不同课程需要而频繁重新安装大量 操作系统、校园网内系统的安全管理困 难、教学管理效率低下;医疗行业也存在业务繁多,护士站、挂号室、影像室等不同场景需要 HIS、LIS、PACS、RIS、CIS、OA 等不同系统,维护困难问题。而云桌面解决方案具备部署快、易管理、维护效率高、安全可靠、能耗低等优点,可以有效解决各行业面临的各方面问题。飞腾作为国内领先的自主核心芯片提供商,致力于“飞腾”系列国产高性能、低功耗通用计算微处理器的设计研发和产业化推广。飞腾CPU基于全自主设计研发的处理器内核,内置硬件级安全机制、飞腾自主定义的处理器安全架构标准和多种低功耗技术,具备高性能、低功耗、高可靠和安全可信等特点。飞腾芯片目前拥有高性能服务器CPU、高效能桌面CPU、高端嵌入式CPU和飞腾套片四大系列,形成了完整的自主CPU产品谱系,为从端到云的各型设备提供核心算力支撑。云桌面服务器方面有飞腾腾云S2500、飞腾FT-2000 /64;终端方面有VDI终端芯片飞腾腾珑E2000Q及VDI、VOI飞腾腾锐D2000、飞腾FT-2000/4;其中飞桌面云技术与产业白皮书(2023 年)52 腾腾锐D2000、飞腾FT-2000/4也可用于VDI终端。解决方案解决方案 飞腾从端到云的芯片解决方案如下,分VDI、IDV、VOI三个方面:架构架构 VDIVDI IDVIDV VOIVOI 服务器服务器 飞腾 FT-2000 /64 飞腾腾云S2500 飞腾 FT-2000 /64 飞腾腾云S2500 飞腾 FT-2000 /64 飞腾腾云S2500 终端终端 飞腾腾锐 D2000 FT-2000/4 飞腾腾珑E2000Q 飞腾腾锐 D2000 飞腾FT-2000/4 飞腾腾锐 D2000 飞腾FT-2000/4 软件软件 RDP、Clink、Spice优化协议、国内云桌面厂商协议 不涉及 不涉及 方案体验方案体验 基于现有方案:在日常基本办公或2D场景下运行良好 基于现有方案:在 日 常 基 本 办 公 流畅、支持3D图形需求场景 基于现有方案:在日常基本办公运行流畅、支持3D图形需求场景 (一)云桌面服务器:(一)云桌面服务器:1、芯片产品 飞腾提供两款服务器芯片,分别是飞腾腾云S2500及飞腾FT2000 /64。其中飞腾腾云S2500主要规格如下:64FTC663(2.1GHz)、支持28路,128核512核、8DDR4、17路PCIe3.0;飞腾FT-2000 /64主要规格如下:64FTC662(2.02.3GHz)、8DDR4、33路PCIe3.0。2、生态方面:基于飞腾芯片的通用型计算、存储服务器都可以用于云桌面服务器。代表服务器生态有长城、浪潮、同方、联想等。(二)(二)云终端方面:云终端方面:1、芯片产品 VDI终端有飞腾腾珑E2000Q规格如下:2FTC664(2GHz)、2FTC310(1.5GHz)H.264/265解码,2K30fps、6路PCIe3.0、支持PSPA 1.0安全规范;VDI、IDV云终端芯片有飞腾腾锐D2000、飞腾FT-2000/4,其中飞腾腾锐D2000规格如下:8FTC663内核(2.0 2.3GHz)、34lane PCIe3.0接口、支持PSPA 1.0 安全规范;飞腾FT-2000/4规格如下:4FTC663内核(2.2 2.6GHz)、34lane PCIe3.0接口、支持PSPA 1.0安全规范。2、VDI终端生态 桌面云技术与产业白皮书(2023 年)53 基于飞腾腾珑E2000Q,深信服、长城、汉为、云涌、卓怡恒通、亿道、中科网威推出了VDI云终端产品。3、IDV、VOI终端生态 基于飞腾腾锐D2000、FT-2000/4的普通台式机终端、瘦客户机均可支持。(三)(三)视频编码卡视频编码卡 在云桌面视频方面,镕铭微电子Codensity T408(T408-AIC)及涌现科技的Seirios-P1VPU编码卡完成飞腾的适配。二者单模块可达4K60fps或 8x 1080p30fps编/解码,有效降低服务器芯片计算资源,可支持更多虚拟桌面运行。(四)(四)GPU透传及透传及3D加速加速 飞腾的某生态伙伴的信创安全云桌面系统基于自主云桌面显示控制协议,可提供对基于飞腾腾云S2500芯片的宿主服务器上的云桌面提供 GPU 直通虚拟化管理,使云桌面具有与同等配置的物理图形PC工作站相近的3D图形图像显示计算处理性能。方案价值方案价值(1)飞腾云桌面服务器及终端芯片产品,符合信创要求、安全合规且供应链稳定。其基于Arm V8指令集授权100%自主设计,杜绝后门;支持我国的商密SM2/3/4算法、支持PSPA1.0。飞腾也是国产CPU国家队和排头兵,可支撑国家信息安全和重要工业安全。(2)飞腾云桌面服务器及终端芯片产品可支持高性能云桌面使用需求。飞腾腾云S2500及FT2000 /64兼容 ARM v8 虚拟化体系结构、支持业界主流的 KVM 虚拟机。假定单虚拟桌面配置为2C/8G内存,飞腾腾云S2500、FT2000 /64单路服务器可以同时支持30-40路虚拟桌面运行。终端方面E2000Q支持2K30fps硬件解码。可释放CPU算力约70%,提升了视频解码性能。可用于云桌面客户端软件、开源chrome浏览器(如教育课件播放)视频解码优化。同一路1080P视频解码CPU资源占用统计(一路1080P视频解码),CPU软件解码占用一个CPU core77.2%;VPU硬件解码占用一个CPU core 22.8%,CPU大幅卸载。(3)基于飞腾产品的云桌面软件硬件生态繁荣。从云桌面生态方面到服务器、编码卡、GPU卡产品方面,均有大量生态伙伴基于飞腾适配。可以为客户提供更多方案选择。云岫科技多云融合完全解决方案云岫科技多云融合完全解决方案 应用背景应用背景 云岫信息科技有限公司(简称“云岫科技”),是国家高新技术企业,专心研究应用及桌面虚拟化、人工智能、大数据三大核心技术,专注于企业移动化转型和云计算产品的研发,桌面云技术与产业白皮书(2023 年)54 在该领域具有深厚的经验;依托渠道合作,云岫科技自研产品行销海内外,部分产品已部署于英国、德国、罗马尼亚、俄罗斯、土耳其、埃及、印度、日本、巴西、墨西哥等国家和地区的数据中心,服务全球客户。拥有一支高素质的研发团队和专业化的服务团队,100%以上员工拥有本科以上学历。桌面云已成为一种强大且灵活的IT解决方案,在中国推行有15年之久,不同品牌的产品百花齐放,不少客户先后启用多家产品解决方案。桌面云推广过程中,也遇到不少现实问题:客户有多套云桌面而无法统一访问多套异构桌面云架构,云桌面不适用移动开发和嵌入式开发场景,License授权共享和节约使用需求,用户行为审计能力不足;大规模桌面云、异构桌面云的监控和运维问题。具体表现在:存在多套异构桌面云架构,无法统一存在多套异构桌面云架构,无法统一视图展示和管理视图展示和管理 企业存在多套异构桌面云架构,每套桌面云都拥有自己独立的资源池,无法进行整合和共享,缺乏一个统一的桌面云门户。1)没有)没有跨平台的桌面跨平台的桌面云云客户端客户端 由于存在Web安全漏洞,企业可能需要跨平台的桌面客户端来提供更安全可靠的服务,以保护用户数据和防止潜在的网络攻击。2)五花八门的认证方式)五花八门的认证方式 桌面云普遍跟AD紧密相关,个别基于数据库认证,而用户IT已经多年形成了统一的身份认证系统、单点登录系统,为上桌面云而新建一套认证系统并不符合用户需求,长期困扰上云的客户决策。3)无法)无法对账号异常进行告警及阻断对账号异常进行告警及阻断 此外,即使用户意识到账号异常活动,但缺乏相应的告警机制和阻断措施,也无法及时采取应对行动,进一步加剧了账号安全性的不足。4)没有用户自助没有用户自助服务服务的功能的功能 在日常使用桌面云系统中,用户可能会遇到一些简单的故障或问题,例如注销用户会话,重启虚机等。然而,一般的流程是用户需要通过联系管理人员来解决这些问题,这往往需要等待、排队、沟通等步骤,不仅耗费用户的时间和精力,同时也给维护部门带来了压力和负担。5)异构桌面云、不同版本的桌面的集中管理)异构桌面云、不同版本的桌面的集中管理 同个品牌的云桌面,建立多个Farm,或者先后开建多套不同品牌的云桌面系统,此类案例比比皆是。如何统一管理这些异构的虚拟机和云桌面资源,真正实现“云”的按需使用、用之不完的能力,是客户关心的一个关键话题。云桌面不适用移动云桌面不适用移动APP开发和嵌入式开发场景开发和嵌入式开发场景 桌面云技术与产业白皮书(2023 年)55 目前在各个企业客户,只要是手机真机调试、嵌入式开发,便很难上云桌面。移动化开发、嵌入式开发,通常需要对接手机真机、嵌入式开发板,需要频繁的向设备烧录。云桌面虽然可以将设备映射进去,但是烧录成功率很低,真机调试不方便。因此,客户对于手机APP开发和嵌入式开发,通常都还是本地PC开发,但是容易造成数据泄漏,一般只能通过签订保密协议、设置门禁、摄像头等方式来监督和威慑。没有智能运维监控系统没有智能运维监控系统 桌面云系统是一个跨越多层次技术的复杂系统,其中包括:服务器虚拟化技术、操作系统技术(Windows、Linux、Mac OS)、网络技术、虚拟化远程传输协议、桌面即应用虚拟化技术、数据库技术、如此多方面多层次技术的综合运用,对运维人员的培训和养成提出很高的要求,特别是企业内部拥有多套异构桌面云系统的情况,因此存在系统运维水平的瓶颈难以克服。由此需要有一整套主动智能的、兼容多套异构桌面云、拥有人工智能技术的解决方案,帮助管理员进行系统监控、故障分析、数据自动汇总、系统调整规划等。审计软件不支持录音、行为分析不够智能审计软件不支持录音、行为分析不够智能 在桌面云运维管理中,安全事件发生后,我们常常只能依赖有限的系统日志来尝试找出问题的根本原因,而无法真正还原桌面操作的画面和桌面音视频。这使得我们在解决问题时面临困难,同时也无法对责任进行明确追究。特别是在桌面云被广泛用于远程办公的情况下,无法有效监控远程接入用户的操作行为更是一大隐忧。当前市场上虽然已经有少数厂商提供录屏审计产品,但仍存在不足:不支持录音取证,不支持国产新创桌面操作系统,视频文件大且不方便检索,没有任何人工智能的能力;用户户行为监控,缺乏智能,跟应用绑定太深。效率分析效率分析停留在桌管软件时代、未结合桌面云特色停留在桌管软件时代、未结合桌面云特色 桌面云是一个多人协同工作平台,现有的桌面云系统往往无法对用户的工作效率进行实时监控和分析,这会使管理人员难以及时了解用户的工作情况、工作效率。解决方案解决方案 为了满足统一访问多套异构桌面云架构、多因素认证方式、账号异常告警及阻断、移动开发辅助、智能监控运维、录屏及工作效率分析等需求,深信服与云岫科技合作,推出了云岫科技多云融合完全解决方案。本方案中,云岫科技多云融合产品与桌面云相结合,能够实现高效的桌面云使用和管理、提升办公效率和数据安全性、提示移动开发效率、提升开发环境安全性,并且能够进一步针对用户的工作效率进行一定分析。桌面云技术与产业白皮书(2023 年)56 云岫科技多云融合完全解决方案,主要包括云岫多云桌面融合、云桌面移动化和嵌入式开发、桌面云智能监控运维、音视频审计及用户行为智能分析等多套产品组成。异构云异构云桌面融合解决方案桌面融合解决方案 在过去的15年时间里,云桌面市场一直存在多个品牌的厂商,不少客户先后上线了不同的桌面虚拟化平台,结果造成了多套门户入口,后台管理复杂、运维复杂。为此,客户期望有统一的针对异构云桌面的解决方案,能够兼容Citrix,Huawei,Sangfor,VMWare等品牌。为了满足客户的需求,深信服与云岫科技合作,推出了多云桌面融合解决方案。涵盖了桌面云资源的统一门户、用户自助处理、多因素认证、安全审计及用户行为分析等多方向关键功能。通过该解决方案,企业可以实现高效的多云桌面使用和管理,提升办公效率和数据安全性。多云多云统一桌面云门户统一桌面云门户(UniPortal)支持多套异构桌面云统一入口访问,兼容Citrix 5.0及以后所有版本虚拟桌面和应用、兼容Huawei FC/FA 6.5及以后版本、兼容Sangfor aDesk 最新版本,集中访问各个桌面云资源,提高用户访问资源的效率。提供了可定制的企业形象门户,企业可以根据自身需求和品牌形象设计门户页面,并在门户上发布公告和消息通知,方便与员工及时沟通和交流。不依赖AD的认证方式:微信/企业微信扫码,企业单点登录,更有人脸识别认证,提高账号的安全性。同时还提供异常账号告警和阻断功能,及时发现和处理账号异常情况。提供用户自助会话管理和电源管理功能,用户可以根据自身需求进行桌面云相关操作,如重置密码、注销会话、重启虚机等,减轻管理员的工作负担,提高用户满意度。丰富的安全管理能力:内外网、黑白名单、授权、终端检测、系统消息等。提供安全日志:个人轨迹记录个人用户在Portal平台的操作记录,方便用户对自己操作进行跟踪记录,出现异常可以及时核查。系统日志记录所有用户Portal平台的操作记录,方便管理员进行审查与统计。桌面云技术与产业白皮书(2023 年)57 跨平台跨平台多云统一多云统一桌面客户端桌面客户端(UDT)支持多套异构桌面云统一入口访问,兼容Citrix 5.0及以后所有版本虚拟桌面和应用、兼容Huawei FC/FA 6.5及以后版本、兼容Sangfor aDesk 最新版本,集中访问各个桌面云资源,提高用户访问资源的效率。支持跨平台的桌面客户端(兼容X86和ARM处理器(树莓派)、兼容Windows、Mac和Linux操作系统),用户可以在不同的设备和操作系统上访问桌面云,并享受一致的使用体验,提高灵活性和便利性。支持工作空间(桌面,应用,自助服务)、文档上传下载及记录、本地环境监测、环境监测数据上传、使用帮助FAQ,知识库,升级、本地终端信息、支持不依赖AD的认证方式:微信/企业微信扫码,企业单点登录,更有人脸识别认证,提高账号的安全性。支持短信和OTP等双因子、三因子安全认证;客户端方式屏蔽一切安防漏洞;后台资源统一管理(后台资源统一管理(Daas)同时对接多种异构桌面和应用虚拟化:1.兼容Citrix 5.0及以后所有版本虚拟桌面和应用;2.兼容Huawei FC/FA 6.5及以后版本;3.兼容Sangfor aDesk 最新版本 4.即将兼容VMWare View桌面 同时对接多种异构服务器虚拟化:1.兼容Citrix XenServer,VMWare ESXi,Huawei FC 2.兼容Sangfor VMP/HCI 支持多租户管理,每个租户只能看到所属的资源池,并根据权限级别做管理;资源管理:资源池创建,支持流模式,链接克隆池模式,桌面云技术与产业白皮书(2023 年)58 资源分配:自动分配、手动分配(管多Farm)、HR联动分配、项目组分配、工单联动分配 工单申请(申请、变更等)、审批分配 会话管理:断开、注销、关机、强制关机、重启、强制重启 产品管理:产品上架、下架,产品分配,资源同步、产品定价、产品使用分析、库存管理 智能规划、自动启动和弹性扩展 生命周期管理:过期提醒、过期时间到,定期重启、空会话重启、未注册重启;帐号回收、资源回收、数据回收;云桌面移动化和嵌入式开发解决方案云桌面移动化和嵌入式开发解决方案 目前对于移动APP开发和嵌入式开发,有四个选项:#方案描述方案描述 问题问题 选项 1 本地 PC 开发、烧录 安全漏洞较多 不支持远程开发、不能灵活开发 选项 2 每个区域就近部署虚拟桌面 不是每个区域都有硬件资源 扩展性差 选项 3 云桌面开发;安全软件检测 文件摆渡(从研发桌面传到本地 PC);PC 本地烧录;步骤繁琐、动作不连贯 云岫 AV 云岫 DSC 桌面云技术与产业白皮书(2023 年)59 选项 4 创新的 MDW 技术:-云桌面开发、调试;-云桌面触发终端进行烧录 无 云岫 MDW“选项4”是云岫科技率先提出和实现的“移动开发辅助软件”(Mobile Device Writer,简写MDW)方案,将移动APP开发、嵌入式开发锁定在云桌面,数据高速传输,数据不落地、可审计;支持云端调试;成功率100%;该方案中,用户PC端下载和烧录的文件,后台管理员可事后审计 数据保险箱-可查看日志,显示用户在“什么时间、安装了什么安装包,成功还是失败”。-文档被锁在安全保险箱,支持以应用虚拟化方式在线打开文档,数据不落地。桌面云智能监控运维方案桌面云智能监控运维方案 桌面云运维管理员的日常工作一般有:日常运维、故障处理、数据分析、系统调整规划等等,目前技术难度大、技术手段缺乏,主要靠手工处理,存在被动处理故障、故障处理效率低、用户体验无法感知、业务数据收集与分析困难等等问题,导致系统运转效率难以提高,用户满意度低,大规模使用推广难以执行。在数字化转型的时代,获取和存储专业、全面、细致的桌面云运行数据,是高效管理和使用桌面云系统的重要基础。通过CenterView系统,可以实现:异构桌面云兼容性:异构桌面云兼容性:通过部署CenterView系统,支持监控及运维企业内部多套异构的桌面云系统,如Citrix、Huawei FC/FA、Sangfor aDesk等。拥有人工智能专利技术的智能故障定位拥有人工智能专利技术的智能故障定位:通过预设逻辑分析语句确定存在的故障集合,所述故障集合中包含有全部存在的故障;获取故障知识图谱,所述故障知识图谱包含各个故障与对应的故障根因的关联关系;根据所述故障知识图谱对应的根因拓扑图,确定所述故障桌面云技术与产业白皮书(2023 年)60 集合中每个故障对应的故障根因;根据所述故障根因及预设算法,确定出所述故障对应关键节点,以使得及时根据所述关键节点进行故障处理 系统监控:系统监控:通过实时监测和分析桌面云系统的各项指标,包括资源利用率、性能表现和安全状态等,及时发现问题,保障桌面云环境稳定和高效运行。主动巡检:主动巡检:拥有自动化检测功能,实时监测服务器、数据库和应用程序的运行状况。实时告警:实时告警:通过监测系统状态、性能指标以及安全事件等,一旦发现异常情况或潜在风险,系统会立即触发告警并发送通知给管理员,以便管理员能够迅速采取行动来解决问题。多种辅助多种辅助功能功能:通过部署CenterView系统,拥有多种辅助功能,深入分析用户或架构的问题,从而更好地解决和优化系统。案例知识库案例知识库:案例知识库不仅包括问题的描述和解决方法,还涵盖了解决问题所使用的工具、技术和步骤等详细信息。管理员和其他用户可以通过案例知识库来查找并获取相关的解决方案,从而快速解决类似问题,提高工作效率和减少重复劳动。丰富的报表功能:丰富的报表功能:拥有丰富的报表功能,包括用户登录记录,Agent运行状态等多种报表,满足管理员日常工作需求。音视频审计及用户行为智能分析解决方案(音视频审计及用户行为智能分析解决方案(AuditView)针对当前市场上的录屏审计和行为分析产品的诸多不足,深信服与云岫科技合作,推出了带智能的桌面云操作行为审计方案。本方案中,录音、录屏审计与桌面云相结合,能够有效提高开发环境安全性,并且能够进一步针对用户的工作效率进行准确分析。支持统信UOS及麒麟等信创系统。系统支持AD和非AD两种桌面。系统根据策略自动监控记录桌面云内重点关注的用户的操作行为,并通过独有的人工智能技术,实现云桌面内用户的风险行为和异常行为监控、行为审计与追溯。桌面云技术与产业白皮书(2023 年)61 录音与录屏、人工智能视频检索:录音与录屏、人工智能视频检索:通过部署在虚拟桌面上的客户端程序,实现桌面录屏、录音,捕获键盘、鼠标以及应用窗体事件的功能,占用资源少,产生的文件小,视频播放平滑。通过视频识别人工智能专利技术,支持基于文本或图片检索定位视频。进一步对视频进行标签化管理,以便进行文字检索和在线播放;同时为用户行为和工作效率分析提供可靠的数据依据。AI赋能的行为审计及阻断:赋能的行为审计及阻断:AuditView能够实时追踪和记录用户在系统中的操作行为,收集详细的日志信息;通过独有的视频格式及视频识别人工智能技术,可以近乎实时识别特定的危险行为(如通过IM软件往外发送代码)和输入的命令行。行为告警和报表分析工具帮助我们及时发现异常行为并生成详尽的报表,而桌面行为定位回放及监控工具可以实时监测和记录用户的桌面行为。这些工具的应用使我们能够深入了解用户行为、保障系统安全,并优化用户体验和界面。应用授权分析与应用授权分析与阻断:阻断:AuditView产品开创性提出“授权分析与阻断”功能,节约昂贵软件的License:系统自动监控专门应用的空闲时长;空闲时长超出设定时间的,保存文件并关断应用,从而释放License 与虚拟桌面的空闲会话策略无关,释放特定软件许可,并不需要注销整个会话桌面云技术与产业白皮书(2023 年)62 业务相关的业务相关的效率分析效率分析:AuditView基于虚拟桌面会话状态,通过岗位关联应用,通过应用的实际被操作时间得出每个个体用户的工作时长;这与当前包括桌管软件在内的一些“效率分析”算法有本质不同。真正体现出了用户的有效工作时长,为进一步判断用户效率提供了数字依据,这为管理者优化企业管理制度和考核员工工作量提供客观的决策依据和参考。AuditView支持可视化图表展现用户工作时长、了解员工的工作饱和情况,通过工作效率图表,可以查看指定时间内各部门整体的工作效率,并进行个体用户的深入分析。支持关注特定用户使用时长并通过消息形式主动通知管理者。数据分析结果支持以邮件等多种方式主动告警通知管理者。同时,也支持提供对外API接口,供专业人事系统调用和回放 方案价值方案价值 在桌面云内部署云岫科技多云融合完全解决方案,可以满足多桌面融合管理、解决了长期以来原生APP开发上云困难、多云桌面全方面运维监控、行为审计及员工工作效率分析的需求,让员工创造更大的价值。支持信创支持信创系统系统:产品支持信创虚拟化系统,包括统信UOS、麒麟等。提升提升用户体验:用户体验:兼容多种桌面云架构,如Citrix、Huawei FC/FA、Sangfor aDesk等,通过统一门户访问,用户可以方便地访问不同桌面云,并享受统一的用户体验。无论是使用何种桌面云架构,用户都能够获得一致的操作界面和便捷的访问方式,提高用户体验和操作的便捷性。加强安全性和风险控制:加强安全性和风险控制:采用多种安全措施,如人脸识别人脸识别认证方式、异常账号告警和阻断功能等,有效提高账号的安全性。通过引入人脸识别认证,确保账号的身份验证更加可靠;通过异常账号告警和阻断功能,及时发现并处理异常账号行为。此外,系统还拥有系统安全桌面云技术与产业白皮书(2023 年)63 审计功能,能够实时监控和记录用户的操作行为,以满足合规性要求,保护系统和数据的安全。这些安全性和风险控制的措施有助于增强整个系统的安全性,为用户提供更加可信赖的服务。跨平台的桌面客户端:跨平台的桌面客户端:UDT客户端支持web门户所有功能,兼容X86和ARM处理器,以及Windows、Mac和Linux操作系统,实现跨平台的桌面云服务。提高资源利用率:提高资源利用率:该方案通过自动分配/回收“应用和桌面”资源给用户,优化资源利用率,降低成本。同时具备自主服务和流程自动化功能,大大减轻了管理员的工作负担,提高了工作效率。实现原生实现原生APP开发和调试的便利性与安全保障:开发和调试的便利性与安全保障:解决了长期以来原生APP开发上云的困难,提供了远程开发和调试的便利性。同时也可以进行嵌入式开发,将调试包下发到开发板进行仿真调试。此外,使用PC作为通道,在数据不落地的情况下支持远程开发,并且提供事后审计的功能。兼容Sangfor aDesk虚拟化桌面。因此,该产品解决了开发效率、真机调试、核心代码安全防护等问题,让远程的原生APP开发和调试成为现实,并带来巨大的价值。移动开发模块与虚拟桌面相结合,能够保证移动开发各项工作的顺利开展,保障开发安全和开发效率,保障疫情情况下的远程移动化开发。提升提升IT维护效率:维护效率:拥有多套异构桌面云系统的集中管理和自动隔离功能,管理员无需登录多个管理平台,可以一站式处理多个桌面云系统。异常应用/桌面自动隔离能够自动将超出设定阈值的机器置于维护模式,保证系统稳定性。智能规划工具从用户使用虚拟桌面的过程中占用的CPU、内存、磁盘性能、网络性能进行数据统计,给出资源规划建议。这样可以节省管理员的时间和精力,提高故障处理效率。提升故障处理效率:提升故障处理效率:一种基于人工智能人工智能专利的故障根因推断定位方法,通过预设逻辑分析语句确定存在的故障集合,所述故障集合中包含有全部存在的故障;获取故障知识图谱,所述故障知识图谱包含各个故障与对应的故障根因的关联关系;根据所述故障知识图谱对应的根因拓扑图,确定所述故障集合中每个故障对应的故障根因;根据所述故障根因及预设算法,确定出所述故障对应关键节点,以使得及时根据所述关键节点进行故障处理。实时监控与故障发现:实时监控与故障发现:系统支持定时拨测、模拟用户访问和应用打开过程,帮助管理员及时了解系统的可用性状态。同时,系统能够通过多路径告知管理员系统异常信息,管理员可以第一时间收到故障信息并及时处理。这种实时监控和故障发现的能力可以减少故障对业务的影响,并提高故障处理的效率。此外,系统还提供经验共享的功能,通过案例知识库和管理员的经验共享,提升维护知识,进一步提高问题处理效率。录屏录屏审计能力:审计能力:通过录屏和事件捕获,企业可以全面了解员工在虚拟桌面上的音频、应用操作、键盘鼠标操作等。通过人工智能人工智能专利技术进行关联匹配和标签化管理,企业可以轻松地检索和回放特定时间段内的行为记录。桌面云技术与产业白皮书(2023 年)64 全面了解员工的工作行为:全面了解员工的工作行为:通过行为审计与追溯技术,企业能够实时监控员工在虚拟桌面上的操作情况,包括应用使用、键盘鼠标操作等。这种全面了解员工的工作行为有助于发现潜在的工作瓶颈和低效操作。通过及时发现和解决问题,可以提高员工的工作效率和质量,进一步提升整个团队的绩效。AI赋能的行为审计及阻断赋能的行为审计及阻断:实时追踪和记录用户在系统中的操作行为,并收集详细的日志信息。应用空闲监视能力能够监控系统的空闲状态,进而自动关闭不必要的应用程序,以提高系统效率和节省能源。同时通过操作安全分析能力,我们可以对用户的操作进行安全性评估。行为告警和报表分析工具帮助我们及时发现异常行为并生成详尽的报表,而桌面行为定位回放及监控工具可以实时监测和记录用户的桌面行为。海光桌面虚拟化解决方案海光桌面虚拟化解决方案 应用背景应用背景 海光信息技术股份有限公司主要从事高端处理器、加速器等计算芯片产品和系统的研究、开发,目标成为世界一流的芯片企业,为数字中国提供核心计算引擎。作为国产先进微处理器产业的推动者,海光信息以务实的态度、创新的理念、先进的技术和可靠的产品,致力于促进我国信息产业核心竞争力的提升。海光处理器兼容市场主流的x86指令集,具有成熟而丰富的应用生态环境海光处理器内置专用安全硬件,支持多种先进的漏洞防御技术,内置高性能的国密协处理器和密码指令集,支持可信计算的国内、国际标准,支持领先的机密计算技术,能够进行主动安全防御,通过了相关权威机构的安全测试,满足信息安全、数据要素安全流通的发展需求。面向桌面云、企业计算、云计算数据中心、大数据分析、人工智能、边缘计算等众多领域,海光信息提供了多种形态的海光处理器芯片,满足互联网、电信、金融、交通、能源、中小企业等行业的广泛应用需求。解决方案解决方案 海光公司致力于成为中国最重要的计算机芯片设计企业,为中国信息产业的强盛提供核心计算引警。通过几年的努力,海光先后设计并量产了完全兼容x86生态的处理器产品,达到了国际主流CPU同等技术水平。海光处理器提供从4到32物理核心,8到64线程,最多128PCIe扩展,8通道内存支持,以及针对虚拟机性能优化的大容量缓存设计,能够为桌面云、云计算、大数推分析、分布式云存储、Web应用,人工智能、数据库等众多场景,提供强劲计算能力。基于海光芯片能够为桌面云系统提供云平台集群、云桌面集群等,助理桌面云解决方案的高效、安全实施和部署。桌面云技术与产业白皮书(2023 年)65 基于海光CPU的桌面云系统 海光处理器能够为桌面云提供内生安全属性,助力桌面云实现安全特性。海光处理器具有高性能和高安全性的特点,能够给各种行业应用提供足够的算力,同时保证运算过程和运算结果安全可信。海光处理器在设计上采用权限划分、加密、隔离等技术来保证安全性。处理器内各个模块的安全属性不同,有些模块用来完成通用计算,安全级别低,有些模块需要访问密钥等敏感数据,安全级别高。在处理器设计时,根据不同的安全属性在处理器内部划分不同的安全域,使各个安全域的模块能够协同工作但是不能跨域访问,保证敏感数据的安全性。海光处理器内置安全处理器(Platform Secure Processor,PSP),支持安全启动、国密加速、内存加密、机密计算、可信计算等安全技术。综合选用这些技术,可以实现从底层固件到上层应用软件的整体安全。安全处理器:安全处理器:桌面云技术可使用海光CPU的安全处理器提升安全性。海光处理器中的C86核心用来进行通用计算,安全处理器用来进行安全管理。安全处理器比C86核心具有更高的安全权限,可以访问芯片密钥等安全资源,C86核心不能访问这些安全资源。安全处理器有自己的ROM、RAM,能够访问系统中的内存和设备,芯片上电之后首先执行安全处理器的ROM代码,ROM代码执行完成后,加载执行存储器中的安全处理器固件,固件执行完成后,安全处理器激活C86核心开始运行,此后安全处理器运行固件,C86核心运行用户操作系统,两者同时运行。安全处理器具有更高的安全权限,用来实现芯片的安全管理。C86程序通过安全处理器固件提供的接口调用安全处理器实现的安全服务。安全启动:安全启动:桌面云技术可使用海光CPU的安全启动技术提升安全性。安全启动功能保证芯片上电桌面云技术与产业白皮书(2023 年)66 启动后运行的软件是合法的,非法的软件导致启动流程失败,芯片不能正常工作,以此来保证用户的程序运行在安全的软件环境中。海光处理器内置了固件验签公钥,固化的ROM代码使用此公钥验证被加载固件的签名,通过验证的固件使用BIOS厂商的公钥验证BIOS代码的签名,通过验证的BIOS代码使用操作系统厂商的公钥验证操作系统的签名,只有签名合法的软件才能被加载并执行,否则启动过程中止,保证了整个启动流程是安全的。国密加速:国密加速:桌面云技术可使用海光CPU的国密加速功能提升安全性。海光通过密码协处理器(CCP)和指令集(ISA)两种方式实现了国密算法。密码协处理器置于CPU内部,包含商用密码算法SM2、SM3、SM4和真随机数发生器(TRNG)。通过综合利用密码协处理器和密码指令集,可以有效提升国密加解密、签名验签、以及TLS、IPSec等密码协议的性能。支持OpenSSL、BabaSSL、DPDK、VPP等开源软件库。内存加密:内存加密:桌面云技术可使用海光内存加密功能保护用户的运行时数据。海光CPU支持实时加解密主机内存数据。海光CPU使用国密SM4算法加密主机系统内存。处理器写入数据至内存时,明文数据被加密后储存于内存中;处理器从内存读取数据时,密文数据实时解密后返回给处理器。实时加解密过程对操作系统和应用程序透明,引入的性能开销在1%以下。系统重启后随机再生成加密密钥,密钥安全性高。机密计算:机密计算:机密计算指利用处理器的可信执行环境保护计算机系统最终用户的数据安全,最终用户处于可信执行环境中的数据具有机密性和完整性。最终用户仅相信基于处理器自身创建的可信执行环境,除处理器本身外,主机操作系统,虚拟机管理器,系统管理员等被认为是不安全的实体,不需要被最终用户信任。在桌面云系统中,海光CPU可构建以安全加密虚拟机为基础的可信执行环境。安全加密虚拟机的cache和TLB等资源独立,与其他安全加密虚拟机和主机隔离。安全加密虚拟机支持启动镜像度量和运行时远程身份认证,度量和认证结果由处理器签名,主机操作系统和虚拟机管理无法伪造。安全加密虚拟机支持内存实时加解密,主机操作系统和虚拟机管理器无法获取,密钥由处理器随机生成并管理,永不外泄。在安全加密虚拟机保证了虚拟机数据机密性的基础上,更进一步保证了虚拟机数据的完整性,主机操作系统和虚拟机管理无法通过改写虚拟机嵌套页表对虚拟机实施重映射攻击。可信计算:可信计算:海光CPU支持原生可信,相比外置可信硬件模块,CPU内置的可信模块具有安全性高、使用成本低且更易用的优点。海光CPU同时内置国际和国内主流可信计算标准支持,支持TPM2.0,支持TCM2.0以及TPCM可信计算3.0体系架构。相比传统外置可信模块,海光CPU源生可信支持具有安全性、易用性及性能上的显著优势。在桌面云系统中,海光CPU可为桌桌面云技术与产业白皮书(2023 年)67 面云用户提供物理机、虚拟机级别的可信计算,提升系统安全性。方案价值方案价值 海光CPU的桌面云解决方案,为用户带来强劲算力的同时,具有如下方案价值:兼容性:兼容性:支持国产和国际主流Linux操作系统 支持多个版本的主流x86操作系统 全面兼容国内外关键云应用 支持国产和国际通用商用数据库 支持与国内外主要AI加速卡进行适配 支持主流AI厂商算法 安全性安全性:内置专用安全硬件,支持通用可信计算标准 构建具有主动防御能力的新一代可信计算平台 提供芯片级信任根,可解决各类潜在安全漏派 免疫“熔断漏洞”,修复了“幽灵漏断”麒麟软件银河麒麟操作系统桌面云解决方麒麟软件银河麒麟操作系统桌面云解决方案案 应用背景应用背景 麒麟软件有限公司(简称“麒麟软件”)是中国电子旗下科技企业,由天津麒麟信息技术有限公司和中标软件有限公司整合而成。麒麟软件主要面向通用和专用领域打造安全创新操作系统产品和相应解决方案,以安全可信操作系统技术为核心,现已形成桌面操作系统、服务器操作系统、智能终端操作系统、嵌入式操作系统、麒麟云、操作系统增值产品为代表的产品线。麒麟软件旗下品牌包括银河麒麟、中标麒麟、星光麒麟。麒麟操作系统能全面支持飞腾、鲲鹏、龙芯等主流国产CPU,在安全性、稳定性、易用性和系统整体性能等方面远超国内同类产品,实现国产操作系统的跨越式发展。目前,公司旗下产品已全面应用于党政、金融、交通、通信、能源、教育等重点行业,服务用户覆盖所有的中央部委、政府机关、地市党委。根据赛迪顾问统计,麒麟软件旗下操作系统产品连续12年位列中国Linux市场占有率第一名。应用场景一:为云桌面资源池和管理平台提供可靠稳定的安全底座应用场景一:为云桌面资源池和管理平台提供可靠稳定的安全底座 桌面云技术与产业白皮书(2023 年)68 麒麟软件旗下产品银河麒麟高级服务器操作系统V10为云桌面资源池和管理平台提供可靠性、安全性、高性能、高扩展性的服务器操作系统。该产品为依据CMMI5级标准研制的提供内生安全、虚拟化支持、国产平台深入优化、高性能、易管理的新一代自主服务器操作系统;同源支持飞腾、鲲鹏、龙芯、兆芯、海光、Intel/AMD架构的处理器,并对上百款的读写、存储、网络设备提供了驱动支持;可支撑构建大型数据中心服务器高可用集群、负载均衡集群、分布式集群文件系统、虚拟化应用和容器云平台等。应用场景二:为虚拟化层提供简单易用的安全虚拟桌面应用场景二:为虚拟化层提供简单易用的安全虚拟桌面 麒麟软件旗下产品银河麒麟桌面操作系统V10为虚拟化层提供适配国产软硬件平台并深入优化和创新的简单易用、稳定高效、安全创新的新一代图形化桌面操作系统。实现了同源支持飞腾、龙芯、申威、兆芯、海光、鲲鹏、海思麒麟等国产处理器平台和Intel/AMD等国际主流处理器平台;界面风格和交互设计全新升级,提供更好的硬件兼容性。系统融入更多企业级使用场景,增加多种触控手势和统一认证方式,自研应用和工具软件全面提升,让您的办公更加高效;注重移动设备协同,优化驱动管理,引入可信安全计算体系,封装系统级SDK,操作简便,上手快速。应用场景三:为终端提供按需定制的安全终端操作系统应用场景三:为终端提供按需定制的安全终端操作系统 麒麟软件旗下产品银河麒麟桌面操作系统V10和银河麒麟嵌入式操作系统V10提供面向桌面云场景终端设备的操作系统。其中银河麒麟嵌入式操作系统V10是基于银河麒麟桌面操作系统V10作为基线,继承了银河麒麟通用操作系统在安全创新、生态丰富方面的先进优势,具有嵌入式芯片兼容性广泛、生态丰富、轻量化系统设计、灵活定制开发等优点,可满足嵌入式场景对操作系统小型化、可靠性、安全性、实时性、互联性的需求。支持主流瘦客户机嵌入式CPU,搭载轻量化UKUI桌面,实现系统小型化,资源占用少,可灵活运行在2G内存 8G存储环境下,并具有多显示支持、视频硬解码、安全套件、定制文件系统、快速工厂批量安装、快速开机优化等功能。解决方案解决方案 管理平台解决方案:管理平台解决方案:以飞腾、鲲鹏、龙芯、兆芯、海光、Intel/AMD等主流处理器的服务器为硬件底层设备,承载银河麒麟高级服务器操作系统V10作为软件底层操作系统,搭载桌面云管理平台,为硬件层与平台层提供稳定、安全、可扩展、高性能的桥梁。桌面云技术与产业白皮书(2023 年)69 云桌面资源池解决方案:云桌面资源池解决方案:以飞腾、鲲鹏、龙芯、兆芯、海光、Intel/AMD等主流处理器的服务器为硬件底层设备,承载银河麒麟高级服务器操作系统V10作为软件底层操作系统,对虚拟化技术具有良好的支持;并通过虚拟化技术运行银河麒麟桌面操作系统V10作为虚拟化的操作系统,提供简单易用、生态丰富的图形化桌面,适用于企业级各种办公场景。云终端解决方案:云终端解决方案:根据终端硬件配置提供银河麒麟桌面操作系统V10或嵌入式操作系统V10作为软件底层操作系统,支持PC、瘦终端、胖终端、平板等设备,提供按需定制、简单易用、生态丰富的操作系统。桌面云技术与产业白皮书(2023 年)70 方案价值方案价值 服务器层面:服务器层面:为桌面云资源池和管理平台提供内生安全、虚拟化支持、国产平台深入优化、高性能、易管理的理的新一代自主服务器操作系统。同源优化支持自主同源优化支持自主CPUCPU,提供丰富的软硬件生态:,提供丰富的软硬件生态:同源构建支持六大平台,内核、核心库和桌面环境等所有组件基于同一套源代码构建,并面向各自主CPU及服务器整机进行了针对性优化适配,为不同平台的软硬件生态提供兼容一致的开发和运行接口,为管理员提供一致的运维管理体验。一体化内生本质安全,提供专业的安全防护:一体化内生本质安全,提供专业的安全防护:基于自主软硬件、密码技术的内核与应用一体化的内生本质安全体系:自研内核安全执行控制机制KYSEC、生物识别管理框架和安全管理工具,支持多策略融合的强制访问控制机制;支持国密算法SMx和可信计算TCM/TPCM、TPM2.0 等;达到GB/T20272第四级。虚拟化及云原生支持:虚拟化及云原生支持:优化支持 KVM、Docker、LXC 虚拟化,以及 Ceph、GlusterFS、OpenStack、k8s 等原生技术生态,实现对容器、虚拟化、云平台、大数据等云原生应用的良好支持。高可用性支持:高可用性支持:通过XFS文件系统、备份恢复、网卡绑定、硬件冗余等技术和配套磁盘心跳级高可用集群软件,实现主机系统和业务应用的高可用保护。国产平台功能和性能深入优化:国产平台功能和性能深入优化:针对不同自主CPU平台在内核安全、RAS 特性、IO性能、虚拟化和国产硬件(桥片、网卡、显卡、AI 卡、加速卡等)及驱动支持等方面优化增强。桌面层面:桌面层面:为终端和虚拟化桌面提供适配国产软硬件平台并深入优化和创新的简单易用、稳定高效、安全创新的新一代图形化桌面操作系统。主流硬件全面支持:主流硬件全面支持:与国内外主流CPU做了深入优化,充分发挥处理器性能。支持大多数基于国产处理器平台的整机,适配了市场上主流的打印机、扫描仪、高拍仪、摄像头、投影仪、指纹仪、读卡器、手写板等外设设备,满足绝大多数用户的外设使用需求,同时针对特殊场景,增加触摸屏和触控板的支持,通过不同手势进行操作。交互体验全面提升交互体验全面提升:大道至简,衍化至繁。遵循通用操作交互习惯,融入移动操作交互长处;采用卡片式设计模拟自然界中物体的层叠组合,还原事物原本的模样;轻质感、微渐变、圆角、毛玻璃效果的图标,赋予界面温度和亲和力。软件商店内容丰富:软件商店内容丰富:为用户提供内容丰富的图形化软件管理工具,通过搜索、下载、安装、更新、卸载进行软件应用的一站式管理。不仅可以快速搜索需要的软件,还可根据具体需求,通过商店的分类查找相关的软件。每款上架的软件都有详细的软件信息以供参考,可根据实际需要进行下载安装。桌面云技术与产业白皮书(2023 年)71 系统安全能力提升系统安全能力提升:通过安全中心对系统进行安全体检、账户保护、网络保护、病毒防护、应用保护与设备安全等;支持可信启动,通过指令流安全预检测技术试试检测系统安全,可发现未知漏洞发起的攻击。通过文件保护箱对特殊目录进行数据隔离与加密保护;通过日志查看器实现系统日志内容的分类显示和结构化解析。灵活定制灵活定制的终端:的终端:为瘦终端设备提供具有银河麒麟桌面操作系统V10特性的、系统轻量化、嵌入式芯片兼容性广泛、灵活定制的嵌入式操作系统,并具有多域隔离、功耗管理、掉电保护、实时性增强等特性。连用科技连用科技内容安全协同解决方内容安全协同解决方案案 应用背景应用背景 深圳连用科技有限公司成立于2008年,是国内非结构化数据管理的先行者,一直致力于为客户提供海量非结构化数据存储管理和安全协同应用的全融合、一体化、本地化、智能化的解决方案。产品应用行业遍及政企、金融、军工、能源电力、大型制造业、公检法、医疗、教育等。桌面云已经提供了良好的数据隔离、数据防拷贝、数据防泄漏功能,但数据是需要在流动中才能更好的创造价值,包括且不限于以下应用场景:生产数据借用,生产/业务系统导出的报表数据安全传输到办公网或者分发到营业网点;研发新编译版本测试,从研发网桌面云外发到测试环境的物理机;财务报告外部审计,从财经桌面云中外发到互联网域的PC;敏感数据跨隔离网络的流转,涉敏文件通过网闸进行安全流转;怎么样确保这些场景下的数据安全流转协同,既能符合法律法规和行业监管的要求,又能满足企业自身管理规范,让数据创造更大价值,是连用科技内容安全协同解决方案的建设目标。解决方案解决方案 为连用内容安全协同解决方案与深信服桌面云相结合,旨在为企业建立安全可信的内外部协作渠道,打造集个人生产力、团队协作和跨网数据流转的一体化协同平台。基于连用文件云海量数据安全存储、统一管理底座,拥有网间文件安全交换、文件邮件安全交换、办公云盘、团队协同空间、AI能力摆渡、微应用等多个能力,全面提升企业内容协作维度,满足企业数字化转型过程中内容管理的共享协同需求。桌面云技术与产业白皮书(2023 年)72 1、网间文件安全交换、网间文件安全交换 连用通过网间文件安全交换能力,为深信服桌面云构建了安全可信的文件流转管控渠道。基于对文件交换场景分析,以内、外网系统独立、网闸、细粒度的文件权限管控、敏感词检测和文件定级、动态水印、线上浏览编辑和防病毒等能力,确保文件交换的安全高效和可管、可控、可审计。使企业可以高效便捷地在内外网之间传输文件,无需担心数据泄露或被篡改的风险,构建安全可信的企业内部、外部内容共享协作渠道,让数据在流动中创造价值。2、网间、网间邮件邮件安全交换安全交换 连用的网间交换还能提供邮件安全交换能力,实现在隔离的虚拟桌面中也能安全的与外界进行邮件收发。支持对外发邮件进行内容检查,确保外发内容的安全合规;支持分级审批,根据内容敏感程度自动关联对应的审批流程;支持附件链方式,实现外发数据不落地。3、办公云盘办公云盘 同时为深信服桌面云提供了安全高效的办公云盘,通过归集企业内部分散的海量办公数据,集中存储,统一管控,并提供安全、可靠的内容数据全生命周期管理,有效防范数据丢失、勒索病毒攻击。拥有安全共享协同,在线预览编辑,智能化内容识别,多终端接桌面云技术与产业白皮书(2023 年)73 入等能力,让企业用户轻松实现移动办公,提升业务处理效率。还支持NAS挂载映射为本地虚拟盘,大大降低开发成本。4、团队协同平台团队协同平台 在提升桌面云用户项目内容协作和项目信息扁平化管理方面,支持以项目组队的形式进行内容协作,可汇聚项目相关的文件、邮件、第三方IM消息,并支持项目计划管理。集成企业微信后,协同空间管理员可将协同组和企业微信群进行关联,获取到相关群的聊天记录信息并进行内容归档管理。支持本地内容通过一键共享、一键交换、双向自动同步等能力,使项目协作更顺畅、内容更齐全,全面提升日常工作内容协同效率。5、AI能力摆渡能力摆渡 通过连用的网间安全交换能力,还能实现在虚拟桌面内网中,也能安全使用公网的AIGC能力(ChatGPT、百度文心一言等)。支持对提问内容进行安全监控、消息内容审计,在安全合规的前提下,协助客户快速获取信息和答案、提供数据智能分析和洞察能力,帮助客户进行智能决策、节省客户时间和精力、提升工作效率和降低成本。桌面云技术与产业白皮书(2023 年)74 6、微应用、微应用 为虚拟桌面用户提供低代码轻量级业务流程应用,可以自定义表单,自定流审批流程和任务,实现虚拟桌面针对文件的自定义审批协同功能,满足业务在各种复杂场景下,对文档数据进行流程管控的需求。方案价值方案价值 连用科技在企业内容管理软件领域深耕十余年,始终致力于数字化内容安全管理和协同平台的研发,并坚持以客户需求为先,通过对产品不断的打磨,其安全性、稳定性、可靠性和易用性完全满足客户多样化的数据管理需求。并通过与深信服桌面云方案的强强联合,帮助企业内外部数据安全合规高效的共享协同,让数据在流动中创造更大的价值。真正的安全隔离,支持网闸/光闸,实现隔离网络的数据安全流转。以项目组队的形式进行内容协作,业务处理效率将提升3倍以上。智能高效的传输能力,支持高速、增量、加密传输和断点续传,提升整体业务效率。数据自动分类分级及合规脱敏管理,让企业数据可管、可控、可审计,防止敏感信息泄露,确保数据安全。桌面云技术与产业白皮书(2023 年)75 便于企业全面掌控数据资产,支持决策和业务运营,提升企业核心竞争力。支持近百种格式文件在线浏览编辑,本地无需部署软件,审批/查看过程文件不落地,更安全,并降低软件购置成本。企业级病毒查杀能力,文件上传时自动扫描,避免受到勒索病毒侵害。泛云科技泛云科技 SimCloud 研发云解决方案研发云解决方案 应用背景应用背景 上海泛云信息科技有限公司简称“泛云科技”,长期致力于工业研发云计算平台的研发与实践。泛云科技依托企业计算资源计划(Enterprise Computing Resource Planning,简称ECRP)系列方法论,面向先进制造业的设计、仿真等数字化研发计算业务管理需求,专注淬炼SimCloud研发云计算平台管理软件及整体解决方案,可适配私有云、公共云、IaaS/SaaS混合云等多种基础架构场景,迄今已为百余家大中型企业、研究院所以及超级计算中心提供产品与服务,为中国先进制造业数字化转型打造高效、弹性、安全的算力引擎。数字化研发创新,是先进制造业、工程建造、勘测设计以及相关科研单位的竞争力源泉,更是“中国制造”向“中国智造”转型升级的核心驱动力之一。在智能制造时代,以CAD、CAE、EDA、CAM、BIM为代表的CAX类软件及相关计算设备正在被投入大量使用,必然形成种类繁多、规模可观的企业级计算资源,成为泛工业领域数字化创新工作中的重要生产工具。如何科学规范地进行软件资产购置规划与集约化管理?如何高效调度高端数字化生产工具,持续优化研发人员的工业计算体验,科学构建智慧创新协同管理体系?这些疑问已经成为中国制造业无法回避的重要课题。近年以来,不少企业正在尝试采用桌面云基础架构产品解决以上问题,但是在实践过程中往往遇到若干新难题:1)针对部分许可证资源紧张的软件工具,迫切需要合法合规的分时调度技术,并通过智能分析用户行为数据,指导企业科学增购软件许可证;2)针对某些重度三维设计软件,迫切需要简便快捷的资源模板化配置方法,并可在企业内部快速推广特定软件的最佳应用模式;3)针对某些静默计算型软件(如数值仿真、动画渲染等),迫切需要从桌面云基础架构中剥离,重定向至高性能计算基础架构,并构建生产数据联动机制;4)针对软件工具生产出来非结构化数据,迫切需要构建规范、统一的生产数据管理机制,并与第三方数据流程管理平台(如PDM、SPDM等)形成双向耦合的数据流通路;桌面云技术与产业白皮书(2023 年)76 针对以上新难题,泛云科技聚合桌面云基础架构、高性能计算调度系统以及工业软件许可证管控技术,统一构建弹性化、可扩展、自学习的企业计算资源管理组件,并可基于此组件发展差异化、跨领域、多焦点的流程协同管理应用,成功推出SimCloud研发云计算平台管理软件。SimCloud研发云可统一管理数字化研发相关的硬件、软件、数据以及知识,提供办公、设计、仿真等在线服务,充分融合本地化计算资源以及外部互联计算资源,围绕企业研发主体构建一个矩阵式智慧创新空间。解决方案解决方案 SimCloud研发云科学构建并实现计算资源统一调度策略及管理方法,可以覆盖研发过程中的交互类、计算类软件工具的全过程云端服务,亦可智能监控、统计并分析以软件许可证为代表的企业核心计算资源利用情况。如上图所示,SimCloud研发云平台可整合、调度、管理多种计算资源池:集群计算资源池 负责集成以CAE求解器为代表的计算类应用软件,并向用户提供并行/并发计算调度与管理服务;虚拟应用资源池 负责集成以CAD设计软件为代表的交互类应用软件,并向用户提供云端交互应用的调度与管理服务;智汇星云资源池 桌面云技术与产业白皮书(2023 年)77 负责提供流程协同类应用服务的统一入口,向用户提供数据、知识等高阶计算资源的调度与管理服务;应用许可资源池 负责聚合CAX软件相关的网络浮动型许可证,为计算、应用子平台提供软件授权支撑服务以及软件利用行为数据。高速存储资源池 负责储存CAX软件相关的非结构化数据及文件,为计算、应用子平台提供数据支撑服务,亦向用户提供个人数据私密级隔离及管控能力;企业云盘资源池 负责提供面向企业、部门或项目组的非结构化数据存储服务,可以在指定组织单元内实现非结构化数据的流通与共享。在与深信服桌面云产品的协作研发过程中,泛云科技专注于提升工业研发云平台管理能力,同时也注重兼容并蓄、竞合相长,持续丰富SimCloud产品的架构内容与功能特色,进一步强化了产品优势与创新能力:基础架构兼容性:以深信服桌面云为代表的国产IT基础架构技术发展迅猛,结合中国企业数字化转型工作的持续深入,IT基础架构多样性特征必然愈发显著,因此SimCloud研发云平台顺应这一发展趋势,采用“业务中间件 基础架构插件”的技术路线,广泛整合相关基础架构技术,从数字化研发业务的视角解构并重塑核心计算服务、监管及运维能力;资源服务完整性:企业级计算资源可以按操作模式划分为计算型和交互型,前者注重计算性能与稳定性,而后者则注重图形表现力与操作流畅度,SimCloud研发云平台是业内首个全面覆盖计算型与交互型计算资源服务能力的云计算架构管理平台。相较于传统的HPC调度平台、桌面云接入门户,SimCloud平台继承并发展了具有更加全面的服务能力、更加便捷的应用体验、更加科学的管控机制;服务秩序科学性:企业计算资源服务的秩序需求存在多样化、动态性、不均衡等明显特征,传统调度软件在企业级应用场景中呈现出异常脆弱的适应性,难以满足企业管理需求。SimCloud研发云平台利用业务中间件解构并转译企业计算资源服务秩序,利用基础架构插件控制计算资源物理调度逻辑,通过二者功能耦合,成功构建面向用户、项目组、部门、软件等业务对象的高效率、科学化服务体系;平台接口开放性:桌面云技术与产业白皮书(2023 年)78 现代化企业级IT系统都是为企业研发、生产工作提供信息化服务的,若计算资源服务平台长期游离于业务流程管理系统之外,必然引发项目资源匹配差、业务需求资源供应差异大、计算平台生产数据流失等严重问题。SimCloud研发云平台定位于企业研发流程管理体系之中的资源组件,为业务流程管理系统提供二次开发接口,帮助企业针对现有业务流程管理系统进行升级与扩展,全面兼容云基础架构与核心计算资源服务能力,从而实现从“计算资源服务”到“数据业务引擎”的顺利转型。方案价值方案价值 SimCloud研发云平台管理系统及相关解决方案完全依托于“企业计算资源计划”系统思想与方法论,在十余年的项目实践过程中已经为众多企业客户构建了科学规范的企业计算资源管理体系,充分验证了其在中国企业数字化转型进程中的独特价值,尤其突出表现在以下六个方面:整合性 SimCloud研发云平台对IT基础架构具备较为全面的整合能力,通过“软件定义基础架构”屏蔽底层IT技术细节特征并进行异构整合与统一,从资源应用的角度入手重新塑造计算资源功能视图,为企业计算业务提供整合性功能支持;高弹性 SimCloud研发云平台采用模块化设计方式,分类别、分层次、泛云化实现计算资源管理能力,覆盖企业计算资源的规划、建设、监控、维护、更新乃至废止等流程环节,为企业计算资源的管理工作提供高弹性业务支持;实时性 SimCloud研发云平台是整个企业的计算资源统一管理平台,全面反映企业计算资源的实时运行状态,及时预警计算资源的能力缺口、异常情况等重要实时信息,为企业计算资源的监管运维工作提供数字化驾驶舱监管能力;绩效性 SimCloud研发云平台在企业计算资源管理业务中引入最佳资源调度规范,形成一系列计算资源服务绩效指标,科学指导企业计算资源服务流程的持续优化,提升计算资源服务能力,为企业计算资源管理工作提供绩效量化评估工具;战略性 SimCloud研发云平台利用精益化管理理念精准解构企业计算资源管理对象及相关管理流程,是在数字化时代针对企业数字化生产要素的崭新审视与深度融合,是创新型企业在数字化运营工作中的不可或缺的战略性举措;桌面云技术与产业白皮书(2023 年)79 可持续发展 SimCloud研发云平台智能感知企业数字化研发业务的变化动态,推动高端计算资源的快速升级与迭代,同时为企业开展工业研发类APP的孵化、研究与推广提供了平台级支撑,可持续完善企业级知识软件工具族,进一步塑造企业自主技术品牌。统信软件统信统信软件统信 UOS 解决方案解决方案 应用背景应用背景 统信软件技术有限公司(简称:统信软件),成立于2019年,是中国操作系统的领创企业。统信软件以“打造操作系统创新生态,给世界更好的选择”为愿景,致力于研发安全稳定、智能易用的中国操作系统产品,在操作系统研发、行业定制、国际化、迁移适配、交互设计等多方面拥有深厚的技术积淀,现已形成桌面、服务器、智能终端等操作系统产品线,以及集中域管平台、企业级应用商店、“有”系列平台迁移软件等应用产品,能够满足不同用户和应用场景对操作系统产品与解决方案的广泛需求,其市场占有率及生态成熟度均位于行业前列。据第三方机构统计数据,统信UOS操作系统在桌面端持续保持市占率第一,在服务器端增速行业第一。截止到2023年9月,生态适配总数突破300万,统信UOS操作系统在政府,金融,运营商等关键行业部署数量超过500万套,服务于多个国家部委、地方政府以及中国移动、工商银行等行业头部企业,为千行百业数智化转型和数字经济建设,提供了坚实可信的底座支撑。国家相继出台一系列政策,布局核心技术创新,推动国产化操作系统及其创新生态建设。随即国内各大科研院校及企业对国产操作系统的研发开展技术攻关,并取得重大突破,使国产操作系统实现从“可用”向“好用易用”迈进。随着大数据、云计算、人工智能等新一代信息技术的发展,统信软件积极融入国产化操作系统的建设中,努力研发新一代操作系统,使其更人性化、智能化。2014年和2020年,微软分别正式停止了对WindowsXP和Windows7的服务,不再提供任何技术支持、软件更新、安全更新及漏洞修复,国内各领域网络空间均面临着潜在安全风险。在国产化替代建设任务中,统信软件持续加大研发投入力度,提升技术创新能力,不断提升桌面操作系统的性能与稳定性,使其与新一代信息技术进一步融合。统信软件积极拥抱开源,自主维护了deepin开源社区,并持续推进生态共建,通过自建适配中心并积极共建“联合生态共建理事会”、“同心生态联盟”等生态组织,共同推进生态全面发展。统信软件在服务范围上除面向党政军及关键行业大体量用户外,还面向中小型企业,提供专业的安全保障措施以及完善的技术支持服务。桌面云技术与产业白皮书(2023 年)80 解决方案产品概述解决方案产品概述 统信桌面操作系统V20基于Linux内核研发,同源异构支持全系列CPU架构,提供高效简洁的人机交互、美观易用的桌面应用与安全稳定的系统服务。在软件方面,系统提供近50款自研应用、第三方厂商应用以及众多开源社区原生应用,并兼容主流流版签和电子公文应用。在硬件方面,兼容众多整机厂商的主流终端设备,在外设方面,兼容主流的打印机、扫描仪、高拍仪、读卡器等。统信桌面操作系统V20基于丰富的软硬件生态和应用场景解决方案,为党政军以及金融、电力、能源、教育等关键行业提供信息化建设的基础平台以及项目支撑、平台应用、软件开发和系统定制等能力,完全满足各行业用户与个人消费者的办公、娱乐、生活以及个性化需求,体现了当今国产操作系统发展的前沿水平。全栈生态 在硬件层,统信桌面操作系统V20全面支持主流CPU架构和国产CPU平台,广泛兼容国产整机配件和外设。在软件层,统信桌面操作系统V20预装了近50款功能强大的自研软件,支持日常办公、系统管理、网络服务等多种场景开箱即用,并通过软件商店提供6.6万余款软件免费下载,满足用户丰富的个性化需求。此外,统信桌面操作系统V20提供与之搭配的多种解决方案产品,如集中域管平台、企业级应用商店、私有化更新管理平台、统信有应、统信有往、统信有来、统信有墨、云打印、云扫描、统信有乔、统信应用全栈等,支持定制开发、专有环境部署,全面支撑党政军以及金融、电力、能源、教育等关键行业用户的业务需求。桌面云技术与产业白皮书(2023 年)81 产品特性产品特性 智能易用智能易用 统信软件对国内用户的心智模型持续进行了大量的研究和探索,遵循科学和设计美学相结合的设计理念研发了统信桌面操作系统V20,统信软件对系统的各个模块及细节都进行了深度思考和交互优化,以保证用户在使用统信桌面操作系统V20时能够得到行云流水的操作体验。统信桌面操作系统V20的安装提供全中文图形操作引导界面,支持手动安装和全盘安装,用户只需根据安装提示进行简单操作即可快速完成系统安装。在Windows环境下,用户不必卸载原系统,即可通过体验工具快速试用统信桌面操作系统V20。统信桌面环境交互便捷为原则,提供了极简的交互逻辑和功能层级设计,打通多应用底层,深度融合,提供了帮助用户提高工作效率的强大功能,如:工作区功能支持用户为多任务创建不同桌面,实现快速切换;全文检索功能支持用户通过文本关键词快速查找文件位置;桌面智能助手支持用户通过语音指令快速调起其他应用完成网页搜索、查询天气、会议日程创建与提醒等操作,智能互通、便捷高效。统信桌面环境使用充满活力的动效设计和色彩风格给用户带来极致审美体验,极简的交互降低操作的复杂度,避免长期使用带来的审美疲劳。此外,统信桌面环境还支持用户高度自定义,可设置窗口特效模式、深浅色系统主题等,用户也可根据喜好随心选择各种风格的应用图标。安全稳定安全稳定 统信软件是国内信创领域首家通过等保2.0四级最新标准、商用密码产品认证的操作系统厂商,还是国内首家通过UEFI安全启动认证的厂商,用户无需关闭安全启动,也可以安装统信桌面操作系统V20。统信软件还打造了专业的系统安全漏洞管理机制,成立了统信安全应急响应中心(简称“USRC”),并部署了对外网站协助完成漏洞管理。USRC提供了漏洞在线提交、漏洞公布、漏洞查询、漏洞情报等功能。此外,统信软件拥有成熟的漏洞跟踪机制,除了紧跟上游社区漏洞修复方式外,统信软件专业安全团队会主动修复漏洞,并将修复后的升级包第一时间同步给用户,最大限度的减少用户因为漏洞而产生的损失。统信桌面操作系统V20基于长期维护的稳定版内核研发,定期合入上游的缺陷修复、安全漏洞修复、性能优化等补丁,同时与国产硬件、软件、外设生态进行了广泛适配,兼容17万余款上下游生态产品,确保系统能够满足不同类型业务的需要。统信桌面操作系统每个大版本具备11年产品生命周期,周期内提供功能更新、性能优化、桌面云技术与产业白皮书(2023 年)82 漏洞修复等服务支持,确保产品长时间稳定运行。统信桌面操作系统每个版本发布均经过LTP、Benchmark、SpecCPU、Nessus等工具严格测试和一系列高负载场景使用测试,确保在真实业务场景和复杂使用环境中依旧流畅、安全、稳定。自主创新自主创新 统信软件基于Linux内核采用同源异构技术打造创新的统信桌面操作系统V20,支持主流CPU架构(AMD64、ARM64、LoongArch、SW64、MIPS64等)和国产CPU平台(鲲鹏、飞腾、龙芯、海光、兆芯、申威、海思麒麟等)。统信桌面操作系统V20从内核、桌面环境到系统基础应用均使用开源技术自主研发,开放源代码超过600万行,不依赖任何国外商用软件,实现了核心技术和知识产权的自主创新。除此之外,统信软件还自主研发了近50款自研桌面应用,如应用商店、控制中心、系统监视器、终端等系统应用,浏览器、文档查看器、文本编辑器、下载器、邮箱等办公软件,音乐、影院、相机等娱乐应用,全部支持开箱即用。AMD 桌面云桌面云 vGPU 解决方案解决方案 应用背景应用背景 AMD 是高性能与自适应计算领域的领先企业,致力于提供优质的产品和服务,助力客户解决各种重大的挑战。我们的技术推动着数据中心、嵌入式系统、游戏和 PC 市场迈向未来。AMD 于 1969 年在硅谷创立,最初只有几十名员工,从那时起 AMD 便踏上创新之路,致力于引领半导体产品领域的最前沿。如今,AMD 已经成长为一家现代化的全球性企业,凭借先进技术和诸多突破性行业创新,树立现代计算新标杆。桌面云已经成为用户终端建设的主流方案和趋势,应用于3D设计场景能够实现设计图纸等数据防泄密、远程工作和集中运维。大部分传统2D云桌面的虚拟化方案完全基于CPU构建,鉴于CPU在并行计算方面的劣势,视频处理、图像渲染、3D建模等专用场景下CPU的占用率将一路飙升甚至达到满载水平,导致响应慢、延迟高、卡顿明显等用户诟病已久的问题,一系列短板局限了云桌面在各行业、场景的适用范围。传统解决方案中CPU职能过重的缺陷亟待解决,云桌面底座升级迫在眉睫。GPU发挥并行计算优势前景广阔。GPU(图形处理器)是一种专用的图形处理器,与CPU相比,GPU的优势主要体现在大规模并行计算领域,适用于处理类型相同且重复性较大的规模化任务。GPU作为CPU在图像领域的有利补充,能够高效协助CPU完成多重并行任务。GPU在诞生之初主要用于优化图形处理效率,随着数字化进程的深化,GPU的潜力正在被逐步挖掘,目前已应用于人工智能、自动驾驶、金融分析等领域。云桌面融合GPU将成为新业态。GPU在国内的大规模应用条件逐步成熟,在用户需求与技术革新的双轮驱动下,在现有云桌面方案中采纳GPU能够充分发挥其优势,显著提升图像、视频、渲染、浏览器等方面的处理效率,满足数字化场景下用户日益攀升的性能需求。可以预见,GPU技术的创新应用将全面提升云桌面竞争力,缩小云桌面与物理PC之间的体桌面云技术与产业白皮书(2023 年)83 验差异,驱动云桌面进入发展新阶段。解决方案解决方案 为满足专业设计的需求,深信服桌面云支持与AMD GPU结合构建桌面云显卡虚拟化方案。GPU虚拟化(vGPU)可帮助用户实现对物理GPU的资源切割,可以实现和物理GPU完全一致的功能,可支持OpenGL和DirectX标准及主流的3D设计类软件(如CAD、UG NX、Solidworks、ProE等),可满足用户对GPU在图形、计算机人工智能方面的需求,并且提供易管理、高性价比、安全有保障的设计云桌面。通过把vGPU软件部署到深信服桌面云超融合平台,从而实现超融合对GPU的虚拟化功能。深信服桌面云vGPU技术原理实现如下:目前,深信服vGPU桌面云3D设计解决方案可支持AMD V620显卡,搭配专用服务器,可以兼容常见的2D/3D图形设计软件,构建性价比高的显卡虚拟化解决方案。方案价值方案价值 最大化硬件效用:最大化硬件效用:带有图形界面的应用程序通常需要相关图形处理运算,如果没有GPU来协助CPU执行这些任务,CPU会消耗大量的计算资源导致系统变慢,响应时间变长,影响用户体验。在GPU的协助之下,CPU的负载将有效减轻,系统性能也将大幅提升。被解放出来的CPU算力,可用来支持更多的虚拟云桌面运行,从而减少硬件购买和维护成本。提升用户操作体验:提升用户操作体验:利用GPU加速技术,GPU云桌面可以支持更复杂的图形应用程序和3D模型等,适用范围更广。同时GPU云桌面具备更快的渲染速度、更好的图像质量和更流畅的运行效果,大大提升云桌面性能,能够全方位多维度提升用户体验,显著提高工作效率。桌面云技术与产业白皮书(2023 年)84 扩大应用适配范围:扩大应用适配范围:随着技术的进步,GPU已成为物理机的标准配置,众多软件厂商在开发时都假设硬件具有足够的图形支持能力,因此编写的软件可以通过GPU并行计算能力进一步提升用户体验,这使得传统CPU云桌面无法较好支持现代软件的运行。GPU云桌面的出现补齐了传统云桌面相对于PC没有GPU加速的短板,为云桌面加入了专业级别的图形处理能力,显著提高云桌面的图形性能。很多以前只能在物理PC上运行的软件也可以在GPU云桌面上流畅的运行,从而更好地满足了用户需求。Intel 超能云终端超能云终端解决方案解决方案 应用背景应用背景 英特尔(NASDAQ:INTC)作为行业引领者,创造改变世界的技术,推动全球进步并让生活丰富多彩。在摩尔定律的启迪下,我们不断致力于推进半导体设计与制造,帮助我们的客户应对最重大的挑战。通过将智能融入云、网络、边缘和各种计算设备,我们释放数据潜能,助力商业和社会变得更美好。随着各个业的业务复杂程度不断提,不同业对云终端也提出了更的要求,以往单的云终端解决案法完全满各类业的特殊应场景,因此云终端提供商需要整合各类技术案的优势,推出技术架构更加先进的云终端解决案,来满各各业对安全性、稳定性、集中管理性、可扩展性、兼容性和个性化配置的需求。解决方案解决方案 随着应场景和计算模式的多样化,云端与终端的计算能需要平衡分配。英特尔超能云终端解决案能够满云端管理和本地计算的要求,能够避免对络和云端服务器的过度依赖,启动暴或络中断,都不会对终端运作产影响。英特尔超能云终端解决案包含了IDV架构与TCI(Transparent Client Infrastructure)架构,兼顾了对终端性能、融合性、灵活性和稳定性的要求,并具备对复杂业务进管控的能,为客的不同应场景提供相匹配的本地计算,实现个性化的体验。桌面云技术与产业白皮书(2023 年)85 IDV可以利本地算降低对云端的依赖,同时在扩展性、稳定性、灵活性、和集中管理性等具备较优势。IDV可以实现智能桌的虚拟化,部署灵活且容易管理。通过将客端进虚拟化软件部署,轻松实现全集中管控,包括带外管理和个性化数据管理。同时还完美平衡了云端与本地计算,持操作系统和扩展应的灵活部署,便于对接标准的络存储与分布式存储。TCI透明终端架构是Intel的软件解决案,通过端到端的部署,在本地计算,集中管理、外设兼容性和账个性化配置等具备更优势。TCI可以满对透明终端的个性化需求,并提供丰富的外设体验。通过端到端的软件部署,可以实现灵活的集中管理,同时赋予终端原的本地计算能、离线操作和强的外设兼容性,进提供了与PC差别的个性化云计算体验。摆脱了硬件和络的束缚,可以在不同终端之间实现计算环境的灵活迁移。方案价值方案价值 超能云终端是基于云端管理、本地计算理念的新型云终端解决案,具备强的本地计算性能,同时在外设与软件兼容性、复杂的集中管理、个性化配置以及英特尔处理器持等具备很优势,为客的不同应场景提供相匹配的云端与本地计算,实现个性化的体验。企业在领导、运营模式、作资源、信息技术以及全位体验等领域的数字化转型进程不断推进,将对新型云终端解决案提出更的要求。国家“上云数赋智”政策,以及企业业务云化带来的IT架构升级,都推动了新型云终端市场的发展。此外,超能云终端迁移难度较低,在实现对企业终端设备利旧的同时,可以让获得等同于PC的应体验。具备终端算的超能云终端解决案可以覆盖更多的应场景,未来随着教育信息化与医疗信息化的全升级,超能云终端解决案在各个业将桌面云技术与产业白皮书(2023 年)86 迎来更加阔的前景。NVIDIA 桌面云桌面云 vGPU 解决方案解决方案 应用背景应用背景 英伟达(NVIDIA)是一家人工智能计算公司,成立于1993年。公司主要从事图形处理器(GPU)和人工智能(AI)计算技术的研发、设计和销售。英伟达的GPU产品广泛应用于游戏、专业可视化、数据中心和自动驾驶等领域,其AI计算平台则被广泛应用于机器学习、深度学习、自然语言处理等领域。桌面云已经成为用户终端建设的主流方案和趋势,应用于3D设计场景能够实现设计图纸等数据防泄密、远程工作和集中运维。传统2D云桌面无显卡支持,要运行DX和OpenGL的3D应用只能通过CPU模拟,从而经常面对性能低、兼容性差、色彩失真、CPU负载高等问题,无法满足图形加速等设计业务的要求。业务痛点业务痛点:显卡资源无法灵活调度显卡资源无法灵活调度 传统图形工作站显卡是单独存在于每台工作站上面,并且性能受限于单块显卡的最大性能。企业在进行设计时,不同的设计人员对资源的要求不一样,需要为他们购买不同显卡配置的图形工作站,这些工作站也都是专人专用,无法实现显卡的灵活调度与复用,导致显卡的资源利用率低。另外随着业务的发展,应用和图纸的变化,工作站资源不足(计算,内存,硬盘,显存)时,升级也不方便。设计图纸的安全无法保障设计图纸的安全无法保障 设计图纸是公司的核心机密信息,传统图形工作站在业务处理过程中会将敏感信息留存在本地硬盘,U盘拷贝、网络外发等行为会造成较大的信息泄密风险,难以满足对数据安全管控的要求。数据可靠性方案缺失,数据丢失风险高数据可靠性方案缺失,数据丢失风险高 随着PC逐步老化,难免会发生硬盘损坏、主机故障、勒索病毒等意外事件,如果图纸数据没有提前备份,那么硬盘文件将直接丢失或被加密,恢复难度高。同时,又因为这些信息散落在每台终端上,只能依靠员工主动备份,个人行为难以约束,极易造成办公资产的丢失。管理运维工作量大管理运维工作量大 图形工作站分散在各个设计团队中,难以进行统一管理维护,传统pc使用过程当中,经常出现软硬件问题,如系统崩溃、病毒感染、硬盘故障等,需要IT运维人员到现场进行排查桌面云技术与产业白皮书(2023 年)87 和维护,严重影响了工作效率。解决方案解决方案 为满足专业设计的需求,深信服与英伟达合作推出业内首款基于KVM的vGPU(Virtual GPU)显卡虚拟化方案。GPU虚拟化(vGPU)可帮助用户实现对物理GPU的资源切割,可以实现和物理GPU完全一致的功能,可支持OpenGL和DirectX标准及主流的3D设计类软件(如CAD、UG NX、Solidworks、ProE等),可满足用户对GPU在图形、计算机人工智能方面的需求,并且提供易管理、高性价比、安全有保障的设计云桌面。通过把vGPU软件部署到深信服桌面云超融合平台,从而实现超融合对GPU的虚拟化功能。深信服桌面云vGPU技术原理实现如下:目前,深信服vGPU桌面云3D设计解决方案可支持NVIDIA M10、M60、P40、T4、RTX6000、RTX8000、A16和A40等显卡,可以兼容Catia、UG NX、Solidworks、PTC Creo、AutoCAD、Maya、3DMAX等常见的2D/3D图形设计软件。桌面云技术与产业白皮书(2023 年)88 深信服vGPU桌面云解决方案广泛适用于汽车零部件、精密器件、电气设备等企业设计场景,以及设计院和研究院,同时也满足高校设计类专业、3D学生机房的桌面云建设需求。方案价值方案价值 深信服桌面云3D设计解决方案通过虚拟化层对服务器显卡资源进行分割,创建显卡资源池,根据需求分配显卡资源,进行资源动态调整,通过GPU资源可视化帮助企业信息部门作出更好的决策,实现更高的业务效率。GPU资源池化和可视化:资源池化和可视化:通过vGPU实现显卡资源池化,并且实现显卡虚拟化资源及授权在云桌面关机后自动释放,可以实现多用户共享GPU资源,降低用户投资成本。并且在使用过程中可以实时显示当前的显卡负载情况,通过业务负载可视化做到按需灵活分配,实现资源利用的最大化。同样,决策者也可以通过显卡资源的可视管理,来做出合理购买决策。提升用户体验:提升用户体验:深信服自研HEDC协议采用H264/H265编解码技术,通过调用NVENC来加速HEDC传输协议,这个机制不仅大幅提升用户体验和降低传输带宽,还可以有效降低CPU资源消耗,将有限的CPU资源用于业务软件,并可显著提升服务器承载密度。提升资源利用率:提升资源利用率:显卡虚拟化通过灵活的切割方式,让用户能够以更理想的方式和更高的灵活性提升资源利用率,对于企业设计场景,不同员工可以交替使用桌面,白天用于设计,晚上用于渲染,减少软件授权和硬件采购的成本,提高业务软件和设备的利用率。数据高安全:数据高安全:设计相关核心数据全部集中存储在后端服务器上,前端接入设备不存储任何业务数据。同时支持对USB接口进行统一的管控,可有效地保障数据的安全性,防止数据外泄。如果需要外发文件可通过系统自带的导出审计功能,既能满足外发功能需求,又能做到外发数据的事后可追溯。简化管理运维:简化管理运维:信息部门能够对数据中心内的所有设计用户的资源进行集中管理,提高设计桌面系统的部署与运维效率。IT运维人员无需前往各个部门,通过统一控制台就可实现远程桌面批量操作,如系统补丁升级、故障排查、桌面还原等。桌面云技术与产业白皮书(2023 年)89 桌面云典型应用场景桌面云典型应用场景 政府领域应用场景分析政府领域应用场景分析 政府领域背景政府领域背景 为提升政府各部门的协作能力和办事效率,国家通过政务信息化工程大力推进机关单位的电子政务建设,从而为公众提供高效的政府服务。近年各级政府的电子政务系统建设日趋完善,从最初的办公自动化逐步实现政务线上化和协同化,通过信息化的方式不断提升政府部门的办公效率。同时,国家对网络信息安全保护的重视程度不断加强,也相继出台了一系列的文件来规范电子政务的建设。随之而来的是业务应用环境越来越复杂(比如多级架构、多业务、多套网络、多种系统等)。所以,政务终端在使用过程中难免会遇到安全管理难度大、文件失密风险大、办公桌面繁杂等诸多困境,不符合政府对公文流转和业务系统的安全保密要求,需要优化现有模式,建立安全、便捷、灵活的政务桌面平台。桌面云在帮助政府完善电子政务系统建设的同时,桌面云解决方案可为用户提供基于物理隔离的内外网桌面云基础架构平台,可以有效保障系统的安全与稳定,保障敏感数据不外泄,提升设备安全可靠性,有效降低系统风险,缓解政府电子政务系统的运维压力。面临问题面临问题 路线选择问题。CPU主流路径有六条,操作系统主流路径选择有两种,选择哪种技术路线?是单技术路线还是双技术路线?交叉选择是否会有兼容性问题?是否会导致重复投资和成本的浪费?这些都是需要考虑的问题。数据安全问题。计算机的终端选择众多,本身也是分散在各处各地,如果未进行统一管控,那么任何一个点都存着数据丢失、数据泄露的安全隐患。政府需要经常与外部进行数据交互,数据的安全传输依然非常重要,一旦被非法人员获取,将造成重大的经济或名誉损失。成本效率问题。目前政府部分的业务系统还未完成业务改造,很多还是基于Win Intel的架构,导致当前阶段用户必须使用两台PC,一台使用PC在统信或麒麟环境下办公,另一台使用Windows电脑来承载传统业务系统。这种方式不仅效率低下,而且成本较高。终端运维复杂。自主创新终端缺乏有效的外部生态,各类管理软件缺失,导致自主创新终端管理工作复杂、效率低下。并且,由于短时间内Windows业务改造无法完成,双桌面的现状使得运维人员不得不同时运维两台PC,导致运维工作量倍增。桌面云技术与产业白皮书(2023 年)90 解决方案解决方案 桌面云方案可同时支持X86和ARM架构的服务器,并支持按需发布windows、统信、麒麟等操作系统的桌面,从而可同时满足在Windows操作系统上办公和在统信、麒麟操作系统上办公。同时,桌面云将办公应用及数据集中部署在后端数据中心,利用虚拟化技术提升桌面运维效率,并只将桌面图像交付给用户,网络中传输的仅仅是屏幕增量变化和指令信息,终端不会留存任何办公数据,从根本上保障了用户数据资产的安全性。该方案价值如下:技术创新:整个方案从服务器、终端、操作系统以及应用软件多个方面实现了自主创新,同时能兼容主流的各种国内外CPU和各类操作系统,大大降低了投入成本和适配难度。极简运维:桌面云可以从桌面首次上线、软件更新与维护、软硬件资源的统一管理、故障检测与排障、资源的扩容和回收等多个维度提供完整的虚拟机全生命周期管理,并且基于可视化管理平台以及丰富的自动化运维工具,极大地提升运维管理效率。数据安全:将数据全部保存在后端服务器,前端不留数据,只传递桌面图像,并通过USB外设黑白名单及管控策略、政务虚拟桌面数据卷全盘加密等技术实现政务数据的立体式防护,有效防范信息泄密。全面防护:桌面云由于本身的架构优势和支持的其他安全特性,提供更安全的保障方案。从接入安全、网络安全、数据安全、终端安全、隔离安全、平台安全这六个维度保障终端办公安全。金融领域应用场景分析金融领域应用场景分析 金融领域背景金融领域背景 在互联网的大潮下,金融机构对信息化系统的需求越来越多样化,传统直接购买系统的模式,已经难以满足业务需求,国内金融机构相继成立软件开发中心,以科技创新驱动业务、服务和管理创新。在这个过程中,均衡业务需要和投入产出,借外力来发展自己,开展金融服务外包成为很多金融机构的选择,特别是IT开发和系统维护。与此同时,金融外包的潜在风险也不容忽视,根据国际上最早关注外包风险和监管的巴塞尔委员会的定义,金融服务外包的主要风险主要包括:战略风险,声誉风险,操作风险,退包风险,信用风险,国家风险,履约风险,监管障碍风险,集中和系统性风险,以上十种。在银监商业银行信息科技风险管理指引的指导下,金融机构都搭建了信息科技“三道防线”防控体系,而在当前愈发开放、外化的趋势下,IT风险管理很难做到面面俱到,这就需桌面云技术与产业白皮书(2023 年)91 要集中力量加强关键部位和薄弱环节的风险管控,以应对复杂的内外部挑战。面临问题面临问题 开发代码及文档丢失风险。作为开发测试终端,本地PC磁盘上会留存很多开发源代码、项目文档等重要数据和敏感信息,随着设备老化,硬盘或主机无法避免地会发生不可预知的故障,如果没有定期备份数据,那么部分重要开发代码和文档将直接丢失,难以恢复。存在开发代码外泄隐患。金融机构中开发测试所用的PC有USB、网络等各类接口,部分金融机构可能通过封锁USB接口或部署安全组件,包括杀毒软件、加密软件、个人防火墙、USB管控、上网审计、防非法外联等方法,但仍然难以有效控制敏感代码和文档在内部的流转范围和访问控制。而且,封锁USB接口或部署安全组件,不仅导致电脑不堪重负,维护成本高,更让开发测试人员使用不便捷,影响办公效率。同时,也无法从根源上解决问题,比如开发测试人员把电脑硬盘拿下来,作为从盘挂接到另外一台电脑上,此时开发测试相关材料可以不留痕迹地拷贝和外发,造成知识产权泄密。上网信息安全风险。开发人员普遍需要访问互联网查询信息,对于部分没有做桌面隔离的金融机构,研发人员使用的开发桌面和上网桌面是同一个,而自主创新终端在这个过程中会面临中毒、数据泄密等安全风险。解决方案解决方案 在金融领域,桌面云通过构建一体机为主体的桌面云解决方案,各分支机构以及外设自助终端通过专有网络连接到总部,由总部的IT运维部门统一调配和管理,通过虚拟桌面策略,禁止虚拟桌面任何应用访问金融行业用户的任何本地存储设备,从而保证用户的数据安全。该方案价值如下:提升资源利用效率。桌面云可以在很大程度上降低系统建设成本,根据不同用户的需求弹性地设置云主机的资源配备,实现资源按需分配,最大限度地提升资源利用效率,将系统建设成本降到最低。提升运维管理效率。桌面云在金融行业的应用涉及权限分配、用户管理、主机管理、应用监控等多个层面,桌面云管理系统是进行系统运维管理的唯一接入口,可有效地实现对系统的控制和监控,提升运维管理的效率和安全性。保证系统信息的安全性。首先,桌面云系统的应用是存在安全限制的,用户在密码验证通过后才能进入系统,并访问和更改相关数据。其次,系统可以将用户数据和存储数据放置在服务器终端,使任何与实际业务相关的数据都可以不被传输到桌面,极大地提升数据 的安全性。最后,云主机和终端设备需要在授权的情况下才能访问,这样,USB、多屏幕和声卡等设备都可以处于安全状态之内。所有云主机在经过桌面云系统的防火墙后才能进行访桌面云技术与产业白皮书(2023 年)92 问,从源头上保障了数据的安全性。企业企业芯片芯片领域应用场景分析领域应用场景分析 企业有众多的行业领域,如制造业、电力、交通、建筑等,本企业典型案例以企业芯片领域为例。芯片领域背景芯片领域背景 芯片集成电路(IC)是信息社会的基石,也是信息技术的重要基础。芯片产业的高质量发展,关系到现代信息产业和产业链发展。国务院早在2015年就提出中国制造2025,提出在2025年,中国芯片自给率要达到70%,而2019年,我国芯片自给率为30%左右。近两年,我国的许多科技企业都面临着“缺芯”之痛。国家层面也明确大力支持国产芯片行业的发展,是十四五国家研发计划确定的重要发展方向。芯片作为“高精尖”工业产品,拥有极高的技术壁垒。企业的研发生产数据,是企业的生命力和基石。芯片行业中使用桌面云,既可以保障终端数据安全,又可以提升整体办公体验和效率。面临问题面临问题 终端PC性能差,体验不佳。芯片设计岗位,对终端计算和显卡性能有一定要求,普通PC无法满足要求,往往需要使用高性能工作站。重要数据重要,安全管理难。传统PC叠加安全软件的方式,仍然漏洞百出,并且会消耗PC性能,间接影响到体验。多网隔离,办公使用复杂。基于安全的安全因素的考虑,芯片行业会建设多张内部网络,员工访问多张网使用多个PC,办公体验差,影响工作效率。行业吞并,协作困难。芯片行业处于高速发展,企业的吞并时常发生,如何处理新入企业的办公和数据流转,需要更弹性的办公终端方式。移动办公和远程办公困难。芯片行业需要多部门协作,需要移动化办公,传统PC难以满足。尤其是疫情期间为保证企业进度不受影响,需要支持移动化和远程办公。解决方案解决方案 场景场景 需求需求 方案方案 价值价值 桌面云技术与产业白皮书(2023 年)93 安全研发中心安全研发中心 IC 研发中最重要是数据的安全保护和协调开发,在实施 PLM 系统后能够将一个独立的项目分割多个小型的子项目,但是数据安全风险还是没有得到有效的解决。另外,针对大型计算和特殊的应用,需要购置大量的工作站和昂贵的软件,大部分时间这些资源利用率非常低。研发开发:研发开发:采用桌面云架构,企业可以将可现有的研发工作站集中在数据中心。内网上网:内网上网:研发人员可以通过现有设备连接到虚拟桌面,并且在虚拟桌面中使用虚拟应用发布的浏览器等上网工具。高性能设计:高性能设计:桌面云 vGPU 技术和显卡虚拟化的天作之合,实现了工作站的集中化、高密度化的虚拟化转变。降低成本、提高利用率 确保“数据不落地”远程成果展示 协同开发 优化开发流程 网络安全隔离网络安全隔离 基于安全的安全因素的考虑,在大型芯片制造企业中会根据涉密、数据访问的要求将网络分割成生产网、办公网以及互联网区。从实施角度来看这个架构将增加 PC 机的数量、降低员工的工作效率、增加运维成本,同时安全性方面还是存在诸多的漏洞。逻辑隔离:逻辑隔离:后端部署一套桌面云集群,进行逻辑划分,实际分成生产、办公、上网等多个集群,用户使用瘦客户机连接到生产网的虚拟桌面云集群,通过这个步骤可以将用户网络和生产网络隔离。物理隔离:物理隔离:后端部署两套或三套桌面云集群,进行物理划分,实际分成生产、办公、上网等多个集群,用户使用双网瘦客户端或者分开单独的客户端,连接到对应网络的虚拟桌面云集群。精简了终端设备 提高投资回报率 符合了安全隔离要求 安全控制 企业扩张、公司兼并、企业扩张、公司兼并、新厂新厂 IC 企业通过不断扩张、兼并、不断在全国布局建设新厂等一系列方式促使企业快速发展壮大,使企业在发展过程中迅速上升的、进步。这对企业的 IT 建设提出了新的挑战和机遇。首先是如何确保核心业务系统统一性避免重复建设和分散架设的问题,其次是如何有效的整合资源实现弹性交付的方式,再次是 IT 团队建设和如何实施支持体系的问题。使用虚拟应用技术实现了 ERP、OA、CRM、供应链等系统的应用虚拟化,结合外网安全零信任安全网关功能,实现了端到端的安全访问。大概 200bkps 的左右的网络带宽需求,从任何设备的访问,数据不落地的特性,完成了核心业务系统去专线化、移动化、高安全性、易于使用的华丽转身。通过建设桌面云的技术,为这个企业和新厂、兼并的企业快速通过桌面云的支持,为企业通过了一套弹性、灵活、标准的桌面环境。快速部署 实现数据的实时性 核心系统访问移动化 有助于优化企业流程 减少带宽租借费用:远程和移动办公远程和移动办公 受疫情影响,芯片企业都尝试了居家办公,大量客户接触了居家办公的模式后,已有客户思考将远程办公常态化建设。既保障了企业关键岗位工作正常开展,又能内外网办公方式统一,很好的践行了数字化转型提升企业生产力的初衷。需在企业数据中心部署桌面云一体机构建统一的桌面云资源池,并给员工分配好各自的 VDI 账号和桌面资源,办公人员只需通过在家的 PC 或笔记本登录自己的云桌面即可实现正常办公。端到端构建更全面的安全办公空间 高效传输协议有效降低对广域网带宽的依赖 无纸化车间无纸化车间 现代化 IC 生产线上传递生产信息要求越来越方便高效,现 LED 屏的生产线看板管理系统越来越满足不了当下快速高效的生产信息传递的高要求,现在越来越多的工厂关注并使用云终端机 显示屏的生产线看板,这样操作方便工人通过人机交互方式更快地阅读到生产看板上的信息,避免了工人遗漏、忘记某些重要生产细节信息没有看到时,可自行触摸点击查阅。通过使用虚拟桌面技术,所有的虚拟桌面统一部署在数据中心,按照工种的不同分配相应的虚拟桌面。灵活的部署模式可以降低服务器、存储投入成本,重启系统即自动恢复模式可以减少故障处理时间,三维软件远程发布可以减少工作站、三维软件许可证的投入。结合瘦客户机的应用,真正做到了“重”后台,“轻”前端。瘦客户机“零”维护、长寿命、低功耗、高度集成的特点,有效的克服了“高温、大灰尘、频震动“的工作场景,集中配置和闪 存卡模式简化了车间的终端运维。延长设备使用寿命 终端“零”维护 无纸化车间 实现了 MES 数据实时性 桌面云技术与产业白皮书(2023 年)94 教育领域应用场景分析教育领域应用场景分析 教育领域背景教育领域背景 教育信息化经过多年的飞速发展,高校数字化校园建设日趋完善,为了实现智慧校园应用体系建设,中小学每年都会增配不少电脑装备,一方面可推进基础教育的均衡发展,另一方面可大幅提高中小学校生机比,从而使得信息技术更好服务于现代教育,培养学生信息化能力。当下校园的信息化建设和建设仍然以各种型号的计算机为主,在“集约化建设”的原则上,推出智慧校园桌面云解决方案,为计算机教室、教师办公等多种业务场景提供全新的云IT建设方案,从而实现教学集中化、管理智能化、维护简单化、校园绿色化,将师生桌面计算机带入云时代,同时也进一步加速义务教育均衡发展和中小学生机比的建设进程。桌面云恰好是一种能显著提高管理效率、降低 IT 基础架构复杂性的服务,通过将原有PC的操作系统和应用软件统一迁移到云端的虚拟机中,使所有用户的运算、处理请求都由云端服务器完成,从而实现桌面环境集中管理、终端零维护和硬件资源的弹性分配。与传统PC相比,桌面云拥有很多优点。高校部署桌面云的场景包括计算机基础实验室、计算机专业实验室、多媒体教室、教师办公等。不同场景使用桌面云的需求不同,并且差异较大,部署时应按需配置。面临问题面临问题 传统PC机房管理维护难,教学环境准备费时费力。PC的硬盘、风扇、电源、还原卡的接插件多,外设管理困难,系统及软件维护需要逐台管理,一间教室即便利用同传技术也要花费至少2小时。在新课改中,学校不同年级信息课的教学所需的操作系统,应用软件不同,且多样化,PC仅能提供单一环境。新课改应用软件对终端性能要求高,传统方案建设难兼顾性价比。新课改信息技术课程新增加的可视化编程、3D、图形编程等教学软件,在运行过程中需要执行编译,建模,渲染等操作,对终端的CPU,内存,和显卡性能要求教高。学生管控难,上课终端广告弹窗,影响教学秩序。信息技术课与主课教学最大的区别是需要进行操作性演示和练习,这需要以良好课堂秩序为基础,同时终端大量的广告和弹窗软件,补丁更新困难,影响课堂教学秩序。桌面云技术与产业白皮书(2023 年)95 解决方案解决方案 为更好满足学校在教学、办公、管理等场景下的不同应用需求,桌面云提供VDI&IDV的双架构融合解决方案。在满足学生学习、老师教学、领导决策等需求的同时,着力于改善使用者的上机体验,降低管理员的运维难度,另外提供了灵活的产品配置和便捷的升级扩展方案,降低信息化建设的总拥有成本。为实现学校或教育局级的云桌面统一大平台打下基础,迎接教育信息化2.0时代的到来。全场景支撑、全业务服务。方案可根据不同的班级规模、学校规模,选择不同的配置,同时充分考虑了现有设备的利旧和新旧设备的统一管理维护。而在教学方面,能够良好的支撑信息技术课以及听说教学、人机交互考试等业务。在办公方面,能够为老师提供灵活的数据随行、桌面随行服务,帮助老师随时随地的进行办公业务的开展。在管理方面,则灵活地提供多种教学系统镜像并可进行实时切换,还可以有效的保障教学秩序,加强教学管理,提升教学质量。医疗领域应用场景分析医疗领域应用场景分析 医疗领域背景医疗领域背景 医疗卫生信息化是国家信息化发展的重点,各省市接连出台相关政策明确医疗信息化推进方向,包括远程/移动医疗、健康物联网、医疗系统数据安全、区域医疗信息化等,这也是整个医疗卫生行业未来发展的趋势。近年来,新技术在医疗行业的应用正在快速与对应的医疗场景进行融合。例如,关于促进“互联网 医疗健康”发展的意见等政策发布以来,互联网技术正在快速构建诊前、诊中、诊后的院内外一体化医疗服务模式。同时,随着医疗物联网应用的普及,越来越多的医院设备连接到医院网络和互联网中。加上将来,5G AI的应用,必将加速终端之间的数据流动,终端面临的风险类型和暴露面也将持续扩大。面临问题面临问题 在医疗改革和信息化发展趋势下,数据安全、敏捷高效、移动医疗等IT方向是医院信息化建设重点。然而,医院终端设备和支撑网络日趋庞大,形式更是复杂多样,所引发的信息泄密、管理低效、运维成本高、业务不灵活等问题让医院CIO们头痛不已,具体如下:医护工作桌面数量多、环境复杂。在国家政策的支持下,医院的规模会不断扩大,可能桌面云技术与产业白皮书(2023 年)96 还会在各地建设分院,此时桌面终端的类型和数量会迅速增多,从而变得更加不可控。同时,医疗桌面应用需要涉及HIS、RIS、CIS、PACS、CMS、OA、LIS等几十个子系统,每个系统的应用需求和适配环境存在较大的差异,这就对医护工作站的兼容性和部署效率提出了更高的要求。医生、护士多人共用一机,职责不明。门诊、住院等不同科室每天当班医生不同,护士也是早中晚轮班,而医院为了资源的充分利用,大多数医生或护士都是多人共用一台主机,所以这就对IT管理提出了更高的要求。对于不同医护人员,管理策略太松可能会引发安全问题,但如果太紧又可能会影响医生、护士的正常使用,所以,IT需要配备灵活、标准化的桌面策略,从而才能同时兼顾桌面使用的安全性和便捷性。医院IT人员少,但管理工作量巨大。医院的PC数量庞大,在出现软硬件故障后,有限的IT人员在多个维护点反复奔波,严重影响工作效率,从而对医院的日常工作造成了很大困扰。同时,每家医院的医疗信息系统有几十个,分别由多个软件厂商开发,有不少还是C/S架构的,这也意味着部署和维护工作量会更大。而伴随着医疗系统的不断开发和升级,部署更新的工作变得越来越复杂。在这个过程中,IT人员大量的时间和精力就会消耗在这些事务性的工作上,根本没有精力去关注核心系统的建设。医疗系统繁多、接口复杂,安全管控难。医院信息系统涉及大量医院经营和患者医疗等私密信息,信息的泄露和传播将会给医院、社会和患者带来安全风险。但是,PC使用时容易在本地遗留个人病历、药品统方等敏感信息,即使把医疗系统进行内外网隔离,但毕竟医院PC众多,对外设的需求较高,而这些通用的USB接口往往会成为医院网络中的一个安全缺口,不仅容易感染病毒与木马而导致系统不可用,而且还会引发数据丢失、数据泄密等问题。解决方案解决方案 针对医疗行业特点,桌面云通过虚拟化技术构建一体化桌面云资源池,提供统一管理平台。采用多种架构同时融合,为医院提供挂号、诊疗、办公、运维、培训、互联网等场景所需的桌面环境,为每个场景赋予用户极致的桌面体验。同时提供个性化配置、打印机管理、模板一键部署、智能运维平台等关键功能与智能工具,助力实现桌面终端的高效运维。同时针对医疗行业高可靠性的要求,桌面云还能提供透明终端架构IDV的解决方案。其中服务器端集中管理,去掉了虚拟化层,通过终端PC内置的硬件进行集中管理,应用运行在终端上。IDV的解决方案在管理和性能上取得了完美的平衡,IDV客户端具备强大本地算力,无需依赖于云终端,能够轻松应对高负载带来的挑战。IDV架构支持云端统一管理,实现了终端集中管理,简化运维流程。同时IDV架构支持终端兼容丰富的外设,满足医疗行业外设兼容性的要求。极致体验。本方案将瘦终端、VDI全套组件、服务器、存储进行深度融合与优化,可以桌面云技术与产业白皮书(2023 年)97 兼容各类医疗应用,并且为医生、护士、职能等不同人员提供媲美PC的桌面体验,满足医院业务实时响应需求。随时可用。本方案基于超融合架构,利用服务器集群、虚机迁移、分布式虚拟存储、端口汇聚等技术,为医院提供一套成熟稳定的桌面云平台,应对故障所带来的影响,提升医疗服务质量。敏捷高效。本方案利用单点登录、联动关机等技术延续了PC使用习惯,医护人员(尤其是老医师)无需培训即可快速上手。同时,采用超融合部署架构和单一管理控制台,提高了医疗IT工作效率。安全可控。本方案充分考虑了医院信息安全要求,采用了多重认证、终端准入、外设管控、传输加密、防中间人攻击、个人盘加密等安全技术,从端到端层面保障医疗系统的安全使用。桌面云技术与产业白皮书(2023 年)98 参考文献参考文献 中国桌面云标准化白皮书(V1.0)。桌面即服务市场快速增长,混合办公成为新常态,来自微信公众号“IDC咨询”及IDC相关报告。新型GPU云桌面发展白皮书。百度百科关于“信创云桌面”介绍。计世资讯2021-2022年中国桌面云市场发展研究报告及微信公众号。

    浏览量0人已浏览 发布时间2023-11-19 99页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 中国智能计算产业联盟:2023国家“东数西算”工程下算力服务发展研究报告(49页).pdf

    1国家“东数西算”工程下算力服务发展研究报告国家“东数西算”工程下算力服务发展研究报告出品单位:支持单位:单志广 张云泉 何宝宏 张广彬 著 3国家“东数西算”工程下算力服务发展研究报告顾问:陈润生.

    浏览量0人已浏览 发布时间2023-11-15 49页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 嘉世咨询:2023云计算行业发展简析报告(17页).pdf

    版权归属 上海嘉世营销咨询有限公司云计算行业简析报告商业合作/内容转载/更多报告01.云计算是企业及产业实施数字化转型的重要基础数据来源:公开数据整理;嘉世咨询研究结论;图源网络云计算作为信息技术发展和服务模式创新的集中体现,已成为企业及产业实施数字化转型的重要基础。云计算核心本质在于IT效率的显著提升,以及IT能力边界的扩展,面向企业客户,理想的云计算平台应该能够实现底层IT资源的随时随地可获得性、弹性伸缩,以及上层应用的丰富性、易用性,专注于上层的业务逻辑,而感知不到底层IT能力的存在,最终实现综合成本、效率的最优。云计算是对企业IT以及综合成本的优化市场增长降低风险降低成本组织和流程组织和流程架构和设计架构和设计技术和基础设施技术和基础设施敏捷方法生命周期自动化研运一体化团队自治细粒度组件适当解耦最小化状态不可变部署弹性安全不可知平台轻量级运行时可观测和监控统一资源管理统一集群调度统一流量治理统一运行维护统一应用治理统一数据治理统一生态管理统一应用分发统一安全治理统一成本优化微服务治理DevOpseBPFIaC容器Serverless目标目标要素要素能力能力技术技术02.全球云基础设施支出比例持续提升数据来源:公开数据整理;嘉世咨询研究结论;图源网络云计算采用虚拟化技术大幅提高服务器、存储的利用率,具有弹性配置、按需服务、价格低廉、运维简单等优势。云计算降本增效显著,超40%的企业表示使用云计算提升了IT运行效率。随着经济回暖,全球云计算市场所受影响逐步减弱,已基本恢复到疫情前增长水平。疫情在商业、教育和社会活动方面引发重大调整,并影响IT投资结构。根据IDC数据,2021年全球云基础设施投资达739 亿美元,同比增长8.8%。2022年第三季度,全球云基础设施投资额达239亿美元,同比增长24.7%。2021-2026 年全球云基础设施占 IT 开支比例全球云计算市场规模及增速(亿美元)0%5 %05000250030003500200202021IaaSPaaSSaaS增速0 0Pp0 2120222023E2024E2025E2026E传统IT公有云私有云03.国内上云需求趋于稳定数据来源:公开数据整理;嘉世咨询研究结论;图源网络经过过去数年的高速发展,国内互联网用户渗透率已经超过75%,意味着在没有技术创新的刺激下,用户流量将逐步趋于平稳。从商业模式来看,与云计算需求密切相关的电商,网络视频等主要行业的渗透率持续走高,并且主要的运营模式、技术能力基本走向成熟,因此对于互联网公司而言,在没有新的商业模式与技术的大幅变革前,云与IT相关的开支将逐步从扩张期走向稳定期。互联网云的需求结构(2021)中国互联网用户规模62dfhprtvxu0008000085000900009500002019/62020/32020/62020/122021/62021/122022/6网民规模(万人)互联网普及率35.0(.0.0.0%视频电商游戏其他互联网04.云计算是我国数字经济建设的“底座”2015年国务院出台关于促进云计算创新发展培育信息产业新业态的意见后,相关产业政策频繁发布。2020年来,数字经济及企业上云的部署要求密集出台,利好政策不断加码。2023年作为经济全面复苏和发展的重要一年,数字化转型成为当前中国经济发展的“主旋律”,其中云计算技术在数字经济建设中发挥着重要作用。“十四五”规划和纲要草案将“加快数字发展,建设数字中国”作为独立篇章,描绘了未来五年数字中国建设的新蓝图。云计算与大数据、物联网、人工智能等新一代信息技术深度融合,成为推动传统产业升级和变革的重要力量。从长期来看,云计算能够赋能众多行业,做到降本增效、挖掘数据数据价值、提升业务、创新能力,成为明确的架构升级方向。云计算相关政策频发时间发文立文件名主要内容2022年国务院“十四五”数字经济发展规划推动智能计算中心有序发展,打造智能算力、通用算法和开发平台一体化的新型智能基础设施,面向政务服务、智慧城市、智能制造、自动驾驶、语言智能等重点新兴领域,提供体系化的人工智能服务。2021年工信部新型数据中心发展三年行动计划(2021-2023年)用3年时间,基本形成布局合理、技术先进、绿色低碳、算力规模与数字经济增长相适应的新型数据中心发展格局。2020年发改委-首次明确“新基建”范围,云计算被与人工智能、区块链一同纳入新技术基础设施范畴。2020年发改委、网信办关于推进“上云用数赋智”行动培育新经济发展实施方案鼓励在具备条件的行业领域和企业范围内,探索大数据、人工智能、云计算、数字李生、5G.物联网和区块链等新一代数字技术应用和集成创新,为企业数字化转型提供技术支.2020年工信部中小企业数字化赋能专项行动方案鼓励以云计算、人工智能、大数据、边缘计算、5G等新一代信息技术与应用作为支撑,引导数字化服务商针对中小企业数字化转型需求,建设云服务平台、开放数字化资源、开发数字化解决方案,为中小企业实现数字化、网络化、智能化转型夯实基础。2018年工信部.推动企业上云实施指南指出云计算是信息技术发展和服务模式创新的集中体现,是信息化发展的重大变革和必然趋势。支持企业上云,有利于推动企业加快数字化、网络化、智能化转型,提高创新能力、业务实力和发展水平:有利于加快软件和信息技术服务业发展,深化供给侧结构性改革,促进互联网、大数据、人工智能与实体经济深度融合,加快现代化经济体系建设。2017年工信部.云计算发展三年行动计划(20172019年)云计算带来了软件开 发部署模式的革新,并为大数据、物联网、人工智能等新兴领域的发展提供了基础支撑。云计算以信息流带动技术流、资金流、人才流、物资流,促进了资源配置优化,加速信息技术与各行业的交叉融合,催生了新业态、新模式,为“双创”提供重要平台,是经济发展新动能的助燃剂。云计算也是推动制造业和互联网深度融合的重要力量。工业云融合了先进的制造工艺和新一代信息技术,帮助企业加速从要素驱动向创新驱动的转变。为此,需要进一步推动云计算健康发展,支撑制造强国、网络强国建设。2016年国务院“十三五”国家科技创新规划进一步强调要构建完备的云计算生态和技术体系,支撑云计算成为新一代ICT 的基础设施2015年国务院.国务院关于积极推进“互联网 ”行动的指导意见发展目标:网络设施和产业基础得到有效巩固加强,应用支撑和安全保障能力明显增强。固定宽带网络、新一代移动通信网和下一代互联网加快发展,物联网、云计算等新型基础设施更加完备。人工智能等技术及其产业化能力显著增强。05.我国智算中心建设加速推进数据来源:公开数据整理;嘉世咨询研究结论;图源网络近年来,智能算力对于提升国家、区域经济核心竞争力的重要作用已经成为业界共识,伴随ChatGPT的诞生,建设智能算力的重要性 再次被重申。根据IDC数据显示,2022年智能算力规模将达到268.0 EFLOPS,预计到2026年智能算力规模将进入每秒十万亿亿次浮点计算(ZFLOPS)级别,达到1271.4 EFLOPS,2021-2026年年复合增长率达52.3%。目前,国家在8地启动建设国家算力枢纽节点,并规划了10个国家数据中心集群,协调区域平衡化发展,推进集约化、绿色节能、安全稳定的算力基础设施的建设。全国算力枢纽与集群布局图中国智能算力规模及增速情况0 0000004006008000200222023E2024E2025E2026E中国智能算力规模(百亿亿次/秒(EFLOPS)同比增速(%)内蒙古枢纽京津冀枢纽宁夏枢纽甘肃枢纽成渝枢纽贵州枢纽粤港澳枢纽长三角枢纽和林格尔集群中卫集群庆阳集群天府集群重庆集群贵安集群韶关集群上三角生态绿色一体化发展示范区集群芜湖集群张家口集群06.云计算三大服务类型:IaaS、PaaS、SaaS数据来源:公开数据整理;嘉世咨询研究结论;图源网络云计算产业有多种分类方式,按提供的服务类型分类可分为 IaaS、PaaS、SaaS三类,从IaaS到SaaS越来越便于用户直接使用。IaaS全称为“设施即服务”(Infrastructure-as-a-service),提供的是服务器、存储、网络硬件等底层设施资源,用户购买 IaaS 产品后必须自己完成环境配备和应用程序开发,一般商业客户很难直接使用,使用对象大多是软件开发者。PaaS全称为“平台即服务”(Platform-as-a-service),提供的是软件部署平台,比如虚拟服务器和操作系统,用户不需要关注底层,只需要根据自己的逻辑 开发应用程序,适合自身特点明确、IT 预算高的大型商业客户,或应用程序 开发商。SaaS全称为“软件即服务”(Software-as-a-service),提供的是可以直接使用的软件,使用对象是一般商业客户,客户登录浏览器就可以打开使用。云计算近几年保持了持续高景气发展,IaaS和PaaS巨头云业务持续扩张,支撑越来越多企业业务在云上发展。云计算核心竞争力IT效率显著提升&更高的利润率底层基础设施IaaS-资源优势要素自研规模效应&降低定价软件环境PaaS-能力优势客户沉淀差异定价应用&生态SaaS-生态优势扩展客群&迁移成本定制增效吸引厂商共建生态丰富性易用性07.IaaS:市场头部厂商格局稳定数据来源:公开数据整理;嘉世咨询研究结论;图源网络全球IaaS行业整体呈现强者恒强的格局,由于IaaS行业前期需要超大规模数据中心、服务器等重资产投入,并且具备明显的规模效应,因此格局成熟稳定。目前亚马逊、微软、阿里巴巴、谷歌已经连续多年占据全球前四位置。亚马逊、微软、阿里、谷歌的市场份额合计从 2016年的68.80%提升到2021年76.70%。其中,阿里云全球市场份额逐年提升,由2016年的3.7%提升至2021年的9.6%,进一步缩小与海外龙头的差距,并且在2021年成功入选2021GartnerAPM魔力象限,成为国内唯一入选云厂商。2021-2026年国内企业级SaaS市场规模2016-2021 全球IaaS龙头市场份额变化 0 0Pp0 01920202021亚马逊(AWS)微软(AZURE)阿里巴巴(阿里云)谷歌(谷歌云)其他0%5 %040608000222023E2024E2025E2026E市场规模(亿美元)增长率(%)08.PaaS:云计算厂商实现长期高利润率的主要路径数据来源:公开数据整理;嘉世咨询研究结论;图源网络云厂商的本质在于,帮助企业客户构建一个完整的软件环境,承载OS、数据管理、运维、安全、软件开发等基础能力,使得企业客户主要专注于上层应用逻辑的实现,而非底层 IT 能力 构建。从长远来看,PaaS是云厂商实现客户沉淀、差异化定价的核心基础,也是长期高利润率的主要实现路径。全球云计算市场中PaaS与SaaS的占比持续提升,对PaaS而言,由于相对偏向中间层,因此更多由云基础设施巨头或部分平台型软件巨头所主导,背后所体现的能力包括数据管理、分析、AI、集成与流程处理、应用开发与维护等。全球 PaaS市场竞争格局(2021年)全球 PaaS市场规模与构成(百万美元)0%5 %0500000200000250000300000202120222023E2024E2025E2026E数据管理AI和分析集成和流处理应用平台应用开发YoY0.0%5.0.0.0 .0%.00.0%微软亚马逊Saleforce谷歌OracleSAP阿里巴巴IBMAtlassianSnowflakeMongoDBDatabricks腾讯OpenText华为百度中国电信09.SaaS:国内市场涌现更多的垂直领域 SaaS 厂商数据来源:公开数据整理;嘉世咨询研究结论;图源网络SaaS在国内发展迅速,预计到2026 年,中国企业级SaaS市场规模达到183.1亿美金,行业复合增速为22%。在国内疫情影响下,企业客户对SaaS部署方式接受度提升,对在线化软件需求持续增长。企业从原来周边业务系统朝核心业务系统渗透,软件需求更加专业、垂直,市场涌现更多的垂直领域SaaS 厂商。垂直类SaaS针对特定的应用场景、细分领域,提供专业、垂直的服务,能够有效解决细分行业痛点。在疫情背景下,SaaS被越来越多行业客户接受,各个垂直领域SaaS需求快速增长,带来了垂直类SaaS快速发展机遇。2016-2024年财税SaaS市场规模及增速2021-2026年国内企业级SaaS市场规模0%5 %040608000222023E2024E2025E2026E市场规模(亿美元)增长率(%)0%5 %05002000222023E2024E市场规模(亿元)增长率(%)10.软件与生态决定云计算的竞争格局数据来源:公开数据整理;嘉世咨询研究结论;图源网络在云计算领域,软件&生态是长期竞争关键。运营商云依靠母公司资源,在网络节点、数据中心等基础设施层面具备覆盖范围广、成本低廉的优势,将持续扩大在 IaaS 层领域的优势。互联网云厂商依靠出色的软件开发能力,在 PaaS&SaaS的开发敏捷度等方面更具备优势,互联网云厂商在上述领域的竞争优势与市场份额仍将维持稳定。互联网云厂商经过数年发展,已经形成较为成熟、丰富的服务与产品生态,而运营商云由于起步晚、母公司机制等因素,生态相较互联网云仍存在不足。阿里云 阿里云已在张北,河源、杭州。南通和乌兰察布建设了5座超级数据中心,未来还将在全国建立10座以上的超级数据中心;覆盖200多个国家和地区;在全球24个地域开放了75个可用区(非洲、南美洲无可用区)。全球CDN节点超过2800个,亚太地区综合能力排名第一。腾讯云 2020年腾讯布投入5,000亿用于新基建与产业互联网的进一步布局,将陆续新建多个百万级服务器规模的大型数据中心;基础设施覆盖全球五大洲27个地区,运营71个可用区(非洲无可用区)。中国境内2000 加速节点,境外800 加速节点,云服务产品超过400个。天翼云 天翼云业务布局以国内为主,资源覆盖31各省,2 4 31 X战略布局覆盖全国;拥有内蒙古、贵州2个超大规模云基地,京津冀、长三角,粤港澳、陕川渝4个重点区域,全国31省自治区核心云资源池,下沉到地市的私有云、CDN等X节点。天翼云在海外亦有14个可用区,分部在亚洲、欧洲和北美洲(大洋洲、南美洲、非洲无可用区)。华为云 2021年9月,华为云规模最大的数据中心贵安数据中心正式商用,PUE仅1.12.承载华为云在贵州重庆广西、广东、云南、四川等地的客户业务;在全球27个区域运营65个可用区,覆盖超过170个国家和地区(欧洲无可用区)。在亚太,华为云是增速最快的主流公有云提供商:在拉美,华为云是节点数量最多的云服务提供商;在非洲,华为云立足南非,已服务30多个国家:在中东,华为云联合本地伙伴,帮助多家大型企业上云。10.软件与生态决定云计算的竞争格局数据来源:公开数据整理;嘉世咨询研究结论;图源网络主要云厂商生态体系对比阿里云生态概况推出产品生态伙伴、服务生态伙伴等,阿里云伙伴带来的业务规模已达185亿,四年间增长超7倍;核心策略“坚持伙伴优先”,深化“被集成”策略;厘清生态服务界面,成立专门团队支持不同类型的伙伴;与行业SV愈加紧密,丰富行业解决方案;坚定“被集成”策略,对伙伴收入占比提出了明确的量化要求。腾讯云生态概况腾讯云有超8000 合作伙伴共同服务20w 企业客户,共同创造的市场营收规模已达百亿;核心策略腾讯千帆:致力于成为全球连接规模最大的产业互联网应用连接器,通过业务、技术商业三大连接,为千行百业提供最好最全的SaaS服务;腾讯云启:面向”中国企服创新公司”的孵化与合作窗口,以资金和资源帮助初创企业快速发展。天翼云生态概况全面升级技术应用、服务、渠道生态体系,面向合作伙伴提出技术合作、SaaS应用、业务上云、渠道合作四个重要举措;核心策略在技术生态方面提供最开放的资源,在应用胜态方面聚集最广泛的合作,在渠道生态方面推出最优越的政策.在服务生态方面给予最到位的赋能。华为云生态概况华为云基于原来硬件优势,创新云平台、创业赋能商业资源三大关键举措,计划赋能万家企业核心策略恪守业务边界,尊重数据主权,不用客户数据做商业变现,携手合作伙伴联合创新,持续为客户和伙伴创造价值。11.运营商云计算超过互联网云计算厂商数据来源:公开数据整理;嘉世咨询研究结论;图源网络最近三年,国内云计算市场竞争格局、行业成长主要驱动力等出现明显变化。具有互联网背景的云厂商收入增速大幅放缓,而以天翼云、移动云为代表的运营商云收入增速显著超出行业平均。2021年,移动云、天翼云、联通云收入分别为242亿、279 亿、163 亿元,均实现高速增长。考虑到运营商云计算在云网融合、渠道下沉、自研能力、安全可信等方面的综合优势,预期,运营商云计算业务 2022-2024年仍将保持高速增长,收入增速将显著领先互联网云厂商。未来三大运营商云计算收入增速将显著高于互联网云厂商运营商云计算收入高速增长(亿元)05000250030003500400045005000阿里云腾讯云百度云华为云移动云天翼云联通云金山云优客得200222023E2024E-20.0%-10.0%0.0.0 .00.0.0P.0.0p.0%阿里云腾讯云百度云华为云移动云天翼云联通云金山云优刻得预期收入CAGR(2021-2024)12.政企客户更倾向于相对折中的混合云路线数据来源:公开数据整理;嘉世咨询研究结论;图源网络出于对既有IT系统保护、数据安全考虑等,政企客户更倾向于折中的技术路线,混合云是最可能的选择。相较于单一公有云或私有云环境,混合云的部署架构更能满足企业核心业务系统实现平稳过渡、负载的弹性伸缩以及容灾等要求。例如,客户可以将面向客户交互的业务以及互联网业务部署在公有云上,将核心业务系统通过私有云环境部署。政企用户的上云路径业务需求监管需求包含合规技术的技术需求云迁移方法选择(替换、重建、重建构架、修改、重建托管)政企用户与第三方云厂商的职责划分 访问控制企业的责任范围企业自管业务团队合规团队外部合作方云团队应用团队数据团队云服务提供商的责任范围访问控制第三方SaaS第三方SaaS数据应用虚拟计算和存储虚拟网络云产品、服务和解决方案(弹性计算、关系型数据库服务(RDS、开源软件OSS.大数据、Al.loT等)硬件(计算、存储、网络设备等)数据中心和环境(资源区域、可用区等)云服务提供商合规管理中国政府及行业颁布的法律法规及规则13.ChatGPT推动云计算与AI加速融合数据来源:公开数据整理;嘉世咨询研究结论;图源网络2023年初,美国OpenAI团队发布聊天机器人软件ChatGPT,凭借出色的语言理解和对话能力,迅速“走红”,国内外以微软、谷歌、亚马逊、百度等为代表的科技公司纷纷加速布局,引发新一轮AI与相关科技产业链革命。云计算作为AI发展的重要支撑,也随之进入了一个全新的发展阶段。由于ChatGPT每一次的迭代与训练都离不开云计算的强大算力支撑,因此云计算产业链迎来了新的变革。ChatGPT的出现将推动云计算与AI加速融合,以更高效的方式推动这两个行业的发展。据测算,仅满足当前 ChatGPT日常用户搜索访问,使用服务器(GPU)进行处理,对应算力基础设施初始投入成本约为30-40亿美元。Open AI流量与参与度分析 2023年1月交流参与量2022.11-2023.01月访问量(百万)总访问数667.0M667.0M上月转换率119.49.4%平均访问时间00:04:0700:04:07跳出率22.94.94%页平均访问人数6.706.7018.33046672022年11月2022年12月2023年1月14.重点关注云计算的五大发展趋势数据来源:公开数据整理;嘉世咨询研究结论;图源网络0102030405云计算景气度迎来新一轮提升云计算作为数字经济和数字中国的关键数字基础设施,国务院、工信部等部门发布一系列云计算相关政策,一方面将用于指导云计算系统的设计、开发和部署,另一方面也用于规范和引导云计算基础设施建设、提升云计算服务能力水平以及规范市场秩序等。算力服务技术体系更加完善当前,算力服务发展已进入快车道,但仍存在服务程度不够、应用渗透能力差、供给效率偏低等问题。未来,算力服务技术体系将不断完善和发展,探索创新应用,算力交易平台将提高算力供给效率,为用户提供更加普惠化、泛在化、标准化的算力服务。云上系统稳定性进一步提升云系统的稳定性已经成为支撑企业数字化转型发展、保障产品和服务质量、提升客户满意度、控制风险的重要影响因子未来,企业与组织机构需要建立稳定性优先的战略,直面不确定性挑战,借助有效的稳定性能力建设路径指引从事前、事中、事后三方面全方位规划企业系统稳定性保障能力PaaS&SaaS成为云厂商主要发力方向PaaS&SaaS领域收入贡献逐步提升,收入占比高的云厂商拥有更好的盈利能力。随着IaaS市场逐渐成为一个产品差异化程度低、定价能力有限、利润率亦相对有限的市场,持续强化PaaS乃至SaaS层的通用能力以及发力各类垂直场景的解决方 案,成为近年来主要云厂商大力发展的方向。云网融合战略价值凸显云网融合是运营商云计算的独特优势,有望优化成本、丰富体验、提高效率。云网融合有望通过实施虚拟化、云化和服务化,形成一体化的融合技术架构,最终实现简洁、敏捷、开放、融合、安全、智能的新型信息基础设施的资源供给。本报告为简版报告,内容均从嘉世咨询原有完整报告中精炼提取,如需了解详细内容,请联系:.本报告中的所有内容,包括但不限于文字报道、照片、影像、插图、图表等素材,均受中华人民共和国著作权法、中华人民共和国著作权法实施细则及国际著作权公约的保护。本报告的著作权属于上海嘉世营销咨询有限公司所有,如需转发、转载、引用必须在显著位置标注出处,并且不得对转载内容进行任何更改。本报告是免费报告,任何机构和个人不得将本报告用于收费为目的经营活动。版权说明版权归属 上海嘉世营销咨询有限公司

    浏览量0人已浏览 发布时间2023-11-07 17页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • IDC&蚂蚁集团:2023安全平行切面白皮书-数字时代的原生安全架构(60页).pdf

    安全平行切面 数 字 时 代 的 原 生 安 全 架 构致谢在撰写期间,本白皮书得到蚂蚁集团韦韬、王宇、李婷婷、李宏宇、王珉然、程岩、吴飞飞、马传雷、郑旻,平安集团首席信息安全总监陈建,中国移动首席专家王晓征,红途科技CEO刘新凯,吉利汽车数字化中心CTO郑金伟的大力支持。感谢刘宇江、党二升、徐子腾、莫书棋、庞培、黄文静、罗海棠、蓝潞、崔虹、顾为群、傅成彦、王延辉对于白皮书内容的指导,提供了宝贵的资源和素材。感谢红途科技、浙江移动、平安科技等切面联盟成员单位,以及合作企业吉利汽车集团,作为受邀企业,贡献了关于安全平行切面实践落地的重要观点和宝贵经验。特此致谢!ContentsIDC观点第一章 数字化时代下,安全能力是守护企业创新力的基石.围绕未来信任构建新一代安全体系,为企业创新保驾护航.复杂性爆炸是未来信任体系必须面对的核心问题第二章 构筑安全平行切面,打造下一代原生安全.原生安全范式:企业安全建设应明确技术要求.安全平行切面:为企业生命体注入“安全疫苗”.安全平行切面的核心能力和特征.安全平行切面的应用价值第三章 安全平行切面的应用和构建.安全平行切面的应用场景.建设安全平行切面的方法、步骤与应用指南.安全平行切面的实践应用第四章 IDC建议 IDC观点 数字化优先时代,复杂性爆炸给未来信任体系的构建带来重重挑战当企业数字化转型迈向纵深,从以开展数字化试点项目为主的实验阶段,发展至通过数字化手段与业务深度集成助力业务创新的高级阶段时,进一步践行数字化优先战略成为全球企业的必然选择,以进一步扩大技术使能范围,实现切实有效的规模化创新。在业务发展和政策驱动的背景下,企业领导者持续关注网络安全、数据安全的建设,以保护和扩大企业的可信度,构建更具竞争力的企业未来信任体系。在此过程中,数字化业务的蓬勃发展带来了更多的复杂性。伴随整个行业的技术演进,数字化企业逐渐出现了多代系统堆叠并存的局面,企业内部的应用、数据、访问主体和管理对象都在急剧增长,内部、内外部之间的数字化接口繁多,技术体制混杂,缺乏足够的标准规范约束。同时,企业在发展过程中引入了大量外部系统,一些系统呈现技术上的黑盒状态,其安全合规方面的风险很难得到准确评估。此外,数字化系统所支撑的业务流程也在持续迭代升级,导致复杂性进一步增加,企业的安全包袱越来越大,潜在隐患不容小觑。安全平行切面支撑原生安全范式落地,让业务长出新的安全触角数字化企业可被视为一个完整的数字生命体,能持续发展出有机生命所必须的成长进化、复杂交互和全局智能能力。在复杂性爆炸的背景下,企业亟需解决的核心问题,是如何对复杂的数字生命体实施全局性、持续性地保护,强化安全效能,提升安全效率,实施规模化的安全感知和干预。“原生安全范式”为企业安全发展提供了理想的目标和参考方案,帮助企业从复杂业务的本源出发,在系统设计时就全面考虑安全与业务的融合问题,从而实现分布式、实时化、工具化的企业安全防护能力。在支撑原生安全思想落地的过程中,安全平行切面作为理念、方法论、技术框架和工程化平台的集合,开始在企业安全实践中快速发挥效用。通过构建切点、切面和安全平行舱等方式,企业一方面可以实现面向业务的深度感知和干预能力,另一方面也为安全能力的迭代发展建立了较为独立的空间,体现出安全与业务之间的高融合、低耦合。安全平行切面是支撑未来企业安全架构的重要技术方向,也是提升安全防护水平的全新方法体系。安全平行切面有望创建更多的安全场景,为企业安全运营带来全新价值安全平行切面作为一个基础技术框架和服务集合,具备区别于传统安全体系的一系列突出能力特性,包括多维深度感知、微观干预和编程扩展等。其重构了安全与业务的协同关系,让安全真正融入到业务本身,实现业务行为的可知、可见、可控。因此,安全平行切面有望为网络安全、数据安全、个人信息保护等领域带来跨越式的变革,也有望推动一大批安全、合规、攻防和安全保险等场景的创新发展。在面向当前和未来的应用场景落地时,安全平行切面的理念以及落地实践过程,能够在能力、效率和成本方面体现出显著的优势,为企业安全运营带来全新价值。.围绕未来信任构建新一代安全体系,为企业创新保驾护航数字化优先战略成为全球企业发展的确定性趋势,企业将持续增加数字化转型投资。伴随全球数字经济的蓬勃发展,云计算、大数据、人工智能、G等信息与通讯技术的应用范围在不断扩大,推动了行业创新场景的规模化涌现。目前,全球企业的数字化转型已进入持续深化阶段,企业在不断进阶的过程中,切身感受到了数字化带来的巨大价值,也促使决策层更加坚定决心,逐年加大数字化转型的投入。IDC数据显示,年全球企业数字化转型投资规模超过.万亿美元,并有望在年超过万亿美元,-年五年复合增长率(CAGR)约为.%。中国的数字化转型市场将保持高速增长态势,到年,中国数字化转型支出规模预计超过,亿美元,五年复合增长率达到.%,增速位于全球前列。第一章数字化时代下安全能力是守护企业创新力的基石在数字化转型发展至高级阶段时,进一步践行数字化优先战略成为全球企业的必然选择。数字化优先是指一个组织为了实现业务目标,能够优先考虑各类数字技术的部署和应用,进而不断满足客户需求,提升组织竞争力,实现可持续发展。数字化优先的显著特征是企业开始全面利用数据驱动业务创新发展,进而构建一种自上而下的全新思维和行动模式。IDC企业数字化优先战略调研显示,大多数企业都已经开启了数字化优先战略的尝试,企业会根据自身的具体情况,全面或有重点地推动数字化业务的开展。图 IDC全球企业数字化转型支出预测来源:IDC,(US$M)数字化转型(DX)时代 数字化业务时代 DX.创新和试验DX.规模化数字化优先打造有生命力的数字化业务数字化转型支出($)企业在数字化竞争中欲取得优势,必须对数字化业务和应用进行持续投入。大量的企业正在向实用可行的数字化业务阶段过渡。在实践数字化优先的过程中,企业需要依靠大量应用程序构建数字化业务大厦,以实现客户体验提升以及推动规模化共情、企业和生态系统智能、智能/自动化设备发展等。事实上,对于大型企业而言,当前的数字化应用发展速度已然令人震惊。例如,喜力在其全球运营中使用了,个应用程序;摩根大通仅在一个云应用程序平台上就运行了,个生产应用程序。IDC统计显示,仅年,全球就产生了.亿个新应用。IDC预测,到年,全球超过%的GDP将依赖于已完成数字化转型的企业提供的产品和服务;到年,超过三分之二的G企业将成为高性能、大规模、基于软件的数字化创新生产商。企业希望依靠软件应用程序创造市场价值,获得可观的回报。图 全球企业对数字化优先战略的采纳程度来源:IDC,%我们认为没有必要采取数字化优先战略我们正在探索如何落地数字化优先战略我们已经开始实施数字化优先战略我们已经快速步入数字化优先战略的实施过程中,并持续拓展实施范围我们已经提前布局数字化优先战略,并实现技术和业务的转型抗拒 落后 响应 加速 领先%业务发展和政策驱动背景下,企业领导者持续关注网络安全、数据安全的建设。数字化业务和应用的快速发展,带来数据量的激增,企业暴露的危险点也不断扩大。如何保护应用安全、数据安全以及业务安全,成为企业上下广泛关注的话题。Edelman的一份报告中对名首席信息官的调查结果显示:“大多数首席信息官认为他们的领导地位与公司的声誉和形象直接相关。”IDC全球在年开展的一项针对CEO的调研表明,网络安全和数据主权是企业管理层最关注的发展议题。此外,“网络安全法”“数据安全法”“个人信息保护法”以及“欧洲一般通用数据保护条例(GDPR)”等一系列国内外安全法律法规的相继出台和落地,对企业数字化转型带来制度、组织、技术、预算等多个维度的影响,也让企业更加重视安全合规能力的建设。图 应用成为构建企业与市场、企业内部、企业与上下游之间的价值创造纽带来源:IDC,企业和生态系统,上下游供应链关系智能和自动化设备客户体验和规模化共情应用企业和行业企业和用户企业内部信任是数字化业务健康运行的必要条件,企业领导者必须保护和扩大企业的可信度,构建更具竞争力的未来信任体系。面向全球数字化转型实践,IDC创建了完整的信任框架体系未来信任。IDC认为,信任涉及安全、风险、合规、隐私以及商业道德,企业未来信任建设不仅需要保护企业免受攻击,建立更高的道德标杆,还需要对收入、支出和股东价值进行可量化的影响评估。因此,企业需要通过有效的风险管理、监管合规、安全管理以及宣传隐私保护、道德规范和社会责任,来建立与客户、员工、合作伙伴及业务生态系统之间的信任,这不仅有助于企业满足合规要求,更是为企业的长期发展和声誉建设提供坚实的基础。IDC认为,未来信任包含基础、义务、战略、实现四个层面的个关键要素(也称信任支柱),并通过可信治理、可信生态和可信商务三个实施层实现信任的产出。以未来信任为基础的新一代企业安全体系,对于企业发展和业务升级具有极大的价值。%图 年全球CEO最关注的企业发展议题来源:IDC,网络安全威胁数字主权AI伦理多样性和包容性可持续发展.%.%.%.%.%.%.%.%.%.%.%.复杂性爆炸是未来信任体系必须面对的核心问题在构建信任体系的过程中,企业将面临一个极具挑战性的现状:数字化业务在提升创新力的同时也会带来更多的复杂性,大幅增加建立信任的难度。IDC针对全球不同行业代表性企业的长期研究发现:在企业数字化转型发展至一定阶段后,数据与业务相融合的运行形态将帮助这些数字化企业成长为一种不断演变进化的生命体;这种演进迭代是持续不断的,甚至还会呈现出加速的态势。数字化企业伴随整个行业的技术演进,会逐渐出现多代系统堆叠并存的局面,且企业内部、内外部之间的数字化接口繁多,技术体制混杂,缺乏标准规范的约束。同时,企业在发展过程中引入了大量外部系统,一些系统呈现技术上的黑盒状态,其安全合规的风险很难被准确评估。此外,随着业务的快速发展,数字化系统所支撑的业务流程也需要持续迭代升级,导致复杂性进一步增加,企业安全包袱越来越大,潜在的隐患也不容小觑。图 IDC未来信任要素来源:IDC,信任的产出可信的商务风险基础义务战略实现安全合规伦理与社会责任隐私信任可信的生态可信的治理信任的要素快速增长的应用数量:如前文所述,企业越来越依赖软件应用来提升内部效率、增加营收以及获得其他战略业务成果,因此,应用程序的数量出现爆发式增长。全球企业上云的大趋势,进一步加速了新应用产生的速率,因为大量的云上平台和中间件能够让应用系统的建设更加快速和便捷。IDC预计:到年,全球将创建.亿个云原生应用程序。海量的数据:物联网和大数据等技术的快速进步,让数据的采集、开发和治理 成为企业数字化转型的常规能力要求。一方面,企业数据规模出现接近指数级的爆炸性增长。IDC数据圈研究预测,年全球新产生的数据量将达到ZB,近乎年的倍,五年年复合增长率达到.%。另一方面,数据链路的覆盖范围持续扩大,数据全生命周期所触及的系统、平台、流程和角色更加广泛,数据形态变化频繁,数据的活跃度也在不断加强。多样的访问主体:企业业务的多元化、全球化趋势,伴随数字经济、线上经济的蓬勃发展,使企业的跨地域、跨行业交互成为常态。为了支撑业务的全球触达,数字化系统的开放性越来越强,边界也变得更加模糊,内、外部数据的交换需求和随时随地的登录请求,使各类系统的访问主体出现爆发式增长,用户的身份极为复杂,授权管理稍有不慎即会带来灾难性的后果。企业数字化业务发展所出现的复杂性覆盖以下六方面:应用 数据 访问主体 管理对象 威胁和攻击 访问路径企业是一个持续演进迭代的复杂生命体不断增加的管理对象:数字化业务所触达的对象也在快速增加。IDC预计,到 年,全球联网设备的数量将超过 亿台。企业云平台上汇集了极为丰富的PaaS组件和分布式中间件产品,大量的外部系统带来了快速膨胀的API管理规模,边缘设备和软件定义网络的使用也使运维形态发生了显著变化,数据要素和其所有者、使用者成为新的关注重点。企业数字化业务的管理对象呈现出类别多样、虚实融合的新现象。更加严峻的威胁:伴随数字化业务带来的在线、协同和智能化提升,各类攻击也随之变得更具规模化和组织化。大量增加的数字化系统暴露出更多的漏洞和风险,使攻击者有了更多可趁之机,攻击手段更加敏捷,攻击效率持续提升,给企业带来的损失与日俱增。国家互联网应急中心(CNCERT)发布年上半年我国互联网网络安全监测数据分析报告中的数据显示,年上半年,国家信息安全漏洞共享平台(CNVD)收录通用型安全漏洞,个,其中“零日”漏洞数量占比.%,同比增长.%;Web应用漏洞的影响持续上升,占比达到.%。根据美国商务部国家标准与技术研究所(NIST)国家漏洞数据库(NVD)的报告,年新增漏洞个,同比年增加.%。此外,伴随生成式人工智能的发展,企业亟需提升对未知威胁的检测、分析效率和准确性,通过自动化/半自动化的方式降低安全运营人员的工作负载。日趋复杂的访问路径:随着大量的应用由传统单体架构转变为以云为承载的微服务架构,应用软件呈现出更多的弹性和动态特征。传统单体架构下的程序主体数量有限,内部访问路径相对单一和固定;微服务的出现显著增加了应用内部受访主体的数量,软件交互的复杂度急剧攀升,访问路径呈现出指数级增加态势,导致应用防护出现更多的不确定性。技术的演进、系统的升级以及数字化业务的快速发展,共同导致企业运行的复杂性出现爆炸性增长。这种复杂性将会给企业未来信任体系建设带来一系列难题。企业现有的安全管控措施日趋乏力,企业疲于应付各类安全事件,业务效率会受到极大影响,其在处置各类安全事件以及弥补安全事件所带来的损失时,将付出更多的被动成本。整体安全局面失控的风险大增安全需求超越企业安全能力上限:未来企业将引入更多的第三方软件和开放源代码,因此,确保软件供应链的安全对于降低应用程序风险至关重要。威胁的多样性和应用系统的复杂性常常会超出企业安全能力的设定,让CIO/CISO和安全团队倍感分身乏术,技能的缺失和不全面的布局也会导致应用成为外部攻击的突破口。数据资产管理和数据安全出现短板:大量增加的企业数据使管理流程不堪重负,很多数据长期处于无序管理状态,数据流转路径复杂。企业缺少对数据资产实现全面盘点的手段,数据分类分级管理和全链路监控更是无从谈起,导致数据资产底数不清,数据泄露、丢失和损毁情况严重。安全体系出现明显漏洞:数字化环境的复杂性变化也会导致传统的安全体系出现薄弱区域。由于一些关键环节上缺乏安全日志数据和阻断手段,在遭遇新型攻击时,攻击者往往可以轻易绕过安全设置区域,使安全保障团队长时间不能明确攻击来源,也无法洞察攻击链路。大量云上应用在线访问所带来的AK滥用现象更是加剧了安全体系的崩溃风险。安全管理效率显著降低安全协同问题:一方面,企业安全能力的迭代与业务创新能力的迭代不同步;另一方面,复杂性爆炸导致安全与效率的矛盾更加突出,企业在疲于应付安全威胁的过程中,采用了大量不科学的安全设置,经常导致业务在运行中出现严重阻塞,甚至自乱阵脚。安全风险和安全事件处置不及时:企业存量系统的安全改造占据了安全团队的绝大多数精力和时间,系统和漏洞修复速度经常落后于攻击方,使大量的工作成为无用功,不能及时对新威胁和新漏洞做出快速应急处理。例如,传统漏洞修复流程需要经历多个环节,包括确认是否做、做什么、如何做,以及执行补丁修复后的复杂测试和验证工作,这些工作动辄需要一个月的时间,远远落后于恶意代码的生成速率。安全管理和运维成本疾速增加安全产品成本:传统安全保障模式下所采购的安全产品,已经愈发难以满足规模化扩展的需求,导致安全改造的成本居高不下。云上应用的弹性访问需求变化,常常使安全设施难以招架,而对这些安全产品进行云化改造,又会引起整体架构的一系列变化,让企业产生很多额外的顾虑。运维和运营成本:由于企业在安全集成模式下采购了多样化的安全产品,后期的运维成本也在持续增加,这其中既包括统一管理过程中的庞大开销,也包括各类产品长期升级特征库所带来的巨大支出。现有系统修复成本:企业在遭遇安全风险和安全事件时,往往面临经济成本和时间成本上的双重压力。IDC研究发现,年,单个关键工作负载的平均宕机修复成本为,美元/小时。以漏洞管理为例,根据Edgescan的报告,企业关键严重性漏洞的平均修复时间为天。整体上看,IDC数据显示,年,全球应用漏洞管理市场规模超过亿美元,同比增长.%。这意味着企业正在投入更多的成本来应对应用漏洞风险。对于大型集团性企业而言,漏洞管理工作可能需要覆盖几十、上百种应用,成本将会更高。随着应用复杂性的增加,这类修复工作将会变得更加困难,很多时候需要专业团队长期驻场,使之成为昂贵的定制化服务,给企业的成本管理带来无法承受的压力。.原生安全范式:企业安全建设应明确技术要求在复杂性爆炸的背景下,企业亟需解决的核心问题,是如何面向完整的复杂数字生命体实施全局性、持续性保护。传统的安全防御往往依赖单点能力,以边界为重心构建防御体系,既看不到应用内部的数据流,也看不到外部数据在应用内部产生的变化和扰动,无法满足企业更细粒度、更高效、更规模化的防护需求。为了消除复杂性爆炸带来的一系列安全隐患,企业应考虑如何引入安全领域的新理念和新成果,全流程优化安全服务体系,覆盖产品研发、交付、运维、运行等关键环节,推动安全实践过程从粗放式发展转向精细化发展。同时,企业也可将很多临时性的安全行动和零散的工具整合为平台化能力,实现对动态数据的可视化洞察和治理,以更加积极地应对多元风险造成的敞口,构建不断进阶的信任体系,强化综合决策能力,在新的安全理念、安全战略引导下,实现企业安全架构的全新进化。新的企业可信和安全目标的达成,必须以正确的安全范式为顶层设计指引,逐步将安全能力融入到数字体系中,构建面向安全对象的分布式控制能力、实时可视化运营能力,以及基于平台和工具的自动化、智能化干预能力。第二章构筑安全平行切面打造下一代原生安全 IDC认为,在向企业嵌入信任的过程中,企业应高度关注安全实践领域的几个重要演进趋势:架构演进:中心化部署的安全产品将向分布式部署的安全资源演进,确保安全能力与业务如影随形;方法演进:安全能力将从代码化向策略化演进,即从能力的迭代演进为策略的升级,使产品升级的时效性不断得到增强;规模演进:安全资源将从离散化向规模化演进,企业必须具备可大规模部署的安全运维、调度、干预(隔离)能力。以此为依据,企业安全体系能力和服务升级目标可包括:强化效能:面向当前和未来的业务发展设计敏捷安全架构。在企业数字化转型的大背景下,数实融合进程快速推进,企业应用的规模和覆盖范围也越来越大。为了更好地支撑海量数据的管理和价值挖掘,满足应用的快速迭代要求,企业安全架构必须做出相应的变革:既要解决好安全与业务协同中长期存在的固有矛盾,也要关注海量数据资产保护、零信任体系构建等新的安全需求。图 将安全能力融入企业不断演进的数字体系来源:IDC,企业可信和安全嵌入信任分布式控制:将安全基础架构扩展到整个环境中实时可视化运营:实时监控整个安全运营域内的活动基于平台和工具:从高度劳动密集型的安全管理和监督到工具化、智能化的风险干预提升效率:适应数智化时代的变化节奏,提高安全攻防效率。企业数字化应用的访问主体、管理对象等方面的复杂性爆炸问题,让安全威胁和安全事件所能带来的影响加速扩散。企业需要尽快建立起细粒度的实时感知、分析和快速干预能力,将安全事件的影响尽可能地化解于早期;同时,也需要提升安全领域的研发迭代效率,在保持防御体系先进性的同时,尽量减少安全事件对业务系统连续性的影响。形成规模效应:构建高价值、资源池化的安全体系。企业数字化资产的规模在快速提升,包括快速增加的基础设施、应用系统、终端以及呈指数级增长趋势的多模态数据。因此,企业在构建新一代安全架构时,必须考虑到对规模化数字资产的防护干预能力。例如,在发现新的安全漏洞时,企业应当能够在最短的时间里,最大程度地对可能遭遇威胁的系统进行修补,避免遗漏情况的发生。未来,安全资产的管理模式和安全能力的输出形式都将发生明显的变化,安全能力不仅要能快速调用,还必须做到统一管理,用平台化的方式,实现从中心化到资源化的转换,以满足复杂环境下对数据、系统、应用、设备、人员等的规模化防护需求。如何实现上述目标?“原生安全范式”提供了一个极具价值的参考方案。“原生”体现出安全需求要从复杂业务的本源出发,从系统设计开始就全面考虑安全与业务的融合问题。“范式”则意味着将这样的安全能力整合输出为一套企业可遵循的规则和要求。“原生安全范式”旨在解决企业信息安全的本源问题:一是避免安全防护手段被绕过,二是避免受信任的权限被滥用。“原生安全范式”为企业安全发展提供了理想的理论依据、实践指导和实践经验归纳,可用于指导企业构建全领域、全周期、工具化、标准化的整体安全防护能力。例如,基于“原生安全范式”的规则要求,所有的认证都应该基于可追溯的凭据,即保证所有的验证过程都可被视为具有可靠性。在传统的安全体系中,仅验证身份的方式不足以满足日趋复杂的安全形势要求,访问者在什么场景下施加了什么行为、获得了什么资源,都需要被进一步验证,以确保访问行为的合理性、合法性和合规性。企业应建立起全方位的鉴权能力和链路追踪能力,明确由谁发起请求,明确用户访问链路,明确访问者权限范围,并确认其是否可以操作相应的资源。安全范式作为重要的安全理念,体现为一套体系化的安全要求,是对安全问题本源认知的设计规范和参考架构。事实上,企业之所以在大量的攻击中遭受损失,往往都是因为没有达到安全范式的模式要求。违背安全范式是造成安全事件的主要原因,当企业缺乏明确的技术要求和整体性的防护思路时,非常容易出现越权访问和权限滥用的现象,使防御体系出现大量的薄弱环节。此外,在人工智能迅速发展的背景下,企业完成数据管理和价值挖掘的水平将很大程度影响对于人工智能的应用,在这个过程中,执行“原生安全范式”能够帮助安全团队更全面地探测和治理数据相关问题,进而为企业的智能建设奠定良好基础。在探索原生安全范式的过程中,有两个典型范式具有代表意义,它们在传统安全思路中未被触达,但对安全结果会产生直接影响。OVTP可溯范式:基于对网络访问安全本源的认知辨析,完整准确地研判一个网络访问是否合法,应基于该访问操作者的访问链路信息(包括实际操作人、访问链路上的应用以及相关运行环境信息)与凭证(Voucher)的传递链路信息,即站在一个数字化企业的全局视角,对所有网络访问的合法性进行研判,确定应该获取和分析哪些因素。图 OVTP可溯范式(Operator-Voucher-Traceable Paradigm)示例来源:蚂蚁集团,业务凭证(Voucher)凭证链路访问点策略(操作者&凭证)目标客体(库表、API)应用链路Operator N接口应用Operator 实际操作人Operator 当前应用Operator APP当前操作环境Op EnvironmentNbSP零越范式:应确保关键安全检查点不可被绕过。当前,数字化系统的内部执行链路极其复杂,一些隐性链路或被滥用的链路,可以被攻击者用于绕过安全检查点,导致整个安全保障体系非常容易被击穿。对于新的核心系统,应通过模型检验等形式化验证方法来证明系统中不存在绕过安全检查点的执行路径。对于已有的业务系统,应用在主客体业务之间的关键核心节点上,动态增加策略执行的横切点,识别并阻断各类绕过关键检查点的非法行为。图 NbSP零越范式(Non-bypassable Security Paradigm)示例来源:蚂蚁集团,业务凭证(Voucher)凭证链路访问点策略(操作者&凭证)目标客体(库表、API)应用链路Operator N接口应用Operator 实际操作人Operator 当前应用Operator APP当前操作环境Op Environment.安全平行切面:为企业生命体注入“安全疫苗”原生安全范式为新一代的企业安全架构设计提供了理想的目标指引。在支撑原生安全范式落地的过程中,安全平行切面的构想被适时提出,并开始在企业安全实践中持续发展迭代。原生安全范式是对安全问题本源的探索,安全平行切面则是支撑未来企业安全架构的重要技术方向,是提升安全防护水平的全新方法体系。二者相辅相成,让安全理念得以落地。安全平行切面是一种面向未来安全、承载安全攻防对抗和安全治理能力的基础框架。它会通过构建与业务环境低摩擦的安全友好架构,带来攻防能力和安全治理效率的显著提升。安全平行切面的核心思想是:将编程语言环境下的Aspect-oriented Programming(AOP面向切面编程)推广应用到安全架构建设中,构建与业务正交融合的安全横切面,在不修改业务逻辑的情况下,通过横切面上的切点将安全能力系统化地融入到业务内部。此举有助于在保持安全响应能力和复杂业务逻辑解耦的同时,通过标准化的接口,为安全业务提供内视和干预能力。安全平行切面是一种创新的安全架构,是低成本实现“原生安全”、快速增强应用服务内在“安全体质”的可行路径。安全平行切面像“疫苗”一样,伴随企业数字生命体的成长而不断演化,帮助企业以内生的方式应对复杂环境带来的安全挑战,成为企业数字化环境不可或缺的组成部分;同时,在不对企业数字生命体造成不利影响的前提下,帮助企业持续强化自身的安全基础,企业可以同时拥有多个安全切面,在互不干预的前提下,发挥出不同的“免疫”防护作用。从实践层面看,“切面”是面向企业数字生命体的新一代安全基础平台定义,能够通过插桩或者AOP机制,将安全能力融入到业务应用系统中,同时又通过将切面安全应用逻辑与业务应用逻辑解耦,实现安全与业务的快速平行迭代。从某种意义上说,AOP是Object-Oriented Programming(OOP面向对象编程)的重要补充,两者相互影响,彼此延伸。安全平行切面解决方案有助于企业发展出更加精细化的安全管控能力。依托平行切面思想和工程化手段,企业可以拥有一个独立的安全发展空间,将不断迭代的安全能力“编织”到业务系统内部。如图所示,传统安全方案以外部防护为主,在业务系统从单机到集群再到微服务架构的演进过程中,难以伴随业务的精细化发展路径进行深入和细化,即:无论业务逻辑如何拓展,其安全管控措施都无法摆脱粗放的模式;而切面能力既解除了安全能力与业务系统之间的相互束缚,也为企业提供了深入业务内部的手段,业务中的每个新增细节都可以被切面有效观测到,并及时推动整体安全策略的动态调整。传统的安全实践一般以不同的业务系统为目标主体,将安全能力通过编排组合,附着在业务系统的各个环节中,形成“个体化”的设计。安全平行切面则把一些高频使用的安全模块抽象出来,形成独立发展的能力项,并以AOP机制为支撑,实现独立部署,使交付和运营过程更敏捷,安全代码复用性更强,如图所示。安全平行切面能够将更多的安全能力转化为基础设施资源,以更加全局化、全链路的方式,为规模化应用提供安全保障。切面模块切面模块切面模块业务功能AOP面向切面编程切面安全应用逻辑与业务应用逻辑解耦,又通过插桩或者AOP机制,将安全能力融入到业务应用系统中图 安全平行切面示意图来源:IDC,业务功能业务空间安全平行切面空间切面编程注入切面应用切面管控切面底座平行舱为了落实安全平行切面对业务空间的一系列感知和干预能力,其在工程化实践过程中,形成了以下几个关键概念:切面:是一系列动态逻辑的组合。在与业务空间的一个平行空间里,通过注入、代理等技术,在不修改源代码的情况下动态修改或添加新的逻辑,这些新的动态逻辑被称为切面应用。切面应用作用于不同的切点,为应用服务动态扩展出各种丰富的安全增强能力。切点:是切面应用在业务系统中的具体作用位置,即原有应用运行逻辑中的某一代码位置。在实践中,一个切面应用可以作用于一个或者一组切点,安全切面可以将切点位置的代码执行流程引至切面应用中,并对其原有逻辑进行观测或干预。平行舱:平行舱是对切面应用进行的工程化封装,以构建一个与业务应用共同存在的平行空间,让各种切面应用能够平稳、有序、可控、安全地运行,控制各种安全能力,使其在合适的时间、位置,以适当的规模生效。在业务外围进行守护业务趋向细化,安全依旧粗放无论业务大厦里存在多少细节,每个细节都可以被切面观测图 安全和业务颗粒度同步趋向细化来源:IDC,传统安全安全平行切面计算机科学中的所有问题都可以通过增加一个间接层来解决。大卫惠勒,计算机科学家,剑桥大学教授安全平行舱具备三大特性:隔离性、可调度性和可管控性。隔离性:平行舱可以对切面应用的作用和影响范围、组件依赖、可执行动作等进行相应的隔离与管控。切面应用通过切面核心的加载器加载到平行空间中,在属于其自身的平行舱中运行,并通过各平行舱命名空间的隔离,来确保其依赖作用域只限于自身,不会污染业务空间。可调度性:切面核心通过统一注入的代理逻辑接管切点的处理流程,并根据各种切面应用的优先级进行统一的调度管理。当最终各切面应用的处置逻辑执行完成之后,根据不同切面应用的执行结果,给出对业务逻辑所需要执行的干预行为。当切面应用出现异常时,切面核心可作为异常缓冲;而当切面核心出现异常时,统一的代理逻辑可提供异常兜底机制,避免对业务产生影响,从而极大地提高了切面基础设施对切面应用和业务应用的运行保障能力。可管控性:由于切面应用可以对业务执行流的上下文等数据进行修改,并且能和应用服务一样访问系统资源和服务,因此必须进行合理的管控,避免切面自身被恶意利用。平行舱的访问控制能力可以限制切面应用对业务上下文的读写,对于大部分观测类切面只赋予只读权限。此外,对系统资源和服务的访问,也可以通过平行舱限定在有限的范围内。每个切面应用默认只能访问属于自身的资源目录和提供有限的系统服务。只有经过许可的切面应用,才能执行额外的操作。事实上,安全平行切面作为一个新的安全框架体系,与传统安全技术存在千丝万缕的延续关系。安全平行切面利用AOP、插桩技术、hook机制等,构建了一个新的安全能力发展空间,这种思路已在IT应用和运维侧实现成熟产品化应用,但在安全领域尚未实现系统级的应用。安全平行切面的发展极大地改变了这种局面。安全平行切面通过对“感知 干预”能力的强化,一方面促进了业务安全触角的延展,另一方面也构建了细粒度的管控体系。相比于传统的安全技术,基于平行切面的安全技术在延续很多安全攻防技术的同时,又发展出更具先进性的特征。安全平行切面作为安全能力体系的基础平台,与上层业务应用之间实现了有效的解耦。基于高融合、低耦合模式,安全平行切面能够为安全产品、组件和安全能力的发展迭代提供一个独立空间。融合 解耦:切面既紧密作用于应用系统,又与应用系统解耦。切面将云管边端的不同环节有效地连接起来,实现安全作用力的组合输出;同时,它的解耦性又能让安全组件始终保持独立化发展迭代的局面,形成安全防护的敏捷性优势。基础设施特性:安全平行切面是面向下一代原生安全的基础设施,既与安全体系在构建过程中融合,又可充当一个底层的安全能力,形成基建化、共享化和服务化的优势。原生安全处置能力:切面和平行舱能够通过标准化接口的形式,规模化地输出安全能力,对业务系统进行组合干预。从业务视角看,这些安全干预举措实现了原生安全的保障和处置能力,这是传统安全保障体系所难以达成的目标和效果。在实践中,安全平行切面有相当多的应用模式和作用范围。在应用层面:安全平行切面可以在业务逻辑和流量关键环节中构建切点组合,更快速地发现潜在威胁,实现对异常访问的精准感知和快速阻断。例如,切面可以提供针对企业自研或外采安全产品的管理机制,缓解外采给企业带来的技术挑战;切面通过平行的安全域对目标进行管控,无需修改代码和产品即可实现对攻击的感知和阻断;切面提供的规模化漏洞修复能力,改变了传统漏洞修复速度严重滞后于漏洞危害扩散速度的被动局面,可在极短时间内实现大量漏洞的自动修复。安全平行切面既能够适应传统的非云基础设施,也可以适应云和微服务架构。此外,在企业多云架构带来的多样化技术栈环境下,安全平行切面仍可以提供一体化的安全保障服务,帮助企业应对多云环境带来的复杂度挑战。操作系统:切面也可以针对操作系统内核提供热修复能力。例如Linux security module提供了一个跨内核的安全切面,但其尚未作为基础设施来实现,也缺少平行舱这样的服务层,无法主动与云平台等实现一体化安全管控。未来,基于安全管控的植入框架,安全平行切面有望在操作系统层面提供更多的安全服务能力。网络:相对于传统的防火墙、WAF层面的防护,安全平行切面可以在与网关、网格的结合中体现出更深入的优势,形成更具全局和更细粒度的网络安全能力集合。图 移动应用端安全平行切面应用示意图来源:IDC,业务代码第三方代码第三方SDK隐私信息开发语言开发框架日志分析数据库操作系统云服务风险代码核心逻辑应用技术栈应用生命周期应用观测对象切面底座配置读取 数据上报 模块加载切面管控稳定性模块 安全模块 隐私模块切面应用切面功能切面技术栈风险隔离安全防御隐私保护异常处理平行舱安全平行切面空间业务空间切点切点确定切点位置注入切面代码全阶段覆盖构建阶段运行阶段.安全平行切面的核心能力和特征安全平行切面作为一个基础框架和能力集合,具备区别于传统安全体系的一系列突出能力,包括感知、干预以及快速扩展等核心和特性能力。多维感知能力,还原事实本身:感知能力是安全领域“看得见”的基础能力,做不到感知能力的覆盖就很难保障系统安全和数据安全。安全平行切面技术将安全基础设施融入应用和系统内部,能在业务系统中的任意位置进行深入的数据采集观测;同时,在端管云各层次切点之间,通过对运行时上下文数据的解析,可快速准确地串联起各层次切点的观测数据,极大地拓展安全感知能力可观测的数据维度,以全局视角还原攻击者的实际意图与结果,提高整体感知能力的准确性。微观干预能力,精准高效防御:由于安全平行切面能够将安全逻辑深入到应用服务内部,天然具备更细粒度且更为精准的干预能力,其精度能细化到对业务系统内的任意一行代码进行干预的粒度。相对于传统的外挂式安全系统在宏观行为层面对攻击进行判定与防御,微观干预能力能让防御效果精准地作用于攻击生效点,并可通过上下文、执行链路等进行动态干预判定,进一步过滤正常的用户和系统行为,省去大量特征过滤的开销,提高防御的准确性与效率。编程扩展能力,支撑快速创新:安全平行切面是一套可编程的安全基础设施,在保持安全响应能力和复杂业务逻辑解耦的同时,通过标准化的接口为安全业务提供内视和干预能力。不同领域的安全团队,比如数据安全、系统安全、攻防对抗等,可以各自独立地存在于平行空间内,实现、维护和部署各自所需的安全能力,为各团队的应急与安全创新提供了很好的基础保障。安全平行切面在赋能业务系统开发、运维和运营的过程中,能够体现出以下显著特征:稳定性:切面和切点的设置不对业务系统代码产生实质性改变,可以最大化地减少对业务系统运行所产生的影响,保证企业整体运营的稳定。有效性:相对于传统的边界防护,安全切点深入到应用系统、网络和操作系统内部,对安全动态的感知、分析、阻断能力更有效,也更能体现全局联动的效果。安全性:安全平行切面实现了自身安全组件的独立迭代,其安全能力的规模化输出和对自身的安全性保障都在持续性地进步与完善。相较于传统安全体系,安全保障的质量有实质性的跃升。隔离性:由于安全平行舱所构建的安全能力集合,与业务实现了完全解耦,保证安全能力的升级迭代过程与业务系统完全隔离,确保安全能力与业务能力的独立发展。易用性:安全平行切面通过对典型切面构建过程的标准化定义和工程化平台支撑,使企业规模化的安全感知和干预工作变得更加轻松,平台的基础设施属性也便于其在提升易用性的同时,拓展安全措施的规模化影响力。.安全平行切面的应用价值在面向当前和未来快速增加的创新业务应用时,安全平行切面的理念以及落地实践过程,能够在能力、效率和成本方面体现出显著的优势。、安全平行切面的能力优势企业安全平行切面和安全平行舱的引入,重构了安全与业务的协同关系,让安全真正融入到业务本身,实现安全过程的可知、可见。例如,基于对业务行为和目的的感知、分析和判断,构建新的认证机制,并将其通过丰富的切点贯彻到所有业务系统的安全升级和改造过程中。从防护效果上看,安全平行切面推动了从传统外挂式防护到原生安全防护的转变,从而将安全影响力推进至业务系统的深层空间。全面深入感知:安全切面为安全攻防提供了强大的实战保障,其对应用系统的全面、深入感知能力,能够衍生出很多实战化的应用场景,实现从“以合规为导向”到“对后果负责”的转变。例如,面对日益严重的数据泄露问题,传统的安全模式仍注重外围环节的严防死守,对多重因素联合造成的数据泄露事件缺乏预判、跟踪、阻断和追溯能力。安全平行切面极大改变了这样的被动局面,也有望重塑数据管理的责权利机制。安全日志自由:传统安全产品所产生的安全日志,其覆盖率、准确率和知识性都有很大的局限性,切面提供了针对应用的细粒度观测能力,由于其深入应用内部,具备全方位的观测和干预能力,因此不需要通过安全产品的采集和授权访问,就可以自己获取海量的日志信息。在日志流转不及时的情况下,安全切面可以最大化保证安全日志的实时按需获取,这是安全切面最重要的底层能力体现。对传统安全技术的一体化管理:安全平行切面为企业自研或采购的其他安全产品提供了理想的管理机制,缓解外采安全产品带给企业的技术压力。应用内部的快速变化和复杂性爆炸因素,使外采安全产品的配置缺陷和协同不畅时常成为外部攻击的突破口,安全平行切面的切点管控能力使外采产品的一体化管控成为可能,从而更全面地管控风险。打造新一代安全底层框架:安全平行切面让企业安全防护的重心由边界向应用协同深层转变,形成了新一代安全基础设施。在这样的安全底层框架上,各类安全组件和安全产品将以新的模式发挥作用,安全生态能力也将依托新的框架,实现面向未来企业安全体系的创新与协同。、安全平行切面的效率优势安全平行切面体现了安全能力共享化、资源化的发展趋势,可以在企业安全防护特别是规模化防护过程中显著地提升效率。企业数字化应用的快速发展和复杂性爆炸,使需要防护的对象成倍增长,防护重心也从边界转为应用内部更细粒度的关键节点,进而产生了普遍的规模化防护需求。安全平行切面打造了一个具备多样化安全能力的基础设施,通过不断趋向标准化的切点和切面构建,全面融入至上层应用的业务逻辑中,既打造了原生安全,同时又利用平行舱的低耦合特性保证自身的独立性。在实现规模化防护的过程中,安全平行切面能够切实体现出以下效率优势。敏捷化防御:切点和切面的构建使安全防御能力能够快速触达规模化应用系统的每一个关键环节。安全平行舱所承载的多样化安全组件和产品在独立迭代的过程中,既保证了安全能力的先进性和时效性,也能够利用规范化的切面设计和丰富的切点设置,实现多个应用系统的快速并行干预,使防御体系的敏捷性和有效性获得数量级的提升。实施更便利:安全平行切面对业务应用的感知和干预过程,均无需修改原有业务系统的代码和产品配置,而只需按照设计要求,全面执行切面安全保障机制。这能够最大化地减少对业务系统的干扰,也显著抵消了传统安全与业务之间的相互影响。、安全平行切面的成本优势企业应该从全局运营的视角,重新审视规模化安全能力带给企业的综合成本优势。这些成本包含了研发成本、运维成本和运营成本等。研发成本:企业的代码开发负责团队可以从切面设置中获益。由于切面有很强的内视能力,因此,一些内部研发过程和类似DevSecOps的实践都可以通过切面的植入来实现。切面的思想甚至还可以用于保障供应链安全等行业需求。在传统的供应链安全管理中,静态信息偏多,在用于实际的分析时,很容易发生遗漏,且不能充分反映线上的动态情况,切面的引入,则可以从根本上消除全局被动性所造成的影响。运维成本:安全平行切面可以有效解决安全的规模化防护问题,通过对安全资源统筹效率的革命性提升,实现基础安全资源对应用的快速影响力覆盖,从而显著减少安全人力、物力和财力的投入。运营成本:规模化安全防护的优势也体现在对企业业务运行的高质量保障中。在传统的安全防护模式下,企业安全团队针对所有应用系统梳理和修复一个漏洞,需要逐个执行修复和验证措施,无论是采用串行工作还是多人并行工作的方式,其包含停机时间、人力、物力因素在内的企业运营成本都很高。而在安全平行切面的干预模式下,针对应用的安全升级和干预过程几乎不对业务开展产生干扰,这受到了包括SRE团队在内的内部组织的广泛欢迎。行业综合成本:安全平行切面打造的安全日志自由,有助于实现“CT式”安全评估能力,为风险评估生态体系(包含企业上下游、安全厂商、安全保险企业等)提供丰富、可靠的安全态势参数。通过业务与安全相融合的新场景,涉及安全产品、运维、运营、保费在内的综合成本均可呈现出理想的优化效果。.安全平行切面的应用场景安全平行切面带来了创新性的安全可观测和可干预能力,为网络安全、数据安全、个人信息保护等领域带来了颠覆性变革的可能性,同时也有望推动一大批安全、合规和攻防场景的出现。、合规场景数据资产精确测绘:数据资产测绘是企业当前数据管理中的一个重要环节。在海量数据持续产生的背景下,数据资产的测绘过程普遍会遇到如何应对数据动态变化的问题。例如,在测绘过程中,测绘目标产生了增量,导致分类分级定义发生变化。网络中的动态流量也给测绘过程增加了复杂度。此外,传统的数据测绘过程会普遍出现越权现象,从而对数据资产的安全性产生威胁。安全平行切面为数据资产的动态、精确测绘提供了有效手段。针对海量数据,可以采用静态测绘与动态相结合的方式,通过在切点设置代理,获取相应的数据资产基础信息和分类分级结果,保证测绘过程的安全性和精准度。第三章 安全平行切面的应用和构建 数据流转全链路感知:企业内部应用系统数量和各类终端用户数量的快速增长,使数据流转过程日趋复杂,数据在流转过程发生不可预知的泄露风险也大幅增加。安全平行切面的出现为跟踪数据流转全过程提供了有效的方法选择,通过在数据流转通道的关键环节设置切点,准确记录数据的传输、交换、存储过程,有助于建立对数据流转过程的全链路感知能力,发现数据在流转过程中的潜在泄露风险,及时阻断数据泄露行为。场景化数据分类分级:在数据驱动业务发展的目标指引下,企业内外部的创新应用场景层出不穷。为了在保障安全的前提下,充分发挥数据资产的价值,实现场景化数据服务,企业数据的分类分级策略将变得更加灵活多样。安全平行切面通过在数据管理流程中合理设置管理切点,可以对数据分级分类施加更细粒度的执行策略,从而使数据的组合、加工和处置过程更加贴近业务需要。APP端个人信息合规保障:企业在运营拥有海量用户的APP时,由于终端防护水平的参差不齐,因此经由终端输入的个人信息会面临多样化的威胁,也给企业自身的合规建设带来很大的隐患。企业可以通过安全平行切面的规模化干预能力,及时升级终端上的安全合规和安全防护策略,调整APP数据的权责管控模式,形成个人信息合规的动态保障能力。、威胁对抗场景大规模day漏洞防护:企业在引入专有云和云原生架构的进程中,大量的应用系统架构采用了统一的架构和技术组件,也使新的漏洞爆发时所产生的影响范围变得更大。企业day漏洞大规模修补和系统升级工作的时效性至关重要。基于企业现有的人力、物力资源条件,安全平行切面技术能够帮助企业实现规模化漏洞的批量快速修复,确保将day漏洞对业务运行的影响降至最小。-day威胁感知与捕获:切点的合理设置,还能够帮助企业发现潜在可利用的安全漏洞或攻击者的攻击尝试(即-day威胁),及时对业务进行整改或更新安全策略,提升企业的防御性弹性,并在一定程度上对day漏洞的未知风险产生预防作用。细粒度攻击感知与阻断:安全平行切面可在测试环境、仿真环境或真实业务环境中,动态地对关键sink点进行持续性监测,并实现对应用逻辑的细粒度刻画以及对NbSP异常行为的检测。相比传统的网络、系统层面的监测或静态扫描,通过切面实现的动态监测识别颗粒度更细,结果更为精准,其阻断措施也更加快速和准确。精准根因定位与研判:由于切点的设置深入应用、操作系统、网络的内部节点,因此对安全威胁和安全事件的过程信息掌控更加精准。同时,经过海量数据分析和训练形成的安全模型,能够帮助企业精准定位安全事件的根因,实时研判安全态势,大幅提升安全应急处置的水平。、网络保险场景网络安全保险是面向企业安全保障的一项机制创新,通过产品、服务、保险的组合,强化企业安全运营成效,为企业因IT系统和网络攻击而产生的损失兜底。目前,网络安全保险市场正处于起步期,根据IDC调研,到年,全球网络安全保险保费将增长%以上。按照保险的出险、定损、赔付等环节,安全平行切面有望支撑的场景包括:全链路安全风险评估:网络安全风险通常包括:由漏洞的直接和间接成本导致的财务风险,合规风险,保密性/完整性/可用性受损带来的声誉风险,安全事件造成的运营风险,以及威胁组织持续生存能力的战略风险等。当前行业中针对安全的评估判断主要依赖于调查表,其全面性和客观性有限。而切面可以透视整个系统,通过对系统的复杂性、脆弱性的度量,可以形成跨越当前技术的新体系,进而获得对风险的精确认知。细粒度安全监测:与威胁对抗场景类似,细粒度的安全监测可以帮助企业更精准地确定保单范围,评估潜在的事件损失成本、事件响应成本以及因业务停机产生的收入损失、声誉损失、系统恢复成本和法律成本等,进而形成多样化的安全保险赋能场景。例如,企业通过对安全动态的实时掌握,有效评估在投保项目方面的重心和规模,达成安全保险与安全投入的合理平衡,最终实现安全保费和安全投入的最小和。高效安全响应与溯源:通过安全切面可以实现访问链路的精确刻画,例如在应用空间内植入微网关能力,代理各类请求(包括HTTP、JDBC、RPC等),动态感知业务进出口流量,实现多协议流量按需采样,流量入口身份可进行身份鉴别,出口进行标识染色,从而实现OVTP链路刻画,帮助企业建立高效的安全相应和溯源能力。.建设安全平行切面的方法、步骤与应用指南、企业战略认知与顶层设计企业以外挂式安全架构为核心的安全模型已经发展了多年,形成了相对稳定的运行环境和理想的性价比,被包括业务部门在内的企业各方所接受。但随着数字化环境日趋复杂,复杂治理环境和高强度的攻防对抗已成为常态,企业应认识到:传统安全架构在可观测能力和全局管控能力上存在局限性,无法有效应对未来安全态势的发展。安全能力与业务逻辑的深度融合已成为大势所趋,在数据安全、网络安全、隐私保护等领域,严峻的攻防态势要求用户必须具备全局、深度的感知、防御和处置能力。与此同时,安全能力也需要突破与业务系统之间长期存在的制约关系,获得独立迭代的空间,以足够的能力应对快速增加的安全威胁。安全平行切面以高融合、低耦合的方法,建立安全与业务的全新协同发展模式,为业务提供了更具良好体验的原生安全服务,为未来企业安全架构的发展提供了良好理念和方法论借鉴,也是企业构建未来安全战略时需要重点关注的目标。以新的安全战略为指引,企业可以借鉴安全平行切面的思想,着手完成安全架构的顶层设计,形成安全体系建设的路线图、能力框架、技术架构、场景规划和运营模式。在这个过程中,企业需要根据自身的业务需求,形成有侧重的安全防护体系,例如,企业应围绕对数据要素的动态访问和数据驱动的业务场景,建立以数据要素为中心的安全架构,满足复杂的安全业务场景需求,包括对企业内网数据的安全访问、数据实时共享、隐私数据保护、移动终端防护等。、构建切面的底层能力框架安全平行切面的底层能力框架是新一代企业安全防护体系的承载平台,体现了安全平行切面的思想和理念,也通过安全平行舱这样的工程化平台形成多样化的集成搭载能力。安全平行切面能力框架旨在赋予企业强大的观测能力与精准的干预能力,实现感知能力与响应效率的跨越式提升,高效支持企业数字生命体中原生安全范式的实现。能力框架通过可注入的基础技术,在不修改应用源码的情况下给程序动态添加或修改功能,并通过切面平行舱保证其有序运行,提供精准的安全观测与干预服务。在此基础上,安全平行舱打造了不同切面应用的执行环境单元,体现切面应用调度和管控的基本颗粒度。在安全平行舱的支撑下,企业需要根据自身的需求,借鉴成熟的工程化模板,实现切面、切点的设计,形成应用切面、操作系统切面、终端防护切面等不同的防护组合。基于安全平行切面能力框架,安全产品厂商和生态服务企业都可以发挥自身的优势,将各类安全能力通过产品、组件和服务的方式构建在框架中,形成持续迭代和深度协同的发展局面,使最终客户能够在多产品运维、多事件管理、多维数据融合等维度上实现真正的统一运维、统一管控和统一调度。、实现切面场景的持续拓展对于大多数企业来说,从应用切入,分步实现切面场景的拓展是一个较为理想的选择,也是保证安全平行切面快速产生业务价值的必要路径。安全平行切面通常首先用于解决企业安全攻防、数据治理等最根本的问题。作为未来安全对抗和安全治理的基础平台,安全平行切面会带来攻防对抗和安全治理效率的显著提升。传统的安全模式下,企业缺少对业务系统形成干预能力的技术平台,因此通过定制化安全开发所形成的业务系统外围和内部的安全措施缺少效能提升的空间。未来,预计-%的安全服务都会实现切面化改造,由此带来攻防效率和研发迭代效能的革命性提升。企业在将切面技术用于安全对抗和安全治理的过程中,可以有效积累经验,打造标准化的模板、技术组件和服务,并通过安全平行舱实现安全能力的标准化沉淀和输出;在此基础上,根据企业各领域的安全需求持续拓展安全切面的应用场景,包括合规场景、安全对抗场景、保险场景等。、形成安全能力长期迭代提升的良性局面企业安全能力的建设不是一蹴而就的短期过程。安全平行切面及安全平行舱的出现,创建了一个较为完整的技术框架和工程化平台,并通过高融合、低耦合特性,为各项安全能力的发展提供了独立空间。以此为基础,各安全系统、安全组件、安全服务的供应商有望加速自身的发展迭代速度,在统一的技术框架下,通过发挥各自所长,逐渐形成一个相互协同的生态体系,使安全能力基于生态基础实现相互协同,构建起全流程的安全能力闭环。安全平行切面技术框架的隔离性,也有助于加快安全切面设计模式的标准化进程,将面向业务系统的安全能力更多地抽象出来,形成新的安全基础设施,并在原生安全范式下对不同层面的安全能力进行长期持续迭代,在产品和服务体验上获得持续提升,在商业模式上取得新的突破。.安全平行切面的实践应用.蚂蚁集团安全平行切面的内部实践蚂蚁集团数字化业务体量大,发展快,为了应对企业数字业务的规模化安全保障过程中所面临的一系列现实问题,蚂蚁集团积极探索基于安全平行切面的实践活动,在应用场景、部署经验等方面积累了先进的经验,获得了可圈可点的成果。应用背景在传统架构下的安全左移实践中,企业需要在各类非真实的测试环境中依靠扫描工具做代码逻辑分析和业务行为模拟测试,并根据线上安全产品采集的业务流量与进程行为进行综合威胁研判。面对未来的大规模安全治理与攻防对抗要求,传统架构下的检测、治理、防护手段单一,上下文逻辑缺失,数据可集成度低,规模化运维难度大。此外,传统模式的抽样观测效果不佳,抽样数据无法支撑链路追踪目标,安全事件的追溯范围也极为有限。据统计,传统的安全监控可覆盖高风险范围的比例平均只有%,大量应用因技术栈陈旧、无人维护等原因处于观测盲区。成效概览蚂蚁集团的安全平行切面实践,极大提升了漏洞挖掘、实时防御、资产画像、隐私保护等行动的效率和准确性。目前,全集团的切面观测模块部署超过万个容器,生产环境稳定运行了多个注入点,日均观测量级亿次。在前不久的logj漏洞发生期间,共拦截相关攻击万余次,在小时级的时间内完成了全站精准止血,实现误拦漏拦,应急响应的人力需求从人日大幅降低到人日。蚂蚁集团的安全平行切面助力集团有力应对双、双期间的流量洪峰,在平行止血加固的同时,极大程度减少对业务的干扰,并且做到服务不降级,安全策略检测速率达.亿次/分钟。图 蚂蚁集团安全平行切面应用实践效果来源:蚂蚁集团,切面观测模续运行情况:部署W 容器,生产环境稳定运行 注入点,日均观测量级亿次拦截 万 次 logj攻击,小时级完成全站精准止血,误拦,漏拦,应急人力从 人日降低到 人日双大促封网不受影响,平行止血加固,业务 打扰化解危机双、双流量洪峰值不降级,安全策略检测.亿次/分钟SpringShell超危漏洞应急,获得高度认可漏洞挖掘 实时防御 资产画像 隐私保护 遗漏率%下降检出量倍提升攻击防护% 拦截率漏洞探测防护% 拦截率高风险攻击 类防御策略接口画像%准确率提升凭据治理%完整性提升应用服务类隐私风险防护 高敏接口%鉴权防护隐私信息%流出识别落地场景、安全治理场景概要:安全态势研判的复杂性会伴随数字化业务的复杂性增加而快速增长。业务场景的复杂导致需要判断的行为数量显著增加,进而打破原有的需求和能力平衡。安全切面能够基于更细粒度的数据,发现之前无法发现的问题,显著提升安全防护的效率和效果,为企业安全治理带来跨越式的变革。背景与挑战复杂场景下的网络安全治理,从来不是非黑即白的简单判定过程。从已有的观测数据中,往往会发掘出很多未知行为(俗称灰名单)。在实际安全运营过程中,企业需要投入大量的时间和人力深入业务场景,联络业务责任人,梳理业务逻辑,研判系统行为合理性,最终对“未知行为”做出风险和合规认定。这一系列调查、取证动作会严重贻误战机,放任攻击者达成攻击目标。例如,在蚂蚁集团安全团队治理过程中,安全系统发现某个应用频繁访问一些外部不可控的域名,并自动发出了告警。一般情况下,安全团队不能在第一时间阻断未知的请求,而是需要与业务团队进行确认,以防止误拦截所造成的严重业务影响。但业务方由于各种信息不透明,往往也无法给出及时而有效的判断。在传统治理模式下,安全团队要完成业务应用的代码审计,定位可能发起网络访问行为的代码片段,再结合代码片段所引用的上下文研判问题根因。面对大规模的未知访问时、在安全团队规模远远小于业务团队规模的情况下,这样的治理模式在时效性方面不具备与攻击组织对抗的可能性。解决方案而在切面治理模式下,安全团队利用切面基础设施快速将切面应用部署至该业务所属的全量基础环境及业务上下游,开启切面对该应用的线上观察模式,实时获取行为日志。通过分析切面告警日志,可以快速锁定触发访问域名的行为在代码工程中的位置和堆栈信息,确认访问域名行为的发起者,并与业务方共同排查代码逻辑的合理性。经上下文分析确认:开发人员为实现日志打印,通过应用代码直接获取外部IP,导致在使用某个获取域名的方法做请求时,由于入参的变化引发了函数的异图 传统治理模式 vs 安全平行切面治理模式来源:蚂蚁集团,传统治理模式安全平行切面治理模式采集行为与进程信息黑白名单校验白名单黑名单放行无法拦截业务场景沟通认可不认可下载代码拼接业务上下文定位代码片段形成结论合理业务需求,无需整改不合理业务需求,需整改灰名单采集行为与进程信息黑白名单校验预期放行拦截业务场景沟通安全切面应用黑名单白名单合理业务需求,无需整改不合理业务需求,需整改灰名单研判前置与业务联动支持自动化切面信息可缩短灰名单判定流程和时间流程较长,难度较大阶段注:常行为。经过上述分析,安全团队确认该异常访问行为并非安全漏洞引发,但仍存在一定的安全隐患。安全团队做出溯源排查结论后,业务方迅速完成了整改。应用成效在该案例中,整个未知行为的分析溯源过程非常复杂,且业务代码的调用链路长。通过对应用代码的执行过程进行细粒度的观测,安全运营人员快速识别了敏感行为,并进一步提供有效的止血手段,极大缩短了调查取证和做出威胁响应的时间。、-day挖掘实践概要:-day挖掘体现了安全行为的左移思想,能够将企业的安全对抗成本进行前置。基于新一代安全基础设施,可以更有效地发现-day漏洞,从而大幅减少企业在面对day时的应急响应投入。背景与挑战在传统安全体系下,-day漏洞的挖掘工作具有很高的综合门槛。例如,企业需要具备对高危命令的治理能力,深入理解高危命令和业务的实质关系,连续观测高危命令的执行情况。在一些业务场景中,攻击者通过修改Button背后的URL,达成其正向攻击探测的目标。而安全团队则可以根据代码进行反向分析,先于攻击者发现可能存在的问题,实现反向推测。在企业纵深防御体系中,大量针对漏洞(尤其是边界公网可达的应用漏洞)的攻击行为最为致命,因此,对企业边界处的攻击探测与加固行动必须分秒必争。对-day漏洞的检测与防护,本质上也是漏洞防护的“左移”,即:通过在日常治理过程中对应用行为的细粒度观测以及可信行为的建立,实现对潜在可利用漏洞的提前感知,大幅降低后续处置day和day漏洞的成本。解决方案蚂蚁集团安全可信技术团队通过应用安全切面,上线了面向命令执行的白名单策略,仅允许JAVA应用执行可信可控的linuxshell命令。在策略上线过程中,安全团队发现了若干应用存在自定义的shell命令,通过对这些命令的引入方式进行分析,发现某个应用执行的命令非常可疑,有潜在的存在命令注入风险。经过进一步的深入跟进,安全团队挖掘出一个互联网可达的远程命令执行(RCE)漏洞,攻击者利用该漏洞实施攻击的成本极低,危害极大。在发现漏洞的过程中,安全团队首先根据切面模块(RASP)提供的非预期命令执行告警,查看到一个异常变化的URL。通过RASP详细告警信息中的堆栈,安全团队快速定位到了命令执行的位置。再经过进一步的源码解读和业务逻辑分析,初步判断存在远程命令执行(RCE)漏洞。经过WAF防护系统和蜜罐系统的协同验证,这个公网应用的-dayRCE漏洞被正式确认,并迅速启动了后续的紧急止血和修复工作。图-day挖掘实践程示意图来源:蚂蚁集团,IDC,控制器业务逻辑安全切面切面应用管控安全响应应用研发治理命令执行文件读写网络请求表示层供应链组件关键Sink点动态监控点RASP蜜罐测试止血和修复分析溯源应用行为监控应用和供应链行为画像白名单防控策略黑名单防控策略存在风险行为存在风险行为应用成效在该案例中,切面应用和基础设施作为贯穿“命令执行可信行为治理”过程中的基础能力,覆盖了所有核心应用模块与检测策略要求。细粒度的观测数据为治理团队提供了详细的告警信息,有效支撑安全团队高效定位、溯源和排查可疑行为,助力安全团队在治理过程中挖掘潜在的高危风险,为企业全局性的攻防对抗争取了宝贵时间。、告警降噪场景概要:在企业攻防对抗中,对海量告警信息的降噪非常关键且难度极大。传统模式下的简单降噪策略在降低告警量的同时,会导致一些关键信息的遗漏。安全切面模式基于细粒度的观测数据、自动化的研判规则以及对高等级威胁的学习,可以精准确认攻击行为,实现快速响应。背景与挑战在企业攻防对抗场景中,实施入侵检测与响应的过程可以抽象为获取原始数据、提炼告警信息、甄别真实事件、实施威胁响应等一系列关键举措。在蚂蚁集团的实践中,各类设备与系统日志上报形成了海量的原始安全数据,并经过一系列的规则策略过滤,形成待处理的告警信息。这些告警信息反映出大量不可预期的“异常”业务行为,但规模过于庞大,安全团队难以直接判断其中哪些是真实的攻击。解决方案海量告警信息的降噪成为攻防对抗中的关键环节。安全切面模式以细颗粒度的观测数据为基础,通过切面提供的堆栈和代码,结合对风险引入方式的判断,对灰名单进行自动化的黑白判别,这其中包含了一系列规则、策略的设计编写工作,以及对更高等级威胁的学习和处理过程。例如,精准确定哪些未知的可疑行为由应用代码自身产生,哪些由未知的脚本或漏洞产生,进而从告警中有效甄别出真实的入侵事件。图 基于安全平行切面的告警降噪实现过程示意图来源:蚂蚁集团,IDC,告警降噪业务需求堆栈/代码白名单黑名单(day)治理告警(灰名单)告警数据分析研判事件定性应用行为切面接入事件处理业务域切面域应用成效目前,蚂蚁集团的安全切面针对已知的攻击路径/检测策略实现了全面覆盖,对已知威胁场景的策略实现自动化执行。同时,对大量的未知攻击也做到了实时处理,大幅提升了安全攻防效率。、越权防护场景概要:对越权防护场景的支撑是一项具有挑战性的全新能力。通过将水平越权SDK包装成切面应用,企业能够以基础设施的方式实现对业务的逻辑植入,进而发现和处置越权访问问题。例如,企业可以把OVTP票据逻辑集成到SDK逻辑里,实现水平越权行为的端到端检测,并对个人信息进行有效保护。背景与挑战水平越权是很多行业应用中存在的棘手问题,其风险占比高,危害大,且事前发现困难,持续治理成本无法预估。过去数年中,很多企业安全团队尝试了多样化的治理方法,但由于水平越权问题与业务强相关,因此一直缺少理想的根治手段,也间接导致企业数据泄露事件频发。在数据安全与隐私保护备受关注的情况下,水平越权可能引发企业无法承受的巨大数据风险。传统的水平越权漏洞防治方法,一般基于外挂式与嵌入式两种安全架构:外挂式安全架构:基于旁路自动识别能力,利用扫描检测工具检查代码逻辑,但其无法自动化识别多样化业务之间的相关性,例如金融或交易属性之间的关联。而人工检测的方式又因代码变更量大,人工成本高,无法做到业务逻辑的全覆盖。嵌入式安全架构:通过代码规约和注解扫描的方式,将SDK集成到业务代码里,发现包括“接口忘记鉴权”在内的隐患问题。但该模式依赖业务系统改造,业务侵入性大,推广和升级非常困难,对于存量业务的实施难度更大,其鉴权正确性也无法得到保证。解决方案蚂蚁集团在年初启动实施了基于关系链的水平鉴权方案,通过提炼出业务代码中的主体、客体以及主体与资源间的逻辑关系,在业务运行过程中综合判定越权行为。为了让所有业务应用都快速具备鉴权能力,蚂蚁集团开发了水平鉴权切面应用,利用切面基础设施平台实现了业务侧的无感接入。在业务运行期,则可通过票据透传策略,鉴权计算所需的关系链和上下文。应用效果水平鉴权切面实现了安全策略与业务的无感融合,体现了切面的融合与解耦特性。基于票据透传的能力,有效实现了针对水平越权问题的端到端检测,突破了代码层面检测的局限性。在业务运行过程中,访问客体可以从票据中心拿到票据,并根据透传信息执行验证过程,有效确保了个人信息的安全。图 鉴权SDK效果总结来源:蚂蚁集团,覆盖业务核心边界场景支持复杂规则计算、联合鉴权、嵌套鉴权等策略能力适配种不同技术栈框架的接口切点将单次鉴权的平均耗时降低至.ms内实现分钟级的监控预警具备自动应急预案多种异常事件自动降级能留、高可用保障场景概要:通过切面快速完成异常行为定位和故障应急,确保线上业务的高可用,避免一般软件BUG对业务操作的影响,确保线上业务的高可用。线上故障的恢复时间可降至分钟级,故障影响也降至最小程度。背景与挑战在高可用保障场景中,涉及异常处理的两个最重要的环节是异常定位和故障应急。其中,故障应急的效率(即影响时长)非常关键,关系到最终的业务影响范围和损失规模。传统的高可用保障方案在面对未知风险造成的影响时,需要通过代码修复手段解决问题。代码发布后若再发现异常,则需要进一步进行回滚,使修复和发布时间十分不可控,经常会导致止血缓慢,损失范围持续扩大。而在已知风险的应急场景中,如果一部分对外提供的SDK出现服务异常,企业需要快速进行服务降级。特别是在安全风控链路部分发生异常的情况下,业务方希望具备UID或业务域维度下的快速降级能力。此外,部分无人维护的应用缺乏降级能力,也希望通过切面注入的方式带来应急能力的提升。解决方案图 基于安全平行切面的高可用保障方案来源:蚂蚁集团,日常态场景拆分、规则梳理数据降级高可用切面核心层切面底层架构 策略执行引擎快上快下切面能力演练评估策略解析引擎策略降级切面方式等级回滚自适应感知自动升降级业务管控中台 运维发布平台高可用切面产品层演练态规则下发、日常演练应急态降级、回滚、快速恢复规则下发、脚本注入规则下发、脚本注入API稳定性保障一键回滚异常兜底监控告警变更管控三板斧性能压测日常演练面对以上未知风险场景和已知风险场景的应急需求,业务高可用切面方案可以利用强大的注入能力和切面融合能力,提供三类高可用应急服务:未知异常下的快速修复止血:基于切面基础设施实现高可用切面模块的规模化部署,即可提前收集注入切点信息并通过编译部署方式生效,也可以针对即时发现的异常切点动态下发注入规则。快速构建切面修复策略,利用切面控制平台实现策略下发,并通过Pointcut切点的动态注入,快速实现异常修复止血。已知异常下的快速应急:利用切面基础设施进行高可用切面模块的规模化部署,梳理出与应用已知风险点相关的所有Pointcut切点集合,并通过切面控制平台对已知 Pointcut切点进行提前埋点检测,实现快速应急。灵活的应急策略下发模式:既可以将应急策略提前下发,实现有条件触发(即依赖已知异常信息进行触发),也可以根据实际需求,在启动异常处理时动态下发应急策略。图 基于安全平行切面的高可用保障方案来源:蚂蚁集团,应急降级类止血场景依赖降级三方组件降级各类资产降级应急回滚类止血场景安全策略回滚场景代码BUG临时修复代码发布回滚(长耗时)可自适应应急场景自适应感知风险可自动升降级应用成效基于安全切面底座构建的高可用切面架构,提供了一种新型高可用应急止损能力,能极大提升 部分场景的应急时效性,为业务团队提供了一种新的变更回滚思路即切面策略等效回滚方案。同时,高可用切面能力可以联动其他三方中台提供的多种场景的自愈降级方案;目前高可用切面产品能力已经完成全量铺面,覆盖内部数千应用,并且在SDK组件风险自愈、业务异常数据快速降级、全链路动态追踪、发布代码等效回滚等多类场景应急中取得很好的实践效果,部分应急场景止血时长从小时级降低至分钟级。.生态伙伴实践为了更好地推广安全平行切面理念和框架,发展切面应用场景,年月,在中国信息协会信息安全专业委会指导下,由蚂蚁集团牵头发起、近家企业共同参与的安全平行切面联盟正式成立。联盟致力于安全平行切面技术的开源共建、标准共创和应用推广工作,不断向社会贡献创新技术和最佳实践,以此来推动提升企业安全架构的实战性、稳定性、安全性和易用性,推进企业安全架构的变革和可持续发展。红途科技:基于生态伙伴 丰富切面应用联盟成员的角色和价值深圳红途科技有限公司是一家以技术驱动的创新型科技企业,致力于数据安全和隐私合规科技领域发展,首创全链路数据流转追踪技术,打造数据流转追踪地图的底盘能力,围绕数据安全治理、数据风险管理、审计溯源及隐私合规,帮助企业构建数据安全与隐私合规科技能力。蚂蚁集团和红途科技互为重要合作伙伴,双方就安全平行切面和全链路数据流转追踪技术进行深入合作,致力于面向广大客户提供新一代安全能力产品及服务。依托安全平行切面提升整体安全治理能力与水平在安全平行切面的基础上,除深化原有产品能力(如:网络安全平行蜜罐、隐私保护双重确权/尽责自证、运维APM/日志标准化、稳定性混沌工程、仿真测试流量录制与重放、国密改造透明加密等)外,红途科技还依托自身全链路数据流转追踪技术,从数据流转的角度,厘清数据源头、数据存储、数据被使用、数据被调用再存储等所有过程,自动刻画完整的数据流转地图,进而提供数据资产梳理、数据流转观测、数据风险监测和审计溯源等能力,最终从网络安全、数据安全以及数据合规等多维度整体提升企业数据安全防护水平。红途科技的数据流转观测底盘产品实现了全域数据属性、分布、流转及使用情况的自动化梳理,全局呈现数据运营情况。提供多样化的场景服务数据流转观测:伴随企业微服务架构改造等技术的实施,企业内部业务系统日益庞杂,系统内部及系统间的数据流转情况愈发难以梳理。全链路数据流转追踪技术,可以自动绘制数据流转链路,帮助企业全面掌握其敏感数据流转和分布情况,避免数据黑盒式扩散带来的管控风险。数据风险监测:基于数据流转及使用过程,围绕数据、数据库、应用接口、用户账号及IP等要素进行多维关联分析,形成数据风险监测能力,有效应对敏感数据在流转及访问过程中出现的数据暴露风险和数据泄露风险。定位溯源:改变以往业务系统需要埋点改造,投入成本高、耗时长的现状,业务系统无需埋点改造即可灵活采集用户访问行为日志,审计对象涵盖用户、应用、数据库和数据,全面覆盖数据流转全链路上的重要对象,不仅可以作为数据访问过程自证清白的有力依据,通时一旦出现疑似安全事件时,可以基于访问对象或访问内容快速实现定位溯源。作为首批成员单位和技术合作伙伴,红途科技将继续深化平行切面和数据安全这里的落地实践,助力安全平行切面联盟的共建、共创和推广工作,协助推进数字化转型背景下企业安全架构和企业安全建设的变革和可持续发展。.行业用户实践对于多数企业来说,安全平行切面的实践过程可以首先从应用侧切入,重点关注在数据安全维度的应用场景,让业务部门从业务可用性、隐私保护、可追溯等方面认可新一代安全架构的价值。在组织形式上,可先采用安全部门牵头、多部门联合决策的方式推动试用场景落地。未来,随着安全平行切面框架的易用性和快捷部署能力的提升,以及相关平行舱安全组件的不断丰富,可以转由业务部门主导建设,探索更多安全创新场景。实践:某证券公司数据安全治理关键词应用场景:数据安全与合规应用目标:基于平行切面技术,实现数据流转可见,发现数据安全风险,为后续实现精细化管理提供技术支撑主导团队:安全团队某证券公司作为一家大中型综合类券商,其主交易系统对安全性、可靠性以及低时延的要求极高,在业务系统上施加任何改造都有可能影响系统的响应速度和运行平稳性。与整个行业类似,该证券公司也面临着较大的数据安全与合规压力。在实现内部数据安全与合规以及个人信息保护的过程中,需要从组织、制度、技术等多个建设维度入手,落实相关的工作。此外,证券行业普遍重视网络和信息安全领域的快速响应处置能力。例如,一旦个人信息出现泄露,会迅速对客户端造成影响。因此,如何快速通过审计和溯源查找相关证据,定位和解决问题非常重要。该证券借鉴了安全平行切面的建设思想,围绕大数据平台及下游应用系统,构建了数据流转监测分析能力,从而识别数据从用户到应用、从应用到数据存储层以及数据从存储层返回用户的链路全过程,实现数据流转过程可见,并实现用户风险监测、记录留痕、资产画像等关键能力。该证券还将分类分级成果应用在数据流转监测过程中,对相应数据进行分类分级标记,从而进行差异化监测防护。此外,基于用户、应用、数据库、大数据平台的数据关联记录,可对数据链路进行审计溯源,提升数据安全风险事件的问题定位效率;通过数据分析,识别数据流动中的安全风险,降低数据被滥用或泄露的风险,从而持续推动数据安全管理的规范化和标准化。实践:浙江移动漏洞批量修补和应用链路监控关键词应用场景:漏洞管理,运维场景应用目标:基于平行切面技术,在安全事件、攻防事件以及漏洞事件中,提升采取行动的效率,降低成本,实现精准修复。主导部门:研发效能部门浙江移动正在探索如何将安全平行切面作为通用型的技术平台和组件,由研发效能团队牵头,通过组织决策、需求理解、部门协同和技术规划,共同推动安全平行切面的工程化解决方案落地。目前,浙江移动已经在漏洞批量修补场景中,引入安全平行切面思想,测试相关技术路径,通过在应用程序上构建调用链和监控点,实现开源软件漏洞的批量快速封堵。同时,研效部门也开始考虑在运维场景中,通过构建监控切面以及调用链流量回放等方法,逐步推动运维的标准化、智能化水平。未来,在增量场景需求的推动下,浙江移动还将利用平行切面的思想重构一些基础服务能力,利用标准化的切面应用提高安全事件行动效率,降低安全防护成本,实现精准防御、深度防御。实践:吉利汽车平台化的数据安全治理和统一运营关键词应用场景:数据安全和合规(含网络传输层面、应用层面和数据库层面)应用目标:基于平行切面技术,系统化构建数据安全运营平台,实现对数据安全风险的精准感知,实现数据资产的实时可视化,实现风险的实时阻断和控制。主导部门:安全技术部门统筹,涉及业务、研发和产品、营销、大数据等多个团队吉利汽车从合规体系管理出发,逐渐发展自身的安全技术体系平台建设工作。从 年开始,吉利汽车将安全工作的重点聚焦于安全运营,重点关注信息安全合规性建设和数据安全建设工作。近年来,行业内友商相继发生的数据泄露等安全事件,使个人数据和个人隐私保护成为行业重要的目标和共识之一,吉利也意识到,若缺乏健全的数据安全运营体系和平台,则难以对数据安全做系统化的管理和管控。在与蚂蚁的合作过程中,吉利汽车尝试从多个层面构建数据防护切面,包括:从网络层面(利用网关方式构建数据管理切面)、应用层面(通过Agent与数据库建立连接)、数据库层面(从数据库自身存储的行为切入)入手,并把这些管理细节信息统一汇聚至数据安全运营平台上。在上述基础上,吉利首先实现了统一的数据资产管理,进而通过数据分类分级策略和技术手段对数据资产做初步的划分,再结合数据切面执行相关的分类分级规则和控制策略,实现数据风险管控和分析。通过安全平行切面的初步实践,吉利汽车的数据分级分类准确率得到了大幅提升,同时在一定程度上实现了全链路跟踪和分析能力,能够做到风险可视化分析和识别。未来,吉利汽车还将不断完善风险规则,并在网络安全和数据安全两个重要维度持续投入研究实践,在风险识别与控制、数据脱敏、业务可用性等方面构建更多场景。实践:平安科技隐私合规和RASP关键词应用场景:数据安全和合规应用目标:基于平行切面技术,为应用动态添加功能,创建与业务原本功能相互独立的运行空间,平台化解决数据安全全流程管控。主导部门:安全部门近年来,平安科技安全团队非常关注安全攻防领域的实践,并涉及部分安全防御领域的产品开发等工作。作为一个大型金融公司,平安的业务系统非常复杂,同时也涉及大量敏感数据的使用,在法规监管日趋严格的大背景下,国家对行业内APP 隐私泄露在内的相关通报事件越来越多,平安科技也在隐私合规和安全管控方面积极做出了更多努力。在服务务端应用方面,需要对应用数据、敏感数据使用情况进行标记和监控。在移动端应用隐私合规方面,也力求打造一个工具平台,用 SDK 的方式检测和管控 公司近 个 APP 的敏感API接口调用行为。这两项工作面临一个同样的难题:若要达到理想的防护效果,就需要一定程度上与业务实现绑定,这会给业务和安全的发展带来很多协同上的矛盾和问题。通过技术、管理、开发和架构人员的共同努力,公司计划针对上述两项问题开展安全平行切面和平行舱建设的实践。目前整个集团已在进行与切面类似技术的安全管控系统的建设实践,通过代码注入,可以在不修改现有业务代码的情况下,实现服务间调用信息的采集和追踪。在此基础上引入平行切面方案,将底层代码注入功能与上层安全管控逻辑实现解耦,可以极大地减少代码注入类产品的重复性开发适配工作和注入兼容问题,并降低未来其他安全管控应用如RASP、权限访问控制等的集成接入门槛。平安科技的安全团队认为,安全平行切面作为一个新的技术框架,可以通过多方共同努力,实现很多具有想象力的场景。未来,平安也将基于自身现状,利用切面思想实现更多的应用模式,包括海量APP终端的隐私保护等。安全平行切面能够帮助企业实现对安全问题本源的认知。切面跨越了应用、操作系统和网络等不同的架构设置,以深入业务全局的方式构建安全场景,实现一系列安全服务能力的抽象和标准化。IDC认为,安全平行切面对于未来企业安全架构发展具有重要的意义,企业和厂商需要正视安全平行切面的理念发展和技术进步,并在推进工程化实践的过程中,重点解决好好以下主要问题:企业战略、组织、文化的升级:企业的决策层和执行层都需要认识到复杂性爆炸所带来的全新挑战,不断更新自身的安全认知。在引入新的安全体系建设思想的过程中,首先构建起具有前瞻性的新一代企业安全发展战略,形成上下一致的战略认知。在执行的过程中,企业的组织架构和安全文化都需要做相应的升级,以适应安全与业务之间新的协同发展关系。第四章IDC建议原有安全体系的改造和融合:企业在过去多年间建设的安全体系仍具有强大的基础防护作用和长期的生命力,在向新一代企业安全架构升级的过程中,企业可以基于统一的切面框架设计,将原有的安全能力逐渐实现平台化、资源化,并以组合服务的形式重新作用于应用系统。在这过程中,企业应面向业务端,选择较为急迫的安全需求场景进行试点,重点解决细粒度感知和规模化处置的问题,让各业务部门充分认可安全切面应用的价值,进而成为整个体系发展的重要参与者。合理选择运营模式:企业应该进一步关注对安全攻防能效比的提升,从投入和价值的角度衡量和规划安全运营工作,通过高效的安全运营全面提升安全交付效率、研发效率和产品成效,形成可持续发展的安全架构和安全团队。切面的构建可以为包括安全人员在内的企业IT团队提供多样化的运维/运营能力选择。例如,内部研发过程可以利用切面进行更好地管理,因为切面有很强的植入和内视能力,可以对研发过程的大量动态信息进行多维度的分析。同时,系统上线后基于DevSecOps的持续安全运维工作,以及运营时的供应链管理、软件清单管理等,都是切面应用最擅长的施展空间。企业可以根据自身情况,由不同部门牵头建立灵活的一体化运营模式,改变以静态信息为主、各自为战的运营局面。统一规划,分布实施:企业可以利用安全切面的可见性和可观测能力,首先选择问题集中且较容易上手的业务应用(特别是创新应用),通过对切面的合理配置,强化这些系统的安全感知和安全治理能力;当完成风险的识别后,可进一步通过安全切面对系统的安全防护能力,进行体系化的提升,这有助于企业在实践过程中获得内、外部的全方位支持。安全厂商自身能效的持续提升:安全厂商同样需要升级自身的上海品茶和发展战略,建立可持续发展的技术、产品、经营和市场体系。在实践安全切面技术的过程中,安全厂商应加大对平台和工具能力的打造力度,力求用自动化、智能化的能力夯实自身竞争优势,帮助用户提升攻防能效比,为用户提供更多类型的高质量服务。生态合作伙伴体系建设:安全平行切面和安全平行舱构建了一个理想的技术框架和工程化平台,也为安全能力的迭代发展拓展出更具想象力的空间。安全厂商可以利用切面体系实现更多的融合场景创新。因此,安全平行切面的能力发展,很大程度上也取决于其生态体系的丰富度和活跃度。各安全厂商可以根据自身的技术特性和服务定位,深度参与到生态体系的建设过程中,成为某一细分技术领域的佼佼者。优化技术能力,探索更多落地场景:切面模式提供了对业务系统深度感知和干预能力,使安全厂商更加关注企业业务的发展,在业务创新的过程中寻找新需求,解决新问题。本白皮书的.节提供了在切面模式下的部分潜在场景参考,在未来的发展过程中,各行业都会出现带有鲜明行业特征的安全深度融合场景,这些场景也会催生出更多小而专的技术服务团体,使整个安全平行切面体系的发展呈现出枝繁叶茂的局面。关于 IDC国际数据公司(IDC)是在信息技术、电信行业和消费科技领域,全球领先的专业的市场调查、咨询服务及会展活动提供商。IDC帮助IT专业人士、业务主管和投资机构制定以事实为基础的技术采购决策和业务发展战略。IDC 在全球拥有超过名分析师,他们针对多个国家的技术和行业发展机遇和趋势,提供全球化、区域性和本地化的专业意见。在IDC超过年的发展历史中,众多企业客户借助 IDC 的战略分析实现了其关键业务目标。IDC 是 IDG 旗下子公司,IDG 是全球领先的媒体出版,会展服务及研究咨询公司。IDC ChinaIDC中国(北京):中国北京市东城区北三环东路号环球贸易中心E座室邮编: .Twitter:IDCidc-版权声明凡是在广告、新闻发布稿或促销材料中使用 IDC信息或提及IDC都需要预先获得IDC的书面许可。如需获取许可,请致信。翻译或本地化本文档需要IDC额外的许可。获取更多信息请访问,获取更多有关IDC GMS信息,请访问https:/ IDC。未经许可,不得复制。保留所有权利。

    浏览量0人已浏览 发布时间2023-11-03 60页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 华为:迈向智能世界白皮书2023-计算(17页).pdf

    计算算力为基,共建智能新生态迈向智能世界白皮书2023目录1趋势三:AI生态加速收敛,为国内AI生态带来新的机遇和挑战0302趋势二:百模千态,AI加速覆盖千行百业趋势一:AI能力出现拐点,从预测推断走向内容生成01趋势四:操作系统面向AI持续演进04趋势五:ARM逐步成为行业数字化算力主流选择05安防-视觉互联网-推荐AI能力出现拐点,从预测推断走向内容生成 2015年CV类视觉识别超过人类,可部分替代人眼/耳,主要用于物体识别和发现,催生了千亿级智能安防产业。2022年底基于NLP的ChatGPT学会思考会学习,用于理解和生成,GPT-4已初步具备自主学习和思考能力,在文本/图像/音频/视频/代码等脑力劳动场景中已达到人类80%的水平,可替代较高端脑力劳动工作。2随着NLP领域的突破,AI的内容生成成为新的增长热点AI重点事件里程碑AI技术里程碑AI产业发展浪潮1956年达特茅斯会议专家系统1997年“深蓝”战胜人类2015年视觉识别超过人类2022年ChatGPT内容生成、知识传递2C:社交、消费2B-通用:办公、编程、搜索、营销、设计2B-行业:医疗咨询、网络自治、智能风控、结构化感知、大数据分析、舆情分析、新闻采编、内容剪辑、智能教学.2023年GPT-4具备自主学习能力NLPCVAI4SGAN控制论深度学习ChatGPTGPT4GeminiAI能力落地越来越简单模型架构趋于收敛AI能力出现拐点,从预测推断走向内容生成3模型架构向Transformer收敛,AI应用落地越来越简化 Transformer结构在图、文、音多个领域表现优异,大模型的基础架构向Transformer结构收敛,大量基于Transformer结构的大模型涌现。AI大模型技术快速发展,AI算法与应用的开发、上线部署与业务发放等过程均大幅简化,有大量开源可用的开源大模型,有丰富的大模型微调算法,主流框架均支持低代码的开发构建大模型的能力,业界主流厂商联合发布大模型的一体机。大模型创新全流程使能主流AI框架预训练大模型开发套件微调算法大模型一体机大模型基础架构向Transformer结构收敛Transformer架构结构扩展性好,统一多模态计算架构CNN、LSTM、GAN、RNN、DBN等多种架构小模型收敛大模型Yolo、ResNet、Bert、Openpsoe、CenterNet、RepVGG GPT、PalM、LLaMA、BLLOM丰富的开源可用大模型GPT|LLaMA|T5|BLOOM|Swin|ViT|GLM|RWKV 高效构建大模型Transformer网络结构大模型开发套件支持低代码构建大模型低参微调获得场景模型LoRA、Prefix-Tuning、LowRankAdaper、BitFit、AI应用行业落地AI能力出现拐点,从预测推断走向内容生成4模型的参数量仍在扩大,大模型算力需求6个月翻一番 Scaling Law尚未见顶,万亿多模态大模型是新的热点,模型表现强烈依赖于模型规模,随着计算量、数据量和参数量提升而提升;相同参数下,更深的模型拥有更好的性能。多模态数据成为大模型训练主要数据,对于算力需求是文本数据的百倍,大模型算力需求6个月翻一番的趋势,预计至少持续到2030年。Scaling Law尚未见顶MOE万亿参数大模型是新的热点大模型算力需求6个月翻一番的趋势预计至少持续到2030年EPOCH预测:Projecting compute trends in Machine Learning模型模型结构参数量激活参数量ChatGPTDense-Decoder 175B175BGPT-4MoE-Decoder1.8T112.5BGaLMMoE-Decoder1.2T96B盘古SigmaMoE-Decoder only(RRoE)1.08T38BSwitch-CMoE-Encoder decoder1.5T1.5B模型表现强烈依赖于模型规模相同参数下,更深的模型拥有更好的性能。10221028目录1趋势三:AI生态加速收敛,为国内AI生态带来新的机遇和挑战0302趋势二:百模千态,AI加速覆盖千行百业趋势一:AI能力出现拐点,从预测推断走向内容生成01趋势四:操作系统面向AI持续演进04趋势五:ARM逐步成为行业数字化算力主流选择05讯飞华为百度百模千态,AI加速覆盖千行百业6头部企业积极围绕大模型加速布局产品与服务 人工智能在各个行业的渗透率持续提升,随着AI算法的突破,AI可以覆盖的业务场景快速扩充,从之前以视觉识别为主,到现在的内容推荐、人机互动、创意创作、科学研究等方方面面。国内头部企业正在积极围绕大模型进行战略布局,主要集中面向三类产品与服务,提前构筑新竞争优势和市场格局:第一种是服务内部,提升自身业务效率与感知;第二是面向中小企业提供AI模型服务,也就是Maas(Module is Service),通过模型开发服务,来深度切入行业;第三种是面向AI创业者/企业提供算力服务,比如政企、运营商及云厂商等。国内头部企业在战略布局大模型机会代码生成、手机/流程IT助手盘古,千亿参数 与自身行业、业务特点和需求等深度结合 做好迎接产业格局剧烈变革的准备,提前构筑新产品竞争优势,提升用户体验对内提升自身业务效率与感知1 通过API/三方插件吸引更多应用及数据 通过提供模型开发服务,深度切入行业,掌握行业经验和数据 抓计算业务负载重心向AI转移的趋势 满足企业AI算力需求,构筑数字基础设施格局面向AI创业者/企业提供算力服务3面向中小企业提供AI模型服务2阿里腾讯商汤文心一言,千亿参数搜索引擎、小度、百度云等通义千问,千亿参数搜索、钉钉、天猫精灵、电商等电商、搜索、推荐、游戏混元助手,千亿参数SenseChat,千亿参数编程、咨询、PDF助手,模型服务AI学习机、多语种翻译星火认知,千亿参数百模千态,AI加速覆盖千行百业7大模型应用加速进入行业生产系统,未来2年将深入50% 行业核心场景AIGC持续扩展业务领域和专业知识,正在快速进入业务全流程节点,快速融入各行业核心应用;如办公应用中文字生成极大提升公文,邮件,新闻等编辑效率;软件开发中代码生成可提升开发人员的工作效率,多媒体设计中图像、视频生成类功能已嵌入主流设计软件。OpenAI最新研究(arXiv:2303.10130)模型基础能力模型能力开放行业知识结合智能对话短文创作图片生成视频生成商业文案代码开发结构化感知办公平面广告内容推荐网站制作内容搜索网络自治智能风控医疗咨询辅助诊断大数据分析36个月612个月1224个月AIGC大模型2023智能问答量化交易文档写作编程设计搜索文档摘要运营商金融医疗生物教育城市大脑社交消费智能客服新闻采编内容剪辑传媒分子生成智能教学城市营销精准获客调研报告通用2B应用行业通用场景数据场景化2B应用行业生产场景核心数据2C现象级应用公开数据集目录1趋势三:AI生态加速收敛,为国内AI生态带来新的机遇和挑战0302趋势二:百模千态,AI加速覆盖千行百业趋势一:AI能力出现拐点,从预测推断走向内容生成01趋势四:操作系统面向AI持续演进04趋势五:ARM逐步成为行业数字化算力主流选择05AI生态加速收敛,为国内AI生态带来新的机遇和挑战11 大模型技术逐步收敛,生态走向聚合,模型更收敛、框架更归一。开发更高性能的AI大模型需要更强的算力平台,算力底座技术门槛提高,未来训练核心拼集群系统能力。生态走向聚合,算力底座技术门槛提高模型更收敛框架更归一技术逐步收敛,生态走向聚合算力底座技术门槛提高,未来训练核心拼集群系统能力万级参数时代亿级参数时代万亿参数时代计算需求网络需求存储需求百TF级平台1张GPU卡PF级平台单服务器,8卡EF级平台AI集群,万卡无互联节点内卡间互联超节点 网络互联GB级存取-服务器硬盘TB级存取-服务器硬盘PB级存取-高并发多级存储X10倍X1000倍X100倍X1000倍X100倍N/A基础大模型1020个Pytorch框架占95% 数万小模型字节有上万个自研模型PyTorch、TensorFlow,Caffe,飞桨等小模型大模型大规模集群的3大挑战AI生态加速收敛,为国内AI生态带来新的机遇和挑战12 高性能AI大模型对算力的需求指数级增长,AI算力平台从单机走向集群。超大规模AI集群的建设面临着跨域协同、液冷和可靠性3大关键技术挑战:AI集群的液冷大规模商用存在工程挑战;AI集群建设是个系统工程;AI大模型训练依赖AI集群高可用。高性能的算力平台,需要解决3大挑战液冷挑战跨域协同挑战可靠性挑战开发更高性能的AI大模型需要更强的算力平台2020202120232024模型参数集群规模2K卡*10天6K卡*10天16K卡*10天20K50K卡*10天GPT-3ChatGPTGPT-4GPT-520222019Now8卡*10天GPT-22026202850K100K卡*10天GPT-6精准液冷芯片到节点、模组到柜级/机房级按需供给工程化部署降低部署/安装/维护成本,提升性价比液冷高可靠水电隔离、漏液关断等,保障系统安全可靠AI算力云服务化超大规模组网高性能存储大规模并行计算集群管理软件跨域协同优化集群是全机大应用,涉及器件数百万/千万级单器件故障触发集群训练中断全流程长,跨域故障根因定位定界复杂故障处理时间长,严重拉低大模型训练效率目录1趋势三:AI生态加速收敛,为国内AI生态带来新的机遇和挑战0302趋势二:百模千态,AI加速覆盖千行百业趋势一:AI能力出现拐点,从预测推断走向内容生成01趋势四:操作系统面向AI持续演进04趋势五:ARM逐步成为行业数字化算力主流选择05操作系统面向AI持续演进14随着人工智能成为全球各国新的科技热点,人工智能基础设施建设也成为重要抓手与着力点,在开源打造方面,业界应加速推进融入AI的基础设施布局落地。AI赋能操作系统更智能。操作系统可以使用基础大模型,基于大量操作系统自身代码和数据,训练出操作系统自身的助手模型,实现代码辅助生成、问题智能分析、系统辅助运维等功能。以前需要多个领域专家协同解决的问题,未来都可以交给助手模型。操作系统使能AI更高效。操作系统通过异构资源统一管理和调度,实现CPU和XPU的深度融合,以更全局、更均衡和更精细化的视角统筹内存和算力,充分挖掘空闲资源,提升有效利用率,进而提升AI训练和推理性能。AI赋能开发者 自然语言交互 打通领域知识广泛的大模型支持GLM、LLAMA、BaiChuan 辅助编程 辅助运维超大容量 PB级异构内存管理 训练效率提升高效算力 异构算力多维调度 推理并发提升AI赋能操作系统更智能操作系统使能AI更高效目录1趋势三:AI生态加速收敛,为国内AI生态带来新的机遇和挑战0302趋势二:百模千态,AI加速覆盖千行百业趋势一:AI能力出现拐点,从预测推断走向内容生成01趋势四:操作系统面向AI持续演进04趋势五:ARM逐步成为行业数字化算力主流选择052023年Units(H1)2023年全球ARM服务器出货量占比预计约为10%ARM逐步成为行业数字化算力主流选择16 随着自动驾驶,云游戏等应用兴起,数据中心侧,传统单一架构难以满足要求,端-边-云协同成为趋势,ARM算力是从最初的端侧起步,目前在端侧拥有95%以上绝对优势。随着多样性算力发展,ARM进入算力更高的服务器领域,基于协同趋势表现出显著的优势,当前在云/数据中心场景已逐步成为主流。ARM在服务器市场的总算力占比稳步提升,ARM服务器市场份额不断提升,根据IDC报告数据显示,2023年全球ARM服务器出货量预计占比约为10%。ARM架构服务器已逐步成为通用计算领域新的选择。平板/电脑智能手机AR/VR智能TV手表/手环ARM 70%份额MacBookSurfaceARM 95%ARM在端侧已经占据超过90%份额ARM在云/数据中心场景逐步成为主流Source Form:IDC China Server Tracker Prelim 2023Q2ARM算力从端侧延伸至服务器市场,市场份额不断提升ARM逐步成为行业数字化算力主流选择17 国内ARM生态发展迅速,以鲲鹏为代表的ARM架构服务器,市场份额快速提升,预计2023年全年中国服务器市场ARM占比会超过10%。鲲鹏计算产业从2019年发展至今,聚焦基础软硬件根技术创新,坚定“硬件开放、软件开源、使能伙伴、发展人才”的战略,生态稳步发展。目前,在全球鲲鹏计算产业伙伴的共同努力下,已发展4700 合作伙伴,共推出14500 鲲鹏联合解决方案,已经构筑了完整的基础软硬件生态和人才发展体系,并在政府、金融、运营商、电力、能源、教育、医疗等各个行业实现了大规模的商用落地。鲲鹏主板开放DevKit鲲鹏开发套件BoostKit 应用使能套件openEuler 开源操作系统openGauss 开源数据库应用使能基础软件硬件使能鲲鹏基础软硬件平台极致性能,极简开发生态共建,合作共赢硬件开放软件开源使能伙伴 11家 整机合作伙伴 伙伴出货占比超 95G00 鲲鹏合作伙伴 14500 鲲鹏解决方案认证 openGauss 395 社区伙伴 openEuler 伙伴覆盖全产业链践行伙伴优先,使能商业成功全面服务各行业核心场景成为核心技术路线国计民生行业金融|政府|电信|电力|互联网|油气矿山轨道机场教育医疗公路港口制造地产走向全行业以鲲鹏为代表的ARM路线,逐步成为行业数字化算力主流选择Copyright2023 Huawei Technologies Co.,Ltd.All Rights Reserved.The information in this document may contain predictive statements including,without limitation,statements regarding the future financial and operating results,future product portfolio,new technology,etc.There are a number of factors that could cause actual results and developments to differ materially from those expressed or implied in the predictive statements.Therefore,such information is provided for reference purpose only and constitutes neither an offer nor an acceptance.Huawei may change the information at any time without notice.把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界。Bring digital to every person,home and organization for a fully connected,intelligent world.Thank you.18

    浏览量0人已浏览 发布时间2023-11-01 17页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • CSA GCR:高性能计算(HPC)桌面练习指南(2023)(20页).pdf

    2023 云安全联盟大中华区版权所有1 2023 云安全联盟大中华区版权所有2物联网工作组官方地址是:https:/cloudsecurityalliance.org/research/working-groups/internet-of-things/2023 云安全联盟大中华区-保留所有权利。你可以在你的电脑上下载、储存、展示、查看及打印,或者访问云安全联盟大中华区官网(https:/www.c-)。须遵守以下:(a)本文只可作个人、信息获取、非商业用途;(b)本文内容不得篡改;(c)本文不得转发;(d)该商标、版权或其他声明不得删除。在遵循 中华人民共和国著作权法相关条款情况下合理使用本文内容,使用时请注明引用于云安全联盟大中华区。2023 云安全联盟大中华区版权所有3 2023 云安全联盟大中华区版权所有4致谢致谢报告报告中文版支持单位支持单位浪潮云是中国最早提供云服务的厂商之一(2010),是首批国家机关云服务提供商。作为中国行业云的引领者,浪潮云致力于成为高品质云服务提供商,具备“专业、生态、可信赖”三大核心优势。为客户提供云网边端融合、云数智融合、建管运融合的全栈云服务,构建零信任的云数安全体系,打造新一代混合云。携手合作伙伴,共建云舟联盟生态,支撑政府、企业数字化转型,助力数字中国建设。浪潮云是 CSA 全球会员单位,支持该报告内容的翻译,但不影响 CSA 研究内容的开发权和编辑权。2023 云安全联盟大中华区版权所有5英文版本编写专家英文版本编写专家主要作者:主要作者:Jim BasneyChristopher FrenzMichael RozaBrian Russell贡献者:贡献者:Pedro CabezasKenny ChuJoseph Louis-JeanJames MurphyKristin MyersGary SchaeferRishi Tripathi审校者:审校者:Ashish VashishthaCSA 员工:员工:Hillary BaronClaire Lehnert在此感谢以上专家。如译文有不妥当之处,敬请读者联系 CSAGCR 秘书处给予雅正!联系邮箱researchc-;国际云安全联盟 CSA 公众号。2023 云安全联盟大中华区版权所有6序言序言随着工业 4.0 和人工智能等技术的发展,高性能计算(HPC)系统在制造业和人工智能中也得到了创新性的发展,如在制造业中,利用 HPC 系统进行高精度的数值模拟来优化设计方案,减少实验成本;在人工智能中,利用 HPC 进行深度学习、大规模数据分析和机器学习等任务,以提高人工智能的效果和性能。HPC 在快速发展和应用的同时,其安全风险和漏洞也逐渐得到关注,特别是 HPC计算集群,成为了加密挖矿掘恶意软件的黑客组织的理想目标。随着越来越多的 HPC 系统应用面向终端用户开放,提供互联网接入服务,针对 HPC 系统的网络攻击也逐渐增多。然后针对 HPC 系统安全的防护却有待进一步加强,目前大部分 HPC 系统在 IT 部门之外处理,通常由专门从事 HPC 系统的个人管理,可能缺乏正式的网络安全培训和网络攻防实战经验,导致 HPC系统一旦被攻击,其发现、响应、处置和溯源等安全流程将变得更加模糊与困难。本白皮书以专业的视角,从 HPC 系统的网络安全桌面推演出发,详细阐述了 HPC 系统的架构、HPC 系统安全桌面推演中的各方角色、场景构建和注意事项等,给读者提供了一个详细可落地的高性能计算 HPC 系统网络安全桌面推演方案,以帮助 HPC 系统安全管理人员快速获取网络安全及攻防相关经验,提升HPC 安全管理人员的网络安全响应和处置水平。李雨航 Yale LiCSA 大中华区主席兼研究院院长 2023 云安全联盟大中华区版权所有7目录目录致谢致谢.4序言序言.61.简介简介.8利益相关者.92.HPC 架构架构.10访问区.11管理区.11高性能计算区.11数据存储区.113.概述概述.12演习规划小组.124.桌面演习场景的开始桌面演习场景的开始.14参考文献参考文献.19 2023 云安全联盟大中华区版权所有81.简介简介虽然新闻中广泛报道了突出的勒索软件攻击和影响组织的大规模数据泄露事件,但你并不经常读到这些攻击中的一个对高性能计算(HPC)系统的影响。因此,HPC 系统的风险和漏洞是一个在安全对话中经常被低估的领域。虽然在直接与 HPC 环境打交道的安全社区之外,并不经常讨论 HPC 计算机系统作为网络攻击目标的潜力,但在攻击者圈子里并没有被忽略。特别是,HPC 计算集群被认为是寻求部署加密挖矿掘恶意软件的黑客组织的理想目标。HPC 系统的安全性通常代表了关于组织内如何普遍管理 HPC 系统的有趣挑战。在许多计算中心,HPC 系统是在组织的 IT 部门之外处理的,通常由专门从事 HPC 系统的个人管理,可能缺乏正式的网络安全培训。同样,大多数组织内的网络安全团队可以带来专门的网络安全知识,但可能缺乏 HPC 环境的正式培训,以及缺乏对 HPC 架构与更传统的独立 Linux/Unix 服务器的设置有何不同的了解。当你把那些经常编写应用程序在 HPC 系统上运行的研究人员加入进来,他们可能缺乏 HPC 系统管理或应用程序安全方面的正式培训,围绕如何开始保护这些 HPC 系统的讨论迅速变得非常模糊。然而,这是一个重要的讨论,特别是当越来越多的 HPC 应用被发现有一个基于网络的前端,允许用户与运行在后端的 HPC 分析应用进行互动。随着各行业对大数据分析、机器学习、人工智能(AI)和其他此类应用的进一步使用,越来越多的 HPC 应用正在获得一个面向公众的前端。在这样做的时候,它使 HPC 应用失去了传统上保持其安全的仅有内部可访问性的保护。针对 HPC 应用的攻击可能会增加,因此企业必须在针对 HPC 系统的攻击变得更加普遍之前,就保护HPC 系统的安全进行探讨。本指南列出了举办以 HPC 为重点的网络攻击桌面演习(TTX)所需的框架,以便组织能够为 HPC 安全进行规划。本指南通过一个 TTX 的例子,帮助利益相关者在事件发生时讨论 HPC 的安全问题,为改善 HPC 系统的安全而采取的行动建立共识,并围绕 HPC 系统制定事件响应(IR)流程。2023 云安全联盟大中华区版权所有9利益相关者利益相关者为了在 HPC 安全方面达成共识并建立共同的目标,来自以下组织领域的代表应参加 TTX。行政领导HPC 系统管理网络安全/信息安全HPC 应用开发者利用 HPC 环境的研究人员信息技术事故应对人员/取证法律媒体关系在利益相关者参与 TTX 和情景展开的过程中,必须牢记 TTX 不是一个挑战,目的是以确定一个组织内的安全状况有多好,因此、利益相关者不应该因为某些控制措施的存在而争论该场景的可行性。桌面演习假设控制失败,以引导组织全面了解其事件响应(IR)流程,并作为一种识别额外补偿控制的方式,在控制失败的情况下应该有所帮助。2023 云安全联盟大中华区版权所有102.HPC 架构架构HPC 系统是复杂的、不断发展的,因此一个通用的词典可以帮助描述和识别HPC 系统的架构、关键元素、安全威胁和潜在风险。上面的架构概述是基于 NISTSP 800-223 高性能计算标准草案。一个有代表性的 HPC 架构通常由以下网段组成:外部世界:外部世界:外部世界是指互联网或其他完全处于 HPC 环境之外的组织网络。在本桌面演练指南中,外部世界将是互联网,对网络服务器的请求由此开始。集群外部网络:集群外部网络:外部世界通常通过防火墙与群集外部网络分开。集群外部网络是连接到访问区公开访问资源的所有接口的地方。集群内部网络:集群内部网络:集群内部网络是一个内部网络段,它将访问区、管理区、高性能计算区和数据存储区的组件相互连接。在本桌面演练指南中,内部防火墙被用来将访问区的资源与其他区的资源分开。高性能网络:高性能网络:高性能计算网络用于互联高性能计算区的各个节点,以及连接高性能计算区和数据存储区的资源。该网段通常被设计为高速运行,并具有低延迟。2023 云安全联盟大中华区版权所有11一个 HPC 系统被划分为四个功能区:访问区管理区高性能计算区数据存储区访问区访问区访问区包含一个或多个连接到外部网络的节点,如互联网或其他组织网络。这个区域提供对用户和管理员访问和连接进行认证和授权的能力。访问区为使用各种服务提供便利,如交互式 shell、基于网络的门户、数据传输和数据可视化。管理区管理区管理区由一个或多个管理节点及云服务集群组成,提供 HPC 管理服务。这个区域允许 HPC 系统管理员执行管理操作,如配置和调配计算节点、存储和网络。此外,这个区域可以被用来执行身份管理、漏洞管理和系统审计。它还可以被利用来允许用户在通过访问区成功认证和授权后请求计算和存储服务的接口。管理软件模块,如作业调度器,在管理区运行。高性能计算区高性能计算区高性能计算区是由高速网络连接的池状计算节点组成的。这个区域提供的服务对大规模运行并行计算工作至关重要。数据存储区数据存储区数据存储区由一个或多个高速并行文件系统组成,为用户数据提供数据存储。这些文件系统被设计用来存储非常大的数据量,并提供高速读写操作。2023 云安全联盟大中华区版权所有123.概述概述桌面演习(TTX)是在一个非正式的、无压力的环境中,根据目前适用的政策、计划和程序,促进对脚本情景的讨论。TTX 的目的是促进对概念的理解,确定优势和劣势,并为政策和程序的改变提供建议。TTX 的主要阶段和产出介绍如下:演习规划小组演习规划小组演习计划小组(EPT)对任何演习的成功都至关重要。该小组应在演习前三个月选定。规划小组的职责包括但不限于:获得领导层/管理层的认同引导发展进程获得资源安排和协调确定演习的范围确定目标确定参与者开发 TTX 材料(即讲义、幻灯片、表格)2023 云安全联盟大中华区版权所有13规划小组应仔细挑选,由可能受影响的业务单位的代表组成。该小组应具有可管理的规模,不应成为演习的参与者。对 EPT 成员的建议包括:行政领导HPC 系统管理网络安全/信息安全HPC 应用开发者利用 HPC 环境的研究人员信息技术事故应对人员/法医法律媒体关系在进行网络安全桌面演练时,至关重要的是,参与演练的不仅仅是网络安全和团队。网络安全事件有可能影响到网络安全和 I 以外的业务部门的运作,在事件应对计划中需要考虑到这些业务部门的需求,以确保尽可能地减少对业务的影响。恢复和响应需要许多功能和人员您计划中的一些合作伙伴可能是外部的。为了有效测试响应和恢复计划,应该让各种内部和外部团队参与进来。当决定让利益相关者参与演习时,还必须考虑到桌面演习活动可以作为提高对安全问题以及它们如何影响业务的认识的重要手段。建立一个有效的安全计划需要网络安全和 I 以外的利益相关者的支持和认同。桌面演习是一个很好的方式来说明在网络安全事件中可能出现的操作问题,并因此获得不同利益相关者的支持和认可。桌面演习可以帮助缩小差距,提高对有效的网络安全在 HPC 环境中的重要性的认识。2023 云安全联盟大中华区版权所有144.桌面演习场景的开始桌面演习场景的开始这个桌面演习是围绕一个 HPC 系统进行的,该系统有一个基于 Web 的前端(访问区),允许应用程序的用户将数据提交给 HPC 集群进行处理。网络服务器由防火墙保护,只允许 HTTPS 流量通过。网络服务器与 HPC 集群被另一个防火墙隔开,该防火墙只允许网络服务器与 HPC 集群之间的互动所需的流量通过。高性能计算、数据存储和管理区都在这第二道防火墙后面。该架构保持最小化,以使桌面练习更普遍地适用于利用 HPC 的各种组织。那是一个星期二的早上 9 点半,HPC 管理员与 I 部门合作,为上线一个新的基于网络的应用程序做最后的润色。该应用程序使用该组织的一个 HPC 系统作为一种新形式的基因序列比对的后端,这使得生物信息学研究界有了一种识别基因序列相似性的增强方式。该应用程序允许研究人员以文件的形式上传基因序列,然后将其与数百万其他基因序列进行比较,以比传统算法(如基本局部排列搜索工具(BLAST)更高的速度和保真度找到匹配。需要考虑的问题:需要考虑的问题:1.该组织是否有编写 HPC 应用程序或其网络前端的开发人员接受过应用程序安全方面的培训?2.该组织是否制定了安全应用开发的标准,明确规定了输入验证、转义和其他关键应用安全控制的需要?2023 云安全联盟大中华区版权所有153.组织是否授权在应用程序上线前进行任何形式的安全测试?a.静态应用安全测试(SAST)?b.动态应用安全测试(DAST)?c.渗透测试?4.组织是否有一个正式的计划来维护已发布的应用程序,包括报告和补救安全问题?5.您的组织是否有一个正式的 DevSecOps 方法,类似于 CSA 的 DevSecOps的六大支柱中描述的方法?注入注入 1两周后,下午 3:30,内部和外部研究人员开始报告说序列排列应用程序的性能很差。一位 HPC 系统管理员检查了这个问题,并报告说 HPC 集群上的 CPU 和内存使用率特别高。管理员报告说进程kworkerds对高资源利用率负责。管理员还指出,连接到 HPC 系统的网络连接看到比预期更高的利用率。需要考虑的问题:需要考虑的问题:1.HPC 集群上有什么样的性能监测?2.是否有性能基线可以帮助使这个问题更容易被发现?3.什么是 kworkerds?这个过程的名称有什么突出的地方吗?4.是否有一个关于哪些进程应该在 HPC 系统上运行的基线,以便更容易识别运行中的未经批准的进程?5.此时应该考虑安全事件,并通知信息安全团队,还是由 HPC 系统管理团队进行初步调查?6.在 HPC 系统上是否安装了任何安全软件来检测恶意进程,或者由于性能原因而避免了这一点?2023 云安全联盟大中华区版权所有167.是否有适当的日志记录,以帮助调查和找到这样的问题的根本原因?8.来自 HPC 环境的日志是否进入了安全信息和事件管理(SIEM)系统?9.在 HPC 系统周围是否存在任何出口过滤控制?注入注入 2HPC 系统团队继续调查这个问题,在根账户的主目录中,一位管理员发现了一个名为 ransomnote.txt 的文件。管理员打开该文件,看到的信息是:”与超人不同,你的超级计算机并不是无敌的。你的研究数据已经被盗,并将被公布给你的竞争对手,除非你允许我们挖出 100 个比特币。如果我们的矿工在挖到 100个比特币之前被停止,你的数据将被公开。当 100 个比特币被挖出来后,我们的矿工将终止并删除自己。需要考虑的问题:需要考虑的问题:1.如果上面还没有决定,现在的问题是安全事件吗?2.谁会是这个问题的事件指挥官?3.是否有处理 HPC 事件的现有事件响应(IR)计划?4.将采取什么措施来控制事件并阻止组织内的其他系统被破坏?5.为调查这个问题,会做些什么?6.组织是否有调查所需的数据(例如,记录的全面性)和资源(专业知识、工具等)?7.什么样的数据可以从超级计算环境中获得?8.可能被外流的数据被公开的潜在危害是什么?9.网络分段是否到位,或者数据是否有可能从环境的其他部分被访问和渗出?10.这个时候法律团队是否参与其中?2023 云安全联盟大中华区版权所有1711.是否会通知执法部门?12.组织中还有谁需要被通知这一事件?13.该组织是否会考虑通过保留安装的密码挖掘机来支付”赎金?注入注入 3第二天,一个著名的勒索软件集团在他们的博客上声称对这次攻击负有责任,新闻机构开始给员工打电话并提出问题,因为这次攻击的新颖性使得它具有新闻价值。其他组织的研究合作者正在询问有关被渗出的数据和暴露的研究机密的问题。一些合作者威胁说,如果他们不尽快得到答案,他们将终止合作并将研究资金转移到其他地方。需要考虑的问题:需要考虑的问题:1.如果还没有,法律、执法或任何其他利益相关者是否会参与?2.该组织是否会就袭击事件发表公开声明?3.如果有的话,会向威胁要撤消其研究经费的合作者传达什么?4.这一新信息是否对支付赎金或不支付赎金的决定有任何影响?注入注入 4事件发生后的几个星期,取证调查已经完成。经确定,文件上传功能中的一个不安全因素被利用了,这使得前端网络服务器被入侵。从那以后,攻击者能够利用传递给 OpenMP API 调用的数据缺乏输入验证和消毒的情况,以便将恶意软件注入共享内存,并在 HPC 集群的各节点上传播加密机器。需要考虑的问题:需要考虑的问题:1.如何才能更好地保护前端 Web 服务器免受类似的攻击?2.漏洞管理是保护信息系统的关键,因为它可以确保这些系统有最新的补丁,但 HPC 系统运行各种特殊的库和软件包,商业漏洞扫描器可能没有 2023 云安全联盟大中华区版权所有18签名。由于缺乏补丁,也许甚至无法识别需要补丁的地方,如何才能减轻 HPC 系统的风险?3.是否有一个用于 HPC 系统的开源软件的清单?4.端点安全工具、扩展检测和响应(XDR)工具、SIEM 工具等等,都有可能检测到恶意行为,但大多数都是围绕 Mitre ATT&CK 和其他在对客户的攻击中经常观察到的恶意行为进行检测。商业安全工具是否能提供所需的检测,围绕着是 HPC(MPI,OpenMPI 等)特有的可利用方面,还是会有一个盲点,除非建立自定义的检测?5.重新考虑围绕开发人员的应用安全培训和安全软件开发的其他方面的问题,根据上述考虑,你现在的答案是否有所不同(缓解漏洞的最好方法是首先防止它被引入)?6.这是一个常见的应用安全格言,你必须在其中建立安全,而不是把安全栓在上面还有哪些方法可以更好地将安全建立在 HPC 系统和我们在其上运行的应用程序中?7.鉴于 HPC 应用经常依靠 C/C 或 Fortran 等”内存不安全”语言编写的代码来达到性能目的,HPC 世界是否应该考虑开始转向像 Rust 这样具有类似性能的更多内存安全语言?2023 云安全联盟大中华区版权所有19参考文献参考文献欧洲各地的超级计算机被加密货币开采恶意软件攻陷。Sabina Weston,ITPRo.(2020 年 5 月 18 日).h t t ps:/www.it re/35 5 6 7 7/uni-of-e d i n b u r g h-su p e r c o m p u t e r-t a k e n 被加密货币挖掘的恶意软件所击倒通过一个自定义的网络界面提交你的 HPC 工作。AWS(2021)https:/awslabs.github.io/scale-out-computing-on-aws/web-interface/submit-hpc-jobs-web-based-interface/用于高性能计算的网络门户:一项调查。Patrice Calegari,Marc Levrier,andPawet Balczynski.(2019 年 2 月)。https:/dl.acm.org/doi/pdf/10.1145/3197385NIST,SP 800-223(草案)高性能计算(HPC)安全:架构、威胁分析和安全态势(2023年 2 月草案,评论期截止到 2023 年 4 月)https:/csrc.nist.gov/publications/detail/sp/800-223/draft云安全联盟(CSA),远程手术桌面指南书,物联网工作组、发布日期:01/30/2023https:/cloudsecurityalliance.org/artifacts/telesurgery-tabletop-guide-book/云安全联盟(CSA),云事件响应框架,云事件响应工作组,发布日期:05/04/2021https:/cloudsecurityalliance.org/artifacts/cloud-incident-response-framework/BLAST,https:/blast.ncbi.nlm.nih.gov/Blast.cgi 2023 云安全联盟大中华区版权所有20

    浏览量0人已浏览 发布时间2023-10-29 20页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • GSA GCR:了解云攻击向量-从IaaS和PaaS视角(42页).pdf

      1 2023 云安全联盟大中华区版权所有2关于云安全联盟关于云安全联盟云安全联盟(CSA)是一个非营利组织,旨在促进和推广云计算的最佳实践,并提供行业内的安全保证。此外,云安全联盟提供云计算使用的教育.

    浏览量0人已浏览 发布时间2023-10-26 42页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 算力租赁行业深度:市场现状、商业价值、产业链及相关企业深度梳理-231020(26页).pdf

    1/26 2023 年年 10 月月 20 日日 行业行业|深度深度|研究报告研究报告 行业研究报告 慧博智能投研 算力租赁行业深度:算力租赁行业深度:市场现状、商业价值、市场现状、商业价值、产业链. 

    浏览量0人已浏览 发布时间2023-10-24 26页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • Forrester:2023让云涅槃重生研究报告-云技术大重整(16页).pdf

    云技术大重整在最能让用户和企业满意的方面构建和部署工作负载本思想领导力白皮书由 AKAMAI 于 2023 年 6 月委托 FORRESTER 咨询公司编写关于 FORRESTER 咨询公司Forrester 提供独立和客观的基于研究的咨询,帮助领导者落实关键的转型成果。在我们以客户为中心的研究的推动下,Forrester 经验丰富的顾问与领导者们开展合作,采用一种独特的参与模式来执行他们的优先事项,这种模式可针对不同需求量身定制,并可确保效果的持久性。要了解更多信息,请访问 Research,Inc.版权所有。未经授权,严禁转载。本文提供的信息基于可获取的最佳资源。文中观点为当时判断,可能会有所变动。Forrester、Technographics、Forrester Wave 及 Total Economic Impact 是 Forrester Research,Inc.的商标。所有其他商标均归相应企业所有。要了解更多信息,请访问 。E-56808项目团队:Mandy Polacek,高级市场影响力顾问Britt Mountford,市场影响力顾问Andrea Mendez Otero,市场影响力助理顾问参与研究:Forrester 基础设施和运营研究小组目录3 内容提要4 主要结论5 当今的竞争离不开从核心到边缘的优化9 当今的多云远未达到优化水平12 在最适合运行的方面构建和部署工作负载,才能实现多云成熟度15 主要建议16 附录云技术大重整2内容提要低延迟和贴近客户是当今的商业制胜法宝。为什么呢?在媒体和游戏领域,用户希望消除停机时间。在零售领域,客户希望通过数字渠道和店内渠道获得便捷无缝的购物体验。在金融服务领域,信任是成功的关键,客户希望能够方便安全地访问他们的帐户和最新信息。由于各行各业都面临性能压力,因此现代应用不断在突破公有云基础设施的极限。2023 年 2 月,Akamai 委托 Forrester 咨询公司开展评估,了解采用和发展云以满足企业和用户需求的情况。为探索这一议题,Forrester 对全球 420 名企业云战略领导者开展了在线调查。我们发现,由于基于区域的云架构难以满足当今的业务需求,为应对这一问题,企业在采用云到边缘的架构,这种架构优先考虑在运行效果最好的位置部署软件,最大限度减少延迟并优化性能。云技术大重整3主要结论随着工作负载的分散,对延迟的担忧也在增加。大约 90%的受访者指出,他们公司有六个或六个以上的工作负载需要在多个区域运行,而且使用物联网设备和内容分发网络(CDN)的工作负载也同样多。随着工作负载的分散,延迟成为首要问题。本地化既是重中之重,同时也存在挑战。三分之二的受访者指出,有六个或六个以上的工作负载需要在多个管辖区域运行,但 41%的受访者难以找到满足数据驻留要求的提供商。优先考虑低延迟应用的公司正在转向云原生架构,并在核心与边缘构建和部署应用。所有受访者现在都在采用多云。如今在多个云中以及在核心与边缘构建和部署应用,就是投资于云原生的未来。75%的受访者称他们公司的应用程序部署在公有云,76%的受访者称应用程序部署在边缘。为合适的工作负载选择合适的云,并投资于灵活的架构和合作伙伴,才能实现成熟的多云。76%的受访者认为,他们必须将合适的工作负载与合适的云相统合,才能优化多云战略,克服延迟和本地化问题。做好这一点,就会给企业及其服务对象(客户和员工)带来效益。云技术大重整4云不断推高用户和客户对应用软件的期望值:80%的受访者认为,用户体验对云的依赖程度比以往更高。不过,纯云基础设施在大规模使用时存在性价比问题。在对 420 位企业云战略领导者调查后,我们发现:云对企业很重要。86%的受访者认为他们公司对云的依赖程度比以往更高。具体而言,80%的受访者称他们公司的大部分应用为云原生应用,93%的受访者指出,未来 12 个月内的大部分应用专门为云构建 (见图 1)。不出所料,所有受访者都指出,他们目前与多家云提供商合作,其中北美地区居于首位北美地区 21%的受访者称他们公司与四家或四家以上的云提供商合作;其他地区也有半数受访者称与四家或四家以上的云提供商合作(见图 2)。云对企业很重要,当今所有公司都在采用多云。当今的竞争离不开从核心到边缘的优化图 1云原生应用数量调查人群:全球 420 位总监或更高级别的企业云决策者资料来源:Akamai 委托 Forrester 咨询公司开展的一项研究,2023 年 3 月21%至 301%至 40Q%至 60q%至 80A%至 50a%至 70%至 90%目前主要采用云原生。93%预计在未来 12 个月内主要采用 云原生。0%61%1!&%1%3#%37%云技术大重整5 对核心和边缘功能的需求都在激增。75%的受访者称他们在公有云部署应用,76%的受访者称他们在边缘部署应用,其中包括选择通过内容分发网络和/或边缘平台部署应用的受访者。在具体用例方面,受访者称他们依赖云提供商来提供基础架构中的基本功能,如存储(73%)和数据库(67%),以及应用安全(31%)、人工智能/机器学习(22%)和应用开发(16%)等新的专业功能(见图 3)。随着工作负载的分散,对延迟的担忧也在增加。88%的受访者指出,他们公司有六个或六个以上的工作负载需要在多个区域运行。大约 72%的受访者称他们正在边缘运行六个或六个以上的工作负载,93%的受访者称他们有六个或六个以上的应用程序使用 CDN,92%的受访者称他们有六个或六个以上的工作负载使用物联网设备。这一现实突显了分布式计算能力对减少延迟的重要性。通过跟踪和改善线下与线上体验而走向成功的行业(如零售业),更是大力采用边缘和物联网(例如 100%的零售业受访者指出,他们有六个或六个以上的工作负载使用物联网设备)。图 2“贵公司目前与多少家云提供商合作?”调查人群:全球 420 位总监或更高级别的企业云决策者资料来源:Akamai 委托 Forrester 咨询公司开展的一项研究,2023 年 3 月欧洲北美亚太和日本拉丁美洲234五个或五个以上31435XFVS %1%1%0%0%云技术大重整6图 3“贵公司在哪些方面部署面向公众的 Web 应用?”调查人群:全球 420 位总监或更高级别的企业云决策者资料来源:Akamai 委托 Forrester 咨询公司开展的一项研究,2023 年 3 月“贵公司依赖云提供商提供以下哪些服务?”公有云75%内容分发网络52%边缘平台45%本地部署26%存储73%高性能计算(HPC)43%无服务器/功能即服务(FaaS)34%虚拟机58%Web/内容托管36%应用交付控制器(ADC)23%数据库67%容器38%应用程序安全31%企业软件即服务(SaaS)55%企业应用程序托管35%人工智能/机器学习22%应用程序开发16%云技术大重整7 本地化是当务之急。在使用云时,必须遵循各种监管要求。大约 66%的受访者指出,有六个或六个以上的工作负载需要在多个管辖区域运行,这突显了云到边缘架构的重要性。在欧洲,数据本地化尤为重要,76%的受访者称有六个或六个以上的工作负载需要在多个管辖区域运行(见图 4)。图 4工作负载需求量调查人群:全球 420 位总监或更高级别的企业云决策者注意:由于四舍五入,百分比的总和可能不是 100%。资料来源:Akamai 委托 Forrester 咨询公司开展的一项研究,2023 年 3 月1 至 56 至 1016 至 2011 至 1521 个或更多个需要在多个云提供商区域运行的工作负载数量11(%5%在边缘运行的工作负载数量27$A%7%0%使用 CND 的工作负载应用数量33%3%使用物联网设备的工作负载数量5C%3%需要在多个管辖区域运行的工作负载35E%4%2%本地化是当务之急工作负载变得越来越分散的欧洲受访者指出,有六个或六个以上的工作负载需要在 多个管辖区域运行。76%的零售行业受访者指出,有六个或六个以上的工作负载使用物联网设备。100%云技术大重整8虽然企业在采用云和边缘来改善速度和敏捷性,并利用各种新功能,但与多家云提供商合作所面临的挑战并未消除。在这项研究中,我们发现企业未能满足受访者指出的在多云现状下他们最为关心的要求。具体而言,我们发现:关键痛点在于复杂性和成本。多云战略的固有特点就是复杂,这在集成、扩展以及多提供商维护方面的表现尤为突出。这是 51%的受访者提到的第一大挑战。第二大挑战(在某些方面是相关的)是与无序扩张、数据出口费和不可预测的定价相关的成本(44%)。拉美地区对这种复杂性的感受最深(60%),因为该地区过去的云提供商服务欠缺,但近年来却经历了巨大转变。这些拉美企业向云转变尚处于早期阶段,但正在迅速迎头赶上,因而面临的形势更为复杂。亚太地区受访者特有的三大挑战之一是内部技能短缺(51%),这一点与解决复杂性相关。工作负载布置欠佳。与以往相比,受访者依赖云提供商在更多环境中处理更多的工作负载。然而,出于对公有云区域的架构和运营的考虑,可能会导致工作负载布置欠佳。如前所述,延迟和本地化乃重中之重。同时它们也是主要的挑战:41%的受访者难以找到能满足数据驻留要求的提供商,并且几乎所有云提供商用例中的首要问题都是高延迟。52%的游戏行业受访者还指出,工作负载布置地点由监管要求决定,而不是由对用例最有意义的因素来决定(见图 5),这一点让他们感到很沮丧。当今的多云远未达到优化水平游戏行业受访者(52%)面临的最大挑战,在于工作负载布置地点取决于监管要求,而不是取决于对工作负载最有意义的因素。云技术大重整9图 5多云面临的主要挑战*延迟是各种用例面临的首要挑战调查人群:全球 420 位总监或更高级别的企业云决策者*注意:所示为排名前 3(共 8 个)的回答资料来源:Akamai 委托 Forrester 咨询公司开展的一项研究,2023 年 3 月无服务器/功能即服务(FaaS)57%虚拟机47%企业软件即服务(SaaS)39%Web/内容托管52%数据库44%容器38%人工智能/机器学习55%企业应用程序托管45%应用程序安全38%存储49%应用程序开发39%高性能计算(HPC)36%应用交付控制器(ADC)29%拉丁美洲的受访者对复杂性的感受最深(60%)内部技能短缺是亚太地区面临的三大挑战之一(51%)过于复杂(例如难以集成、扩展、维护等)51%多云成本增加44%寻找符合数据驻留/主权要求的提供商41%云技术大重整10 因此,企业面临效率低下、人员流失和失去竞争优势的问题。46%的受访者认为复杂的多云环境导致效率低下。云和边缘为企业及员工带来了全新的差异化能力,但规划欠妥的多云战略却可能适得其反,导致员工(38%)和客户(24%)流失率提高,竞争优势下降(33%)(见图 6)。图 6“贵公司因面临多云挑战而经历了以下哪些情况?”调查人群:全球 420 位总监或更高级别的企业云决策者资料来源:Akamai 委托 Forrester 咨询公司开展的一项研究,2023 年 3 月效率降低46%客户流失率提高24%员工流失率提高38%创新能力下降19%竞争优势下降33%不知道/不适用4%收入表现欠佳29%云技术大重整11在最适合运行的方面构建和部署工作负载,才能实现多云成熟度越来越多的公司认为多云乃正确战略。他们的下一步行动是开发一种包含边缘的云架构,优化云的使用。企业为合适的工作负载选择合适的云,即可实现这一目标,本研究中 76%的受访者同意这一观点。关于如何成功实现这一目标,我们发现:战略中必须纳入灵活的合作伙伴和架构。如果没有相应的支持架构和合作伙伴,公司为合适的工作负载选择合适的云的能力就会受到限制。受访者一致认为,包含边缘的灵活架构(86%)和支持各种云和边缘环境工作负载的云提供商(65%)是优化多云战略的关键。对亚太地区的受访者(75%)而言,跨越云和边缘支持工作负载的能力尤为重要(见图 7)。对合作伙伴的首要要求,就是信任、可靠性以及满足当前和未来需求的能力。随着公司努力将合适的工作负载与合适的环境相统合,战略性多云离不开战略性合作伙伴。因此,在与供应商合作时,最重要的莫过于信任85%的受访者认为,选择一个值得信赖的合作伙伴是重要或很重要的。为了将工作负载部署到最适合运行的领域,受访者还要求合作伙伴具备可靠性(88%)、可扩展性(80%)和边缘能力(78%)。对于亚太地图 7调查人群:全球 420 位总监或更高级别的企业云决策者*注意:所示为排名前 2 的回答资料来源:Akamai 委托 Forrester 咨询公司开展的一项研究,2023 年 3 月非常同意同意35Av%的受访者同意,多云优化 离不开为合适的工作负载选择 合适的云。“以下方面对于优化贵公司的多云战略有多重要?”*(所示为“很重要”和“重要”的回答)纳入边缘的灵活云架构86%与支持各种云和边缘环境工作负载的云提供商合作65%对亚太地区的受访者(75%)而言,跨越云和边缘支持各种工作负载的能力尤为重要云技术大重整12区的受访者而言,边缘能力再次成为最关键的因素。在信任方面,欧洲、中东和非洲地区的受访者认为与知名合作伙伴合作最重要(见图 8)。图 8“在与云提供商合作时,哪些方面对贵公司是重要的?”调查人群:全球 420 位总监或更高级别的企业云决策者注意:所示为排名前 8 的回答;由于四舍五入,总百分比可能不等于各比例之和 资料来源:Akamai 委托 Forrester 咨询公司开展的一项研究,2023 年 3 月可靠性88Q7%与熟识的人/值得信赖的合作伙伴合作85G8%全球可扩展性,包括在服务欠缺的市场80C7%满足严格的数据驻留要求的能力75C3%在边缘提供各种计算、网络、数据平台和/或服务78B6%可以预测的简单定价72C0%包括无需额外费用的支持服务 76E1%支持各种应用开发工具7045%很重要重要在信任方面,欧洲地区的受访者认为与知名合作伙伴合作最重要(47%的受访者认为这一点很重要)对于亚太地区的受访者而言,边缘能力最重要(47%的受访者认为边缘能力很重要)更具战略意义的工作负载调整将推动带给企业和用户的效益。受访者预计,将合适的云与合适的工作负载相统合,并与合作伙伴合作来满足灵活的要求,将产生多种积极的结果,其中包括增加收入(68%)、改善用户体验(64%)、提高性能(68%)和优化成本(65%)。这些效益在所有市场云技术大重整13都得到了体现,在拉丁美洲,用户体验的改善则尤为重要(73%),这与该地区近年来软件开发人才的增加不无关系。游戏行业受访者(他们代表的是对延迟最为敏感的行业)则指出,最主要的效益在于提高性能(80%)(见图 9)。调查人群:全球 420 位总监或更高级别的企业云决策者资料来源:Akamai 委托 Forrester 咨询公司开展的一项研究,2023 年 3 月改进用户体验在拉丁美洲最重要。73%“您已发现/预计会从支持各种云和边缘环境工作负载的云提供商那里获得哪些效益?”图 9“通过将合适的云与合适的工作负载进行战略统合,您已发现/预计会产生哪些效益?”提高性能68%云支出优化65%增加收入59%提升用户体验58%降低延迟52%加速创新49%纾解风险43%增强差异化竞争力42%的游戏行业受访者指出,他们获得的最大效益就是改善性能。80%增加收入68%提升用户体验64%提升可靠性55%加速创新45%降低成本48%云技术大重整14主要建议在企业致力于采用云原生架构时,还必须致力于在最适合运行的领域构建和部署应用程序,来克服安全和性能限制。Forrester 经过深入调查后得出了一些重要建议:加速云原生的采用。云原生乃新常态。对于创建可以与任何云协同工作的基础设施方面,云原生生态系统至关重要。构建经济高效的多云架构。公有云虽然规模大,能力强,然而要将数据从一个提供商转移到另一个提供商,往往会带来不必要的成本和管理开销。构建云网络和边缘基础设施来实现移植能力和灵活部署,不要为了适应云成本而改变工作负载的位置,可以避免这些陷阱。利用边缘优化用户和员工对云的体验。如果延迟阻碍了最贴近用户和员工的关键应用的性能,云就会失去威力。将对延迟敏感的工作负载转移到边缘,来利用更强大的新型边缘基础设施。利用边缘满足数据主权和安全要求。全球许多地方的监管机构禁止数据离开其管辖区域。集中化的云方针导致用户很难在不牺牲性能的情况下遵守规定。具备边缘功能的多云战略能够为数据主权至关重要的区域提供完备的云服务。云技术大重整15附录在这项研究中,Forrester 对全球 420 位企业云战略决策者开展了在线调查,来评估采用云和边缘来满足企业与用户需求的情况。参与调查的对象包括 IT 和运营领域的决策者。询问参与者的问题涉及公司的云和边缘应用、多云方面的挑战以及技术、运营和供应商关系革新计划。为感谢受访者抽出宝贵时间参与调查,为他们提供了小奖品。本研究采用双盲方式进行。它于 2023 年 2 月开始,并于 2023 年 3 月完成。附录 A:研究方法行业(前十)技术和/或技术服务17%游戏12%媒体和/或休闲 12%零售12%制造和材料5%金融服务和/或保险5%通信服务4%消费品和/或制造4%运输与物流4%教育和/或非营利机构3%国家/地区巴西11%加拿大10%中国9%法国7%德国8%印度16%墨西哥13%英国10%美国15%年收入5 亿至 9.99 亿美元64 亿至 50 亿美元35P 亿美元以上1%受访者级别首席级高管15%副总裁34%总监52%部门IT65%运营35%对于企业云战略的职责最终决策者 51%主要工作内容就是影响这方面的决策49%附录 B:受访者统计数据注意:由于四舍五入,百分比的总和可能不等于 100%。附录 C:补充材料“权衡多云战略的利弊”,Forrester Research,Inc.,2022 年 8 月 29 日。“边缘计算的未来”,Forrester Research,Inc.,2022 年 5 月 11 日。FORRESTER 相关研究云技术大重整16

    浏览量0人已浏览 发布时间2023-10-20 16页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 中国电信:2023智算产业发展白皮书(54页).pdf

    1 智算产业发展白皮书(2023 年)中国电信研究院 天翼智库 2023 年 8 月 2 编制说明 主编单位:中国电信研究院 参编单位:中国电信股份有限公司安徽分公司 深圳海兰云数据中心科技有限公司 顾问专家:中国电信研究院战略发展研究所所长:饶少阳 编委成员:孙雪媛、陈元谋、赵静、马腾滕、熊小明、魏玥、李朔萌、谢林翰 陈锡根、王勇 联系电话: 邮箱: 3 目录目录 引言引言 .5 5 一、智算发展迎来新机遇一、智算发展迎来新机遇 .7 7 1 1、AIAI 大模型驱动的智算时代正加速到来大模型驱动的智算时代正加速到来 .7 7 2 2、智能算力成为数字经济发展的新引擎、智能算力成为数字经济发展的新引擎 .8 8 3 3、国家和地方密集出台政策支持智算布局、国家和地方密集出台政策支持智算布局 .9 9 二、智算产业全景及新进展二、智算产业全景及新进展 .1212 1 1、智算产业链初步形成,生态集聚效应不断增强、智算产业链初步形成,生态集聚效应不断增强 .1212 2 2、国产自研国产自研 AIAI 芯片加速入场芯片加速入场,短期高效供给仍受限,短期高效供给仍受限 .1515 3 3、智算中心建设版图持续扩张,智算服务灵活多样、智算中心建设版图持续扩张,智算服务灵活多样 .1616 4 4、大模型呈蓬勃发展态势,助力产数业务发展、大模型呈蓬勃发展态势,助力产数业务发展.1919 三、智算发展五大新趋势三、智算发展五大新趋势 .2121 趋势趋势 1 1:国产多元异构算力融合推动智算长效发展:国产多元异构算力融合推动智算长效发展 .2121 趋势趋势 2 2:智算从单节点向区域化协同、边端部署演变:智算从单节点向区域化协同、边端部署演变 .2121 趋势趋势 3 3:普惠泛在的智算服务生态正逐步构建:普惠泛在的智算服务生态正逐步构建 .2323 趋势趋势 4 4:确定性、高性能网络助推大规模智算集群构建:确定性、高性能网络助推大规模智算集群构建 .2424 趋势趋势 5 5:低碳化发展格局需创新智算:低碳化发展格局需创新智算-电网协同模式电网协同模式 .2525 四、智算四、智算技术发展的七大关键词技术发展的七大关键词 .2727 关键词关键词 1 1:存算一体:存算一体 .2727 关键词关键词 2 2:一云多芯:一云多芯 .2727 关键词关键词 3 3:CPOCPO .2828 关键词关键词 4 4:RDMARDMA .2929 关键词关键词 5 5:DDCDDC .3030 关键词关键词 6 6:并行计算:并行计算 .3232 关键词关键词 7 7:液冷:液冷 .3232 五、智算发展潜力评估五、智算发展潜力评估 .3434 4 1 1、评估方法、评估方法 .3434 2 2、评估结果、评估结果 .3636 六、典型案例六、典型案例 .4141 1 1、中国电信安徽智算中心、中国电信安徽智算中心 .4141 2 2、中国电信(国家)数字青海绿色大数据中心、中国电信(国家)数字青海绿色大数据中心.4242 3 3、海兰信海底数据中心、海兰信海底数据中心 .4343 七、总结与展望七、总结与展望 .4747 八、附录八、附录-智算评估实施方案智算评估实施方案 .4848 1 1、评估指标模型构建、评估指标模型构建 .4848 2 2、评估指标赋值、评估指标赋值 .4949 3 3、评估指标权重设计、评估指标权重设计 .4949 4 4、各省评估得分、各省评估得分 .5151 九、参考文献九、参考文献 .5252 5 引言引言 以大模型为代表的通用人工智能不断演进,人工智能、机器学习、大数据分析等技术在金融、制造、汽车等领域持续渗透,大模型应用场景愈加广泛,正加速算力产业结构变革,智能算力将取代通用算力成为算力结构最主要构成,智算产业迎来了高速发展期。工信部最新数据显示,我国算力总规模已位居全球第二,保持年约 30%快速增长,新增算力设施中智能算力占比过半,成为算力增长的新动能;我国算力产业创新能力持续增强,面向大模型训练、推理等高性能芯片供给持续增强,多元异构计算技术加速普及,有力支撑人工智能、区块链、元宇宙等新兴应用发展。算力是数据中心的服务器通过对数据进行处理后实现结果输出的一种能力1。智算是算力的一种,指具有提供人工智能应用所需算力服务、数据服务和算法服务的智能算力,利用 CPU 与 GPU、FPGA、ASIC 等加速芯片的异构组合,实现高精度通用算力和低精度专用算力的融合供应2,20。智算涵盖从底层高性能芯片、服务器和网络设备,到智算中心基建、机电配套和软硬件服务平台,再到顶层人工智能应用等完整体系,产业上下链长、集聚效应显著。智算为经济增长提供数字转型、智能升级、融合创新的新动力,带动人工智能及相关产业倍速增长,成为我国数字经济发展的新引擎。本白皮书系统分析了智算产业发展环境、产业链全景特点、最新进展及面临挑战,指出了智算产业五大发展趋势、七大技术关键词,提出了我国智算发展潜力评估体系及分省指标结果,并介绍了典型智6 算中心建设场景案例。本白皮书由中国电信研究院编制,我们希望通过此白皮书为我国智算产业市场洞察、技术创新、生态建设,高水平发展提供参考启示。7 一、智算发展迎来新机遇一、智算发展迎来新机遇 1、AI 大模型驱动的智算时代正加速到来 图 1 人工智能产业发展历程 人工智能自人工智能自 19561956 年诞生以来,年诞生以来,历经三次发展浪潮历经三次发展浪潮。第一次浪潮(第一次浪潮(1 1s0s),),神经网络相关基础理论被提出,搜索式推理、自然语言等大量 AI 程序和创新研究涌现。但由于大部分AI 程序不具备解决复杂问题的能力,造成 AI 研究经费开始大幅削减,AI 迎来第一次发展低谷。该阶段算力主要以 IBM 大型计算机为主,以集中的方式分配使用。第二次浪潮(第二次浪潮(1980s1980s-2000s2000s),),80 年代名为“专家系统”的 AI 程序问世,极大增强了 AI 的实用性。但“专家系统”应用仅限于特定领域,迭代升级难度及维护成本高,规模推广难度大,AI 再次进入发展低谷。90 年代小型计算机性能每 18 个月翻一番,且价格和耗电量大幅降低,算力逐渐进入分布式发展阶段3。第三次浪潮(第三次浪潮(20),),深度学习等算法的突破使得 AI 性能8 大幅提升。移动通信技术快速发展,共享计算资源、提高算力利用率等需求催生出以云计算为中心的集中式共享算力模式。2016 年,谷歌研发的 AlphaGo 将 AI 推向大众视野,语音识别、视觉处理等 AI 应用逐渐渗透到各行各业。同年,中国电信提出“云网融合”发展方向,将云计算和网络技术有机结合,实现计算和网络资源的统一管理和优化配置,推动网络和算力一体化供给、运营和服务。当前人工智能正迎来第四次发展热潮,加速进入大模型驱动的智当前人工智能正迎来第四次发展热潮,加速进入大模型驱动的智算时代。算时代。2022 年 11 月,OpenAI 公司正式推出 ChatGPT,推动生成式AI 应用进入爆发期,M、文心一言、盘古等国内 AI 大模型层出不穷,AI 算力需求被推到“井喷”状态,开启智算时代。随着数据指数级增长,计算密度越来越高、计算节点分布越来越广,加速云网与AI、安全等要素融合。算力逐渐由终端计算等需求驱动的“被动式”发展,转向促进 AI 大模型训练、实现通用人工智能等代表的“主动式”发展,从“技术工具”进阶为社会经济发展的“底层动力”。2、智能算力成为数字经济发展的新引擎 人工智能产业市场前景广阔,成为推动全球经济发展的新动力。人工智能产业市场前景广阔,成为推动全球经济发展的新动力。IDC 预测,全球以 AI 为中心的各类系统的软件、硬件与服务支出,2023 年将达到 1540 亿美元,到 2026 年将超过 3000 亿美元,预计2022 年至 2026 年间复合年增长率(CAGR)为 27%4。2021 年中国 Al服务器市场规模为 53.9 亿美元,预计 2025 年达到 103.4 亿美元,2021 年至 2025 年间 CAGR 达 17.7%5。9 智算产业智算产业集群化作用显著,集群化作用显著,成为带动人工智能及相关产业快速发成为带动人工智能及相关产业快速发展的新动力。展的新动力。到 2035 年,人工智能的发展将给我国甚至全球经济增长带来突出贡献。预计到 2026 年,人工智能技术对于全行业的渗透率将超过 20%6。据信通院数据,2022 年我国算力核心产业规模达到1.8 万亿元,其中人工智能核心产业规模达 5080 亿元,同比增长 18%7;2022 年我国新增算力基础设施中智能算力占比过半,智算成为算力增长新曲线,智算中心正在支撑人工智能产业的快速发展,支撑其到2025 年达到 4000 亿,带动 5 万亿产业目标;2030 年达到 1 万亿,带动 10 万亿元产业目标8。3、国家和地方密集出台政策支持智算布局 表 1.我国部委智算中心建设相关政策 数据来源:各部委官方文件 我国高度重视智算产业发展,围绕智算中心、人工智能、大模型我国高度重视智算产业发展,围绕智算中心、人工智能、大模型等先后出台系列政策文件,加快产业布局。等先后出台系列政策文件,加快产业布局。“十四五”规划和 2035 年远景目标纲要中明确提出要“加快构建全国一体化大数据中心体系,强化算力统筹智能调度,建设若干国家枢纽节点和大数据中心集群”。工信部、国家发改委等先后出台新型数据中心发展三年行动计划10 (2021-2023 年)、全国一体化大数据中心协同创新体系算力枢纽实施方案等文件,启动“东数西算”重大工程。2023 年 4 月,中共中央政治局会议中强调“要重视通用人工智能发展,营造创新生态,重视防范风险。”7 月,科技部批复 25 个平台建设国家新一代人工智能公共算力开放创新平台(含筹建)。表 2.我国各省市智算中心建设相关政策 数据来源:各省市官方政策文件 地方政府纷纷发布智算产业相关政策,开展智算地方政府纷纷发布智算产业相关政策,开展智算中心中心相关基础设相关基础设施建设工作,提供普惠算力服务。施建设工作,提供普惠算力服务。北京发布北京市促进通用人工自能创新发展的若干措施高效推动算力基础设施建设,将新增算力建设项目纳入算力合作伙伴计划,加快推动智算中心建设,形成规模化先进算力供给。上海出台上海市助力中小微企业稳增长调结构强能力若干措施助力中小企业数字化转型,发放“AI 算力券”,重点支持租用本市智能算力且用于核心算法创新、模型研发的企业,最高按合同费用 20%进行支持。成都印发成都市围绕超算智算加快算力产业发展的政策措施明确每年发放总额不超过 1000 万元的算力券,11 用于支持算力中介服务机构、科技型中小微企业和创客、科研机构、高校等使用国家超算成都中心、成都智算中心算力资源。12 二、智算产业全景及新进展二、智算产业全景及新进展 1、智算产业链初步形成,生态集聚效应不断增强 图 2 智算产业链图谱 目前,我国智算产业链已经初步形成,涵盖由芯片、软件、硬件供应商构成的上游产业,由云商、电信运营商、第三方数据中心服务商等构成的中游产业,以及由互联网、交通、金融、工业等行业等用户构成的下游产业。(一)上游:(一)上游:AIAI 芯片领域形成多方竞争格局芯片领域形成多方竞争格局 GPUGPU、FPGAFPGA 技术壁垒高,迅速形成寡头格局。技术壁垒高,迅速形成寡头格局。英伟达(NVIDIA)凭借 NVLink、NVSwitch 等集群性能优势以及良好的 CUDA 生态,成为全球 GPU 主要供货商,其 A100 芯片占据了数据中心 GPU 市场 90%以上的份额。据 IDC 数据,预计到 2025 年 GPU 仍将占据 AI 芯片 8 成市场份额。同时赛灵思(Xilinx)和英特尔(Intel)已在 FPGA 领域形成双寡头格局,市场份额占比约 90%9。TPUTPU、NPUNPU 逐渐兴起,呈现“百家争鸣”态势。逐渐兴起,呈现“百家争鸣”态势。以 TPU、NPU 为代13 表的 ASIC 凭借吞吐量、功耗、算力等优势,逐渐被广泛应用于人工智能领域。国外以谷歌为首发布 TPU 芯片,国内寒武纪、华为、阿里等公司也都推出了深度神经网络加速的 ASIC 芯片,如华为昇腾 NPU、阿里平头哥 NPU。白盒交换机以其软硬解耦、灵活可编程、高速转发等优势受到云白盒交换机以其软硬解耦、灵活可编程、高速转发等优势受到云商智算中心大规模组网青睐。商智算中心大规模组网青睐。Omdia 数据显示,2022 年全球数据中心以太网交换机市场份额白盒供应商占比 32%,其中 Arista 占比 18%。在北美市场,全球 TOP3 云商亚马逊、谷歌和 Meta 的白盒交换机购买规模已超市场总规模的三分之二。InfiniBandInfiniBand 和和 RoCERoCE 作为智算中心高性能作为智算中心高性能网络的主流方案,满足网络的主流方案,满足智算网络的低时延、大带宽、稳定运行、大规模以及可运维的需求。智算网络的低时延、大带宽、稳定运行、大规模以及可运维的需求。InfiniBand 网络方案及配套设备供应商主要包括英伟达、英特尔、思科,其中英伟达市场占有率超七成。支持 RoCE 的交换机厂商较多,主要以新华三、华为为主。支持 RoCE 的 NVIDIA ConnectX 系列网卡当前市场占有率比较高。(二)中游:云商及(二)中游:云商及 IDCIDC 服务商基于自身优势提供智算服务服务商基于自身优势提供智算服务及及解解决方案决方案 云商、科技公司借助自身技术壁垒提供大模型及平台服务。云商、科技公司借助自身技术壁垒提供大模型及平台服务。主流云商一方面自建大型智算中心,如 Meta 宣布取消或暂停部分正在建设的数据中心,对其 11 个正在开发的项目进行重新设计,彻底转向人工智能数据中心的建设。另一方面加速布局 AI 大模型,如谷歌“PaLM-2”、Meta“Llama 2”等。特斯拉、苹果等科技公司基于自身14 业务优势,一方面自建定制化智算中心,如特斯拉面向自动驾驶等领域建设超算中心 Dojo,拥有超过 100 万个训练节点,算力达到1.1EFLOPS10。另一方面,积极布局 AI 大模型体系,巩固自身行业优势壁垒,如特斯拉 AI 机器人“擎天柱”、苹果“Apple GPT”。IDCIDC 服务商依托云服务商依托云/网资源优势,积极参与智算建设。网资源优势,积极参与智算建设。国内运营商积极建设智算中心及平台,如中国电信推出息壤智能计算平台,提供智算、超算、通算多样化算力服务,为大模型训练、无人驾驶、生命科学等场景提供软硬一体解决方案,RDMA 吞吐可高达 1.6Tb11。国外 IDC 服务商仍在布局阶段,如 2023 年日本 NTT 宣布将在 5 年内投资 8 万亿日元(约合 590 亿美元)用于人工智能、数据中心和其他增长领域12;Equinix 的 2023 年全球科技趋势调查报告显示,人工智能应用率上升,但 IT 基础设施没有为人工智能做好充足准备。(三)下游:车企领衔行业大模型落地应用(三)下游:车企领衔行业大模型落地应用 互联网、交通、金融、工业等行业,基于大模型带动自动驾驶、机器人、元宇宙、智慧医疗等下游产业发展。海外大模型行业应用主要在传媒游戏、机器人、办公等领域落地,如 Meta 推出 AI Sandbox为广告生成不同的文字、Apple 推出生成式人工智能元宇宙产品Visin Pro 头显,并计划在 siri 嵌入类 GPT 功能。哈维基于 GPT 及行业数据推出 AI 法律助手。国内大模型行业应用主要聚焦金融、医疗、传媒游戏、智能汽车等领域,如百度文心大模型助力浦发银行、泰康保险在投资决策、理赔信息检索等方面的应用。华为盘古大模型为国家电网电力巡检提供智能服务。15 图 3 国内外大模型行业分布13 车企布局智算中心用于自动驾驶大模型训练。车企布局智算中心用于自动驾驶大模型训练。特斯拉基于 Dojo超级计算机先后推出 BEV 大模型、端到端自动驾驶大模型,推动高阶智能驾驶落地,预计到 2024 年算力将达 100EFLOPS。吉利星睿智算中心自研汽车行业 AI 对话模型,初步完成百亿参数的大模型训练,吉利星睿智算中心(湖州)预计 2025 年算力规模将达 1.2EFLOPS14。小鹏汽车自动驾驶智算中心“扶摇”(乌兰察布),基于阿里飞天智算平台,算力可达 600PFLOPS,将小鹏自动驾驶核心模型的训练提速近 170 倍15。毫末智行智算中心“雪湖绿洲”(山西大同),基于火山引擎智算云解决方案,算力达 670PFLOPS,模型训练效率提升 100倍16。2、国产自研 AI 芯片加速入场,短期高效供给仍受限 国产硬件厂商持续突破国产硬件厂商持续突破 AIAI 芯片性能,提升市场竞争力。芯片性能,提升市场竞争力。华为推出昇腾 910,性能对标英伟达 A100,可用于智能手机、云计算、自动驾驶等领域,同时推出 AI 开源计算框架 MindSpore,支持用户进行AI 开发。寒武纪提供云边端一体、训练推理融合等系列 AI 芯片产品及平台化基础系统软件,重点对推荐系统和大语言模型的训练推理等16 场景进行优化。壁仞科技等初创公司不断与多方建立合作关系,如万国数据、浪潮、中国移动等,聚焦云端通用智能计算,重点在 AI 训练和推理、图形渲染等领域发力。大型云商自研大型云商自研 AIAI 芯片,以摆脱对国外技术依赖。芯片,以摆脱对国外技术依赖。阿里面向自身电商、汽车、家电等领域需求自研 AI 芯片,基于 RISC-V 架构和自研算法推出含光 800 NPU,支持 TFlops 级别浮点运算。百度面向搜索、智能交通等领域的深度学习运算需求,推出昆仑系列 AI 芯片,用于大模型推理。腾讯依靠蓬莱实验室推出 AI 推理芯片“紫霄”,已用于腾讯会议等多个内部业务。我国自主 AI 芯片在系统效率等方面与国际领先产品仍有差距,并存在性价比待提高、架构不够兼容、配套工具不够成熟、应用场景不够广泛等问题。制程方面,。制程方面,目前英伟达已率先到达 4 nm,而国内厂商多集中在 7 nm17;算力方面,算力方面,国内厂商大多不支持双精度(FP64)计算,且仅在单精度(FP32)及定点计算(INT8)方面与国外中端产品持平;生态方面,生态方面,与英伟达 CUDA 的成熟生态相比,国内企业多采用 OpenCL 进行自主生态建设,存在明显差距。3、智算中心建设版图持续扩张,智算服务灵活多样 智算中心聚焦东部城市,以政府主导国产化为主。智算中心聚焦东部城市,以政府主导国产化为主。截至 2023 年5 月,全国超 35 个城市在建或投运 44 个智算中心(在建 15 个智算中心,投运 29 个智算中心),其中明确面向 AI 大模型应用的有 11个。地理分布集聚一线及省会城市,与大模型研发分布强相关。地理分布集聚一线及省会城市,与大模型研发分布强相关。智算17 中心建设以东部为主,京津冀、长三角、粤港澳共 29 个(占比近 66%),其中 9 个在建,20 个投运,面向西部枢纽节点逐渐开展布局。东部多东部多为政府主导建设,且国产化占比高(为政府主导建设,且国产化占比高(54T%),西部以云商自建为主。),西部以云商自建为主。地方政府牵头主导 34 个(占比近 80%),主要满足当地 AI 产业发展,且以华为昇腾、寒武纪等为主要合作方提供国产化能力。西部以云商为主,如阿里乌兰察部智算中心、字节跳动与毫末智行合建雪湖绿洲(山西大同)智算中心。受限于需求不清晰、高性能芯片产业生态不受限于需求不清晰、高性能芯片产业生态不成熟等因素影响,智算规模普遍偏小。成熟等因素影响,智算规模普遍偏小。智算中心规模在 100-300PFLOPS 内占比超 70%以上,超过 1EFLOPS 规模的智算中心约占 25%(超半数为云商及大型企业自建),且全部集中在京津冀、长三角和粤港澳区域。图 4 我国智算中心及大模型分布 18 由于智算由于智算需求需求场景多样且高度定制化,相较于传统数据中心,智场景多样且高度定制化,相较于传统数据中心,智算中心服务模式呈现多元化特点,算中心服务模式呈现多元化特点,包括机房托管、算力租赁、智算平台、工具集及咨询等增值服务、模型即服务(MaaS)、大模型应用服务以及各种组合模式。(一)机房托管:(一)机房托管:机房托管服务与传统数据中心服务模式类型相同,但需要面向智算提供更高层次的定制化(功耗、配电、网络等),主要面向云商、AI 公司、大型央企等客户。(二)(二)算力租赁算力租赁:主要面向中小型科技公司、IT 公司、小参数量的模型(10B 规模)等客户,通过将闲置 GPU 资源通过云服务的形式将服务器或虚拟机租用给用户,采用按使用时间及利用率收费。(三)大模型托管、训练、部署、订阅等从(三)大模型托管、训练、部署、订阅等从 IaaSIaaS 到到 SaaSSaaS 全线服全线服务。务。一是提供 GPU 主机、高性能计算、批量计算等 IaaS 产品。二是依靠智算平台提供公有云和专有云,为各类科研、公共服务和企业机构提供算力调度、数据处理、模型开发等一体化智能计算服务。三是通过 MaaS 提供模型定制、精调、部署等一站式模型服务。四是基于大模型和 MaaS 能力全面智能升级 SaaS 应用,帮助企业构建行业大模型或集成在企业应用上、以及面向公众用户提供搭载大模型应用的基于大模型的搜索引擎、数字人等服务。19 图 5 智算服务体系 未来智算服务模式将由现阶段集成 AI 大模型能力的云产品的卖方市场,逐步过渡到围绕产品提供配套衍生服务,最终形成基于标准化智算中心基于“AI 原生”生态服务的买方市场。4、大模型呈蓬勃发展态势,助力产数业务发展 我国大模型研发快速增长,大模型研发我国大模型研发快速增长,大模型研发分布分布以东部城市为主。以东部城市为主。从全球已发布的大模型分布来看,中国和美国大幅领先,超过全球总数的 80%,美国在大模型数量方面始终居全球最高,中国从 2020 年进入大模型快速发展期,目前与美国保持同步增长态势。据不完全统计,目前中国 10 亿参数规模以上的大模型已发布 79 个,14 个省市/地区都在开展大模型研发,与智算中心布局一致,主要集中在北京(38个)、广东(20 个)、浙江(5 个)和上海(5 个)18。其中大模型开源占比过半,高校/科研机构是开源主力。清华大学的 ChatGLM-6B、复旦大学的 MOSS 以及百度的文心系列大模型开源影响力最高。通用大模型不仅需要海量数据与雄厚算力支撑,对资金实力、人20 才队伍等也提出更高要求。如 ChatGPT 单次训练成本高达数百万美金,OpenAI 核心团队 87 人,全部来自世界顶尖高等院校。未来将呈现少未来将呈现少数几家通用大模型,并涌现出无数更贴近产业需求的行业大模型的趋数几家通用大模型,并涌现出无数更贴近产业需求的行业大模型的趋势。势。智算赋能行业应用,是产数业务发展的“加速器”。智算赋能行业应用,是产数业务发展的“加速器”。行业大模型通过对垂直细分领域的数据进行更有针对性的训练和优化,从而更好地理解行业的语义和规范,更有效地执行专业性更强的任务。如金融的风险控制和投资决策,医疗的图像识别和诊断,交通的调度和路径优化,能源的能耗预测、碳排放监测等。预计生成式 AI 能为这些行业带来 1000 亿美元到 3000 亿美元的收益。通用大模型企业基于自有通用大模型 外部行业数据的模式拓展多个行业大模型,行业公司基于开源大模型 内部行业数据赋能自身应用。截至 2023 年 8 月,国内已落地的行业大模型共 72 个,主要集中在金融(14 个,19.4%)、医疗(14 个,19.4%)、传媒游戏(8 个,11.1%)及教育科研(8 个,11.1%)。图 6 大模型潜在影响矩阵19 21 三、智算发展五大三、智算发展五大新新趋势趋势 趋势 1:国产多元异构算力融合推动智算长效发展 大模型发展推动大模型发展推动 CPU、GPU、DPU 等“等“XPU”异构算力融合。”异构算力融合。一方面,模型训练、边缘推理、数值模拟等不同智能应用需要智算中心提供不同的算力,如自动驾驶、智慧医疗等场景既需要高精度通用算力也需要低精度专用算力20。另一方面,随着多模态大模型流量规模增长,CPU、GPU 需要拿出更多精力处理数据传输,需要利用 DPU减负,从而更好地处理“本职工作”。中国电信自研紫金 DPU 实现服务器虚拟化零损耗,全面释放算力,同时网络 PPS 性能翻倍、存储IOPS 性能提升两倍、网络时延降低至原来的四分之一。高端高端 AI 芯片国产化能力是我国智算产业长效发展的关键。芯片国产化能力是我国智算产业长效发展的关键。一方面,我国 AI 芯片需求增长迅猛,华为数据显示,我国对人工智能芯片的需求半年内增长了十倍以上;IDC 预测,未来 18 个月,GPU、ASIC 和 FPGA 等 AI 芯片搭载率将持续增高。另一方面,我国高端AI 芯片性能与国际领先水平仍有差距,对美国依赖较大。随着美国对中国高端 AI 芯片的管制进一步加强,如英伟达等厂商对中国(含香港)禁运高性能 GPU,需要我国持续加强芯片技术攻关,提升 GPU的国产化替代能力。趋势 2:智算从单节点向区域化协同、边端部署演变 大模型驱动的智算成为东数西算的最佳实践。大模型驱动的智算成为东数西算的最佳实践。由于异构算力封装、22 超大带宽和超低延迟传输网络技术仍未解决,以当前模型训练参数量(千亿级)为参考,大模型训练等的 AI 计算基本依靠单智算中心完成,且基本集中在同构智能算力中心。智算中心选址多位于东部地区,东部区域在传统数据中心建设方面,由于受能耗、成本等因素的影响发展放缓,但各地政府为实现大模型的创新培育与产业聚集,短期内将主导智算中心发展,形成布局一线及省会城市。长期来看(5 年以上),受成本、双碳目标以及业务模式等因素影响,集约、规模化的智算中心向全国一体化枢纽节点布局的趋势不会改变。未来随着计算机视觉、科学计算等多模态大模型的发展以及参数量的规模增长(万亿以上),将带动东数西训、东数西渲成为东数西算场景落地的最佳实践,并呈现两大趋势:一是大模型演进为多个智算中心分布式训练,且此时智算中心间可以通过全光网等方式实现 us 级时延,智算中心间交互带宽达 T 级别以上;二是业务应用调用多个专业大模型,可能形成云计算中心与智算中心间一对多的互联需求,流量规模增长。西部地区具备发展智算中心、承接东部算力需求的潜力,东西跨区域协同将更加突出。训练训练-推理的集中推理的集中-边缘边缘/终端终端两级化布局逐步形成两级化布局逐步形成。现有大模型业务模式主要包括与大模型直接交互和基于大模型能力的产品改造。前者以猎奇为主,短期并发难以持续,如 ChatGPT 的访问量增长率 1月环比增长 131.6%,5 月下降至 2.8%。后者更多实现大模型与产品、业务流程的融合,将成为主流形态,如集成了 GPT4 的 Bing 搜索引擎用户访问规模已超 ChatGPT。随着多模态大模型逐步成熟,将推动 2B23 生产型和 2C 消费型流量渐成规模,以高频富媒体即时交互为主,业务应用调用多个专业大模型成为主要方式,驱动分布式推理智算中心下沉,中心(训练)-边缘(推理)将成大模型的主流部署方式。此外,随着大模型轻量化处理、终端性能的持续提升,大模型从云端到终端部署渐成发展趋势。截至 2023 年 2 月国内存量手机终端智能算力总规模是我国数据中心算力总规模 12 倍以上,相当于近一百万片英伟达 H100 芯片算力21,大模型的云-边-端协同应用将在未来几年快速发展。图 7 智算中心业务访问模式 趋势 3:普惠泛在的智算服务生态正逐步构建 智能算力使用具有周期性,复用难。智能算力使用具有周期性,复用难。AI 大模型以“大规模预训练微调”为主,前期预训练工作量大,且需要高性能大算力 AI 芯片支撑,算力需求呈现周期性,后期推理算力对芯片计算能力要求相对较低。智算中心的算法模型、AI 架构定制化程度高,其他场景难以复用。据 IDC 调研,超过 80%的受访组织表示会考虑购买预先训练好24 的人工智能模型,但未来 2-3 年私有化部署仍将是整个智算市场的主流。由于当前国内高性能芯片受限、智能算力建设及使用门槛高等原因,借助平台调度实现算力错峰使用,并整合数据集、组件、算法模型提供平台级服务,可实现全社会算力服务普适、普惠和高效利用,因此成为业界运营智算中心的趋势。地方政府主导建设公共算力服务平台,提供普惠算力。地方政府主导建设公共算力服务平台,提供普惠算力。算力服务多以场景化云服务的形式交付,用户按业务需求采购算力、存储、带宽等专业服务,实现无处不在的计算,服务模式将从“资源式”向“任务式”转变。政府以城市为单位建设公共算力服务平台,用于连接社会多方智算中心,主要面向中小型企业或科研机构提供普惠算力,同时助力当地人工智能产业孵化,如上海公共算力服务平台、北京多元智算中心等。现有智算中心的软硬件通用性和兼容性较低,需要进一步推动产业链上下游开放协同,实现不同品类、不同技术路线的芯片、算法、模型、应用等要素实现“横向”兼容、“纵向”耦合,确保各层次灵活构建,降低迁移应用门槛,共同推动行业赋能。趋势 4:确定性、高性能网络助推大规模智算集群构建 智算中心内网络无损高速互联是关键。智算中心内网络无损高速互联是关键。大模型对数据中心内网络的传输效率有着严格的要求。一是网络丢包 0.1%会导致算力损失 50%(华为实验数据),对于一个可以承载 1.6 万卡的集群而言,近 10万个光模块平均 4 天左右就会有故障发生。二是面对千亿、万亿参数规模的大模型,训练过程中通信占比最大可达 50%,仅单次计算迭代25 内梯度同步需要的通信量就达百 GB 量级。因此,无阻塞、高吞吐量成为面向大模型训练的智算中心内网络的核心诉求。智算中心间确定性智算中心间确定性、无损网络研究,无损网络研究,是是实现跨域多元算力整合实现跨域多元算力整合的的关键关键。现阶段大模型的训练、推理主要在单一智算中心内进行,未来随着大模型发展以及训练任务的增多,单点算力资源无法满足训练需求,需要将物理位置上分散、归属于不同方所有的多个智算中心之间构建高性能互联网络(DCI),从而整合成一个更大规模的虚拟智算中心以期达到智算中心内部无损网络传输水平。当前中国电信已完成单波 400Gbit/s、传输容量 44Tbit/s、传输距离 1050km 的传输系统,创造了实时光传输容量距离积的新世界纪录(46.2Pbitkm/s),为部署 400G 光传输骨干先现网提供了实验验证22;自研算力网关在东数西渲等业务场景中,解决跨域算力调度。鹏城实验室开展深圳和广州超算 10 TB 全光网络互联研究。趋势 5:低碳化发展格局需创新智算-电网协同模式 绿色电力不产生碳排放,助推智算中心零碳运营。绿色电力不产生碳排放,助推智算中心零碳运营。中国工程院院士戴琼海表示,预计 2030 年智能计算年耗电达到 5000 亿度,占发电总量 5%。根据斯坦福人工智能研究所的研究数据,OpenAI 的 GPT-3单次训练耗电量高达 1287 兆瓦时,相当于 120 个美国家庭 1 年的用电量、10000 辆特斯拉跑满 10 万公里消耗的电量,而这仅仅是训练AI 模型的前期电力,占模型实际使用时所消耗电力的 40%。作为用电大户,智算中心必须因地制宜利用各种可再生能源,针对地域、时间、26 天气等对绿电供给影响较大的问题,通过储能、源网储荷一体化等方法应对。零碳是智算中心发展的长远目标。零碳是智算中心发展的长远目标。零碳是指直接或间接产生的温室气体排放总量,通过节能减排、清洁能源、碳交易等方式进行正负抵消,实现总碳排放为零。一是通过减碳,运用技术手段降低用能、提高能效、提高绿色能源使用等;二是通过碳抵消,购买绿电、绿证等来进行碳排放的消纳。谷歌宣布计划 2030 年实现零碳运营,开发并部署了碳智能计算平台,通过获得各国与地区历史、实时和未来 24小时内每小时电力能源结构及碳强度,通过在时间或空间上转移计算任务,实现计算任务与低碳电力供应的最佳匹配。27 四、智算技术四、智算技术发展的发展的七大关键词七大关键词 关键词 1:存算一体 存算一体作为一种新型算力,是突破 AI 算力瓶颈和大数据的关键技术。与以往的冯诺依曼架构相比,打破了由于计算单元与存储单元过于独立而导致的“存储墙”(CPU 处理数据的速度与存储器读写数据速度之间严重失衡的问题,严重影响目标应用程序的功率和性能),达到用更低功耗实现更高算力的效果。作为可 10 倍提升单位功耗算力的颠覆性技术之一,存算一体有望降低一个数量级的单位算力能耗,在 VR/AR、无人驾驶、天文数据计算、遥感影像数据分析等大规模并行计算场景中,具备高带宽、低功耗的显著优势。目前主流的实现方案包括:一是利用先进封装技术把计算逻辑芯片和存储器(如 DRAM)封装到一起;二是在传统 DRAM、SRAM、NOR Flash、NAND Flash 中实现存内计算;三是利用新型存储元件实现存算一体。当前存算一体技术仍处于早期阶段,我国存算一体芯片创新企业与海外创新企业齐头并进,在该领域的先发制人,为我国相关技术的弯道超车提供了巨大可能性。关键词 2:一云多芯 一云多芯是指用一套云操作系统来管理不同架构的硬件服务器集群,可以支持多种类型的芯片,解决不同类型芯片共存所带来的多云管理问题,最大限度利用云上资源池的强大算力。作为 IT 产业链28 承上启下的关键环节,向下纳管和兼容底层各种芯片、整机、操作系统等软硬件基础设施,向上支撑大数据、人工智能、物联网、5G 等新一代企业级应用,有效规避算力孤岛,逐步实现从算力的并存到算力的统一。一云多芯通过纳管不同指令集的芯片,包括 CPU、GPU、DPU等,为各类应用场景提供异构多元化的算力支持,满足智算业务高性能计算和数据处理要求,助力算力平台建设标准化、统一化、服务化。中国电信云骁智算平台基于天翼云全栈自研操作系统,打造一云六芯,全面支持主流国产芯片。阿里飞天操作系统正在全面兼容 X86、ARM、RISC-V 等多种芯片架构,实现一云多芯。关键词 3:CPO CPO(共封装光学)是光模块未来的一种演进形式,被视为 AI 高算力下高能效方案。CPO 是指把光引擎和交换芯片共同封装在一起的光电共封装,使电信号在引擎和芯片之间更快传输,缩短光引擎和交换芯片间的距离,有效减少尺寸,降低功耗,提高效率。800G 光模块可提高服务器之间互联密度,在同等算力下计算效率倍增,高效支撑AI 大模型 100%释放算力。随着 AIGC 发展趋势明朗,高算力需求催化更高速率的 800G/1.6T 光模块需求,LightCounting 预测,硅光模块有望在 2025 年高速光模块市场中占据 60%以上份额。多家厂商也开始大力研发用于数据中心的硅光模块,如新华三发布 51.2T 800G CPO硅光数据中心交换机,单芯片带宽 51.2T,支持 64 个 800G 端口,支撑 3.2 万台节点单个 AIGC 集群,单位时间内 GPU 运算效率提升 25%,29 硅光 液冷技术融合实现单集群 TCO 降低 30%,满足大模型智算网络高吞吐、低时延、绿色节能需求23。图 8 以太网转发芯片演进 关键词 4:RDMA RDMA(Remote Direct Memory Access)是一种远程直接数据存取技术,可以有效降低多机多卡间端到端通信时延,满足智算网络的低时延、大带宽需求。当前 RDMA 技术主要采用的方案为 InfiniBand和 RoCEv2 两种。InfiniBand 网卡在速率方面保持着快速的发展,主流 200Gbps、400Gbps 已规模商用。当前用于大模型训练的智能算力节点内部大多采用 InfiniBand 技术构建数据中心内高性能网络,提供高速连接,以及微秒级的时延、无丢包,避免 GPU 计算等待数据传输导致算力效率的下降。目前 InfiniBand 技术为英伟达独家控制,成本偏高、开放性较弱,因此业界也在考虑用 RoCEv2 等无损网络技术替代 InfiniBand 技术,但存在配置复杂、支持万卡规模网络吞吐性较弱等问题。30 图 9 InfiniBand 和 RoCEv2 的技术对比 关键词 5:DDC 传统 CLOS 网络架构面临多级转发导致时延高、设备低缓存、易丢包等挑战,目前业界主要围绕优化 CLOS 架构、DDC 等开展研究。(一)云商普遍采用多轨道流量聚合优化面向大模型训练的三层(一)云商普遍采用多轨道流量聚合优化面向大模型训练的三层CLOSCLOS 架构,确保在大规模训练时集群的性能和加速比。架构,确保在大规模训练时集群的性能和加速比。在多轨道网络架构中,大部分流量都聚合在轨道内传输(只经过一级 ToR switch),小部分流量跨轨道传输(需要经过二级 switch),让任一同号卡在不同机器中的通信中的跳步数尽可能少,大幅减轻了大规模下的网络通信压力。31 图 10 多轨道流量聚合(二)(二)A AT&TT&T、博通推出、博通推出 DDCDDC(Disaggregated Distributed ChassisDisaggregated Distributed Chassis)架构,支持架构,支持 A AI I 超大规模集群弹性部署。超大规模集群弹性部署。DDC 将传统软硬一体的框式设备组件进行拆解,使用若干个低功耗盒式设备组成的集群替换框式设备业务线卡和网板等硬件单元,盒式设备间通过线缆互联。整个集群通过集中式或者分布式的 NOS(网络操作系统)管理,以软件化的方式灵活部署于任何一台标准服务器或多台服务器,能有效节省部署成本,提升系统冗余性和可靠性。DDC 架构简单,支持弹性扩展和功能快速迭代、更易部署、单机功耗低,可以根据 AI 集群大小来灵活选择。基于 VOQ Cell 机制实现端到端流量调度,充分利用缓存大幅减少丢包,且解决了 ECMP 策略下流量负载不均衡的问题,能有效提升宽带利用率。但由于 DDC 硬件要求专用设备、大缓存设计增加网络成本等问题,目前可交付的 DDC 产品较少,有待进一步优化。32 图 11 DDC 架构24 关键词 6:并行计算 智算在数据迁移、同步等环节,千卡以上规模的算力输出最低往往仅有 40%左右。随着大模型规模的增长,需要考虑千卡甚至万卡规模的 GPU 集群训练,在多个 GPU 上进行并行计算,将训练任务分解为多个子任务并同时训练,以提升训练速度和效率。针对大规模并行计算的特点,数据并行、模型并行、流水并行、混合专家、增量更新等一系列优化算法和技术有效提升了算法的运行效率和并发性能以及算力的资源利用率,支撑更高更复杂的训练速度和效率。当前业内普遍采用多种并行方式联合优化的策略,如在机内做张量并行,同时配合数据并行进行分组参数切分操作,在多组机器组成流水线并行,以此来承载千亿甚至万亿的模型参数。关键词 7:液冷 AI 服务器的功率较普通服务器高 6-8 倍,通用型服务器原来只需要2颗800W服务器电源,而AI服务器的需求直接提升为4颗1800W33 高功率电源,当前商汤、阿里等高性能 AI 服务器已达到 25kw 以上,而风冷空调的极限在 25-30kw25。传统风冷面临散热不足、能耗严重的问题,液冷技术成为了降低数据中心 PUE 的优解,其在 15kW/柜以上时更具经济性优势。浸没式和喷淋式液冷实现了 100%液体冷却,具有更优的节能效果,PUE 均在 1.2 以下,甚至可低至不足 1.1;浸没式液冷散热节能优势明显,在超算、高性能计算领域取得了广泛应用。在机架功率密度要求和 PUE 限制下,液冷已成为智算中心制冷必选项,预计 2025 浸没式液冷数据中心占比将达 40&。34 五、智算发展潜力评估五、智算发展潜力评估 自大模型等 AI 业务爆火以来,人工智能驱动智算发展进入快速发展阶段。为了全面客观评价我国各省份智算发展水平,本章节设计了智算发展的评估方法和评估结果。该评估主要围绕各省的智算整体发展,以及智算在外部环境、基础设施、服务应用方面的发展展开评估,并依据评估结果进行了相关的分析,为全国及各省份智算发展潜力判断提供参考依据。1、评估方法 基于全国及各省智算业务相关政策、智算发展特点、行业专家意见,并结合国内外科研机构对智能算力的评估指标研究,借助统计学、指标筛选方法等构建智算发展潜力的评估指标。我们将智算发展潜力评 估 简 称 为 ICDP-EM(Intelligent computing development potential evaluation model)。ICDP-EM 如图 1 所示,包括外部环境、基础设施、服务应用 3 个一级指标,以及相应的个二级指标。图 12 中国智算产发展潜力评估模型(ICDP-EM)(一)模型分析(一)模型分析 35 我们从外部环境、基础设施、服务应用三个方面对评估模型进行分析。1 1)外部环境外部环境 AI 产业、智算中心、双碳等相关智算政策,将影响智算中心选址的具体位置。城市的商业电价、太阳能风能水等绿色发电能力决定了智算中心建设的总体成本,对智算中心的发展区域选择有较大影响。员工薪资、GDP 等是经济发展水平高低的体现,对智算建设能力有一定影响。2 2)基础设施基础设施 网络高带宽、低延迟是提升智能算力性能的重要因素,如光宽用户数、每万人 5G 基站数、IPV6 渗透率等网络基础能力作为智算中心算力、数据互通的基础,将影响智算对大模型等 AI 业务的训练推理速度、处理能力和结果的准确性。IDC 机架规模、总算力规模影响智算中心的建设和服务能力。3 3)服务应用服务应用 大模型数量、AI 企业数量、AI 发明专利数等是衡量每个区域 AI研发能力的关键,企业上云率、互联网网站数等体现了数字化能力,将影响智算服务未来的发展潜力。数字城市百强渗透率、人工智能产业园区数促进产业实践,影响智算服务应用能力。(二)评估方案(二)评估方案1 依据 ICDP-EM 模型分析,设计评估体系的评估方案,流程如下:1 详细的评估流程,见附录 36 1)指标构建:指标构建:通过 ICDP-EM 模型分析,构建中国智算发展潜力评估指标体系包括一、二、三级指标,详情见附录中表 3。2)指标赋值指标赋值:基于省人民政府、工信部、国家统计局等官网统计三级指标对应的最新数据,为三级指标赋值提供权威、客观的依据。3)权重确定:权重确定:基于 AHP 和熵权法主客观结合为各指标的权重设计方案,其中一二级指标采用 AHP 方法确定权重,三级指标基于各省统计的指标赋值采用熵权法确定权重。4)评估指数结果评估指数结果:最终根据指标的得分和权重得到各省相应的评估结果,包括综合评估指数、外部环境评估指数、基础设施评估指数、服务应用评估指数。2、评估结果 图 13 2023 中国 31 省智算发展综合评估指数 37 基于评估方法确定的指标、权重和评估指数,本报告从综合评 估指数、发展环境评估指数、基础设施评估指数、智算服务评估指数四个方面给出了我国 312省智算发展潜力排序的建议。(一)(一)智算发展潜力综合评估指数智算发展潜力综合评估指数 京津冀、长三角地区智算发展的综合评估指数均在中上游,是具京津冀、长三角地区智算发展的综合评估指数均在中上游,是具有较高智算发展潜力的城市。有较高智算发展潜力的城市。由图 13、14 所示,广东、北京、江苏、上海、浙江属于智算发展的第一梯队,综合指数在 50 以上。山东、四川、湖北、河北、河南、陕西、贵州、重庆、安徽属于智算发展第二梯队,综合指数在 25以上。如图 14 所示,以北京为代表的京津冀地区和以上海为代表的长三角地区人均 GDP 较高,拉动了智算整体的产业发展,在智算的发展建设上有更大的优势,助力大模型等 AI 业务快速发展。图 14 人均 GDP 与综合指数的象限图 (二)外部环境评估指数(二)外部环境评估指数 2 因数据获取难度等限制,本报告只统计中国 31 省数据,不包括中国香港、中国台湾和中国澳门 38 中西部地区因绿电、建设成本低等特点,在智算发展的外部环境中西部地区因绿电、建设成本低等特点,在智算发展的外部环境方面优势凸显。方面优势凸显。如图 15 所示,四川、云南、湖北地区因水电等绿色能源供应量充足,内蒙古、新疆等因工业电价低,均跻身第一梯队,适合发展绿色智算相关业务。北京、上海、江苏因 GDP、高薪等因素在智算发展的外部环境方面也具有一定优势。图 15 2023 中国 31 省智算发展外部环境评估指数(三)基础设施评估指数(三)基础设施评估指数 全国全国智算智算基础设施基础设施布局布局不均,北京、上海、广东为代表的京津冀、不均,北京、上海、广东为代表的京津冀、长三角等地区在基础设施建设上具有城市集群效应,远高于中西部地长三角等地区在基础设施建设上具有城市集群效应,远高于中西部地区区。图 16 2023 中国 31 省智算发展基础设施评估指数 如图 16 所示,上海、江苏、浙江、安徽长三角地区均处于第一梯队,京津冀基础设施能力处于中上游水平,山东跻身第一梯队。西39 部地区在基础设施建设上还有很大发展空间,尤其宁夏、甘肃作为八大枢纽节之二,在光纤、5G 基站、IDC 机架建设等方面可重点发力。(四)服务应用评估指数(四)服务应用评估指数 图 17 2023 中国 31 省智算发展服务应用评估指数 智算服务应用能力主要聚集在经济较发达的一、二线城市智算服务应用能力主要聚集在经济较发达的一、二线城市。如图 17 所示,北京、广东处于第一梯队,尤其北京在智算服务应用方面远高于其他省份。服务应用能力受基础设施能力的影响较大,服务应用评估指数的第一梯队(北京、广东)和第二梯队(上海、江苏、浙江、山东),其均处于基础设施评估指数的第一梯队。图 18 综合评估指数 Top10 省份细分评估指数对比 基于以上评估指数排序,对综合评估指数 top10 的城市进行外部40 环境、基础设施、服务应用的能力分析。如图 18 所示,北京在综合能力和服务应用能力方面遥遥领先,广东、上海、江苏、浙江在基础设施能力方面占有优势,四川因出色的绿电供应(水电)使其在外部环境能力方面名列前茅。山东、湖北、河北、陕西等在各方面处于中等水平,整体能力较稳定。41 六、典型案例六、典型案例 1、中国电信安徽智算中心、中国电信安徽智算中心 中国电信安徽智算中心位于合肥市高新区南岗科技园,园区规划占地面积 150 亩,累计投资将达 100 亿元,一期于 2021 年 12 月投产使用。该项目预计 2024 年全量完工,将成省内规模最大、标准最高、网络最快、算力最智能、绿色低碳最节能的超大型智算中心。基础设施方面,按照国家数据中心最高 A 级标准建设,包括 6 栋数据中心,2 栋动力中心,1 栋 110KV 变电站和 2 栋产业孵化中心,建成后将具备 16000 架中高密度机柜,可容纳约 30 万台服务器,支持算力规模可达到 2.2 EFLOPS,使安徽省的整体算力规模翻番27。网络方面,园区的网络出口带宽达 20 T,通过四平面全光传送网直连国家级互联网骨干节点,网络层级高度扁平化,可实现业务流量的高效疏导。同时与新建的合肥国家级互联网骨干直连点高速互通,省内互访时延将降低 90%。算力应用方面,目前安徽智算中心已落地合肥人工智能计算中心项目,搭载 224 颗鲲鹏 920 448 颗昇腾 910 芯片,初期具备 100P 智算能力,同时还为安徽通用人工算力集群提供 3000P 算力底座能力,助力安徽算力产业高速发展。绿色低碳方面,园区采用集中水冷式中央空调系统,充分利用自然冷源,引入液冷、光伏、多联热管空调等先进技术,辅助 AI 节能,实现智能化精确制冷,有效降低能耗,使得数据中心 PUE 降到 1.2542 以下,打造长三角区域领先的绿色低碳数据中心,是安徽省唯一入选工信部 2022 年国家新型数据中心典型案例的超大型数据中心。2、中国电信(国家)数字青海绿色大数据中心、中国电信(国家)数字青海绿色大数据中心 中国电信(国家)数字青海绿色大数据中心是全国首个 100%清洁能源可溯源绿色大数据中心,以绿色、零碳、可溯源为其典型特征。2023 年 4 月,该数据中心通过权威机构“碳中和”认证,成为全国首个通过自身储备碳汇实现“碳中和”的数据中心,也是国内首个真正实现零碳排放的数据中心,年减碳量近 30 万吨。节能技术方面,利用青海的自然条件优势,采用冷冻水 间接蒸发冷却技术,机房可以全年 314 天不开启空调压缩机,大大减少机房能耗,并且在冬天可以将机房内热量通过余热回收,满足办公室及走廊供暖需求,实现 PUE 值保持在 1.2 以下。同时配备源网荷储一体化绿电智慧供应系统,办公和基础设施用电由园区光伏发电系统供应,多余电量在园区存储备用,储电能力探顶后可向城市电网输送,数据中心从用电方变为发电者。算力应用方面,依托青海“3 8 X”绿色算力资源布局,与云网大数据中心、青藏高原灾备中心协同为青海乃至全国提供高效算力调度和应用。目前,已为青海近 60的各级政府部门政务云平台提供算力和存储,如青海省最大的线上教育互动平台“三个课堂”融合平台,海西文化旅游大数据平台等28。在民生服务、城市管理、生产制造等方面助力青海经济社会数字化转型,吸引头部互联网企业等全国客户43 入驻。3、海兰信海底数据中心、海兰信海底数据中心 GPT 等生成式人工智能浪潮引发新一轮 AI 革命,各行业大模型训练、生成式 AI 对算力产生爆炸式需求。得算力者得天下,沿海发达城市的算力容量是其未来发展空间的关键因素。而当前受能耗指标限制,这些城市的智算中心发展受到制约。充分利用自然冷源、与可再生能源相结合是数据中心绿色低碳发展的共识和趋势。因地制宜、依海而兴,向海洋要冷源和新能源,是沿海发达城市数据中心向“零碳”发展的创新思路。图 19 海底数据中心概念图 海底数据中心应运而生,将海洋工程、数据中心、海上新能源等多领域融合,主要由岸站基地、海底光电复合缆、分电站及数据舱四个部分组成。通过立体科技用海,实现降本增效,多产业协同;通过就地消纳海上绿电,解决数据中心能耗和高算力需求矛盾,突破沿海发达城市发展数字经济的资源限制。据海兰信测算,海底数据中心建44 设成本比传统低 23%、日常运维成本比传统低 14%,绿电使用率理论可达 100%。以上海市为例,海底数据中心若能取代上海当前 11 万架陆地数据中心,将能节约地方 57.8 亿千瓦时(约 71 万吨标准煤)能耗指标。2022 年 12 月,全球首例商用海底数据中心在海南陵水成功启用。该项目由海兰信与中国电信海南分公司合作开发。其暖通系统利用海水实现全年自然冷却,匹配重力热管技术、海水泵变频技术、空调群控技术等节能措施,舱内运营平均温度约 25 摄氏度,运行 PUE 低至1.1,较传统数据中心节能 30%以上。由于无需蒸发散热,减少了冷却塔和冷水系统,水资源消耗为 0。此外,由于大部分设施位于海底,土地占地极少,仅有传统数据中心的十分之一。图 20 全球首例商用海底数据中心入海瞬间 海底数据中心显著提高服务器的安全性与可靠性。相较于陆地和海面,海底环境十分平稳,系统设计能够应对百年一遇的风暴。海底数据舱内充满惰性气体,给 IT 设备提供了一个无氧、无尘、恒湿、恒压的密闭环境。这一方面使系统具备防火灾、防水涝、防极端天气45 的容灾价值,另一方面对服务器及相关设备十分友好,提高了数据中心的可靠性。海南示范项目运行以来,没有一台服务器出现故障,大大降低运维工作量。此外,该项目搭建数字孪生系统,实现全链路微结点智控技术,满足海底数据中心的远程维护、少维护、甚至免维护的需求,显著降低运维成本及碳排放。中国电信海南分公司在海底数据中心部署的业务包括媒体存储节点、CDN 节点以及海南省国资专属云资源池等。自项目首舱下水投产运行以来,各业务运行稳定,系统性能表现良好。目前海底舱内的核心路由器到省域网核心路由器平均延迟不超过 4m,网络效能达到互联网数据中心最高级别,可以承载对时延性、互通量要求最高的业务。下一步,海底数据中心将与海上风电融合,打造算电协同新模式。该方案具有多种优势:第一,海底数据中心与海上风电可以共用海域场址、海底光电复合缆、海洋工程船,实现降本增效,相比传统陆上数据中心,建造和运维成本优势明显;第二,海上风电供绿电,大大降低海底数据中心用电成本,相较陆上市电,用电成本更低,也更加绿色低碳;第三,海底数据中心作为海上风电的有效载荷,可以原位消纳海上绿电的产业,提高海上风电场的发电效率和经济效益,助力海上风电场产业链做大做强。目前我国正在大力发展数字经济与海洋经济,海上风电等新能源产业蓬勃发展,产业融合创新进入机遇窗口期。海底数据中心与海洋绿色能源结合,将海洋电力转化为陆地算力,有助于实现绿电直供、立体用海、共建共维、产业协同的新发展格局,46 打造海上新能源与数字经济融合发展新赛道。图 21 海底数据中心与海上风电融合方案 47 七、总结与展望七、总结与展望 AIGC、自动驾驶、智能制造、智慧医疗、智慧城市等领域发展迅速,随之而来的超大规模 AI 模型和海量数据对算力基础设施提出更高要求,结合“十四五”国家信息化规划的“适度超前部署下一代智能设施体系”、“十四五”数字经济发展规划的“推动智能计算中心有序发展”、“东数西算”的“布局全国算力网络国家枢纽阶段”等政策背景,智算中心高质量发展正当时。与云计算中心、超算中心不同,智算中心主要为 AI 各个领域提供算力、数据、算法等服务,既能满足计算机视觉、自然语言处理等应用需求,又能用于理论研究支撑,满足新技术创新探索需求。48 八、附录八、附录-智算评估实施方案智算评估实施方案 本白皮书对中国智算产业潜力发展评估的具体实施方案如下。1、评估指标模型构建 结合模型假设的影响因素,我们编制了一级指标、二级指标以及对应的指标说明、评估单位,便于后续指标评估。附表 1.中国智算发展潜力评估指标体系 49 2、评估指标赋值 基于省人民政府、工信部、国家统计局等官网统计智算相关三级评估指标的最新数据,为 31 省的三级指标赋值提供权威、客观的依据。为 31 省的 24 个指标赋值,并对所有指标数值 进行归一化处理,得到每个指标的标准化数值。3、评估指标权重设计 关于评估指标权重的确定采用主客观结合的方式进行,保证评估 结果的专业性和客观性。对于一、二级指标,涉及指标全面性的确定,需专家参与判定,采用 AHP 的评判矩阵来确定指标的权重。对于三级指标,在已经确定指标全面性的前提下,采用熵权法确定指标权重,确保结果的客观性。(一)(一)一、二级指标权重确定一、二级指标权重确定 基于 AHP 方法对一、二级指标进行权重设计,借助评判矩阵得出一、二级指标的权重,权重确定流程如下:1)根据指标分类制定评断矩阵模板。附表 2.智算发展潜力评估指标评判矩阵模板 指标指标 1 1 指标指标 2 2 指标指标 n n 指标指标 1 1 指标指标 2 2 指标指标 n n 备注备注:是一或二级指标的个数。矩阵中的值为对应纵向指标比横向指标重50 要程度,例如,=是第 i 个指标与第 j 个指标比较对智算发展重要程度比值,其中,(0,9)。0 到 9 表示两个指标比较对智算发展的重要程度,数值越大重要程度越大。2)业内智算专家按步骤 1 规则对需要评估的 n 个指标进行打分,分别给出相应的n n阶评判矩阵,我们将这些评判矩阵记为A1,A2,A3,A。3)通过公式CR=(1),对评判矩阵进行一致性验证。4)若评判矩阵通过一致验证,计算最大特征值,对应的特征向量,即为指标对应的权重。(二)(二)三级指标权重确定三级指标权重确定 基于三级指标对应的 31 省数据,采用熵权法确定三级指标的权重,主要思路是根据指标变异性的大小来确定客观权重根据指标变异性的大小来确定客观权重。流程如下:1)根据三级指标的 31 省数据,构造矩阵,模板如下。指标指标 1 1 指标指标 2 2 指标指标 2424 省份省份 1 1 ,省份省份 2 2 ,省份省份 3 31 1,2)对矩阵数据进行标准化处理,对于正向指标采用 =min()=1,2,24max()=1,2,24 min()=1,2,24 对于负向指标采用 =max()=1,2,24max()=1,2,24min()=1,2,24 51 3)算每个指标 j 的熵值 根据矩阵标准化后的数值计算信息熵:=1ln3131=1.31=1ln31=131=1 备注:信息熵是对一个信源所含信息的度量,即信息量的期望。4)计算指标 j 对应的权重值=1 24 31=1 4、各省评估得分 根据以上方法确定的一、二、三级指标权重和 31 省的 24 个指标的标准化分值,为各省进行综合评分,并分别根据对应的二、三级指标为各省的一级指标外部环境、基础设施、服务应用三个类别进行评分。52 九、参考文献九、参考文献 1 中国信通院.中国算力白皮书(2022 年)R.2022 2 国家信息中心信息化和产业发展部,浪潮.智能计算中心规划建设指南R.2020 3 毕马威,联想集团.“普慧”算力开启新计算时代R.2023.4 https:/ 5 https:/ 6 https:/ 7 https:/ 8 https:/ 9 https:/ 10 https:/ 11 https:/ 53 12 https:/ 13彭卉,申红梅.全球主流行业大模型发展跟踪EB/OL.天翼智库,2023 年 7 月.(https:/ https:/ 15 https:/ 16 https:/ 17 中邮证券.国产 AI 芯片的创业裂变R.2023.18 中国科学技术信息研究所,科技部新一代人工智能发展研究中心.中国人工智能大模型地图研究报告R.2023.19 麦肯锡.生成式人工智能的经济潜力R.2023.20 国家工业信息安全发展研究中心信息政策所.智能计算中心 2.0时代展望报告R.2023.21 https:/ 22 A.Zhang,Y.Liu,L.Feng,et al.“Record 46.2Pbitkm/s real-time optical transmission over 1050-km G.652.D SSMF utilizing 400Gbit/s transponder with a symbol rate of 91.6-Gbaud”,Optoelectronics and Communications Conference,2023.23 https:/ r=pc 24 omdia.Network Simplification in the Digital Era Through Distributed DisaggregationR.2023.25 https:/ 26 https:/ 27 http:/ https:/

    浏览量0人已浏览 发布时间2023-10-19 54页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 英特尔:中国科学计算实战手册(2023)(33页).pdf

    1英特尔中国科学计算实战手册趋势篇英特尔中国科学计算实战手册32英特尔中国科学计算实战手册趋势篇英特尔中国科学计算实战手册趋势篇应用实践中的科学计算平台应用于 CAE 仿真分析的科学计算平台 CAE 仿真分析技术 面向仿真分析软件的英特尔优化应用于分子动力学的科学计算平台 分子动力学技术 面向英特尔 架构平台的分子动力学软件优化Linpack 基准性能测试英特尔 发行版 Linpack 基准性能测试英特尔 发行版简介 配置 Linpack 英特尔 发行版 运行 Linpack 英特尔 发行版 Linpack 英特尔 发行版对异构计算平台的支持 提升运行性能 面向英特尔 至强 CPU Max 系列处理器的运行应用于生命科学的科学计算平台 生命科学与高性能的科学计算平台 面向英特尔 架构平台的生命科学软件优化面向英特尔 至强 CPU Max 系列处理器的配置和调优 全局优化配置“仅 HBM”与“HBM 缓存”内存模式下优化配置“HBM Flat”内存模式下优化配置面向英特尔 架构优化的 HPCG 基准测试 面向英特尔 架构优化的 HPCG 基准测试简介 使用面向英特尔 架构优化的 HPCG 基准测试 选择最佳参数配置和 Problem Sizes 面向英特尔 至强 CPU Max 系列处理器的运行面向英特尔 架构平台编译并运行的 Stream 基准测试 编译前准备 编译 Stream 基准测试 运行 Stream 基准测试 面向英特尔 至强 CPU Max 系列处理器的运行第四代英特尔 至强 可扩展处理器英特尔 至强 CPU Max 系列英特尔 高级矢量扩展 512(英特尔 AVX-512)英特尔 oneAPI 工具套件英特尔 MPI 库英特尔 oneAPI 数学内核库(oneMKL)基于 LLVM 的英特尔 编译器英特尔 oneAPI DPC /C 编译器英特尔 Fortran 编译器英特尔 vTune Profiler英特尔 Trace Analyzer and Collector(ITAC)目 录Contents04趋势篇应用优化实战篇基准测试实战篇0894040428283536363744444545454646464747产品技术篇505253545556565758585954英特尔中国科学计算实战手册趋势篇英特尔中国科学计算实战手册趋势篇趋势篇0504今天,在科学研究和技术实践各领域,以计算机和智能为代表的信息技术已成为加速创新的关键力量,作为现代科技三大支柱之一的科学计算,更是在其中发挥着无可替代的作用。尤其是一些领域,随着科学研究的深入,需要处理的数据量越来越大,算法也日益复杂,需要计算机系统大幅提高性能、加快处理速度来予以支撑。例如,在流体力学领域,一些仿真模拟场景中所需处理的网格动辄数以亿计;在气象预测领域,气象机构每年从卫星、飞机或观测站等获取的气象数据多达 PB 级别。在其它如天文、生命科学等领域同样如此,大规模方程计算和海量数据处理,虽然为探索未知开辟着新路径,但其计算过程就犹如黑洞一般会大幅榨取计算资源,让运算变得异常困难,也带来了巨大的成本。在技术的落地实践、工程实现阶段,这一现象就更为突出。例如在制造行业,在设计研发阶段开展高精度的仿真模拟,不仅能大幅降低物理原型/实验的数量和成本,还能提高设计质量和效率,缩短新品研发上市时间,进而提升竞争力。但实施大规模仿真任务,往往需要数天乃至以周计才能完成,中间还可能还会因基础设施性能不足(例如内存带宽性能不足等)而中断,无法获得预期的效果。为应对上述挑战,拥有更强性能的科学计算平台正应运而生且不断迭代进化,除了拥有比普通计算机系统更强的计算、存储和 IO 等基础能力,以及操作系统、驱动程序、文件系统、编译器和应用软件支持外,它还需要依托并行性(同时处理多项任务)和分布式(在多个节点处理任务)特性来实现更大规模的算力部署,以及计算的高效率和运行中的高稳定性。2023 年 6 月 25 日,英特尔宣布,Aurora 超级计算机在阿贡国家实验室完成部署,这成为全球首台峰值性能超过 2 Exaflops(1 Exaflops=100 亿亿次浮点指令/秒)算力的超级计算机1。基因测序等工程探索,科学计算平台都正帮助人们加速科学发现、优化业务流程,进而创造更美好的生活。制造领域:由科学计算平台提供支持的计算机辅助工程(Computer Aided Engineering,CAE)正广泛用于产品设计与制造过程,例如在航空航天、船舶制造中,借助计算流体动力学(Computational Fluid Dynamics,CFD)和有限元分析(Finite Element Analysis,FEA)软件,能更好地模拟碰撞、噪声、振动、硬度和应力等,可加速结构分析,进而在降低研发制造成本的同时,为用户提供更优质的产品。生命科学:科学计算平台也被用于基因组分析、冷冻电镜数据分析等生命科学领域,助力健康医疗、制药产业的技术创新和应用。例如在制药行业,研究者可以借助科学计算平台与分子动力学模拟软件,来设计药物和模拟测试药物的有效性,而这不仅可缩短新药研发过程,也能够提高新药的安全性。气象预测:科学计算平台能通过对浩如烟海的气象数据展开处理和分析,来提升气象预测的精准度,进而帮助人们更有效应对灾害天气,如高温炎热、飓风等,也能对农业、风力发电等高度依赖气象预测领域的生产经营提供支持。除此之外,科学计算平台同样也在太空探索、金融风险防范以及石油勘探等众多领域发挥巨大作用,此处不再一一赘述。而随着科学计算在千行百业重大创新的加速作用不断展现,其市场规模也得以高速扩展。有研究表明,2022 年全球科学计算市场规模已达 360 亿美元,预计到 2027 年这个数据将达 499 亿美元,年复合增长率(Compound Annual Growth Rate,CAGR)达 6.7%2。随着科学计算应用范围的不断扩大,多样化的应用实践场景也对其平台性能提出了更高要求,需其通过架构创新、软件优化来应对更大规模计算带来的效率、成本等挑战。尤其随着人工智能(Artificial Intelligence,AI)、大数据(Big Data)以及云计算(Cloud Compute)等前沿 IT 技术不断被引入科学计算应用场景,使得在强化硬件基础设施之上,通过各类优化软件和加速库,来提升科学计算平台的效能,也成为了各行各业使用者所关注的焦点。一直以来矢志于在科学计算领域发挥“核芯”作用的英特尔,除了提供英特尔 至强 可扩展处理器系列、英特尔 至强 CPU Max系列等先进算力平台产品外,也在持续通过英特尔 oneAPI、英特尔 AVX-512 等软件和技术,为科学计算平台的优化和性能增强提供更多助力。在下一篇“应用优化实战篇”中,我们将就面向英特尔 架构的 CAE 仿真分析、分子动力学以及生命科学相关软件的优化编译和运行,进行细节剖析和示例参考。1 更多信息请参阅:https:/www.alcf.anl.gov/aurora2数据援引自 marketsandmarkets 报告High-performance Computing(HPC)Market by Compnent,Computation Type(Parallel Computing Distributed computing and Exascale Computing),Industry,Deployment,Server Price Band,Verticals&Region-2027:https:/ 1-1-1 Aurora 超级计算机基于更强劲的性能和进一步优化的计算架构,科学计算平台,尤其是其中的佼佼者们正在千行百业中承担起越来越重要的角色。从传统的天文、物理、生物、气象等研究,到金融服务、生产制造、石油勘探等生产实践,再到新型产业如新材料研究、新药物研究、76英特尔中国科学计算实战手册趋势篇英特尔中国科学计算实战手册趋势篇实战篇应用优化070698英特尔中国科学计算实战手册应用优化实战篇英特尔中国科学计算实战手册应用优化实战篇应用实践中的科学计算平台80809今天,各类高性能的科学计算平台已在工业设计制造、生命科学、医疗健康、气象环境、航空航天获得了广泛运用,承担起产品设计、数据分析和模型优化等工作。与普通的计算场景不同,科学计算平台在实践应用中,对平台的基础算力、内存带宽、并行计算能力以及面向不同应用的专门加速库都有着较高要求。因此在各个应用实践场景中,使用者在选择适合的硬件基础设施之外,也有必要针对场景的需求以及硬件基础设施的特性,对科学计算平台进行优化与增强。使用者部署在科学计算平台上的各类应用,如 OpenFOAM、Relion 等,通常是通过下载源代码(从Github网站或Git本地仓库)再进行编译的方式进行部署和运行,因此在编译和运行的过程中对各项参数进行合理配置,是帮助使用者们获得更优性能的有效手段(根据任务需求,通过各型英特尔 编译器执行编译过程同样也是重要的优化途径)。此外,几乎所有的科学计算应用都会采用多节点部署和并行计算的方式来提升计算效率,缩短处理时长,因此对多节点并行计算方式的优化也是使用者应当关注的重点。在实战中,使用者通常需要关注以下方面:计算速度:这一方面取决于所选择核心算力芯片的内核数量,主频、微架构设计以及末级缓存容量等,另一方面也应考虑 芯片的指令集架构(Instruction Set Architecture,ISA),例如对 SIMD(Single Instruction Multiple Data,单指令多数据(Single Instruction Multiple Data,SIMD)的支持,这对于广泛使用并行计算的科学计算应用而言,无疑非常重要。同时,英特尔 睿频加速技术(Intel Turbo Boost Technology)、英特尔 超线程技术(Intel Hyper-Threading Technology)、增强型英特尔 SST(Enhanced Intel Speed Select Technology)等基于英特尔 架构的处理器性能增强,也能为科学计算任务的加速提供助力。内存性能:无论是流体动力学,还是基因组分析,科学计算应用所面临的一个共性问题是需要处理和传递的数据集和模型变得越来越大。例如在流体动力学中,计算任务面临的网格数量可能高达百亿。这一情况下,内存带宽性能也成为制约科学计算效率的重要因素。因此,除了选择支持 DDR4/DDR5高性能内存产品的平台,引入高带宽内存(High Bandwidth Memory,HBM)也是一项重要选择。并行计算:执行并行计算以及多节点间的并行计算是提升科学计算效能的重要途径。使用者一方面可以借助非一致性内存访问(Non Uniform Memory Access,NUMA)等技术来实现多路并行算力优化;另一方面,英特尔 MPI 库等的引入,也可以使复杂的科学计算应用程序能够在基于英特尔 架构的处理器及兼容相关架构的处理器的科学计算集群上运行得更好。加速库:科学计算任务中涉及大量或简单、或复杂的数学、物理以及其它计算,在编译时引入专门的加速库能够有效提升计算效率,例如快速傅立叶变换(Fastest Fourier Transform,FFT)计算在分子动力学,生命科学相关计算任务中有着非常频繁的使用。使用者可通过引入英特尔 oneAPI 数学内核库(英特尔 oneMKL)等加速库,不仅为科学计算任务提供基础线性代数子程序库(Basic Linear Algebra Subprograms,BLAS)来加速线性代数计算的效率,也为快速傅立叶变换等计算过程提供助力。1110英特尔中国科学计算实战手册应用优化实战篇英特尔中国科学计算实战手册应用优化实战篇CAE 仿真分析技术随着科技的不断进步,各行业对于工程与产品设计的要求也精益求精。传统的设计方法已经不能满足全部需求,计算机辅助工程(CAE)的出现解决了这个问题。CAE 一般指用计算机系统对工程或产品进行各类分析,对其工作状态和运行模式进行模拟,及早发现设计缺陷,并验证功能和性能的可用性和可靠性。CAE 软件能帮助工程师对新产品、新系统进行设计、分析、优化和验证,以新的设计、验证方法来大幅提高工程与产品设计的效率和准确度。常见的 CAE 软件包括 ANSYS、ABAQUS 等。通常而言,基于 CAE 软件开展的仿真分析可分为分析建模、前处理、求解计算、后处理等流程。常见的应用分类包括FEA、CFD等,其中:有限元分析(FEA)软件:可以帮助企业减少在产品或者流程的设计、优化或控制环节中原型测试的原型数量和测试次数。对于企业和研究机构来说,有限元仿真分析不仅仅可降低成本,更重要的是能够帮助企业或机构在激烈的市场竞争中增加优势,为研发投入带来更高的回报。图 2-1-1 不同分类的 CAE 应用软件图 2-2-1 使用 OpenFOAM 开展高效的 CFD 仿真分析工作 计算流体动力学(CFD)软件:CFD 是流体力学的一个分支,是在各种工程学科中对稳定或非稳定流体的流动进行建模的实践。它通过计算机模拟获得流体在特定条件下的数据,实现了用计算机系统代替试验装置来完成“计算试验”,为工程技术人员提供了实际工况模拟仿真的操作平台。CFD 工作负载往往涉及具有数百万乃至上亿个单元的复杂非结构化网格,对内存带宽性能更为敏感。OpenFOAM 的工作流程一般可分为问题定义与规划、创建计算网格、选择合理的模型、求解器与参数(例如边界条件、迭代次数等)以及对各类参数进行配置,启动求解器进行迭代计算以及后处理、结果分析等步骤。应用于CAE仿真分析的科学计算平台CAE 软件FEA(有限元分析)LS-Dyna、ANSYS Mechanical、ANSYS Fluent、OpenFOAM、IFEA(隐式有限元分析)EFEA(显式有限元分析)CFD(计算流体动力学)MBD(多体动力学)在面向 CAE 仿真分析的科学计算平台构建上有着丰富经验的 英特尔,一直以来都通过其强劲的硬件产品性能和丰富全面的软件栈和加速库,为 CAE 仿真分析领域的软件提供强劲的支持和丰富的优化措施。下文中将就 OpenFOAM、Ansys Fluent 等常见CAE 仿真分析软件在基于英特尔 架构的平台上的优化编译和运行展开介绍。面向仿真分析软件的英特尔优化面向 OpenFOAM 的优化作为一个 C 工具箱,OpenFOAM(Open source Field Operation And Manipulation)具有一系列面向 CFD 解决方案的自定义数据求解器(Solver)和前处理、后处理组件。其内置了一个独特的、高度可扩展的 CFD 软件开发工具套件(devkit),并包含了由这个 devkit 构建的一系列 CFD 应用程序。例如在一些版本中,使用者可方便地在其中描述偏微分方程的有限体积离散化,支持多面体网格,并支持大型并行计算等。这一系列的应用程序具有可便捷地进行定制与扩展的特点,方便了工业企业、学术研究和政府机构在大量相关领域中利用 OpenFOAM 开展高效的 CFD 仿真分析工作3。3 OpenFOAM 由 OpenFOAM 基金会根据 GNU 通用公共许可条款作为开源代码分发。OpenFOAM 由 OpenFOAM 创始人、CFD Direct 和 OpenFOAM 基金会董事 Henry Weller 领导的多个贡献者开发。OpenFOAM 的当前版本可在 https:/openfoam.org/download/下载,可用于 Ubuntu Linux、其他 Linux 发行版以及该软件的 Windows 或 macOS 版本。用户也可以从源代码下载并编译 OpenFOAM。101312英特尔中国科学计算实战手册应用优化实战篇英特尔中国科学计算实战手册应用优化实战篇在实践中,由于计算网格动辄百万起乃至上亿,OpenFOAM 的工作负载通常需要应对海量的计算任务,因此,OpenFOAM 通常会使用拆分算域法来执行并行计算,即,将计算域分解成一系列可单独执行的离散部分,并使用不同的处理器内核对其分别开展计算。同时,海量的计算网格也对计算平台的内存带宽等性能有着较高要求。基于上述工作特性,OpenFOAM 效能的发挥,一方面需要使用者为之提供有充分软硬件支持力(算力、内存带宽、开发生态等)的科学计算平台,另一方面也需要根据计算设施、应用场景的差别进行有针对性的优化。更强的科学计算平台支撑由英特尔 至强 可扩展处理器系列等为核心构建的科学计算平台能帮助 OpenFOAM 的使用者获得更佳性能表现。以第四代英特尔 至强 可扩展处理器为例,全新微架构不仅每路配备多达 60 个内核,单核性能也比上一代产品更优。同时,该处理器也在以下方面对 OpenFOAM 工作负载提供助力:提供了对 DDR5 内存的支持,提供的带宽和速度与上一代 DDR4 相比提高多达 1.5 倍,速率达到 4,800 MT/s;具有多达 80 条 PCIe 5.0 通道,PCIe 5.0 的 I/O 带宽是上一代PCIe 4.0 的两倍;通过英特尔 超级通道互联(Intel Ultra Path Interconnect,英特尔 UPI)2.0 提高多路带宽(高达 16 GT/s);提供 CXL 1.1 连接,在 CPU 和加速器之间创建统一且一致的内存空间,加速工作负载所需的数据吞吐。值得一提的是,OpenFOAM 工作负载得益于全新的英特尔 至强 CPU Max 系列对高带宽内存(HBM)的支持,性能上能够更上一层楼。作为一种采用 3D 堆叠技术的全新内存产品,HBM 能为OpenFOAM 工作负载提供更高的内存带宽,大幅提升其数据吞吐性能。在硬件平台之外,英特尔还为 OpenFOAM 工作负载提供了英特尔 oneAPI 工具套件这一基于新一代标准的英特尔 软件开发工具,通过一个简化的、跨体系结构的编程模型来帮助使用者能简化相关开发、优化过程。同时,通过广泛的生态系统合作,英特尔一直致力于让 OpenFOAM 这样的开源应用在英特尔 架构上有着更优表现,帮助各领域用户缩短项目时间,提升优化工作的效率。针对性的编译优化由于特定的计算模式,OpenFOAM工作负载受内存带宽影响更大。一些测量表明,目前大多数的 OpenFOAM 作业都不同程度受到了内存带宽限制的困扰。因此,在为面向 OpenFOAM 的科学计算平台提供第四代英特尔 至强 可扩展处理器、英特尔 至强 CPU Max 等新一代处理器之外,使用者也可借助英特尔 编译器,开展有针对性的编译优化。在实战中,使用者可以参考以下代码示例来逐步开展编译优化:#步骤 1下载 OpenFOAM(本代码示例中使用了 OpenFOAM 4.1,可根据实际情况选择更新版本)及第三方软件(CGAL-4.8、boost_1_55_0、gmp-5.1.2、mpfr-3.1.2、metis-5.1.0,以上软件均可根据实际情况选择更新版本)#步骤 2矢量寄存器和单指令多数据(SIMD)硬件指令集是提升 CPU并行处理效能的基本方法之一,因此为了更好利用算法/代码中的数据并行性,优化方案也加入了对英特尔 高级矢量扩展 512(Intel Advanced Vector Extensions 512,英特尔 AVX-512)的支持。英特尔 AVX-512 指令集支持矢量级并行计算模式,能让OpenFOAM在运行时,每个内核同时使用两个矢量处理单元(其中每个单元能同时处理 16 个单精度(32 位)或 8 个双精度(64 位)的浮点数)。新一代的英特尔 至强 系列处理器都内置了英特尔 AVX-512 技术,在使用时,需要在编译器选项中加入:-xCORE-AVX512。在使用英特尔 编译器构建 OpenFOAM 时,需要对相关参数进行设置(如 mpi),在面向 64 位系统进行编译时,可参考以下代码示例:#步骤 3创建安装文件,并在进行编译之前获取该文件的源代码,代码示例如下:为制作带有 gmp-5.1.2 和 mpfr-3.1.2 库的 CGAL,使用者还需要创建 gmp-5.1.2 和 mpfr-3.1.2 库,它们是在以下位置创建的:在编译 CGAL 时,库文件是在 lib64 文件夹下搜索的,因此使用者需要将 lib 文件夹重命名为 lib64,然后制作 CGAL 库。以下是代码示例:#步骤 4构建第三方软件,包括使用英特尔 编译器构建 gmp:#步骤 5使用英特尔 编译器构建 Scotch 库,代码示例如下:#步骤 6用英特尔 编译器构建 metis-5.1.0 库使用英特尔 编译器构建 mpfr:使用英特尔 编译器构建 CGAL:在构建 CGAL 的同时,使用者还需要构建 boost 库。CGAL 的makefile 中调用 bootstap.sh 时,需要将“bjam”替换为“b2”,并声明使用英特尔工具集构建库,同时添加英特尔 编译器和优化标志-xCORE-AVX512 的声明。以下是代码示例:1514英特尔中国科学计算实战手册应用优化实战篇英特尔中国科学计算实战手册应用优化实战篇#步骤 7使用英特尔 编译器构建OpenFOAM-4.1.x。使用者需要在mplibI NTELMPI 文件中提供正确的 IntelMPI 路径。将 include64 和lib64 替换为 include 和 lib,代码示例如下:由英特尔提供的一系列硬件指令集和软件,包括英特尔 AVX-512、英特尔 oneMKL,能够对 Ansys Fluent 任务中的密集型计算任务提供优化,进而提升整体仿真分析的效率。这些硬件指令集和软件,在最新几代英特尔 至强 可扩展处理器平台上都获得了集成。用户可以在此基础上,结合英特尔 架构处理器的多核优势对 Ansys Fluent 的求解器进行优化。得益于全新的 HBM 内存以及其它集成技术,全新一代的英特尔 至强 CPU Max 系列处理器对 Ansys Fluent 等需要大量内存参与的工作负载有着显著的性能加成。这一处理器平台的内核数量高达 56 个,并使用英特尔 嵌入式多芯片互连桥接(Intel Embedded Multi-Die Interconnect Bridge,英特尔 EMIB)技术相互连接。该处理器的内存子系统中,包括了 64GB 内置 HBM2e 内存(为每个内核提供了超过 1GB 的 HBM 容量)、高达 112.5MB 的共享末级缓存和每路 8 个 DDR5-4800 内存通道。同时,内置的平台增强和硬件优化也有助于更大限度地提高 HBM 子系统的性能,包括:重构的硬件预加载算法;增强的非核心频率缩放技术;面向本地内存请求的内核直连技术;跨套接字一致性的增强型嗅探过滤器。与 OpenFOAM 一样,Ansys Fluent 的工作流程大致可分为建立模型(例如涡流、粒子流模型)、定义参数特性、定义边界条件,启动求解器进行迭代计算以及后处理、结果分析等步骤。在Ansys Fluent 工作任务中,会用到以下组件:AMG 求解器:Ansys Fluent 引入了代数多重网格(Algebraic multigrid,AMG)算法来驱动处理器的多个内核进行并行工作以提高效率。AMG 求解器可以使用一系列离散函数、模型、变量和方程来求解稀疏方程组。AMG 求解器在求解速度、稳健性和内存占用方面都非常高效;#步骤 8编译完成后,用户可以检查 output.log,并运行检查其是否正常工作,代码示例如下:Ansys Fluent作为一款功能强大的计算流体动力学工具,Ansys Fluent 的应用范围涵盖了各种物理建模功能,可对工业应用中包括飞机机翼上的气流、熔炉燃烧、鼓泡塔、石油平台、血液流量、半导体制造、无尘室设计以及污水处理厂等具体应用在内的流动、湍流、热交换和各类反应进行建模。同时,也可以向使用者提供现代化用户友好型界面,在单窗口工作流程中简化从前处理到后处理的流程。轻松应对复杂工作任务的背后,是巨大的求解计算量,一些复杂的模拟可能需要数小时甚至数天才能完成。为了应对这一挑战,Ansys Fluent 需要引入科学计算平台来承载压力,而一直以来,Ansys Fluent 也以其高效的科学计算平台扩展性而著称,大规模分析可以让 Fluent 在多个计算处理芯片(包括 CPU、GPU 等)上轻松地求解。为了让 Ansys Fluent 工作负载获得更优的处理效能,其使用者也在不断寻求新的优化方案来提升其性能表现。图 2-2-2 使用 Ansys Fluent 开展高效能的 CFD 仿真分析工作图 2-2-3 英特尔 至强 CPU Max 系列处理器 平滑器(Smoother):一种可在多重网格级别之间转换,为整个方程组的中特定部分提供近似解,并显露重要特征的算法,是 AMG 求解器的关键组成部分。Ansys Fluent 原生的平滑器被称为 ILU 平滑器。由于 ILU 平滑器具有间接内存访问、高内存带宽需求和循环携带依赖性等特性,其很难从矢量化计算中获得效率提升,为了解决这一问题,英特尔为 Fluent 提供了经优化的版本(使用者通过设定 platform=intel 选项来选择),从而使之能更大程度获得性能增强。同时,在结合英特尔 oneMKL 等技术后,用户可以将ILU 平滑器优化为英特尔 oneMKL 稀疏 IDU 平滑器来有效提升Ansys Fluent 的工作性能。英特尔 oneMKL 是英特尔 oneAPI 基础工具包的一部分,其专门为加速解决大型计算问题所涉及的数学运算而构建,为稀疏或稠密线性代数提供了一系列高度优化的并行例程。除一直延续的性能优势外,英特尔 oneMKL 还专门添加了一组 SYCL 接口以实现在异构平台的运用。同时,其关键功能领域也包括了 BLAS等线性代数例程、随机数生成器、矢量数学以及快速傅立叶变换(FFT)等,这些都可以对 Fluent 的关键性能实现有效增强。新的基于英特尔 oneMKL 的稀疏 IDU 平滑器是基于英特尔 AVX-512 指令构建,能为 Fluent 提供高达 15%的性能加速4,当出现 CFD 领域中常见的稀疏矩阵求解方程时,新的平滑器可通过算法为所涉及的部分方程组提供近似解。这一解决方案可为计算整体效率的提升提供助力。在Ansys Fluent任务实战中,用户可以用单精度(single-precision)或双精度(double-precision)来执行英特尔 oneMKL 稀疏 IDU平滑器,因此使用者需要先确定引入哪个库:4 数据源自:Ansys,March 28,2022.2021 Annual Report.https:/ 2在英特尔 MKL 下新建一个子目录以存储英特尔 oneMKL 库,例如将子目录命名为 2020.0.166:#步骤 3将英特尔 oneMKL 2020 黄金版库复制到 Fluent 安装目录中:#步骤 4找到 Fluent 可执行包装脚本,对引用的英特尔 oneMKL 版本进行更改:#步骤 5修改脚本中的以下内容:#步骤 6最后在工作目录中,修改输入命令文件或.jou 文件,用来调用ILU 接口例程作为用户定义的平滑器。在执行求解步骤之前,将以下行添加到输入中:另外,如果 libmklsmoother_sp.so 的副本已存于本地目录中,使用者可添加一个完整的路径来引用 Fluent 安装:(注:上述命令都引用了单精度(_sp.so)版本,使用者使用双精度(_dp.so)修改至#步骤 1在安装时,找到与 Ansys 产品绑定的英特尔 oneMKL 库:1716英特尔中国科学计算实战手册应用优化实战篇英特尔中国科学计算实战手册应用优化实战篇为了验证 Fluent 英特尔优化版本(-platform=Intel)、英特尔 oneMKL 稀疏 IDU 平滑器的加入两种优化对 Ansys Fluent 的性能提升,可以采用以下方案对优化方案进行测试,其中基准组采用了Ansys Fluent 软件基础版本,测试组是使用英特尔 oneMKL 稀疏IDU 平滑器等优化方案的不同版本。测试中分别对单节点和八节点硬件配置的平台进行了性能比较,测试中比较了以下四种软件版本:软件版本 1:使用 Fluent 平滑器的 Fluent 基础版本;软件版本 2:使用英特尔 oneMKL 稀疏 IDU 平滑器的 Fluent基础版本;软件版本 3:使用 Fluent 平滑器的 Fluent 英特尔优化版本(-platform=Intel);软件版本 4:使用英特尔 oneMKL 稀疏 IDU 平滑器的 Fluent 英特尔优化版本(-platform=Intel)。为验证 HBM 内存(基于英特尔 至强 CPU Max 系列处理器)对 Ansys Fluent 的优化效果,英特尔也设计了面向三种不同工作负载的测试,并在英特尔 至强 CPU Max 系列、第四代英特尔 至强 可扩展处理器以及第三代英特尔 至强 可扩展处理器三种处理器平台上进行了对比测试。测试中的工作负载包括:F1_Racecar_140M:一辆方程式赛车周围的空气动力学流动模拟,1.4 亿个单元;从表 1 和表 2 所示的测试结果可以看出,无论是在单节点配置还是在八节点配置下,英特尔 oneMKL 稀疏 IDU 平滑器、面向英特尔架构优化的 Fluent 版本(或者两者协同)大部分情况下都能带来性能的提升。在单节点配置中,最大性能提升为 13%(combustor_12m 用例),而在八节点配置中,最大性能提升为 16%(combustor_12m 用例)。这些结果也说明,通常情况下 英特尔 oneMKL 稀疏 IDU 平滑器、面向英特尔架构优化的Fluent 版本两者带来的性能收益是互补的。同时,测试在八节点配置上的成功,也证明英特尔 oneMKL 稀疏IDU 平滑器、面向英特尔 架构优化的 Fluent 版本带来的性能提升也能进行有效的扩展。表 1 单节点配置性能对比(归一化)图 2-2-4 Ansys Fluent 在三种工作负载下,基于不同英特尔 架构处理器平台的性能对比表 2 八节点配置性能对比(归一化)Single-Node:Intel Xeon Platinum 8280L ProcessorAnsys Fluent Relative Solver Rating Normalized to Fluent Baseline Binaries with a Native SmootherCaseN Core CountFluent BaselineFluent Baseline Plus Intel MKL Sparse LDU SmootherFluent Optimized Binaries*Fluent Optimized Binaries*Plus Intel MKL Sparse LDU Smoothersedan_4m561.001.041.011.04aircraft_wing_14m561.001.021.001.01combustor_12m561.001.051.081.13pump_2m561.001.111.021.11rotor_3m561.001.011.011.01aircraft_wing_2m561.001.001.000.99exhaust_system_33m561.001.051.001.05landing_gear_15m561.001.031.011.03CMYCMMYCYCMYK表1.pdf 1 2023-08-06 10:59:45Eight-Node Cluster:Intel Xeon Platinum 8280L ProcessorAnsys Fluent Relative Solver Rating Normalized to Fluent Baseline Binaries with a Native SmootherCaseN Core CountFluent BaselineFluent Baseline Plus Intel MKL Sparse LDU SmootherFluent Optimized Binaries*Fluent Optimized Binaries*Plus Intel MKL Sparse LDU Smoothersedan_4m4481.000.971.031.00aircraft_wing_14m4481.001.011.000.98combustor_12m4481.001.041.121.16pump_2m4481.001.001.031.01rotor_3m4481.000.981.030.99aircraft_wing_2m4481.000.961.010.93exhaust_system_33m4481.001.051.011.05landing_gear_15m4481.001.021.021.02combustor_71m4481.001.131.001.13f1_racecar_140m4481.001.151.011.15open_racecar_280m4481.001.081.011.09CMYCMMYCYCMYK表2.pdf 1 2023-08-06 10:54:2700400050006000481632Solver Ratinghigher is betterCluster NodesAnsys Fluent 2023.1,f1_racecar_140mIntel Xeon Platinum 8360Y processor(3rd Gen),36cIntel Xeon Platinum 8360Y processor(3rd Gen),36c-platform=intelIntel Xeon Platinum 8480 processor(4th Gen),56cIntel Xeon Platinum 8480 processor(4th Gen),56c-platform=intelIntel Xeon CPU Max 9480 processor,56c(HBM in cache mode)Intel Xeon CPU Max 9480 processor,56c,-platform=intel(HBM in cache mode)0500025003000350040004500481632Solver Ratinghigher is betterCluster NodesAnsys Fluent 2023.1,open_racecar_280mIntel Xeon Platinum 8360Y processor(3rd Gen),36cIntel Xeon Platinum 8360Y processor(3rd Gen),36c-platform=intelIntel Xeon Platinum 8480 processor(4th Gen),56cIntel Xeon Platinum 8480 processor(4th Gen),56c-platform=intelIntel Xeon CPU Max 9480 processor,56c(HBM in cache mode)Intel Xeon CPU Max 9480 processor,56c,-platform=intel(HBM in cache mode)02004006008000481632Solver Ratinghigher is betterCluster NodesAnsys Fluent 2023.1,combustor_71mIntel Xeon Platinum 8360Y processor(3rd Gen),36cIntel Xeon Platinum 8360Y processor(3rd Gen),36c-platform=intelIntel Xeon Platinum 8480 processor(4th Gen),56cIntel Xeon Platinum 8480 processor(4th Gen),56c-platform=intelIntel Xeon CPU Max 9480 processor,56c(HBM in cache mode)Intel Xeon CPU Max 9480 processor,56c,-platform=intel(HBM in cache mode)Open_Racecar_280M:开放式车轮赛车周围的外部空气动力学流动模拟,2.8 亿个单元;Combustor_71m:流经燃烧器的燃烧模拟,7,100 万个单元。如图 2-2-4 所示,通过比较,英特尔 至强 处理器 Max 系列集成的 HBM 的应用优势显而易见。此外,英特尔 至强 CPU Max系列与第四代英特尔 至强 可扩展处理器的性能也显著优于前代第三代英特尔 至强 可扩展处理器。1918英特尔中国科学计算实战手册应用优化实战篇英特尔中国科学计算实战手册应用优化实战篇应用于分子动力学的科学计算平台分子动力学技术分子动力学(MD)是在经典力学(例如牛顿力学)等的框架下,从给定的初始条件和参数出发,对分子的微观结构机制、动态轨迹行为等进行模拟,从而获得相关数据的有效方法。这种模拟既适合于对蛋白、核酸、多糖等生物大分子的研究,也可应用于材料结构、溶液小粒子等结构体系中。由于分子动力学可兼顾更大空间分辨率上的微观结构信息,以及更精细时间分辨率上的结构动力学信息,因此其在生物、材料等研究场景中都可发挥巨大作用,深受相关领域研究者的重视,具有广泛的应用前景。由于这种微观级别的模拟很难通过人工计算的方式来完成,因此分子动力学从一开始就是一门与计算机科学有着紧密联系的学科,需要在性能强大的科学计算平台上展开。一般而言,分子动力学模拟的主要步骤包括确定起始构型、选用适当力场和模拟软件、构建体系和能量最小化、平衡过程、数据采集以及数据分析。如今,面向不同领域,已经出现了丰富的模拟软件包,例如 LAMMPS、NAMD、VASP 和 CP2K 等供研究者使用。在选择合适的模拟软件包的同时,为分子动力学模拟过程选择合适的硬件基础设施,并根据模拟场景与软件包的特性进行专门的优化也是必不可少的步骤。在面向分子动力学的科学计算平台构建上有着丰富经验的英特尔,一直以来都通过其不断迭代更新的处理器平台和丰富全面的软件栈和加速库,为分子动力学模拟领域的软件包提供越来越强的算力支持和专门的性能优化。下文中将就LAMMPS、NAMD、VASP 以及 CP2K 等常见分子动力学模拟软件包在基于英特尔 架构的平台上的优化编译和运行展开介绍。面向英特尔 架构的平台的分子动力学软件优化面向英特尔 架构平台的 LAMMPS 优化编译与运行作为经典的用于分子动力学模拟的开源软件包,LAMMPS(Large-scale Atomic/Molecular Massively Parallel Simulator)不仅支持多种粒子类型,如原子、聚合物分子、生物分子、金属、颗粒等的模拟,也支持多种力场,并可通过 MPI 和空间区域分解等方式支持并行模拟。与其它分子动力学软件相比,LAMMPS 可以对分子动力学中的单元粒子、相互作用和积分器等进行抽象并提供可灵活配置的 API。基于此,LAMMPS 实现了对更多粒子类型和力场的支持,使模拟对象更为广泛而不再限于某一门类,例如其在材料体系的模拟中具有非常广泛的应用,同时也对生物分子的模拟有着良好的支持。更多详细信息,可参阅 LAMMPS 官方文档5。LAMMPS 的模拟过程无疑需要大量算力予以支持。除了使用并行模式以外,为 LAMMPS 提供强劲算力的平台也必不可少,而英特尔 至强 可扩展处理器系列一贯的高水准性能表现,堪称LAMMPS 为分子动力学研究提供高水平输出的最佳拍档之一。为了让基于英特尔 架构处理器的 LAMMPS 在运行时,在保证精准结果的同时具有更优的计算效能,英特尔根据自身产品特性,为 LAMMPS 提供了可在大多数场景下获得更佳性能的一系列软硬件部署、配置方法与建议。本文的方法与建议是基于第四代 英特尔 至强 可扩展处理器以及英特尔 至强 CPU Max 系列等平台。第四代英特尔 至强 可扩展处理器基于平衡、高效的架构构建,该架构可有效提升内核性能、内存和 I/O 带宽,为处理从数据中心到边缘的各种工作负载提速。其针对多样化的工作负载类型(例如 AI)和性能需求进行了优化,并通过平衡的架构以及多种集成加速和先进的安全功能来帮助用户将迫切的工作负载安全地放置在从边缘到云的最佳性能位置上。其中,它增强的基础性能、更多英特尔 UPI 以及英特尔 AVX-512 将都可为 LAMMPS 的性能提升提供更为显著的助力。编译前设置在第四代英特尔 至强 可扩展处理器平台上使用LAMMPS之前,可进行以下硬件设置。在 BIOS 中启用(Enabled)以下三项设置:英特尔 睿频加速技术:这一技术允许处理器在低于当前功率或温度规格的情况下自动提高频率。英特尔 超线程技术:这一技术允许多线程应用在每个处理器中核内并行执行两个线程,即线程可运行在两倍于物理核的逻辑核上。SNC(Sub-Numa Cluster):通过改进远程处理器访问,这一技术改进了之前处理器提供的片上集群(COD)选项。同时在操作系统级别,启用 SNC 的双处理器服务器将显示 8 个NUMA 域。其中 4 个域在同一个处理器上,另外 4 个可通过UPI 到达远程处理器。因此启用 SNC 将获得更好的性能表现。5 LAMMPS 官网:https:/www.lammps.org/182120英特尔中国科学计算实战手册应用优化实战篇英特尔中国科学计算实战手册应用优化实战篇内存配置/设置:一般而言,由于模拟系统会扩展到多个节点,因此每个节点的内存空间可配置得小一点。存储/磁盘配置/设置:强烈建议使用固态盘(SSD)作为操作系统和安装 LAMMPS 的主驱动器以避免 I/O 瓶颈。也建议使用大容量固态盘来存储已有项目,尤其当使用VMD软件来创建模拟过程的视频、动画或电影。网络配置/设置:当使用英特尔 MPI 库(科学计算平台中常用的并行化库)在多个节点上并行处理数据集时,更易获得LAMMPS的最佳性能。同时,为了让基于英特尔 架构处理器的 LAMMPS 在运行时获得 更佳性能,其本身也需要进行一些配置优化。LAMMPS 对各类型 的仿真模型都有着很好的支持。如图 2-3-1 所示,这是其在长距离 静电分子系统(Molecular systems with long-range electrostatics)中的工作流程。可通过以下设置来提升 LAMMPS 性能:步骤 3、步骤 6(可选)以及步骤 9 并非每个轮次都需要运行;步骤 7 可通过 newton off设置来关闭;步骤 6 也可以通过长线程(Long-Range Thread,LRT)模式设置在单独的超线程上运行;步骤 4 与步骤 5 可以采用并行计算模式 代码编译在完成优化配置后,使用者可以在面向英特尔 架构处理器的上优化编译 LAMMPS。LAMMPS 的官方源代码包中内置了英特尔 软件包(Intel Package),但该包在编译时须与其它包体一起安装。英特尔 软件包可以加速 LAMMPS 在英特尔 架构处理器上的仿真速度。使用者可按照以下步骤和代码示例进行编译。性能调整 当处理器的每个物理内核都运行一个 MPI 并行任务时,LAMMPS 性能表现良好。当英特尔 超线程技术开启时,每个内核最适合运行两个 OpenMP 线程。将 Newton 设置更改为 关闭(off)可提高简单双体电位(如lj/cut)的“与/或”可扩展性。当在内置英特尔 AVX-512 的处理器上使用 LRT 模式时,它也可进一步助力性能提升。LRT 模式是英特尔软件包中的一个选项,当在支持英特尔 超线程技术的处理器上使用 PPPM(Particle Particle-Particle Mesh,质点-质点-质点-网格)方法进行长距离静电处理时,可有效提高性能。其可为每个 MPI 任务都生成一个额外的线程,专门用于执行一些PPPM计算和MPI通信。此功能要求LAMMPS 在编译时,在makefile中设置预处理器标志-DLMPINTELUSELRT(makefile.intelcpuintelmpi 的默认值)。-使用 LRT 时,设置环境变量 KMP_AFFINITY=none。-启用 LRT 模式,需要指定 OpenMP 线程的数量比正常运行时的线程数量少一个。然后添加 lrt-yes 选项:运行标准 LAMMPS 基准测试LAMMPS 内置了涵盖各种不同仿真模型的基准测试脚本。以下步骤将运行以下基准测试:原子流体、蛋白质、嵌入原子法的铜、耗散粒子动力学、AIREBO 力场的聚乙烯、具有三体 Tersoff模型的硅、具有三体 Stilling-Weber 势的硅、使用三体势的粗粒水以及液晶仿真。运行基准测试前,必须在 LAMMPS 编译前安装以下软件包:顺序进行下载、编译和基准测试在一些安装了标准英特尔 oneAPI 工具套件的系统中,以下命令可使系统按步骤进行 LAMMPS 的下载和编译,并对其进行基准测试(某些配置可能需要修改):切换到基准测试所在目录:将 PCORES 设置为系统中物理内核的数量,并运行基准测试(最后打印来自报告时间步长/秒的日志文件的摘要性能数字,越高越好):#步骤 2使用英特尔 oneAPI 工具套件进行编译,编译后将得到 lmp_intel_cpu_intelmpi 二进制文件:(编译器和链接器设置在以下文件中:src/MAKE/OPTIONS/Makefile.intel_cpu_intelmpi)#步骤 3执行 LAMMPS,加入英特尔 软件包优化的最简方法是在LAMMPS命令行中添加-sf Intel 开关。这可令优化设置自动加载到仿真过程中。所使用的 OpenMP 线程数可以通过 OMP_NUM_threads 环境变量控制,也可通过:-pk intel 0 omp$N 来为 N 个 OpenMP 线程添加。步骤 1:初始化时间整合(Initial time integration)步骤 5:粘结力计算(Bonded force calculation)步骤 9:数据输入磁盘(Data output to disk)步骤 2:MPI 通信(MPI Communications)步骤 3:邻节点列表创建(Neighbor list build)步骤 4:非粘结力计算(Non-bonded force calculation)步骤 6:长距离静电计算(Long-range electrostatics calculation)步骤 7:反向 MPI 通信(Reverse MPI communications)步骤 8:结束时间整合(Final time integration)图 2-3-1 LAMMPS 在长距离静电分子系统中工作流程优化能显著提高其在英特尔 架构处理器平台上的性能表现。从2.15 版本之后,NAMD 就包含了该优化项,使用者也可以从 Git Repository 中获取最新的源代码并编译使用。只要模拟过程支持SIMD 方式,这些编译过程都将默认使用英特尔 AVX-512 优化。在 NAMD 运行初始化时,其将显示以下信息表示已基于英特尔 AVX-512 的优化:使用者如需取消优化项,可在命令行中添加 notiles 选项,或在输入模拟脚本中添加 useAVXTiles no。一般而言,上述编译、运行的步骤与典型的 NAMD 运行方法并无二致。但建议使用者选择最新的 NAMD 源代码,同时选择合适的 NAMD“结构”文件,以便选择所需的编辑器标记进行优化也是必要的。编译 NAMD 准备工作在编译经优化的 NAMD 之前,需要进行准备工作,包括下载源代码与基准测试脚本等。其中,Charm 是 NAMD 必需的组件,而工具命令语言(Tool Command Language,TCL)库是一个可选组件,可用于完全的脚本支持。TCL是一种简易易扩展的脚本语言,可用于在各类交互式程序中发布命令,完成自动化批处理工作。#步骤 1(可选项)下载 TCL。如果不需要 TCL 支持,或系统上已经安装了 TCL(在某些系统上,可使用 locate libtcl8.5 检查现有 TCL),则可跳过此步骤。#步骤 1从 Github(Git repository:http:/ LAMMPS 并安装英特尔 软件包:面向英特尔 架构平台的 NAMD 优化编译与运行NAMD(NAnoscale Molecular Dynamics)是一种旨在对大型生物分子系统开展高性能模拟的并行分子动力学应用软件。借助Charm 并行对象,NAMD 在典型的仿真环境中可扩展到数百个核心(core),在最大化仿真环境中可扩展到超过 500,000 个核心。NAMD 使用流行的分子图形程序 VMD 进行模拟设置和轨迹分析,也可与 AMBER、CHARMM 和 X-PLOR 文件相兼容。对并行计算有着更优支持的英特尔 AVX-512 无疑是 NAMD 提升模拟效能的良好选择。基于英特尔 AVX-512 扩展的 NAMD#步骤 2 下载 Charm 和 NAMD:在基础测试选择上,使用者可借助 NAMD 网站上流行的 APOA1和 STMV 基准来进行。这些基准测试的模拟参数,可根据对性能影响的程度来进行设置。一般地,可使用标准模拟参数,并根据NAMD 开发者的基准测试建议进行设置,在增加模拟持续时间的同时减少能量输出。以下是下载基准测试脚本并执行设置的方法。#步骤 1 为创建一个相关工作目录。2322英特尔中国科学计算实战手册应用优化实战篇英特尔中国科学计算实战手册应用优化实战篇#步骤 1 基于英特尔 MPI 库构建 Charm 。#步骤 1 使用以下命令解压缩 VASP 文件,其将创建一个 vasp.6.2.0 目录:#步骤 2通过运行以下命令来设置英特尔软件工具的环境变量,假设使用64 位英特尔 架构平台的默认安装和构建路径:#步骤 2从 NAMD 网站下载基准测试脚本并对其进行设置,在实现更长时间运行的同时减少能量输出。#步骤 2基于英特尔 MPI 库编译 NAMD。如果编译时不使用 TCL,需要将-TCL prefix$NAMD_TCL_BASE 更改为-without TCL。#步骤 2编译 TCL 库(可选)#步骤 3编译单进程 Charm 库#步骤 3(可选步骤)使用英特尔 oneAPI 工具套件中的英特尔 TBB 内存分配。#步骤 4设定每个节点使用的物理内核数量。步骤 5(可选步骤)当每个物理内核分配到的原子数量较小时,调整物理内核数量以避免启用英特尔 超线程技术。#步骤 6选择在每个节点上使用的 NAMD 进程数量。最佳数量取决于每个物理内核的原子数和系统配置。选择该数字时应确保 N_CORES设置是可整除的,如以下代码示例中使用 4。#步骤 7设置 MPI 进程总量以及与 NAMD 通信和工作线程的关联标志(假设$NODES 已设置为节点数量)#步骤 8执行程序。#步骤 4编译单进程NAMD 可执行文件。如在不使用TCL 的情况下编译,需要将-TCL prefix$NAMD_TCL_BASE 相应更改为-without TCL。#步骤 5运行基准测试。对于工作负载较小或节点数较高的场景,可以在不使用所有超线程的情况下获得更好的性能。NAMD 性能可通过以纳秒/天(ns/天)为单位的模拟速率来衡量,数值越高越好。这里,使用者可选择使用英特尔 oneAPI 工具套件中的英特尔 TBB(Threading Building Blocks)内存分配技术来实现性能的小幅度改善。#步骤 6通过命令行,设置处理节点上用于 NAMD 运行的内核总数,以及提取性能的变量。#步骤 7运行 APOA1 和 STMV 基准测试。基于单进程基准测试编译 NAMD 并执行基准测试单进程可执行文件模式的编译和运行过程较为简单,但其运行仅限于单个节点和单个 NAMD 通信线程。当每个核心的原子数较少时,即使在单个节点上运行,具有多个通信线程的多进程模式也可提高性能。下文描述了以上两种模式的编译过程,首先是单进程的 NAMD 可执行文件编译及测试过程:#步骤 1设置编译器和库环境。在这里,我们使用英特尔 MPI 库、英特尔 oneMKL 以及英特尔 编译器。使用英特尔 oneAPI,只需一个命令就可以为 Bash shell 设置环境。基于多进程基准测试编译 NAMD 并执行基准测试对于多节点的场景,最优的编译和运行选项很大程度上取决于集群的配置。使用者可使用 Charm 的 MPI 后端(也可以使用OFI),并使用英特尔 MPI 启动命令。编译 VASP 准备工作对于多节点的场景,最优的编译和运行选项很大程度取决于集群的配置。使用者可使用 Charm 的 MPI 后端(也可以使用OFI),并使用英特尔 MPI 启动命令。使用英特尔 oneAPI Base 工具套件和 HPC工具套件编译 VASPVASP(Vienna Ab-Initio Simulation Package)是由维也纳大学Hafner 小组开发的一个原子尺度的材料模拟软件包,其核心工作方法是基于赝势方法和平面波基组进行第一性原理(Ab-Initio)量子力学-分子动力学的模拟。VAMP/VASP 既能基于有限温度局部密度近似(自由能作为变分量),也能使用高效的矩阵对角化方案和有效 Pulay 混合对每个 MD 步骤的瞬时电子基态做精确评估。VASP中,电子与离子间的相互作用使用超软赝势(Ultrasoft Vanderbilt Pseudopotentials,US-PP)或投影缀加波(Projector Augmented Wave,PAW)等方法描述。这两种方式都能有效减少过渡金属和第一行元素的每个原子所需的平面波数量。因此力和应力可以很容易地用 VAMP/VASP 计算,并用于将原子松弛到其瞬时基态。英特尔 oneAPI Base 工具套件和 HPC 工具套件为 VASP 提供了良好的编译环境,并可使其在各类模拟场景中发挥更大效能。下文将提供一个在 Linux 平台上,基于英特尔 oneAPI Base 工具套件和 HPC 工具套件编译并运行 VASP 的示例,文中所描述的 VASP 版本为 6.2.0,使用者也可参考本文对更高版本的 VASP进行编译使用。本文默认使用英特尔 MPI库以及英特尔编译器。更多 VASP 的信息,请访问 VASP 主页:https:/www.vaspweb.org/本文涉及的英特尔 oneAPI 基础包和 HPC 工具套件,请访问英特尔官网下载:https:/ 编译 VASP#步骤 1编译 libfftw3xf_intel.a,这是一个经高度优化的 FFTw(Fastest Fourier Transform in the west,一种快速傅里叶变换库)性能库,可有效加快 VASP 所涉及的 FFTw 工作负载。首先将目录更改为英特尔 oneMKL fftw3xf 库,并在其中对 fftw3xf 进行编译。编译完成后,将在同目录下得到 libfftw3xf_intel.a。#步骤 2切换目录至 vasp.6.2.0,并复制 arch/makefile.include.linux_intel文件至当前目录。#步骤 3编辑makefile.include文件,链接英特尔 oneMKL中的FFTw库。#步骤 4检查 Fortran 和 C 编译器中,命令是否正确分配给:mpiifort、icc和 icpc2524英特尔中国科学计算实战手册应用优化实战篇英特尔中国科学计算实战手册应用优化实战篇 运行 VASP#步骤 1可通过配置参数的 mpiexec 命令来运行 VASP。例如可按以下代码所示配置工作负载(运行 48 个进程),并在 machinefile 中指明主机名。#步骤 2检查 VASP 是否与英特尔 oneMKL 成功链接,可在 bin/vsp 中运行 ldd,如以下代码所示。#步骤 2下载、编译并安装 ELPA(使用英特尔 编译器)。#步骤 4下载、编译并安装 LIBXC(使用英特尔 编译器)。#步骤 5下载、编译并安装 PLUMED(使用英特尔 编译器)。#步骤 6下载 LIBXSMM,LIBXSMM 的编译在步骤 7 完成。#步骤 7下载并编译 CP2K 的 PSMP 变体,这里需要从 GitHub 重新下载 ARCH 文件。如未找到英特尔 oneMKL,则可将密钥MKLROOT=/path/to/MKL 添加到 Make 的命令行中(详见步骤 1 说明)。要选择不同的 MPI 实现,可尝试使用命令如 MKL_MPIRTL=openmpi。编译完成后,可得到 CP2K 的可执行文件,可使用 1 exe/Linux-x86-64-intelx/cp2k.psmp 命令检查。#步骤 3下载、编译并安装 LIBINT(使用英特尔 编译器)。检查显示结果:#步骤 5检查 Fortran 标记部分。#步骤 7使用以下命令编译 VASP,其将在 bin 目录中创建 vasp_std,vasp_gam,vasp_ncl 这几项可执行文件。#步骤 6可使用-xHOST 启用 SIMD 指令。检查英特尔 oneMKL 中的 MKL部分,包括用于VASP的oneMKL BLAS、LAPACK、FFT、BLACS、ScaLAPACK 的函数链接。面向 CP2K 的优化CP2K 是一款功能齐备、性能强大的分子动力学模拟软件,其基于密度泛函理论(Density functional theory,DFT),为不同的建模方法(例如使用混合高斯的 DFT、使用平面波方法的 GPW和 GAPW 等)提供了通用框架,可用于计算固态、液体、分子和生物体系的模拟与研究。作为一个开源项目,使用者可从官方网站(http:/www.cp2k.org)下载相应版本的源代码。通过选择适当的、可选的库和工具加入到 CP2K 的编译中,可以有效提升 CP2K 的工作效能。这些库包括:英特尔 oneMKL,将用到其中的LAPACK/BLAS 和 ScaLAPACK 库;FFTw(Fastest Fourier Transform in the west,一种快速傅里叶变换库)库;LIBXSMM(一个用于专门的密集和稀疏矩阵运算以及深度学习的库);LIBINT(一个用于整数操作的库,所使用版本可根据 CP2K调整)PLUMED(一个包含增的采样工具、可用于分子动力学模拟数据分析等功能的库,建议使用 2.x 版本)LIBXC(一个面向密度泛函理论的交换相关泛函库,建议使用4.x版本)ELPA(一个为对称矩阵提供高效、高可扩展的直接本征解算器的库,所使用版本可根据 CP2K 调整)下文中将给出一个引入英特尔 MPI、英特尔 oneMKL、LIBXSMM、ELPA、LIBXC 和 LIBINT 等库的 MPI/OpenMP 混合版本的编译方法供使用者参考,该编译方法可使用英特尔 编译器完成。基于各个优化库编译 CP2K#步骤 1安装英特尔 MPI、英特尔 oneMKL。在编译过程中使用英特尔 ARCH 文件,可以帮助使用者避免重复编写 ARCH 文件,英特尔 ARCH 文件能自动为编译中所需的英特尔库获取正确的路径。当英特尔工具是源代码时,这些路径是通过使用环境变量设置来确定的。同时,当上述各个库的LIBXSMMMROOT、LIBINTROOT、LIBXCROOT 和 ELPAROOT位于主目录中,或与 CP2K 目录在一起,英特尔 ARCH 文件也能及时发现它们。使用者可以手动下载上述英特尔 ARCH 文件:运行 CP2K当 CP2K 运行在多节点的场景中时,如何配置进程与线程就会对性能产生较大影响。使用者可以根据实际情况来对方案进行编排,例如当工作负载对内存占用不大时,对较低节点使用高秩计数(High Rank Count)可能会产生更佳结果。而当工作负载非常占用内存时,尤其是工作负载需要复制大量内存而不是按照秩(Rank)的数量进行分区时,需要适当降低每个节点的 MPI 秩的数量,并对较低节点使用低秩计数(Low Rank Count)。值得一提的是,在大多数情况下 CP2K 更喜欢总秩计数(Total Rank Count)为平方数,这在对秩/线程组合调优时有着更大的复杂性。上述调优可参阅 MPI/OpenMP 混合的脚本文档 plan.sh,这一文档设定并解释了相关的 MPI 环境变量。2726英特尔中国科学计算实战手册应用优化实战篇英特尔中国科学计算实战手册应用优化实战篇下文展示了在一个英特尔 超线程技术开启且每路处理器有 24个物理内核,即共有 96 个线程的双路系统中应该如何规划运行CP2K 的 PSMP 二进制文件。在单节点上,对于 16 个秩和每个秩6 个线程的情况,可设置为:1x16x6。CP2K 运行命令如下:CP2K 性能调优#步骤 1在 CP2K 中,可以通过调整 MPI 通信模式来对其实现性能调优,对于使用英特尔 MPI 时,使用者可尝试下列配置:CP2K 的部署堆内存的动态分配通常需要全局核算,最终在应用程序的共享内存并行区域中产生开销。对于这种情况,可采用专门的分配策略。为使用这样的策略,可以在编译时或应用程序运行时使用内存分配包装器来替换默认的内存分配。要使用英特尔 TBB 技术的malloc 代理,需要在 CP2K 的编译时设置 TBBMALLOC=1 键值对(默认值:TBBMALLOC=0)。#步骤 2同时在 CP2K 大规模运行时,也可在启动时加入以下命令来提升性能:对于8个节点的MPI命令,可在plan.sh中为每个节点设置8个秩,每个秩有 12 个线程的情况:8x8x12。CP2K 运行命令如下:应用于生命科学的科学计算平台27#步骤 4方便地进行日志输出也是 CP2K 运行时必要的调优方向。使用者可以使用一个信息脚本(info.sh)来尝试呈现一个表(所有结果的摘要),该表是从日志文件生成的(使用 tee,或者依赖于作业调度程序的输出),并只支持某些文件扩展名(.txt、.log)。如以下示例所示:#步骤 3通常来说,英特尔 MPI 会为使用者设定好 InfiniBand。如果使用者需要进行个性化设置,例如可使用 mpirun-RDMA 来显式使用基于 RDMA 的 InfiniBand,可通过以下环境变量的设置来实现:2928英特尔中国科学计算实战手册应用优化实战篇英特尔中国科学计算实战手册应用优化实战篇生命科学与高性能的科学计算平台在生命科学研究领域,信息化技术的运用正不断走向深入。借助计算机工具,科学家与研究机构可以高效地在基因组学(Genomics)分析、蛋白质组学(Proteomics)研究等方向上获得必要的生物信息储存、检索和分析助力,从而加速药物设计、疫苗研发、疾病筛查以及精准医疗服务等方面的研发和落地进程。随着生命科学研究的深入,其面对的数据量和所需的算力也逐渐达到了一个惊人的规模。例如在高通量测序(High-throughput sequencing,HTS)技术中,单次测序生成的有效数据可达数GB 之多。同时,复杂生物系统模型构建、病毒基因同源性分析、蛋白质动力学特性探索等深层次研究,更多地引入了 AI 能力,让处理系统的算力、内存以及存储能力都面临严峻的挑战。因此,科学计算平台正在生命科学领域中发挥越来越大的作用。一般而言,生命科学相关应用软件对计算平台的需要主要包括:强劲充沛的算力支持:生命科学计算任务往往需要大量的高精度浮点计算能力,例如在冷冻电镜图像的处理和重构上,需要执行海量的快速傅立叶(FFT)等计算;更高的内存带宽性能:在生命科学计算任务中,所需计算和存储的数据样本以及模型数据非常庞大(甚至达到 TB 级别)且数据读写频繁,需要为之提供匹配的内存带宽性能;集群化并行处理能力:并行计算也是提升生命科学计算任务效率的重要方法,其可以有效缩短任务运行时间。英特尔一直以来都在通过其不断迭代更新的处理器平台和丰富全面的软件栈和加速库,为生命科学领域的软件提供强劲的算力支持和专门的性能优化。下文中将就 Relion、基因组分析软件栈等常见生命科学软件,在基于英特尔 架构的平台上的优化编译和运行展开介绍。面向基于英特尔 架构平台的生命科学软件优化面向英特尔 架构平台的 Relion 优化编译与运行冷冻电子显微镜(Cryo-electron microscopy,Cryo-EM)是一种在低温下使用透射电子显微镜观察冷冻固定样本的显微技术,该技术是结构生物学研究的重要手段之一。冷冻电镜的工作流程中,通常需要对海量图像进行分析和细化,巨大的计算量需要先进的科学计算平台与高效的软件、算法相配合才能完成。作为一个开源应用套件,由 MRC 分子生物学实验室的 Sjors Scheres 小组开发的 Relion,是专门为冷冻电镜而设计的图像处理软件。该软件加入了多种算法来完成 2D 分类、3D 分类以及3D 细化等功能,可帮助生物领域的研究者,通过对冷冻电镜数据的单颗粒分析来优化大分子结构。Relion 可在多种硬件架构上以不同的方式处理各种数据集。英特尔也以其在处理器平台和软件加速性能上的独特优势,为 Relion 的工作流程提供了强有力的支撑。从第三代、第四代英特尔 至强 可扩展处理器到英特尔 至强 CPU Max 系列,英特尔的一系列处理器平台提供了更为出色的、具有内置 AI 加速功能的工作负载优化平台。其中,能够对 Relion 性能提升提供助力的包括但不限于:增强的基础算力性能;增强的内存速度和容量(DDR4/DDR5 内存,HBM 内存);增强型英特尔 SST下文将简述如何在基于英特尔 架构的平台上编译并运行Relion,并获得更优性能的过程。借助基于英特尔 架构的平台,使用者可以对处理器、内存、存储设备和网络做整体优化配置/设置,以获得更佳的工作效能。本文将以第三代英特尔 至强 可扩展处理器为例,但相关配置/设置经适当调整后,也可应用于其它基于英特尔架构的理器平台。系统配置/设置调优无论是操作系统,还是 Relion 软件的配置/设置,默认都是基于通用应用程序的模式设计,起初都不会基于性能优化的目的进行特别设置,因此有针对性地开展软件调优配置/设置是必要的。本质上,Relion 是由一系列用于分阶段冷冻电镜(Cryo-EM)数据处理的应用程序组成。整个工作流程如图 2-4-1 所示,在每个步骤之间,Relion 会从磁盘读取上一个步骤的结果,并在当前步骤结束时将结果写入磁盘,通常需要保留中间结果数据(以允许从中间过程中恢复数据),各步骤也可循环迭代地执行。所有这些步骤和中间结果数据都会生成大量大文件,这些大文件的处理时间和存储要求也各有不同。一旦所有步骤完成,系统通常会归档出一系列 100 GB 左右的数据包用以重新分析。上述处理步骤都涉及计算密集型和磁盘密集型操作。因此,建议面向每个电镜的最小处理集群包括:每个节点有 2 个双路处理器,每个处理器具有 48 至 64 个内核,并配备 256 至 384GB(或更多)内存;一个 2PB 磁盘存储空间的并行文件系统;节点和并行文件系统之间,由高速集群网络连接;上述配置应随着电镜的增加而线性增加。同时,也建议处理集群的服务器做以下配置/设置。内置增强技术配置/设置:英特尔 睿频加速技术:这一技术允许处理器在低于当前功率或温度规格的情况下自动提高频率。增强型英特尔 SST:这一技术允许系统动态调整处理器电压和内核频率,从而降低平均功耗和平均发热量。为了使英特尔 睿频加速技术可用,必须启用增强型英特尔 SST。英特尔 超线程技术:这一技术允许多线程应用在每个处理器内核内并行执行两个线程,即线程可运行在两倍于物理核的逻辑核上。内存配置/设置:建议每个节点配备 256GB 以上内存。每个内存通道至少需要在主板上安装 1 个内存条(Dual Inline Memory Module,DIMM)。如果因数据争用而导致内存通道中没有 DIMM,可能会导致处理器利用率降低。存储/磁盘配置/设置:Relion 处理的数据集往往极为庞大,通常需要通过多节点处理模式来提升性能,因此建议在集群文件系统(Cluster File System,CFS)上使用 Relion,CFS 系统已针对大小不同文件(如 Lustre)的读/写访问进行了优化。考虑到 Cryo-EM(冷冻电镜)工作负载的数据需求,建议 CFS 系统为每个显微镜至少配备 2PB 存储空间。图 2-4-1 Relion 工艺流程阶段的简化视图网络配置/设置:Relion 要发挥更佳性能,需要借助 MPI 在多个节点上进行数据处理。虽然 Relion 本身不会生成很多 MPI 消息,但 Relion 数据集和临时文件会消耗大量的磁盘空间,且这些文件在处理过程中会被所有节点访问。建议 Relion 部署在 100Gbps 或更快的网络环境中,使用企业级高速集群结构和并行文件系统。昂贵的冷冻电镜系统每天产生的数据以数 TB(Terabytes)计,且经常会被超额预订,需要更为高速可靠的数据传输、处理能力来挖掘这些稀缺资源的价值。进一步的,为帮助 Relion 的使用者更方便地实现性能优化,英特尔与众多合作者一起,面向英特尔 架构平台的特性,对图 2-4-1中步骤 3 至步骤 5 进行了专门的优化。下文将就这些优化方法做简要描述。面向基于英特尔 架构平台的编译及运行Relion 中的 2D 分类、3D 分类以及 3D 细化算法已面向英特尔 AVX-512 进行了优化(从 3.0 版本开始支持),在编译 Relion打开相应标志位(ALTCPU=ON),并在运行时加入-CPU 选项即可支持。这一优化能在所支持的处理器平台上获得显著性能提升。同时,与默认的 Linux 编译器相比,使用英特尔 编译器也能带来额外的性能提升。下文给出了一个编译过程示例,编译过程基于已集成入英特尔 oneAPI 工具套件完成,并使用了英特尔 MPI 库、英特尔 oneMKL和英特尔 编译器。#步骤 1下载 Relion(3.1.1 或更高版本)并设置编译器和库环境。#步骤 2从 Git 拉取源代码后,在 Relion 目录下编译一个基于英特尔 至强 可扩展处理器(支持英特尔 AVX-512)的 Relion 版本。3130英特尔中国科学计算实战手册应用优化实战篇英特尔中国科学计算实战手册应用优化实战篇据集可以在Github的Relion基准测试页面中下载并运行(https:/ 1下载并解包疟原虫核糖体数据集后,转到所生成目录树的顶层会出现一个名为 emd_2660.map 的文件和一个名称为 Particles 的目录。在运行基准测试前,可能需要将要处理的数据文件从旧格式转换为新格式并确定基准时间。测试中,可以使用/usr/bin/time 对二进制文件进行计时,或如以下示例中所用的,将 mpirun命令内置于在脚本中。#步骤 4单节点示例:以在启用英特尔 超线程技术的双路英特尔 至强 铂金 8358 处理器的单节点系统上运行 Relion 为例,处理器平台一共可提供128个逻辑内核。在每个节点部署8个计算列的情况下,每个列配置 16 个线程,以 40 的池大小运行。加上一个额外的用于列控制的附加列,命令序列如下所示:#步骤 5多节点示例:以在启用英特尔 超线程技术的双路英特尔 至强 铂金 8380 处理器的 4 节点系统上运行 Relion 为例,处理器平台一共可提供160个逻辑内核。在每个节点部署8个计算列的情况下,每个列配置 20 个线程,以 40 的池大小运行。加上一个额外的用于列控制的附加列,命令序列如下所示:#步骤 3启用英特尔 超线程技术能使 Relion 在运行时获得更优的性能表现。同时,受限于 Relion 的数据流管理能力,以及工作任务执行并行性与延迟的限制,建议作业时的总服务器数量不超过 16 台。Relion 运行时,参数可按照以下方式设置:在双路英特尔 架构处理器平台上,每个节点配置 8 个 MPI 计算列。此时可设置每个计算列对应的线程数(-j)为逻辑内核总数(启用英特尔 超线程技术)除以计算列数(8);可能的话,建议每个计算列对应的线程数(-j)大于 9;当节点的集群内存小于 128GB 时,因适当减少计算列,避免出现内存瓶颈或数据交换阻塞;将池(-pool)的数量设置为线程数(-j)的两倍左右,且不低于30。可以参考以下设置示例:#步骤 2在启用英特尔 超线程技术的双路英特尔 至强 铂金 8358 处理器的单节点系统上对疟原虫核糖体数据集进行计算。#步骤 3在启用英特尔 超线程技术的双路英特尔 至强 铂金 8358 处理器的 4 节点系统上对疟原虫核糖体数据集进行计算。#步骤 4与参考值做比较:如果需要将经优化编译的(使用-cpu 选项)Relion 运行结果与使用 Chimera 等工具的原始 Relion 算法进行比较,只需要将结果以不同目录或不同名称输出即可。使用者可以将两种结果的*.mrc 文件可以加载到 Chimera 中并覆盖就能了解结果的差异,使用者也可以运行3D细化来比较相关曲线的差异。用于版本跟踪、修订的版本控制系统 Git;Java、JRE(Java Runtime Environment,Java 运行环境)及 Java SDK;Python(建议 3.6.2 以上版本)及 Conda 包管理器;Slurm Workload Manager,提供了一种调度作业并为这些作业分配集群资源的方法。有关 Slurm 的详细说明,请访问:https:/ Cromwell 所必需的 sbt 用于 Cromwell 持久存储的 MariaDB 用于 R、GATK 等软件工具的图形生成的 Rscript、gsalib、ggplot2 等。通过面向基因组分析的英特尔 精选解决方案,英特尔为上述软件工具和开发套件所需的算力提供了更强有力的支持。如图 2-4-2所示,面向基因组分析的英特尔 精选解决方案架构中,底层是由第三代、第四代英特尔 至强 可扩展处理器,英特尔 至强 CPU Max 系列等为核心的硬件基础设施。英特尔也以其在处理器平台和软件加速性能上的独特优势,为基因组分析的工作流程提供了强有力的支撑。一系列处理器平台提供了业界领先的、具有内置 AI 加速功能的工作负载优化平台。其中,对基因组分析性能提升有着助力的包括但不限于:增强的基础性能;增强的内存速度和容量(DDR4/DDR5 内存,HBM 内存);借助英特尔 AVX-512 实现优化的英特尔基因组学内核库。面向基因组分析的英特尔 精选解决方案作为生物学研究领域最重要的方向之一,基因组学(Genomics)是对生物体所有基因做集体表征、定量研究,并面向不同基因组开展比较研究的学科。基于基因组分析,研究者能够进一步探索生物体的基因组结构与功能以及基因间的关系,从而帮助人们更好地了解生物多样性、改良生物品种、资源保护,以及为疾病治疗提供理论指导。因此,面向不同基因组学分支的基因组分析任务,正在医疗、生物等相关领域获得越来越多的关注。基因组分析软件栈与 面向基因组分析的英特尔 精选解决方案基因组分析是一项复杂且需要消耗巨量算力的工作。目前广泛用于基因组分析的软件栈包括(以下软件建议选择较新的版本):基因组分析工具套件(Genomic Analysis Toolkit,GATK):用于从数据中分析变异信息,是目前最主流的 snp calling 软件之一;Cromwell:用于科学工作流程的管理系统,用于跟踪工作流程并将结果存储于 MariaDB 数据库;BWA:用于对照大的参考基因组(如人类基因组)绘制低分化序列;Picard:用于操作高通量测序数据(基于不同格式)的工具;VerifyBAMID2:用于验证样本基因组数据是否与已知基因型匹配,并可检测样本污染;Samtools:用于与高通量测序数据交互(读取、写入、编辑、索引或查看),读写 BCF2、VCF 等文件,以及调用、过滤或汇总 SNP 和短 indel 序列变体;20K Throughput Run:是一个快速基准测试程序,用于确保计算集群中的重要功能是否配置正确;英特尔 系统配置实用程序(Intel System Configuration Utility)(可选):可用于保存和恢复系统 BIOS 和管理固件设置的命令行实用程序。在使用上述基因组分析软件组合时,以下软件或开发工具套件也是不可或缺的:对优化编译的验证与最佳实践为验证 Relion 在英特尔 架构处理器平台上的优化编译效果,可以使用疟原虫核糖体数据集对其开展用于验证的基准测试。该数图 2-4-2 面向基因组分析的英特尔 精选解决方案架构Pre-packaged Genomics ApplicationsJob SchedulerStorage MgmtBWA硬件基础设施上层应用软件平台基础软件CromwellWorkflowExecutionWorkflowDescriptionLanguageOptimizedGenomicsKernel LibraryGenomicsDBLarge-scaleAnalysis这一架构中,使用者也可根据需求,开展进一步的优化。例如对于 英特尔 至强 CPU Max 系列,使用者可参考以下网址内容进行调优:https:/ 基因组分析软件调优在基因组分析的工作中,软件配置调整是至关重要的一步。究其原因,是因为操作系统和基因组学分析软件都是面向通用的应用程序模式而设计的,需要面向基因组分析的实际需求开展优化以获得更佳性能。下文将基于面向基因组分析的英特尔 精选解决方案,提供方案中主要软件的优化编译、配置和运行建议。安装配置 Slurm Workload Manager#步骤 1Slurm Workload Manager 为基因组分析工作流程提供了一种作业流程调配和集群资源分配的方法。可安装以下步骤开始安装Slurm。创建一个被授予不受限制的 SSH 访问权限的用户组:将 “英特尔 群集检测器”专用用户添加到信任列表(即白名单)。此用户帐户应能在资源管理器作业内外运行群集检查器。创建 Slurm 用户帐户:安装 Slurm 服务端软件包 升级 Warewulf 文件同时,完成以下任务并为计算集群创建 Slurm 配置文件:使用 openHPC 模板创建一个新的 Slurm 配置文件;将前端主机的主机名作为 ControlMachine 添加到 Slurm 配置文件中;确保 SLURM 控制后台程序在节点关闭后,通过有效配置进行注册后该节点可再次使用;更新 NodeName 定义以映射硬件功能;更新 PartitionName 定义。Slurm 配置文件 slurm.conf 的创建、更新、导入和启用命令示例如下所示:在硬件基础设施层之上,是由一系列软件构成的基础软件层、软件平台层以及上层应用层。研究者们可以基于这一架构,可以使用 GATK 等工具及 WDL 脚本来处理 DNA、RNA 数据,使用Cromwell 管理工作流程,使用 Slurm 调度作业并为这些作业分配集群资源等等。#步骤 3将 Slurm 客户端安装到计算节点映像中,命令示例如下所示:#步骤 5一旦资源管理器投入生产,使用者就能以此运行作业。可以通过一个具有标准权限的测试账号来进行测试。例如,该账号将不被允许使用 SSH 与 Slurm 作业之外的计算节点进行交互。通过资源管理器以交互方式编译和执行 helloworld 应用程序。安装基因组分析软件栈#步骤 1检查基因组分析计算集群的安装环境。#步骤 2配置并运行 MariaDB,Cromwell 使用 MariaDB 来存储工作流程中的信息。#步骤 3安装 Cromwell 工作流管理系统,并将其配置为使用计算节点上的本地暂存设备。#步骤 4配置 Cromwell 工作环境,使用默认配置文件作为起点,并对其进行更改以满足实际场景需求。包括将 MariaDB 配置为数据库并添加 Slurm 后端用于工作流编排。#步骤 4完成 Slurm 配置,命令示例如下所示:#步骤 2更新节点资源信息:在 Slurm 配置文件中更新计算节点的节点名称、处理器的属性以及与计算集群相关联的 Slurm 分区或队列。NodeName:反映计算节点的名称及其各自功能的定义;Sockets:定义计算节点中的套接字数量;CoresPerSocket:定义每个套接字的处理器内核数;ThreadsPerCore:定义可在处理器内核上并行执行的线程数;PartitionName:定义了 Slurm 分区或队列,在这些分区或队列中分配了计算名称;Nodes:定义了配置给给定分区的计算节点;Default:定义默认分区。3534英特尔中国科学计算实战手册应用优化实战篇英特尔中国科学计算实战手册应用优化实战篇#步骤 5通过测试,验证 Cromwell 是否配置正确。#步骤 6下载并编译并安装 BWA(Burrows-Wheeler Aligner)。#步骤 7下载并安装 GATK,借助英特尔 AVX-512 实现优化的英特尔 基因组学内核库也将集成在其中。#步骤 8下载并安装 Picard。#步骤 9下载并安装 Samtools。#步骤 10编译并安装 VerifyBamID2#步骤 11在最后,使用者还可以使用 20K Throughput Run 基准测试程序来确保上述软件栈中,针对计算集群的重要功能是否都已配置正确。面向英特尔 至强 CPU Max 系列处理器的配置和调优353736英特尔中国科学计算实战手册应用优化实战篇英特尔中国科学计算实战手册应用优化实战篇部署在科学计算平台上的各类应用要获得更佳性能,除了需要强劲的算力以及经优化的并行计算效率之外,对内存带宽性能的关注同样不可或缺。一方面,内存带宽敏感型科学计算应用,如用于计算流体动力学(CFD)的 OpenFOAM 等,所需处理的网格数量动辄以亿计算。庞大的计算量和数据集会消耗大量内存带宽。另一方面,物理内核数量的不断增多,从某种意义上也“摊薄”了每个内核所能获得的内存带宽。英特尔 至强 CPU Max 系列处理器通过 HBM 内存的引入,来为这一问题的解决提供全新思路。如上一章节所述,如图 2-5-1 所示,英特尔 至强 CPU Max 系列处理器为使用者提供了“仅 HBM”、“HBM Flat”以及“HBM 缓存”三种内存模式,并根据计算集群的需要,配置为“Quadrant”和“SNC4”两种集群模式。全局优化配置以下配置,在三种不同 HBM 内存模式时均可参考使用(基于Linux 环境)。禁用内存交换。这项尤其适用于容量有限的“仅 HBM”模式。内存交换会严重影响性能。启用 zone_reclaim_mode,其非常适合 NUMA 节点规模较小的场景(如“SNC4”集群模式)。启用该模式时,Linux 页面分配器会先在请求的 NUMA 节点上回收容易用的页面,然后再从其他 NUMA 节点上获得内存,从而减少不必要的 NUMA 交叉,避免性能下降。可使用如下命令开启:“仅 HBM”与“HBM 缓存”内存模式下优化配置对于使用“仅 HBM”和“HBM 缓存”两种内存模式的场景,使用者无需额外的配置操作。但由于 HBM 容量有限,可采取一些额外操作来减少内存容量开销,例如:减少系统启动时的非必要服务(守护进程)和驱动程序(如打印或邮件服务等守护进程等);缩减操作系统文件缓存容量和 MPI 缓冲区;使用时建议在 OpenMP 线程数与 MPI 等级之间取得平衡。由于 OpenMP 线程共享内存,因此多使用 OpenMP 线程可以减少内存总占用空间;如应用无法适配 HBM 容量,需要适当调整 OpenMP 堆栈大小和 MPI 通信缓冲区大小;确保没有 NUMA 失中(通过在运行程序前后运行 numastat 来实现);如上述步骤仍无法应用使适配 HBM 容量,可考虑扩展到更多节点。在集群模式下,使用者可以在 BIOS 中进行集群模式的修改,以英特尔白牌机为例,设置 SNC4 集群模式的路径为:Advanced-Memory Configuration-Memory RAS and Performance Configuration-SNC,设置成 SNC off即是 Quadrant 模式。对于 OEM 的服务器,该选项一般在另一个位置,例如 Uncore Configuration-Uncore General Configuration-SNC(Sub NUMA),使用者需要根据对应服务器机型的说明进行配置。同时,在“Quadrant”和“SNC4”集群模式设置完成后,使用者可使用 numactl-H 验证 NUMA 节点配置和每个 NUMA 节点的总内存或可用内存容量。运行前,清理文件系统缓存,并使用以下命令规整内存 建议启用透明大页(Transparent Huge Pages,THP),大多数科学计算应用都会从 THP 的使用中获益。创建 THP 时可能会产生内存规整开销,但在每次运行前规整内存即可减少开销。避免使用/dev/shm(tmpfs)来存储文件,从而减少可用内存。建议在启动作业前清除/dev/shm。建议使用最新的稳定版 Linux 内核。Cores,IO&MemoryControllersCores,IO&MemoryControllersCores,IO&MemoryControllersHBMHBMHBMDDRDDRDDRDDRDDRDDRDDRDDRDDRDDRDDRDDRDDRDDRDDRDDRHBMHBMHBMHBMHBMHBMHBMHBMHBM“仅 HBM”模式“HBM Flat”模式“HBM 缓存”模式图 2-5-1 英特尔 至强 CPU Max 系列处理器中 HBM 的三种内存模式#步骤 2针对双路系统执行下列 daxctl 命令(其中“Quadrant”模式仅需前两项命令,“SNC4”模式要求完成所有命令)。所有这些命令均需 root 权限。每次启动系统时,都需要执行步骤 2,建议将命令写入脚本并在操作系统启动时自动执行。完成后可使用 numactl-H 验证 HBM 节点是否可见,以及整个 HBM 容量是否可用。在“HBM Flat”模式下,对应用进行 HBM 布局非常重要,使用者可使用标准的 Linux 工具 numactl 来进行该操作,也可以使用 英特尔 MPI。以使用英特尔 MPI 为例,环境变量 I_MPI_HBW_POLICY 可以针对 MPI 等级分配 HBM。I_MPI_HBW_POLICY 环境变量也接受由 MPI 本身的内存分配策略。例如以下命令在进行用户和 MPI 库分配时都使用了 hbw_bind 策略。值得注意的是,在RHEL(Red Hat Enterprise Linux)Linux的8.x版本中,不支持通过以上方式激活 HBM,使用者需要在在启动时,在 kernel 选项中增加 efi=nosoftreserve。#步骤 1安装以下 Linux 包:“HBM Flat”内存模式下优化配置在完成 DDR 内存安装后,首先需要在 BIOS 设置中选择 1LM 以启用“HBM Flat”模式。以英特尔白牌机为例,设置 1LM 的路径为:Advanced-Memory Configuration-HBM mode=1LM。对于 OEM 的服务器,该选项一般在另一个位置,例如 Socket Configuration-Memory Configurations-Memory Map-Volatile Memory Mode-1LM,使用者需要根据对应服务器机型的说明进行配置。但此时 HBM 因为被标记为专用内存,仅有 DDR 内存对操作系统和应用可见,需要采取额外的操作步骤才能使 HBM 进入默认内存池。3938英特尔中国科学计算实战手册基准测试实战篇英特尔中国科学计算实战手册基准测试实战篇3938得益于芯片技术的推陈出新、软件优化工具和优化方法的不断完善,各类科学计算平台的性能在近年来已获得令人赞叹的提升与突破。在这一过程中,借助各类基准测试(Benchmark)程序或脚本对科学计算平台的性能进行综合测试与评估,也成为不可或缺。通过基准测试,用户可以对平台的处理性能和工作效率有着更加清晰的认知,从而可通过在不同的应用场景中部署更为适宜的产品,在提升效能的同时也有效降低成本。高性能 Linpack(High Performance Linpack,HPL)和高性能共轭梯度(High Performance Conjugate Gradient,HPCG)是目前运用广泛的科学计算平台基准测试,而Stream是目前广为使用的内存带宽性能基准测试。为了让用户能更好地对基于英特尔 架构的科学计算平台做出较为精准的性能预期,并由此制定更合理的科学计算方案,英特尔也在标准版 HPL、HPCG 和 Stream 的基础上,推出了经优化和性能增强的版本。基准测试实战篇4140英特尔中国科学计算实战手册基准测试实战篇英特尔中国科学计算实战手册基准测试实战篇Linpack 基准性能测试英特尔 发行版40Linpack 基准性能测试英特尔发行版简介线性系统软件包(Linear system package,Linpack)是一种用于计算机浮点性能测试的基准测试,其核心方法是使用高斯消元法(Gaussian Elimination)求解 N 元一次稠密线性代数方程组的测试,由此评价计算机系统的浮点性能。Linpack 测试包括三类,Linpack 100、Linpack 1000 和 HPL。其中 Linpack 100 是求解规模为 100 阶的稠密线性代数方程组,Linpack 1000 是求解 1000 阶的线性代数方程组。HPL 是面向科学计算系统(例如基于科学计算平台的解决方案)提出Linpack 扩展测试。用户可在不修改测试程序的基础上,调节矩阵大小以及所使用算力规模等参数,并可使用各种优化方法来执行测试以获取最佳性能,从而对高性能的科学计算平台做出准确评估。HPL 目前也是TOP 500(http:/www.top500.org)所使用的基准测试之一。更多 HPL 信息,请参阅:http:/lib.org/benchmark/hpl/。Linpack 基准性能测试英特尔 发行版(以下简称“Linpack 英特尔 发行版”)是在标准 HPL 的基础上加入了众多优化和增强功能(例如使用英特尔 MPI)的新版本,其同样也可用于 TOP500 测试。与标准HPL 测试中每个 MPI 进程需要在类似的 CPU 和内存环境中运行不同,Linpack 英特尔 发行版对异构平台有着良好的支持,只要计算节点有着足够的算力和内存资源,数据就可以根据每个节点的性能要求进行平衡。英特尔 oneMKL 提供的预置二进制文件可静态或动态链接到英特尔 MPI 库。同时,使用者也可使用英特尔 oneMKL 内置的 MPI 包装器,创建一个与自定义 MPI 之间链接的二进制文件。LIinpack 英特尔 发行版包括了与英特尔 MPI 库链接的预构建二进制文件,以及在自定义 MPI 场景下构建二进制文件的工具(基于英特尔 oneMKL 内置的 MPI 包装器)。所有文件都位于英特尔 oneMKL 所在目录的子目录./benchmarks/mp_linpack/中。配置 Linpack 英特尔 发行版在英特尔 oneAPI HPC工具包(详细介绍请参阅产品技术篇)中,包含了已编译的 mp_linpack,使用者可以直接使用。配置参数HPL.dat 中最重要的参数是 P、Q、NB 和 N。可按如下方式进行配置。P 和 Q:分别是进程网格的行数和列数,P*Q 必须是 HPL 正在使用的 MPI 进程的数量,P Q,并且 P*Q 尽量接近正方形。NB:数据分布的块数量,可根据英特尔 处理器平台类型进行 设置,参考值详见:https:/ N(problem size):对于同计算平台运行的场景,选择可被NB*LCM(P,Q)整除的 N,其中 LCM 是这两个数字的最小公倍数。对于异构计算平台运行的场景,可参阅 Linpack 英特尔 发行版相关信息,了解如何选择 N 值。便捷的命令行参数Linpack 英特尔 发行版对 HPL 命令行参数提供了支持,这些参数可以帮助使用者更加灵活的更改配置而无需频频修改 HPL.dat文件。命令行中的 表明其为可修改参数。使用者也可将命令行参数与示例 runme 脚本一起使用。举例如下,在 HPL.dat 和脚本中的其他参数正确的情况下,可通过以下命令,在 1x3 网格上运行 N=10000:通过 m 参数,使用者可根据内存大小而不是 N(problem size)进行缩放。m 参数仅指矩阵存储的大小。因此要在 16 个节点上使用 NB=256 的 50000 兆字节的矩阵,需要通过调整脚本来将 MPI 进程的总数设置为 16,并执行以下命令:运行 Linpack 英特尔 发行版基于自定义 MPI 场景编译 Linpack 英特尔 发行版在具有多个 MPI 进程的单节点,或多个节点上运行 Linpack 英特尔 发行版,使用者需要使用MPI并修改HPL.dat,或使用命令行参数。以下示例将简述如何运行使用脚本动态链接的预置 Linpack 英特尔发行版二进制文件。若运行其他二进制文件,请相应调整步骤。#步骤 1为英特尔 MPI 库和英特尔 编译器加载必要的环境变量。#步骤 2在 HPL.dat 中,将 N(problem size)设置为 10000。为获得更好性能,在系统上启用 NUMA,并在每个 NUMA 套接字上配置运行一个 MPI 进程,如下所述。参阅 BIOS 设置,在系统上启用 NUMA;根据集群配置,在 runme_intel64_dynamic 脚本的顶部设置以下变量:MPI_PROC_NUM(MPI 进程的总数)、MPI_PROC_NUM(每个集群节点的 MPI 进程数);在 HPL.dat 文件中,设置参数 Ps 和 Qs,使 Ps*Qs 等于 MPI进程的数量。例如,对于 2 个进程,将 Ps 设置为 1,将 Qs 设置为 2。或保持 HPL.dat 文件的原样,但使用-p 和-q 命令行参数启动。#步骤 3运行 runme_intel64_dynamic 脚本。#步骤 4重新运行测试,增加 N(problem size)直到矩阵使用了约 80%的可用内存。要执行此操作,请修改 HPL.dat 第 6 行中的 Ns,或者使用-n 命令行参数。例如对于 32GB 内存,Ns 设为 56000,对于 64GB 内存,Ns 设为 83000。4342英特尔中国科学计算实战手册基准测试实战篇英特尔中国科学计算实战手册基准测试实战篇Linpack 英特尔 发行版对异构计算平台的支持Linpack 英特尔 发行版对异构计算平台同样有着良好的支持。其核心思想是基于特定的相对性能,在每个节点上进行负载均衡,即在较弱节点上使用更少的内存,达到“能力越大、责任越大”的效果。使用者首先可以在 MPI 节点文件中,按照性能从高到低对节点名进行排列,然后通过调整 HPL.dat 文件来指定异构因子的数量以及每一个异构因子。并指定不同类型处理器节点的列数以及存在的限制。异构因子决定了在不同节点上的强度。例如设为2.5时,那么更强大的节点上大约有 2.5 倍的强度。具体步骤如下:#步骤 1测试每一个节点的单节点 HPL 性能,每个节点 1 个 MPI 进程,然后在 nodefile 中将节点名按照性能降序排列。#步骤 2在多节点上运行 HPL,获得 HPL.dat 参数的最优值,例如 P x Q。面向英特尔 至强 CPU Max 系列处理器的运行Linpack 英特尔 发行版可在单节点或多节点的英特尔 至强 CPU Max 系列处理器平台上运行。例如,要在采用双路系统的单节点上以“仅 HBM”模式和“SNC4”集群模式运行,须更改 runme_intel64_dynamic 文件中的以下定义:提升运行性能使用者可按照以下步骤来提升运行性能:#步骤 1重启所有节点;#步骤 2确保所有节点都处于相同的条件下,且之前的 HPL 运行没有留下任何僵尸进程。在每个节点上运行单节点 Stream(一种内存带宽性能测试工具)和 Linpack 英特尔 发行版。确保各个节点的结果差在 10%以内(一般而言,problem size 越大,测试结果越好。但内存需求和运行时间也会增加,其中内存占用量为平方关系增加,运行时间为立方关系增加。为取得最好结果,内存占用量可达到 95%;为快速得到测试结果,可以按照按照每路处理器占用64GB 内存计算 problem size。);#步骤 3检查集群互连是否正常工作。使用针对带宽和延迟的 MPI 测试(如英特尔 MPI 基准测试包中的测试)对整个集群上运行测试;#步骤 4在两个或四个节点对上运行 Linpack 英特尔 发行版,确保结果相差不超过 10%。(problem size 必须足够大,具体取决于内存大小和处理器速度);由于在同构节点上,英特尔 睿频加速技术的使用也会导致不同节点之间性能偏差,传统方法使得系统的总性能受性能最低的节点限制(“木桶原理”),因此在实战中也可在同构节点上使用异构模式运行 Linpack 英特尔 发行版。更多 Linpack 英特尔 发行版在异构计算平台上的配置方法,请参阅:https:/ 3在 HPL.dat 的最后加入:#后续每一行代表一种架构(型号),第一个数字是起始的列号,第二个数字是终止的列号,第三个数字是异构因子(不同架构的内存占用比例,或性能比例)#步骤 4每一种架构(型号)的节点数必须是 P 的倍数,最多可以有 Q 种不同的架构(型号),每一种架构异构因子 Fi 由第一步当中实测的性能值得来。如图 3-1-1 所示,估算 N(problem size):假设有 n 种架构(型号),每种架构(型号)有 Ci 列,每种架构(型号)的内存大小是 Mi 字节,每种架构(型号)的异构因数是 Fi。图 3-1-1 在异构 节点上运行 Linpack 英特尔 发行版Linpack 英特尔 发行版可通过以下命令在异构平台上设置工作量。命令行参数包括:n 用于描述 problem size、f(异构因子)用于控制分配给不同节点的工作量、c 控制节点上的进程列数等,例如:PQF1F2F3C1C2C3#步骤 5在整个集群上运行一个小 problem size 的用例以确保正确性;#步骤 6增加 problem size 并运行实际测试负载;#步骤 7如果出现问题,返回步骤 2。在异构计算平台进行运行之前,先在同计算平台上运行等效程序。4544英特尔中国科学计算实战手册基准测试实战篇英特尔中国科学计算实战手册基准测试实战篇44作为另一种面向科学计算系统性能测试的重要方法,HPCG 基准测试的核心是通过预处理共轭梯度(preconditioned conjugate gradient,PCG)算法来求解稀疏矩阵方程组。HPCG 基准测试是面向一个 3D 规则区域上已经 27 点离散化的椭圆偏微分方程,在所有的可用 MPI 列中,调用一个 3D 域去填充 3D 虚拟过程网格的过程。HPCG 结合了局部和对称高斯-塞德尔(Gauss-Seidel)预处理步骤(该步骤需要三角形前向求解和反向求解),使用预处理共轭梯度算法来求解中间方程组。在上述每个预处理步骤中,会使用合成的多网格 V 循环从而使基准测试更适合实际应用。HPCG 局部实现矩阵乘法,在相邻进程之间进行初始Halo 数据交换。与 Linpack 系列基准测试关注线性方程的计算性能不同,HPCG 使用更为复杂的微分方程计算方式,这就使其更为贴近一些实际场景,与许多科学工作负载相似。HPCG 目前也是 TOP500 所使用的基准测试之一。更多 HPCG 信息,请参阅:http:/hpcg-benchmark.org。面向英特尔 架构优化的 HPCG 基准测试简介面向英特尔 架构优化的 HPCG 基准测试(以下简称“英特尔 优化版HPCG”)在标准 HPCG 的基础上,针对英特尔 架构的平台以及英特尔 AVX-512 等技术的特性进行了优化和功能增强,旨在提供更有效的高性能计算系统评估方法力,为用户在设计和部署科学计算平台方案时提供更好的性能参考和效果评估能力。英特尔 优化版 HPCG 是基于标准版 HPCG v3.0 参考实现的源代码,并加入了以下必要的修改和增强。面向英特尔 架构的优化 链接到英特尔 oneMKL 的预编译基准测试可执行文件,包括:用于 SpMV(Sparse Matrix-Vector Multiplication,稀疏矩阵向量乘法)的 Inspector-executor 稀疏 BLAS(Basic Linear Algebra Subprograms,基础线性代数子程序库)核心;TRSV(Sparse triangular solve,稀疏三角形解);SYMGS(Symmetric Gauss-Seidel smoother,对称高斯-塞德尔平滑器)。在英特尔 优化版 HPCG 的软件包中,包含了适用于英特尔 MPI 5.1 或更高版本的预编译 HPCG 基准测试。基准测试的所有文件都位于英特尔 oneMKL 所在目录的./benchmarks/hpcg nchmarks/hpcg 子目录中。针对不同处理器平台,使用者可选择不同的版本,如 xhpcg_knl、xhpcg_skx 等。英特尔 优化版HPCG 的软件包还包含了为其它 MPI 实现(如 Open MPI:英特尔 AVX-512 优化版)编译基准测试所需的源代码。hpcg.dat 是基准测试的输入文件。使用面向英特尔 架构优化的HPCG 基准测试可以按照以下步骤来开始使用英特尔 优化版 HPCG。#步骤 1在集群文件系统上,将英特尔 优化版 HPCG 软件包解压缩到所有节点都可访问的目录中,阅读软件包中的 readme.txt 文件中的说明并接受许可证。#步骤 2将目录切换为 hpcg/bin。#步骤 3根据硬件平台的类型,确定最适合使用的基准测试的预编译版本。#步骤 4确保英特尔 oneMKL、英特尔 编译器以及 MPI 运行时的环境设置正确。使用者可使用这些发行版中包含的 scriptsvars.sh、compilervars.sh 和 mpivars.sh 来完成设置。#步骤 5运行基准测试。在处理器内置英特尔 AVX-512(或英特尔 AVX、英特尔 AVX 2)技术时,为每一路处理器设置一个 MPI进程,每个内核设置一个 OpenMPI 线程,且跳过同步多线程(simultaneous multithreading,SMT)设置。设置 KMP_AFFINITY=granularity=fine,compact,1,0。在一个具有 128 节点的计算集群上,每个节点部署有双路英特尔 至强 铂金 8452Y 处理器,可运行以下命令:#步骤 6当基准测试完成执行(通常需要几分钟)后,可在当前目录中找到包含结果的 YAML 文件。文件一般显示为:HPCG result is VALID with a GFLOP/s rating of:GFLOP/s面向英特尔 架构优化的HPCG 基准测试选择最佳参数配置和Problem Sizes英特尔 优化版 HPCG 的性能取决于许多系统参数,例如系统的硬件配置和所使用的 MPI 实现。要在特定环境下获得最佳性能,请选择以下参数的组合:每个主机的 MPI 进程数和每个进程的 OpenMPI 线程数;本地 problem size。在基于英特尔 架构的处理器集群上,根据所支持的英特尔 AVX-512 等指令集,每路处理器运行一个 MPI 进程,每个物理处理器内核运行一个 OpenMP 线程,且跳过 SMT 线程。方案中可以使用足够大的 problem size 来获得更优性能,以便更好地利用可用的处理器内核。但 problem size 也不宜过大,以保证所有任务都适合可用的内存。面向英特尔 至强 CPU Max 系列处理器的运行面向英特尔 至强 CPU Max 系列处理器使用英特尔 优化版HPCG,可先使用以下命令行从源代码进行编译:假设以“仅 HBM”内存模式和“SNC4”集群模式在采用英特尔 至强 CPU Max 系列处理器(每个处理器有 56 个内核)的双路系统上运行,可使用以下命令行:4746英特尔中国科学计算实战手册基准测试实战篇英特尔中国科学计算实战手册基准测试实战篇47部署在科学计算平台中的许多应用都属于内存带宽性能敏感型,因此选择适宜的内存带宽性能基准测试同样必不可少。Stream 是目前广为使用的内存带宽性能基准测试,其通过数组的复制(Copy)、数组的尺度变换(Scale)、数组的矢量求和(Add)以及数组的复合矢量求和(Triad)这四种数组的运算来执行测试。一般来说,Stream 测试中使用的数组大小,至少应为处理器所有末级缓存总和的 4 倍,或 100 万个数,取其中的较大者。下文提供了面向英特尔 架构处理器平台的 Stream 基准测试的编译和运行参考方法,以此帮助科学计算平台的使用者在其上获得理想的性能。Stream 有两种使用类型,其中 Standard 是从未修改的源代码中获得的测试结果,Tuned 是经使用者或供应商修改源代码后获得的测试结果。在基于英特尔 架构的处理器平台上,使用者不需要任何修改就能够获得最佳结果,因此基于英特尔 架构处理器平台的 Stream 属于 Standard类型。可以在以下网页下载包括 Stream 源代码以及编译执行脚本:https:/ 英特尔 编译器:Stream 基准测试的性能取决于所使用编译器的选项。本文方法中使用英特尔 编译器生成底层非临时存储指令,以在英特尔 架构处理器平台上实现更佳性能。Linux 环境:目前 makefile 采用的是 Linux 操作系统环境。编译 Stream 基准测试确认英特尔 编译器可用;运行 make 命令,例如处理器支持英特尔 AVX-512,得到 stream_avx512.bin(同样,英特尔 AVX、英特尔 AVX 2 也可以获得相应二进制文件);Makefile 支持如下选项:size=cpu=rfo=1 forces to use regular cached stores instead of non-temporal storeshelp参考示例如下:仅为支持英特尔 AVX-512 的处理器平台编译 Stream 基准测试,执行:为每个缓冲区包含 67,108,864 个元素,支持英特尔 AVX-512的处理器平台编译 Stream 基准测试,执行:显式使用常规缓存存储,执行:运行 Stream 基准测试使用者可通过一个基准测试运行脚本(run.sh)来运行 Stream 基准测试,其中:二进制文件:使用编译步骤中产生的最合适Stream二进制文件,例如处理器支持英特尔 AVX-512,就选择 stream_avx512.bin;OpenMP 设置:将 OMP_NUM_THREADS 设置为系统上的物理内核数量。KMP_AFFINITY 设置为 compact pinning。即便系统启用的超线程设置也请忽略超线程内核;将结果存储到日志文件中。此外输出相关的系统信息,如套接字、内核、线程、NUMA域、内存子系统等的数量。在解析dmidecode 的输出时,使用 sudo 运行会获得内存子系统的更详细信息。使用以下命令执行生成的二进制文件:面向英特尔 架构平台编译并运行的 Stream 基准测试 默认情况下,以下 Stream 配置参数用于编译二进制文件:面向英特尔 至强 CPU Max 系列处理器的运行为了在英特尔 至强 CPU Max 系列处理器上实现更出色的性能,首先可以使用以下命令行启用软件预取:464948英特尔中国科学计算实战手册产品技术篇英特尔中国科学计算实战手册产品技术篇技术篇产品49485150英特尔中国科学计算实战手册产品技术篇英特尔中国科学计算实战手册产品技术篇第四代英特尔 至强 可扩展处理器第四代英特尔 至强 可扩展处理器旨在为人工智能、数据分析、存储和科学计算方面快速增长的工作负载提供性能加速。该处理器具备多种内置加速器,帮助客户将零信任安全策略付诸实践,同时利用先进的安全技术,即使面对敏感或受监管的数据,也能解锁新的商业合作机会和洞察。使用这款处理器可跨多个云和边缘环境进行扩展,满足自身的部署需求。英特尔 至强 可扩展处理器具有很强的灵活性,可在其上选择不同的云服务,帮助企业顺利实现应用移植。基础性能进一步大幅提升 第四代英特尔 至强 可扩展处理器采用全新架构,单核性能比上一代产品更高,每路配备多达 60 个内核。每个系统支持单路、双路、四路或八路配置。为了与内核数增加这种情况相匹配,该平台在内存和 I/O 子系统方面也做了相应改进。DDR5 内存提供的带宽和速度与 DDR4 相比提高多达 1.5 倍,速率达到 4,800 MT/s6。此外,该平台还具有每路 80 条 PCIe Gen5 通道的特点,与之前的平台相比,I/O 得到显著提升。本代处理器还可提供 CXL 1.1 连接,支持高网络带宽并使附加加速器能够高效运行。第四代英特尔 至强 可扩展处理器支持的技术支持根据工作负载要求的变化灵活扩展和调整。此外,本代处理器还可助力实现以下优势:进一步提升网络、存储和计算性能,并通过将繁重的任务卸载到英特尔 基础设施处理单元(Intel Infrastructure Processing Unit,英特尔 IPU)来提高 CPU 利用率;通过英特尔 UPI 2.0 提高多路带宽(高达 16 GT/s);使用英特尔 Speed Select 技术(英特尔 SST)调整 CPU 配置,满足特定工作负载的需求;增加三级缓存(LLC)共享容量(所有内核共享多达 100 MB LLC);通过硬件增强型安全功能加强对安全态势的掌控;使用英特尔 Virtual RAID on CPU(英特尔 VROC),从而无需再用单独的 RAID 卡。内置众多加速引擎,重新定义性能与增加 CPU 内核数相比,内置加速器是一种提升性能更有效的方法。其不但可以提高 CPU 利用率,降低功耗,并提高投资回报率(ROI),同时还能帮助企业实现可持续发展目标。英特尔 至强 可扩展处理器支持广泛且独特的内置加速器,有助于提高性能和效率,减少另行添置专用硬件的需求。在云端和本地环境中,这PCI Express Gen5(PCIe 5.0)带来全新的 I/O 速度,可在 CPU 和互联设备之间实现更高的吞吐量。第四代英特尔 至强 可扩展处理器具有多达80 条 PCIe 5.0 通道,非常适合高速网络、高带宽加速器和高性能存储设备。PCIe 5.0的 I/O 带宽是PCIe 4.0 的两倍,仍具备向后兼容性并提供用于 CXL 连接的基础插槽7。DDR5 以更高内存带宽克服数据瓶颈,提高计算性能。与 DDR4相比,DDR5 的带宽提高多达 1.5 倍,因此有机会提升性能、容量和能效并降低成本8。借助 DDR5,第四代英特尔 至强 可扩展处理器提供的速率可高达 4,800 MT/s(1 DPC)或 4,400 MT/s(2 DPC)。CXL 借助面向下一代工作负载的 CXL 1.1,降低数据中心的计算时延并帮助减少 TCO。CXL 是另一种跨标准 PCIe 物理层运行的协议,可以在同一链路上同时支持标准 PCIe 设备和 CXL 设备。CXL 可带来的一大关键能力是在 CPU 和加速器之间创建统一且一致的内存空间,它将革新未来数年数据中心服务器架构的构建方式。第四代英特尔 至强 可扩展处理器的新特性或新功能6、7、8 https:/ 8 路的可扩展性4 个英特尔 UPI 端口,速率为 16 GT/s80 条 PCIe 5.0 通道 CXL支持 DDR5,速率高达 4,800 MT/s(每通道 1 个 DIMM)或 4,400 MT/s(每通道 2 个 DIMM)支持英特尔 傲腾 持久内存 300 系列英特尔 AVX-512(两个 512 位 FMA)英特尔 超线程技术和英特尔 睿频加速技术英特尔 AMX英特尔 SST先进的可靠性、可用性和可维护性(RAS)英特尔 SGX 最大飞地容量高达 128 GB(在特定型号的 SKU 上最大飞地容量高达 512 GB)可通过英特尔 QAT、英特尔 DLB、英特尔 DSA 和英特尔 IAA 加速工作负载多达 4 路的可扩展性3 个英特尔 UPI 端口,速率为 16 GT/s80 条 PCIe 5.0 通道 CXL支持 DDR5,速率高达 4,800 MT/s(每通道 1 个 DIMM)或 4,400 MT/s(每通道 2 个 DIMM)支持英特尔 傲腾 持久内存 300 系列英特尔 AVX-512(两个 512 位 FMA)英特尔 超线程技术和英特尔 睿频加速技术英特尔 深度学习加速技术和英特尔 AMX英特尔 SST先进的 RAS英特尔 SGX 最大飞地容量高达 128 GB可通过英特尔 QAT、英特尔 DLB、英特尔 DSA 和英特尔 IAA 加速工作负载多达 2 路的可扩展性2 个英特尔 UPI 端口,速率为 16 GT/s80 条 PCIe 5.0 通道 CXL支持 DDR5,速率高达 4,800 MT/s(每通道 1 个 DIMM)或 4,400 MT/s(每通道 2 个 DIMM)英特尔 AVX-512(两个 512 位 FMA)英特尔 超线程技术和英特尔 睿频加速技术英特尔 深度学习加速技术和英特尔 AMX英特尔 SGX 最大飞地容量高达 64 GB可通过英特尔 QAT、英特尔 DLB、英特尔 DSA 和英特尔 IAA 加速工作负载第四代英特尔 至强 英特尔 至强 8400 处理器AI 8400 8 I/O I/O 每个英特尔 60 8 条内存通道,速率高达 4,800 MT/s(1 DPC)英特尔 AMX AI 英特尔 至强 6400 至强 5400 处理器11英特尔 至强 4400 处理器 和 CMYCMMYCYCMYK技术1.pdf 1 2023-07-31 14:07:46英特尔 Intel Advanced Matrix Extensions英特尔 AMX(NLP)(DL)vRAN 的英特尔 Intel Advanced Vector Extensions AVX(vRAN)2 2 英特尔 Intel Data Streaming Accelerator英特尔 DSA英特尔 512Intel Advanced Vector Extensions 512 AVX-512(FMA)英特尔 Intel In-Memory Analytics Accelerator IAA CPU 英特尔 QAT可加速加英特尔 Intel Crypto Acceleration(SSL)Web 5G VPN/英特尔 Intel Dynamic Load Balancer英特尔 DLB CPU CMYCMMYCYCMYK3.pdf 1 2023-08-05 20:56:07 科学计算:第四代英特尔 至强 可扩展处理器可以提高科学计算工作负载中常见的多线程代码性能。这些工作负载包括制造业仿真、分子动力学、地球系统建模以及 AI 推理和训练。该处理器内置的加速器可提供较高的精度水平,同时还能加速多种 AI 数据类型的处理。该处理器还支持 DDR5 内存、PCIe Gen5、英特尔 超级通道互联(Intel Ultra Path Interconnect,英特尔 UPI)2.0 和 Compute Express Link(CXL),显著提升了整体数据的吞吐量。AI:凭借更优的矢量指令和矩阵乘法运算,第四代英特尔 至强 可扩展 处理器展现出更为出色的 AI 推理和训练性能。英特尔 AMX 可以显著提高推荐系统、NLP、图像识别、媒体处理和分发以及媒体分析等深度学习工作负载的性能。些专用功能支持人工智能、安全性、科学计算、数据分析、存储和网络等目前最为常见的严苛工作负载。扫码了解更多第四代英特尔 至强 可扩展处理器详情访问链接了解更多第四代英特尔 至强 可扩展处理器详情https:/ 至强 CPU Max 系列过去十年,随着人工智能技术的加入,峰值算力大幅增长,但由于在向内核传输数据时效率低,因此工作负载性能未能同步提升。英特尔 至强 CPU Max 系列的诞生,使英特尔 至强 平台如虎添翼,它是英特尔唯一一个基于 x86 架构并采用高带宽内存(HBM)的 CPU 系列,可释放和加速内存密集型科学计算和 AI工作负载。更高带宽,更优性能 英特尔 至强 CPU Max 系列采用全新微架构,支持一系列可提升平台能力的特性,包括更多内核、先进的 I/O 与内存子系统,以及可加速重大发现的内置加速器。英特尔 至强 CPU Max 系列具有以下特性:多达56个 P-core(性能核):内核由4个小芯片构成,采用英特尔的嵌入式多芯片 互连桥接(EMIB)技术连接,功耗为 350 W;64 GB 高带宽封装内存及 PCIe 5.0 和 CXL 1.1 I/O。英特尔 至强 CPU Max 系列每核均具备 HBM 容量,可满足大多数常见科学计算工作负载的要求;与其他 CPU 相比,在使用 Numenta 的 AI 技术进行自然语言处理时,其 HBM 优势可带来高达 20 倍的性能提升9。加速科学创新 英特尔 至强 CPU Max 系列能够与英特尔 至强 平台实现轻松整合,不但可以获得处理要求严苛的工作负载所需的性能与能效,还可得到各种出色的内置加速器(包括英特尔 AMX,英特尔 DSA 等,具体详见第 53 页详细介绍)的助力。利用面向科学计算和 AI 工作负载的关键加速器,提高 CPU 使用效率、降低功耗、实现更高的投资回报率(ROI)。另外,由于处理器插槽(Socket)配置相同,可轻松将英特尔 至强 CPU Max 系列处理器添加到第四代英特尔 至强 可扩展平台,并且在大多数部署方案中都无需更改代码。灵活应对各种科学计算和 AI 工作负载 英特尔 至强 CPU Max 系列处理器具备出色的灵活性,可根据工作负载的特性,在不同的内存模式或配置下运行:“仅 HBM”模式:该模式支持内存容量需求不超过 64 GB 的工作负载以及每核 1 至 2 GB 的内存扩展能力,同时无需更改代码和另购 DDR,即可启动系统;“HBM Flat”模式:该模式可为需要大内存容量的应用提供灵活性,它通过 HBM 和 DRAM 提供一个平面内存区域(flat memory region),适用于每核内存需求大于 2 GB 的工作负载。使用该模式时可能需要更改代码;“HBM 缓存”模式:旨在提升内存容量需求大于 64 GB 或每核内存需求大于 2 GB 的工作负载的性能。使用该模式时,无需更改代码,且 HBM 可缓存来自 DDR 的事务。跨多架构加速科学计算和 AI 工作负载 整个英特尔 至强 CPU Max 系列的产品均得到 oneAPI 的支持。oneAPI 是一个统一的、基于标准的开放式通用编程模型,可释放生产力并解锁性能。开发人员可利用英特尔 oneAPI 工具套件以及面向特定领域的专用工具套件,打造跨多种架构运行的通用计算、科学计算和 AI 应用,并对其进行分析、优化和扩展。这些资源包括矢量化、多线程、多节点并行和内存优化方面的前沿技术,可轻松构建随时能为科学计算所用的高性能、多架构软件。扫码了解更多英特尔 至强 CPU Max 系列详情扫码了解英特尔 至强 CPU Max 系列配置和调优指南英特尔 至强 CPU Max 系列内核数32-56HBM2e 内存64 GBHBM 最大传输速率3200 MT/sDDR5最大传输速率4800MT/s(1 个 DPC)4400 MTs(2 个 DPC)加速器AMX,4 个英特尔 DSAAI/ML指令INT8 和 BFLOAT169 https:/ 至强 CPU Max 系列详情https:/ 高级矢量扩展 512(英特尔 AVX-512)快速分析日益增多的数据,并将其转化为有价值的洞察力,这种能力将为商业味、科学研究乃至人们的日常生活创造新的机遇。英特尔 至强 可扩展处理器和英特尔 至强融核 处理器产品家族,增添了旨在加速数据分析的创新功能。当前的工作负载,通常需要在多个数据元素上执行同样的操作,在传统的“标量处理”时代,指令在同一时间,只能在一个单一数据元素上执行,以致在处理海量数据时极为耗时。认识到标量处理的不足之后,从上世纪 90 年代后期开始,英特尔开始将单指令多数据流(Single Instruction,Multiple Data,SIMD)矢量功能整合到英特尔 处理器中。英特尔 SSE 技术刚推出时,提供了 128位寄存器和 SIMD 指令,可同时处理多达 4 个 32 位数据元素,大大加快了相关操作的处理速度。在此之后,英特尔 AVX 指令集和英特尔 AVX 2 指令集又将寄存器宽度扩展了一倍,使相关操作的处理性能实现近乎翻倍的提升。如今,英特尔 AVX 512 指令集将矢量计算性能提升至新高度,寄存器的宽度和数量又在英特尔 AVX 指令集和英特尔 AVX 2 指令集的基础上扩展了一倍,寄存器已由最初的 64 位升级到了 512 位,且具备两个 512 位的 FMA 单元,这意味着应用程序可同时执行 32 次双精度、64 次单精度浮点运算,或操作八个 64 位和十六个 32 位整数。英特尔 至强 可扩展处理器可支持多种工作负载。英特尔 AVX-512 指令集通过矢量化性能提升,使更大数据集上的运算速度更快,满足包括科学计算在内的严苛计算任务的性能提升。例如在 OpenFOAM 在运行时,每个内核同时使用两个矢量处理单元(其中每个单元能同时处理 16 个单精度(32 位)或 8 个双精度(64 位)的浮点数)。图 4-1 英特尔 SSE、英特尔 AVX2 和英特尔 AVX-512 之间的寄存器大小和计算效率的差异说明英特尔 数据流 SIMD 扩展指令集英特尔 高级矢量扩展128 位寄存器256 位寄存器512 位寄存器英特尔 高级矢量扩展 2英特尔 高级矢量扩展 5125554英特尔中国科学计算实战手册产品技术篇英特尔中国科学计算实战手册产品技术篇英特尔 oneAPI 工具套件英特尔 oneAPI 工具套件是基于新一代标准的英特尔软件开发工具,用于跨各种架构构建和部署以数据为中心的高性能的应用程序。它能够通过充分利用一流的硬件特性加速计算进程,并全面兼容现有的编程模型和代码库,可确保开发者已经编写的应用能够在 oneAPI 上无缝运行。此外,开发者只需一个代码库,便可以将应用轻松迁移到新系统和加速器上,大幅缩短了迁移时间,减轻了迁移工作量。通过英特尔 oneAPI 工具套件,开发者能够使用一种通用、开放且基于行业标准的编程模型访问英特尔 CPU/GPU/FPGA。这不仅能够释放底层硬件的性能潜力,同时能降低软件开发和维护成本,并且在部署加速计算方面,英特尔 oneAPI 工具套件与专用的、受限于特定厂商的方案相比风险更低。英特尔 oneAPI 工具套件充分利用了先进的硬件性能和指令,如用于 CPU 的英特尔 AVX-512 和英特尔 DL Boost,以及 XPU 独有的功能。英特尔 oneAPI 工具套件基于经受过长久考验的英特尔开发者工具,为开发者提供熟悉的编程语言和标准,同时与现有代码保持完全的连续性,其包括英特尔 oneAPI Base 工具包、英特尔 oneAPI AI Analytics 工具包、英特尔 oneAPI HPC 工具包及 OpenVINO 工具套件等不同工具。图 4-2 英特尔 oneAPI 工具套件架构图 4-3 英特尔 oneAPI HPC 工具包英特尔 oneAPI HPC 工具包 HPC 是人工智能、机器学习和深度学习应用的核心。英特尔 oneAPI HPC 工具包利用矢量化、多线程、多节点并行化和内存优化方面的最新技术,为开发人员提供了构建、分析、优化和扩展科学计算应用所需的工具。该工具包是英特尔 oneAPI Base 工具包的附加组件,需要使用英特尔 oneAPI Base 工具包才能实现全部功能。它包括功能强大的以数据为中心的库、高级分析工具以及面英特尔 Python 发行版,用于为核心的 Python 数值,科学和机器学习软件包提供准原生代码级性能。访问链接了解更多英特尔 oneAPI 工具套件详情https:/ MPI 库详情https:/ oneAPI 工具套件详情应用工作负载需要多样化硬件中间件与框架.兼容性工具语言函数库分析与调试工具英特尔 oneAPI Product底层硬件接口XPUsCPUGPUFPGAIntel oneAPI Tools for HPCAPI-Based ProgrammingDirect ProgrammingAnalysis&debug ToolsIntel Base&HPC ToolkitsIntel oneAPI HPCToolkit Intel oneAPI BaseToolkitIntel MPI LibraryIntel C CompilerClassicIntel InspectorIntel oneAPI DPC LibraryoneDPLIntel Fortran Compiler(Beta)Intel Trace Analyzer&CollectorIntel oneAPI Math Kernel Library-oneMKLIntel oneAPI DPC /C CompilerIntel Cluster CheckerIntel oneAPI Data Analytics Library-oneDALIntel DPC Compatibility ToolIntel oneAPI Threading Building Blocks-oneTBBIntel oneAPI Video Processing Library-oneVPLIntel oneAPI Collective Communications Library oneCCLIntel oneAPI Deep Neural Network Library-oneDNNIntel Distribution for PythonIntel FPGA Add-on for oneAPI Base ToolkitIntel Integrated Performance Primitives Intel IPPIntel VTune ProfilerIntel AdvisorIntel Distribution for GDBIntel Fortran CompilerClassic英特尔 MPI 库英特尔 MPI 库是一个多结构消息传递库,实现了开源 MPICH 规范。使用该库可以创建、维护和测试高级、复杂的应用程序,使其在基于英特尔 处理器和兼容处理器的科学计算集群上运行得更好。即:开发可在互连的多集群上运行的应用程序,用户可在启动时予以选择。无需更改软件或运行环境,即可快速为最终用户提供更高性能。通过自动调整实现更佳时延、带宽和可扩展性。通过库链接并部署到最新的优化结构上,缩短产品上市时间。英特尔 MPI 库特性:支持 OpenFabrics 接口(OFI):该优化框架为 HPC 应用提供通信服务。主要组件包括众多 API、provider 库、Kernel 服务、守护程序和测试应用。独立互联:该库为通过 OFI 进行快速互联提供了一个经加速的,通用的多结构层,包括这些配置:传输控制协议(TCP)套接字 共享内存 基于远程直接内存访问(RDMA)的互连,包括以太网和 InfiniBand为此,它只在需要时动态建立连接,从而减少了内存占用。它还会自动选择可用的最快传输方式。开发独立于结构的 MPI 代码,知道它将在运行时选择的任何网络上高效运行。使用两阶段通信缓冲区放大功能,只分配所需的内存空间。可扩展性:该库在多个结构上实现了高性能 MPI 3.1 标准,使得用户无需对软件或操作系统进行重大修改,就能快速提供更高的应用性能(即使用户更换或升级到新的互连)。线程安全允许用户跟踪混合多线程 MPI 应用程序,从而在多核和众核英特尔 架构上实现更佳性能。mpiexec.hydra 进程管理器提高了启动可扩展性,包括:内置云服务支持,包括 Amazon Web Services,Microsoft Azure,以及 Google 云平台应用程序二进制接口兼容性:应用程序二进制接口(ABI)是两个程序模块之间的底层纽带。它决定了函数的调用方式,以及数据类型的大小、布局和对齐方式。有了 ABI 兼容性,应用程序就能遵守同一套运行时命名约定。英特尔 MPI 库提供与现有 MPI-1.x 和 MPI-2.x 应用程序的 ABI 兼容性。因此,即使用户还没有准备好迁移到新的 3.1 标准,也可以通过使用该库的运行时来提高性能,而无需重新编译。性能和调优实用程序英特尔 MPI 基准测试是一套 MPI 性能测量工具,用于测量各种报文大小的点对点和全局通信操作。运行所有支持的基准测试,或在命令行中指定单个可执行文件,可获得特定子集的结果。通过基准测试结果,使用者可获知:集群及节点的性能 网络延迟和吞吐量 MPI 执行效率该库有一套强大的默认参数,用户可以按原样使用,也可以对其进行改进以确保更高性能。如果要调整默认参数之外的参数,可使用 mpitune 调整集群或应用程序参数,然后反复调整和微调参数,直到达到更加性能。图:MPI 调优流程示意图扫码了解更多英特尔 MPI 库详情5756英特尔中国科学计算实战手册产品技术篇英特尔中国科学计算实战手册产品技术篇英特尔 oneAPI 数学内核库(oneMKL)基于 LLVM 的英特尔 编译器oneMKL 是高度优化、快速、完整的数学函数库,常用于科学、工程和金融应用。oneMKL 定义了一套用于科学计算和其他应用的基本数学程序。作为 oneAPI 的一部分,oneMKL 允许在包括CPU、GPU、FPGA 和其他加速器等各种计算设备上运行。oneMKL能够加快数学处理程序,提高应用性能,并减少开发时间,其具备如下特点:增强的数学程序使开发人员和数据科学家能够创建高性能的科学、工程或金融应用程序;核心功能包括 BLAS、LAPACK、稀疏求解器、快速傅里叶变换(FFT)、随机数生成器功能(RNG)、汇总统计、数据拟合和矢量数学;针对下一代 CPU 和 GPU 进行了额外矩阵乘法优化;同时,增加了 CUDA 库函数 API 对 BLAS、LAPACK、稀疏 BLAS、作为一个开源的编译器框架,LLVM(Low Level Virtual Machine,底层虚拟机)已成为许多行业标准商业编译器的基础,其具有编译时间更短、移植性和灵活性更强、更便于优化和维护等优势。英特尔对 LLVM 也有着良好的支持,在英特尔 oneAPI 中,已基于 LLVM 提供了英特尔 oneAPI DPC /C 编译器和英特尔 Fortran 编译器(ifx)两个产品。其中:英特尔 oneAPI DPC /C 编译器可用于为 CPU、GPU、FPGA 和其他加速硬件编译数据并行 C 代码。编译器同时支持 Windows 和 Linux 操作系统。其构建在 LLVM 上,并使用 Clang 前端、SYCL 2020 标准通过同一源文件支持 C 和OpenCL 内核。英特尔 Fortran 编译器(ifx)是一个使用 LLVM 后端编译器技术的 Fortran 编译器,但其基于英特尔 Fortran 编译器经典版扫码了解更多英特尔 oneAPI 数学内核库(oneMKL)详情扫码了解更多基于 LVMM 的英特尔 编译器详情向量数学、汇总统计、样条等的兼容覆盖,简化了代码向oneAPI 和英特尔 GPU 的迁移。支持第四代英特尔 至强 可扩展处理器的英特尔 AMX bfloat16 数据类型和英英特尔 AVX-512 bfloat16 数据类型。对于以前的英特尔 数学内核库(Intel MKL)用户来说,是一种无缝升级。(ifort)前端和运行库。其有一个基本模式,支持 Fortran 77、高达 Fortran 95 的语言标准,以及 Fortran 2003 到 Fortran 2018 中的大多数功能。它还支持 OpenMP 5.0/5.1 和 OpenMP 4.5 卸载功能和指令。更多英特尔 oneAPI DPC /C 编译器和英特尔 Fortran 编译器(ifx),请参阅接下来的章节。英特尔 oneAPI DPC /C 编译器英特尔 oneAPI DPC /C 编译器能够为面向未来的编程模式提供自由选择。使用 DPC /C 编译器,用户可以实现:编译 ISO C 和 SYCL(来自 Khronos 集团)跨硬件平台复用代码,包括 CPU、GPU 和 FPGA。采用跨行业、开放式、基于标准的统一编程模型,避免专利锁定。实现所有硬件价值 从行业领先的英特尔 编译器技术中获得卓越性能。生成优化的二进制主机代码和加速器代码。使用经优化的英特尔 oneAPI 性能和线程库。快速、正确地开发高性能代码 与流行的第三方编译器、开发环境和操作系统无缝集成。使用最新的标准,包括用于 GPU 卸载的 C 20、SYCL 和 OpenMP*5.0 和 5.1。使用英特尔 C 编译器 classic 版,与现有的以 CPU 为核心的工作流程保持兼容英特尔 oneAPI DPC /C 编译器特性跨架构编译 开发效率:基于单一源代码对 CPU 和加速器进行编译,同时允许自定义调优 语言标准支持:按照最新标准构建,包括 C 17 和 SYCL(仅适用于英特尔 oneAPI DPC /C 编译器),并支持 C 20,以确保可迁移性,同时支持通用 lambda 表达式和变量模板等功能;支持行业标准:支持用于 GPU 卸载的 OpenMP 4.5、5.0 和 5.1 子集。可信技术:使用久经考验,与英特尔在编译器领域同具领先地位的 LLVM 编译器技术。扫码了解更多英特尔 oneAPI DPC 编译器详情访问链接了解更多英特尔 oneAPI 数学内核库(oneMKL)详情https:/ 访问链接了解更多英特尔 oneAPI DPC 编译器详情https:/ LVMM 的英特尔 编译器详情https:/ Fortran 编译器英特尔 Fortran 编译器在生成支持行业标准的优化代码方面有着悠久的历史,充分利用了英特尔 至强 可扩展处理器和英特尔 酷睿 处理器的内置技术。该编译器有两个版本,分别为能够提供 CPU 和 GPU 卸载支持的英特尔 Fortran 编译器(ifx)和与现有的以 CPU 为核心的工作流程保持一致的英特尔 Fortran 编译器经典版(ifort),两个版本均可与流行的第三方编译器、开发环境和操作系统无缝集成。为了与英特尔不断发展的多样化架构保持一致,该编译器现在还支持图形处理器。使用这个支持 OpenMP 且基于标准的 Fortran 编译器可实现 CPU 和 GPU 分载。英特尔 Fortran 编译器(ifx)基于英特尔 Fortran 编译器经典版(ifort)前端和运行库,但使用了 LLVM 后端编译器技术。ifx 兼容二进制文件(.o/.obj)和模块文件(.mod)。用 ifort 生成的扫码了解更多英特尔 Fortran 编译器详情二进制文件和库可与用 ifx 生成的二进制文件和库链接,用一种编译器生成的.mod 文件可用于另一种编译器(仅限 64 位目标)。两种编译器使用相同的运行时库。ifx 的性能可能与 ifort 编译的应用程序相当,也可能不相当。在整个 2023 年,ifx 的性能将随着每次更新版本的发布而提高。英特尔 Trace Analyzer and Collector(ITAC)英特尔 跟踪分析器和收集器(Intel Trace Analyzer and Collector,ITAC)是一款出色的工具,可帮助客户调试 MPI、消息传递接口应用程序:查找代码中的时间依赖性和瓶颈;检查应用程序的正确性;定位潜在的编程错误、缓冲区重叠以及死锁 可视化解析并行应用程序行为;评估统计和负载平衡;分析子程序或代码块的性能;了解通信模式、参数和性能数据;识别通信热点;缩短解决问题的时间,提高程序应用效率。扫码了解更多英特尔 跟踪分析器和收集器详情英特尔 vTune Profiler英特尔 VTune Profiler 可面向科学计算、云、物联网、媒体、存储等工作负载,针对应用性能、系统性能和系统配置等进行优化。CPU、GPU 和 FPGA:针对整个应用的性能进行调优,而不仅仅是加速部分。多语言:支持 SYCL、C、C 、C#、Fortran、OpenCL 代码、Python、Google Go 编程语言、Java、.NET、Assembly 或任何语言组合的配置文件。系统或应用程序:持续获取粗粒度系统数据或映射到源代码的详细结果。功率:优化性能,同时避免功率和热相关节流。英特尔 VTune Profiler 特性算法优化 查找热点-代码中最耗时的部分。使用 Flame Graph 可视化查看热点代码路径和每个函数及其调用所花费的时间。微架构和内存瓶颈 通过微架构探索分析,找出影响应用程序性能的最关键的硬件问题。针对内存访问相关的问题,如缓存未命中和高带宽问题。加速器和 XPU 针对 SYCL、OpenCL 代码、Microsoft DirectX 或 OpenMP,为 GPU 卸载模式和数据传输提供优化。分析 GPU 绑定代码,找出因微架构限制或低效内核算法造成的性能瓶颈。探索 CPU 与 FPGA 的交互以及 FPGA 的使用。扫码了解更多英特尔 VTune Profiler 编译器详情并行性 检查代码线程化的效率,确定影响性能的线程问题。评估计算密集型或吞吐量大的科学计算应用程序,以确保高效使用 CPU、矢量化和内存。平台和 I/O 找出 I/O 密集型应用的性能瓶颈。了解硬件如何有效处理外部 PCIe 设备或集成加速器产生的 I/O 流量。利用 Platform Profiler 查看长期运行工作负载的系统运行状态。利用“系统概述”对短期运行的工作负载进行细粒度概述。多节点 描述 MPI 和 OpenMP 工作负载的性能。明确可扩展性问题,并提供深入分析和建议。访问链接了解更多英特尔 Fortran 编译器详情https:/ VTune Profiler 编译器详情https:/ 访问链接了解更多英特尔 跟踪分析器和收集器详情https:/ multigridApplication Binary InterfaceArtificial IntelligenceBasic Linear Algebra SubprogramsBurrows-Wheeler AlignerCluster File SystemCompound Annual Growth RateComputational Fluid DynamicsCompute Express LinkComputer Aided EngineeringCryo-electron MicroscopyDensity Functional TheoryDouble-precisionDual Inline Memory ModuleFast Fourier transformFastest Fourier Transform in the westFinite Element AnalysisFlat Memory RegionGaussian EliminationGauss-SeidelGenomic Analysis ToolkitHigh Bandwidth MemoryHigh Performance Conjugate GradientHigh Performance LinpackHigh Rank CountHigh-throughput SequencingInstruction Set ArchitectureIntel C CompilerIntel Advanced Matrix ExtensionsIntel Advanced Vector ExtensionsIntel Advanced Vector Extensions 512Intel BranchIntel Crypto AccelerationIntel Data Streaming AcceleratorIntel Dynamic Load BalancerIntel Embedded Multi-Die Interconnect BridgeIntel ForkIntel Hyper-Threading TechnologyIntel Infrastructure Processing UnitIntel In-Memory Analytics AcceleratorAMGABIAIBLASBWACFSCAGRCFDCXLCAECryo-EMDFTDIMMFFTFFTwFEAGATKHBMHPCGHPLHTSISAICCIntel AMXIntel AVXIntel AVX-512Intel DSAIntel DLBIntel EMIBIntel IPUIntel IAA代数多重网格应用程序二进制接口人工智能基础线性代数子程序库集群文件系统年复合增长率计算流体动力学计算机辅助工程冷冻电子显微镜密度泛函理论双精度双列直插内存模块快速傅里叶变换有限元分析平面内存区域高斯消元法高斯-塞德尔基因组分析工具套件高带宽内存高性能共轭梯度高性能 Linpack高秩计数高通量测序指令集架构英特尔 C 编译器英特尔 高级矩阵扩展英特尔 高级矢量扩展英特尔 高级矢量扩展 512英特尔 分支英特尔 密码操作硬件加速英特尔 数据流加速器英特尔 动态负载均衡器英特尔 嵌入式多芯片互连桥接英特尔 分叉英特尔 超线程技术英特尔 IPU英特尔 存内分析加速器Intel QuickAssist TechnologyIntel Speed Select TechnologyIntel System Configuration UtilityIntel Threading Building BlocksIntel Turbo Boost TechnologyIntel Ultra Path InterconnectIntel Virtual RAID on CPUJava Runtime EnvironmentLarge-scale Atomic/Molecular Massively Parallel SimulatorLinear System PackageLong-Range ThreadLow Level Virtual MachineLow Rank CountMolecular DynamicsMolecular Systems with Long-range ElectrostaticsNAnoscale Molecular DynamicsNon Uniform Memory AccessOpen source Field Operation And ManipulationParticle Particle-Particle MeshPreconditioned Conjugate GradientProjector Augmented WaveRandom Number GeneratorRemote Direct Memory AccessReturn on InvestmentSingle Instruction Multiple DataSingle-precisionSmootherSocketSolid State DiskSparse Matrix-Vector MultiplicationSparse triangular solveSub-Numa ClusterSymmetric Gauss-Seidel smootherTool Command LanguageTotal Rank CountTransmission Control ProtocolTransparent Huge PagesUltrasoft Vanderbilt PseudopotentialsVienna Ab-Initio Simulation PackageIntel QATIntel SSTIntel TBBIntel UPIIntel VROCJRELAMMPSLinpack LRTLLVMMDNAMDNUMAOpenFOAMPPPMPCGPAWRNGRDMAROISIMDSSDSpMVTRSVSNCSYMGSTCLTCPTHPUS-PPVASP英特尔 数据保护与压缩加速技术英特尔 SST英特尔 系统配置实用程序英特尔 线程构建模块库英特尔 睿频加速技术英特尔 超级通道互联英特尔 VROCJava 运行环境大规模原子分子并行模拟器线性系统软件包长线程底层虚拟机低秩计数分子动力学长距离静电分子系统非一致性内存访问质点-质点-质点-网格预处理共轭梯度投影缀加波随机数生成器远程直接内存访问投资回报率单指令多数据单精度平滑器处理器插槽固态盘稀疏矩阵向量乘法稀疏三角形解Sub-Numa 集群对称高斯-塞德尔平滑器工具命令语言总秩计数传输控制协议透明大页超软赝势免责声明:性能测试中使用的软件和工作负荷可能仅在英特尔微处理器上进行了性能优化。诸如 SYSmark 和 MobileMark 等测试均系基于特定计算机系统、硬件、软件、操作系统及功能。上述任何要素的变动都有可能导致测试结果的变化。请参考其他信息及性能测试(包括结合其他产品使用时的运行性能)以对目标产品进行全面评估。更多信息,详见 。优化声明:英特尔编译器针对英特尔微处理器的优化程度可能与针对非英特尔微处理器的优化程度不同。这些优化包括 SSE2、SSE3 和 SSSE3 指令集和其他优化。对于非英特尔微处理器上的任何优化是否存在、其功能或效力,英特尔不做任何保证。本产品中取决于微处理器的优化是针对英特尔微处理器。不具体针对英特尔微架构的特定优化为英特尔微处理器保留。请参考适用的产品用户与参考指南,获取有关本声明中具体指令集的更多信息。没有任何产品或组件是绝对安全的。描述的成本降低情景均旨在在特定情况和配置中举例说明特定英特尔产品如何影响未来成本并提供成本节约。情况均不同。英特尔不保证任何成本或成本降低。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。扫码访问英特尔官网 了解更多英特尔在科学计算领域的技术实践扫码下载 英特尔中国科学计算实战手册64英特尔中国科学计算实战手册趋势篇英特尔、英特尔标识以及其他英特尔商标是英特尔公司或其子公司在美国和/或其他国家的商标。英特尔公司版权所有。

    浏览量0人已浏览 发布时间2023-10-19 33页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 新华三:企业云计算解决方案与精品案例(46页).pdf

    解 决 方 案 与 精 品 案 例专刊新华三集团杭州总部杭州市滨江区长河路466号邮编:Copyright 2021新华三集团 保留一切权利CN--BR-SD-V1.0免责声明:虽然新华三集团试图在本资料中提供准确的信息,但不保证本资料的内容不含有技术性误差或印刷性错误,为此新华三集团对本资料中信息的准确性不承担任何责任。新华三集团保留在没有任何通知或提示的情况下对本资料的内容进行修改的权利。05|12|24|32|39|01|同构混合云:兼收并蓄,再造云上创新价值企业私有云:为用户构建更值得信赖的数字底座企业公有云:为企业变革而生,让算力与价值触手可得企业云运营:全面实力,助力用户建好云、管好云、用好云企业云原生:加速应用敏捷交付,引领云与业务融合共生哈佛商业评论中文版执行出品人齐馨:云端再造,激发企业的数字能量53|56|58|61|63|65|68|71|73|75|77|79|81|83|85|87|中国建筑集团云华润集团云中国中铁集团云中国海油集团云国家电网调控云中国铝业集团云中国通用集团云中国建设科技集团云首钢集团云中冶赛迪云中海地产云山东黄金云湖北中烟云安阳钢铁云某粮食集团视频云展锐芯片云精品案例篇contents解决方案篇大咖观点大咖观点云端再造,激发企业的数字能量当企业开始数字化转型之旅时,往往会不约而同的从引入数字化的技术、工具、软件、硬件开始。但随着数字化的推进,企业发现仅有技术解决不了数字化的问题,因为技术仅仅是生产工具,企业还需为技术供给更多生产资料,也就是数据。其实,企业拥有大量数据,但他们掩藏在各个部门的主机当中,很难被应用,更别说与其他数据的共融共通。这时,“上云”的价值凸显出来。但对于绝大部分企业来说,上云是一件艰巨的工程,因为它不仅仅需要从外部引入资源,更需要进行大规模的内部架构调整、内部资源的重新分配。尤其对于那些大型企业来说,他们更需要上云去整合散落在各个业务部门、各个地域的数据资源,从而真正唤醒数字化的能量;但同时,内部复杂的体系架构,沿革已久的组织模式,成为数据资源开放上云的一大障碍。如何才能改变这种掣肘的状态?我们可以从战略思维和实施手段两个层面进行分析。从信息化到数字化哈佛商业评论中文版执行出品人齐馨从战略思维上看,企业需要将“流程信息化”思维改为“数字化再造”思维。在上云的早期阶段,常见的思路是将信息化时代的传统业务平滑的迁移向云空间,把云简单的理解为更加廉价的算力空间。而现在,经历了过去两年间大规模的数字化基础建设,许多企业在数字化建设的进程中发现,数字商业的运行逻辑与传统信息化不尽相同,单纯“迁移”已有的业务架构并不能满足数字化创新的需求,真正的数字化不仅停留在迁移、复制,还需要在云端建立起一套符合数字化逻辑的经营与管理体系,实现“数字再造”。实际上,从我们对众多企业的走访中不难发现,上云、数字化的过程,往往也是企业重新梳理用户需求、业务架构、运营流程的过程,是打破原有筒状、封闭组织体系、变得更加开放、灵活的开端。你即将展开的这本企业云计算解决方案与精品案例中记录了许多企业的创新尝试,或许能为你开拓思路。譬如,我们曾在新华三的引荐下走访中国中铁集团,在那里,我们看到的一片基于云技术的,热火朝天的数字化创新图景:随手一扫高铁桥墩上的二维码,有关桥墩的详细信息就会立刻出现在手机屏幕上;在施从云技术到云生态从实施手段上看,企业可以特别注意的一个概念是“同构混合云”。顾名思义,“同构混合云”指私有云和公有云采用同一个厂商的同一云技术栈来实现,私有云部分采用一次性购置和自我运维的纯私有化方式建设,公有云则是直接采购公有云服务的方式建设,整个同构混合云的云管理平台部署在私有云内,所以从技术上看是私有云管理公有云,是私有云向公有云的延伸。这对于企业高效的建设云端大脑显然带来了不小的便利。当然,我们并不是想在这里宣传最新的技术,也需要解析技术进步背后的商业思考。简单来看,“同构”意味着企业构建统一的云底座,基于同样的平台、架构进行数字化建设、数字化组织的管理与应用的开发。这意味着,企业在上云的过程中,需要的不仅仅是一个技术供应商,而是真正的生态合作伙伴,它能够成为企业数字价值生态中的有机组成部分,解决数字化建设中面临的各种问题,提供综合的支持方案。而在与众多企业面对面交流的过程中,我们也发现,许多企业十分渴望拥有这样的生态合作伙伴。目前,很多企业的数字化建设仍处于探索阶段,他们对于如何进行云端建设并没有清晰的概念和成型的方案,往往需要与技术合作伙伴共同摸索前行,形成适合本行业、本企业的定制规划。因此,他们会综合考量合作伙伴的技术能力、行业洞察能力、服务能力等等,希望真正找到能够帮助自己打造数字能力底层,构建智慧云端大脑的同路人。而这也是新华三这样综合能力强的企业能够获得千行百业青睐的原因。在这样的企业云高速进化的背景下,我们欣喜的看到这本企业云计算解决方案与精品案例的推出,它将用更多解决方案、更多企业实践应用案例,给企业的云端数字化建设提供更多具体的指导,也希望更多企业,能够从中得到启发,走上云端,走进数字商业时代,更好的在云端搭建数字化的核心枢纽,更快的跨进数字化增长的新阶段。工现场拿起手机拍张照片上传,现场发现的任何安全生产质量问题都将被快速传递回总部,进行应急处理并指导后续流程的改善 但最初,中国中铁在上云的过程中也面临许多大企业普遍面临的痛点:缺少标准化、企业内部存在数据孤岛、系统之间无法联动 为此,中国中铁重新进行顶层设计,并引入外部技术支撑,以30%的技术能力创新,70%的管理变革,支撑企业高速再造、转型。专刊解 决 方 案 与 精 品 案 例01/02云端再造05|12|24|32|39|同构混合云:兼收并蓄,再造云上创新价值企业私有云:为用户构建更值得信赖的数字底座企业公有云:为企业变革而生,让算力与价值触手可得企业云运营:全面实力,助力用户建好云、管好云、用好云企业云原生:加速应用敏捷交付,引领云与业务融合共生解决方案篇专刊解 决 方 案 与 精 品 案 例第一篇章 同构混合云兼收并蓄 再造云上创新价值陈华|新华三集团企业事业部技术部长云计算历经数十年的发展与革新,公有云和私有云分别在各自的领域中展现了独具一格的价值。公有云让更多企业以更简单的方式得到了弹性扩展、灵活高效的算力资源,而私有云则用更加稳定和安全的方式,实现了政企行业内部数字资源的协同共享。面对行业数字化转型的进一步深化,云计算创新与变革的关注点,就是如何融合公有云和私有云的独特优势,构建起创新性和稳定性兼备的一朵云。在过去的一段时间内,混合云曾扮演起了整合敏态业务和稳态业务的平台角色,但异构混合云差异化的底层架构,也带来了资源共享、数据共治、应用协同等方面的挑战。为了能够让数据与业务真正在公有云和私有云之间自由共享、协同共生,紫光云与智能事业群在2021年实现了紫光同构混合云的全新升级,为“数字大脑”构建了新的核心引擎,其中最重要的升级,就是提供了“同构混合云”的新交付模式,以同构、同技术栈融合公有云和私有云的优势,释放云的价值。在实现架构、应用、服务和体验的统一的基础上,紫光云将以紫鸾平台构建必不可少的云基础管理运营能力,实现“管理一平台、应用一架构、SDN一张网、安全一策略”打造出架构统一、无界混合、极简运营、一致体验的同构混合云;以绿洲平台推动数据运营、应用开发、融合集成,简化应用的开发部署,助力百行百业的数字化转型。数字经济正席卷全球,带动经济社会迈入新时代。数字技术正以势不可挡的速度与实体经济进行深度融合,快速重构了生产要素的供给方式,实现了社会生产力的新一轮变革,为社会经济的发展提供了新的动力源泉。在未来十年,数字技术决定着企业的未来,数字化转型已经成为企业向前发展的必然。“工欲善其事必先利其器”,企业要实现数字化转型,不但要有意识、战略、文化和组织的保障,还要依托新一代的数字技术实现具体落地。通过互联网、物联网连接人和物,做到全量的数据采集,再通过云计算提供的超级弹性存算能力对海量数据进行处理,最后通过大数据、人工智能的方法对数据进行分析和价值转化,已经成为企业数字化转型技术层面的基本模式。这些技术各有分工,网络就像“神经”系统,云计算则在其中扮演着“物理大脑”的角色,而大数据AI则是“智慧”应用的关键。从中可以看出,云计算是整个数字化路径上的中心枢纽,在企业数字化转型过程中起着中流砥柱的作用。(一)云计算在企业数字化转型中的作用Cloud First数字化转型的基础数字化工业互联网消费互联网人工智能大数据人产生的数据物产生的数据决策现在预测未来数据链打通价值转化智能化全联接专 家 观 点解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例05/06解决方案篇云计算是企业数字化的重要支撑底座,是企业打造“数字大脑”的关键,但是具体采用哪种云技术又是摆在企业面前的一道难题。云计算技术从模式上主要分为两类,公有云、私有云。其中,公有云具备高弹性、按需付费的能力,但是在数据安全和自主可控方面总是让用户存在顾虑;私有云则是有很高的数据安全和自主可控性,但是面向需要资源高度弹性的业务,往往会拉高私有云建设成本。混合云技术的优势已经十分明显,但是混合云在国内的推广仍然受到很大限制,这是因为传统混合云技术自身的实现其实存在着一个很难解决的问题,就是与异构云的对接问题。传统混合云方案的特点是通过一套CMP(多云管理平台)管理多朵不同厂商的云,从而发挥各家厂商的优势,我们把这种混合云称为“异构混合云”。异构混合云面临的核心问题就是必须与不同厂商的不同技术和产品进行对接,由于中国的云厂商众多、产品能力参差不齐,而且又由于用户需求也是千变万化的,所以导致目前没有任何一款标准化的CMP软件可以对接所有的云厂商,满足所有用户的需求。一般情况下,用户在建设混合云平台的时候,只能按照自己的需要定制开发CMP平台。CMP的定制开发只能基于云厂商对外开放的API,这些API往往又十分有限,所以很难实现深层次功能的对接,另外,就算有API,那么还要把不同的技术统一起来也是很复杂的,最终,用户花了很大的成本,得到的结果往往差强人意,很难真正达到用户的期望状态。为了解决“异构混合云”的落地难问题,紫光集团提出“同构混合云”技术方案。“同构混合云”顾名思义,就是指私有云和公有云采用同一个厂商的同一云技术栈来实现。同构混合云私有云部分采用一次性购置和自我运维的方式建设,公有云则是直接购买紫光公有云服务的方式,整个同构混合云的云管理平台部署在私有云内,所以是私有云向公有云的延伸。而公有云 专有云的形态,则更多的是公有云管理专有云,是公有云向私有云的延伸,两者的区别就在于此。“同构混合云”管理平台都是同一技术栈的,所以可以十分方便、低成本的实现多朵云的统一管理,真正让资源在私有云和公有云之间快速切换,发挥出混合云的最大优势。为了解决上述问题,又衍生出现了两种云模式。一种,是公有云厂商提出的专有云技术,专有云是指公有云厂商把云资源部署在用户自己的机房,以此来保证数据的安全性,但是公有云的弹性成本优势也随着本地化部署而消失。而且由于专有云是基于公有云的版本,其架构本身就比较庞大复杂,所以一般只能由云厂商进行远程运维,而且专有云和公有云需要联通,专有云在管理层面可以看成是公有云的一个可用域,所以数据安全性隐患并没有彻底得到解决。另外一种模式,就是混合云技术。企业建设多朵云,一部分业务可以部署在公有云,另外一部分业务则部署在私有云,然后通过一个统一的云管理平台对所有云资源进行拉通管理,最终形成混合云方案。混合云的优势,是既兼顾了私有云在数据安全方面的天然优势,又可以利用公有云的资源来满足高弹性业务的需求,从而降低企业在云建设方面的总体投资。可以说,混合云技术兼众家之长、而避众家之短,其技术优势明显,目前也逐渐得到更多企业的认可,成为企业云建设模式的首选。(二)企业上云模式的选择轻资产、按需付费、节省高弹性业务的部署成本海量资源、建设周期短,随需随用运维托管、节省用户运维成本用户自主可控弱,数据有安全隐患公有云架构封闭、不开放不兼容公有云架构统一、无法个性化公有云架构复杂、无法自行运维优点缺点公有云裁剪版、有大部分公有云能力、免运维、按服务付费、可实现轻资产本地化部署、有部分私有云能力、有部分自主可控能力、但无法个性化公有云外挂的可用域、继承公有云的所有缺点、不能完全自主可控本地化部署、继承部分私有云缺点、无法满足高弹性业务需求、建设周期长优点缺点用户拥有所有资产、完全自主可控云平台采用轻量化架构、用户可以自行运维、掌握核心能力兼容异构资源、可利旧、不被锁定建设周期长、一次性采购成本高(但总体拥有成本不一定高)满足高弹性业务的成本高面向流程审批、运营计费能力稍差优点缺点公有云专有云私有云没有云计算应用41.4%公有云36.4%数据来源:中国信息通讯研究院2019白皮书混合云8.1%私有云14.1%有云计算应用58.6%计世资讯2019-2020年中国混合云市场现状与发展趋势研究报告预测,未来混合云市场将快速扩张,预计2024年其市场规模将达到892.9亿元,年复合增长率为35.3%,是云计算市场重要的一极。从渗透率来看,2019年中国企业采用混合云的比例仅为8.1%,与当年全球企业58%的使用率相比存在显著差距。公有云外挂可用域,统一云厂商,多云管理复杂度低公有云向私有云延伸有公有云的所有优缺点同构云管平台同构混合云管平台异构混合云管平台A公有云A专有云A专有云B私有云B私有云B公有云A私有云B专有云C公有云同构混合,统一云厂商,多云管理复杂度低私有云向公有云延伸完美融合私有云和公有云优势不同云厂商产品,需外置CMP平台,对接的定制开发成本极高多云管理复杂度最高,落地困难可以利用多厂商优势,但对接难解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例07/08解决方案篇紫光同构混合云从底层实现了架构统一,产品和服务目录的融合,通过“四个一”的理念,实现多云统一管理,网络智能编排,应用统一支撑,安全多维保障。提升用户建云、上云、用云体验。(1)管理一平台一套云管平台实现对公有云、私有云(单中心、多中心、多级)、边缘云的集中统一管理,通过用户鉴权和分权分域保障各租户安全隔离,充分享用云上服务;同时结合用户对于安全合规和运维管理等实际诉求,提供公有云管理私有云资源(云上统一管理)和私有云管理公有云资源(云下统一管理)两种能力,提升管理效率,增强云间协同能力、资源跨云共享。(2)应用一架构同构混合云提供统一的容器、微服务、数据库&中间件以及DevOps等PaaS平台和服务组件能力,向上可融合承载绿洲数据中台,统一应用架构、数据模型和API接口,促进应用敏捷迭代和数据价值挖掘,保障用户应用跨云部署无障碍,避免重复开发和配置,加速应用云原生重构。(3)SDN一张网基于纯软SDN网络方案,解耦硬件网络设备,充分利旧现网资源,提升了网络虚拟化的灵活性和敏捷性,以统一的SDN控制器实现多Region、多AZ一张逻辑的Overlay网络,降低多云组网的管理复杂度,实现了资源灵活调度和统筹管理。(1)统一架构公有云、私有云一致的技术底座,支持超大规模资源池节点的统一调度管理,支持云管平台平滑升级。(2)统一管理一个云平台管理多数据中心,管理更集中,避免部门之间资源割裂,使用分配不均衡,有利于云平台的整体规划和可持续建设。(3)统一运营提供统一的组织管理和用户管理功能,支持创建多级组织架构,匹配政企客户组织层级模式,支持对每个组织配置公有云和私有云的资源;支持对公有云和私有云的订单、计量、费用数据进行汇总查询及呈现。(4)统一运维同构混合云管理平台支持将公有云和私有云运维数据进行统一呈现,运维功能可以从云、资源池、组织、用户等维度,进行服务分析、性能分析、容量分析。提供多维度告警功能,支持设置告警条件、合并同类告警和发送告警功能,并提供多维度报表功能。(5)统一服务用户只需登录云服务控制台,即可同时管理和使用公有云和私有云提供的服务目录,无需多个账号分别登录每朵云。并且混合云平台可以提供丰富的云服务功能,包括IaaS层的计算、存紫光“同构混合云”解决方案是整合新华三私有云平台和紫光公有云平台的技术资源而来。紫光同构混合云基于新推出的“紫鸾3.0”平台,实现了公有云和私有云的技术整合,消除了多品牌混合云之间的异构性,并且能够帮助用户通过统一的管理平台对公有云、私有云及多个数据中心、边缘资源进行管理,从而极大提高工作效率,简化使用复杂度,降低了维护成本。(三)紫光同构混合云方案紫光同构混合云的技术优势包括八个统一:(四)紫光同构混合云的优势高效用云、按需使用,弹性灵活、技术统一、体验一致同构混合云架构统一一致体验极简运营无界混合灵活便捷、覆盖广泛公私兼顾、协同有序私有部署、边界清晰海量资源服务高级应用服务行业方案服务混合云管理平台混合云管理平台云服务紫鸾3.0云服务紫鸾3.0RegionRegionRegion公有云混合云私有云VPCVPCVPCVPCVPCVPC统一管理计算服务存储服务数据库服务网络服务监控服务安全服务运维服务运营服务容灾备份:实时复制、分钟级RTO,秒级RPO,按需购买弹性扩容:横向伸缩、节约成本;业务突增、快速扩容分云部署:线上开发、线下部署;线上训练、线下推理一致的API、一致的组件、一致的工具、一致的部署运营服务一致、管理服务一致、云服务目录一致、用户体验一致VPN、SD-WAN、运营商专线统一架构私有云技术能力一致服务体验一致公有云统一目录统一门户统一运营统一运维统一认证统一体系计算服务存储服务数据库服务网络服务监控服务安全服务运维服务运营服务混合云管理平台私有云数据中心公有云Region(4)安全一策略同构混合云解决方案提供跨云统一的安全服务目录和安全策略管理,保证公有云、私有云多维安全防护能力一致、跨云网络连接的安全可靠和数据加密,严格按照等保2.0要求设计安全架构,保障边界、网络、租户、主机、应用的层次化安全体系,客户可灵活编排安全策略并进行集中管理,智能防御,态势感知。解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例09/10解决方案篇紫光同构混合云解决方案基于同一技术架构的设计和服务理念,以客户业务为中心,提供丰富资源与场景化服务,充分结合私有云安全、自主可控和公有云海量资源、按需服务的双重优势,赋能企业数字化转型。(五)总结第二篇章 企业私有云为用户构建更值得信赖的数字底座新华三集团对于私有云的探索和实践,始于云计算仍处在发展初期的2008年,最初聚焦于IaaS层面虚拟化平台的构建。在2013年,新华三在服务企业数字化变革的进程中,更深入地认识到了转型背后云的价值,因此特别成立了“2013事业部”,聚焦云计算的前沿创新,志在为企业用户打造更具创新和实用性的云平台。此后,新华三相继服务于中海油、中建、中铁建等数字化转型的先行者,开创了政企行业云化转型的先河。在2020年,国家发改委、中央网信办启动了“上云用数赋智行动,提出“打造数据供应链,以数据流引领物资流、人才流、技术流、资金流,形成产业链上下游和跨行业融合的数字化生态体系”。在新华三集团看来,对于企业而言,私有云最核心的价值,就在于在打通数据孤岛、实现资源和数据共享共治的前提下,保障了企业运营的稳定和安全,为业务创新和转型提供统一模型。历经多年的探索和践行,新华三集团在服务企业私有云创新的过程中专注于企业的场景需求,积累了丰富的实践经验,依托自身的私有云的创新实力和广泛的产业生态,能够为企业用户提供长期可持续的服务,从咨询、设计、建设到运营和管理,新华三将一路伴随企业的变革和成长。未来,新华三将在技术持续革新、场景不断拓展的背景下进一步推动云与业务的深化融合,帮助企业实现降本增效的目标,开拓私有云释放价值的新方向。储、网络、安全与云灾备,PaaS层的容器服务、微服务、数据库服务、中间件服务、应用服务、大数据服务等20大类、400 服务产品与工具。(6)统一门户提供自服务门户、运营门户和运维门户,融合管理流程,根据用户角色授权访问路径,云上云下界面风格一致,服务目录设计一致,保证用户使用体验的一致和跨云零感知。(7)统一认证基于SAML标准和IAM用户管理鉴权,实现混合云的跨云的统一账户登录能力,私有云用户可以免登录访问紫光公有云,创建和使用紫光公有云服务。(8)统一API提供标准的北向API接口和参考文档,开放管理、运营、运维平台对接权限,方便用户进行二次开发和第三方系统对接。(1)建租并举、降本增效通过使用私有云向公有云场景的延伸,支撑业务扩展,建租并举,缩短业务上线时间,降低固定投资成本,提升整体数据中心及信息化基础设施的规划、建设、使用效率。(2)公私兼顾,快速部署云上资源灵活划拨,极速开通,支撑业务爆发性增长和突发流量访问,避免私有云建设周期过长带来的影响。(3)统一融合,便捷管理延续私有云的管理模式和体验,统一纳管公有云上资源与服务,统一运营,极简运维,降低客户学习成本和使用复杂度。(4)快速导入,服务扩展快速导入公有云丰富的高级服务能力,实现如AI、安全、物联网等服务以及行业生态解决方案的部署上线和一键交付。黄祁龙|新华三集团企业事业部技术部专家专 家 观 点解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例11/12解决方案篇企业私有云平台的整体架构设计如下图所示:企业私有云平台按照基础设施服务层、平台服务层、数据服务层、应用服务层进行纵向分层设计,辅以云平台标准规范、安全管理、运维管理、运营管理与容灾备份各个体系提供支撑。(1)物理层物理层包括运行所需的云计算中心机房运行环境,以及计算、存储、网络、安全等设备。云中心机房的部署按照分区设计,主要分为数据库区、业务应用区、存储区、系统管理区、网络出口区和安全缓冲区等区域。(2)资源抽象与控制层资源抽象与控制层通过虚拟化技术,负责对底层硬件资源进行抽象,对底层硬件故障进行屏蔽,统一调度计算、存储、网络、安全资源池。其核心是虚拟化内核,该内核提供主机CPU、内存、IO的虚拟化,通过共享文件系统保证云主机的迁移、HA集群和动态资源调度。同时在存储资源池的构建上,采用分布式存储,以满足存储扩展的需要。随着企业业务的高速增长,大量重复低价值的日常运维工作消耗了IT管理团队大量精力。同时随着现在各业务的快速上线需求越来越多,各业务系统对业务交付速度有越来越高的需求。如何通过自动化和预定义策略加快IT服务交付速度,为开发人员提供极大的敏捷性和灵活性,成了企业必须考虑的问题。同时,数据中心还需要让IT团队能够顺利监管并维持控制力。因此企业迫切需要一套快速、可控,提供优质交付服务的云管自动化解决方案。对信息安全性有一定要求的国内企业和机构,按着国家的严格要求,敏感数据保存在企业内部就显得尤为重要,为了提高效率,私有云的建设就较为紧迫。同时为了云管理平台的易用性,需要与企业内部人、财、物各系统互通,是企业选择私有云的首要因素。云平台整体架构设计遵循面向业务需求的设计思路,以云计算和大数据技术为关键支撑,以服务应用为根本目标,构建统一的IT基础设施资源池,为应用系统提供敏捷、可靠、安全、弹性的IT基础设施服务,系统架构具备良好的可扩展性,保证业务的动态扩展和快速上线。企业云云平台遵循“分层、分模块解耦、统一接口调用”的建设原则,以可扩展的融合架构、云操作系统、大数据技术、分布式云数据中心架构,构筑云计算服务平台,实现对高智慧、高性能、高可用、弹性、敏捷、安全的数据中心支撑。(一)企业私有云架构运维运营计量计费容量管理运营报表租户管理流程管理多云管理资源监控故障诊断CMDB日常巡检 运营运维云安全云全栈灾备DaaS服务PaaS服务IaaS服务资源抽象物理环境(机房、服务器、网络、存储等)安全管理中心数据开放云主机裸金属计算虚拟化CAS存储虚拟化OneStor网络虚拟化SDN安全虚拟化OMPGPU小型机云硬盘对象存储文件存储容灾备份VPC服务链云防火墙云负载均衡云桌面 共享交换中间件服务数据库服务容器服务微服务治理大数据服务AI服务区块链服务开发服务视频云服务应用服务物联网服务 数据汇聚能力集成存储计算数据接口数据建模数据可视化数据整合资源目录数据治理安全计算环境安全区域边界安全通信网络安全物理环境统一云服务运营平台统一监控与大屏展示中心其他主题库基础库企业云云整体逻辑架构图解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例13/14解决方案篇(3)云服务层云服务层提供IaaS、PaaS、DAAS云服务:a.IaaS服务:提供硬件和软件基础设施服务,包括云主机、云存储、云数据库服务、云防火墙、云负载均衡和云网络(租户子网/IP/域名等)、海量结构化数据,以及大数据计算等服务。IaaS层服务向PaaS层提供开放API接口调用。b.PaaS服务:是面向云原生应用的管理服务,依托应用编排、资源管理框架、微服务框架、中间件、数据库等服务,实现用户业务系统开发、上线、管理和运维一体化;依托容器资源管理调度框架、开发流水线等实现用户业务系统容器化,提升资源利用率和弹性伸缩能力;依托SpringCloud、istio微服务及治理框架,实现全景化服务拓扑及调用链分析;依托项目管理、开发测试流水线以及制品与应用管理的拉通,实现业务系统开发测试上线管理的流程化。c.DaaS服务:提供数据集成、消息集成、服务集成服务,为各类应用系统和物联网平台提供数据、API、消息类型的数据集成能力,同时提供数据标准、数据开发、数据资产、数据质量等服务,为数据运营者提供一站式、自动化的数据处理及数据管控环境。(4)云安全防护云安全防护为物理层、资源抽象与控制层、云服务层提供全方位的安全防护,包括防DDoS攻击、漏洞扫描、主机防御、网站防御、租户隔离、认证与审计、数据安全等模块。遵循国家安全等级保护2.0版本各等级的要求。(5)运行监控与维护管理为云平台运维管理员提供设备管理、配置管理、镜像管理、备份管理、日志管理、监控与报表等,满足云平台的日常运营维护需求。(6)云服务管理面向云管理员,对云平台提供给用户的云服务进行配置与管理,包括服务目录的发布,组织架构的 定义,用户管理、云业务流程定制设计以及资源的配额与计费策略定义等,同时可根据用户要求灵活定制,满足用户的使用习惯。云计算技术通过将传统基础架构转变成虚拟架构,将服务器、存储、网络、安全等硬件设备抽象成了计算、存储、网络和安全等共享资源并进行了资源池化,然后基于资源池将结构完整、安全可控、逻辑隔离的虚拟数据中心交付给各个云上应用,并根据各类应用的不同资源需求,分配物理计算资源、虚拟机级别计算资源、存储资源、网络资源等各类资源。实现标准统一、功能完善、系统稳定、安全可靠、集中统一的开放式、可扩展的基础计算、存储和网络的基础支撑环境。云计算技术的核心在于各种资源的虚拟化、服务化及管理。(二)先进的云计算技术应用1.KVM虚拟化技术KVM是Kernel-based Virtual Machine的缩写,致力于与内核本身进行深度集成,完全可以重用Linux内核中已经完善的进程调度、内存管理、I/O管理等代码。KVM在Linux内核中的集成使它能够自动利用新Linux内核版本中的任何改进。a.技术构架先进:天生支持硬件辅助虚拟化技术,也是第一个使用硬件辅助虚拟化的产品。b.KVM性能:以裸机作为虚拟服务器测试的基准设备,同时在三台服务器上运行Phoronix性能测试套件,KVM在测试中性能损耗小于2%。c.KVM安全性高:KVM利用Linux内核的热补丁修复技术,直接替换问题代码,实现业务无中断的在线修复。Linux的补丁可直接解决KVM安全漏洞。d.KVM具备更强大的生态圈:开 放 虚 拟 化 联 盟(O V A)也在为KVM护航,目前IBM、HP、Redhat、Intel、ADM、戴尔等重量级厂商都参与了OVA联盟,该联盟的宗旨在于促进KVM等开放虚拟化技术的应用。解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例15/16解决方案篇Ceph是一个统一的分布式存储系统,设计初衷是提供较好的性能、可靠性和可扩展性。也是目前人气最高的开源存储项目之一,可以同时提供块、文件、对象等多种存储类型。其优势特点a.其摒弃传统的集中式存储元数据寻址的方式,采用CRUSH算法,数据分布均衡,没有单点故障。b.考虑了容灾域的隔离,能够实现各类负载副本放置规则。c.能够支持上千个存储节点的规模,支持TB和PB级别的数据。d.扩展灵活,就是说支持动态的增加存储节点。e.副本数可以灵活控制。容器技术(如Docker)与传统的计算虚拟化技术相比,不需要为每个应用创建独立的虚拟机并分配单独的操作系统,只需要在当前的服务环境中部署容器进程即可,容器实例规模更小,创建和迁移速度也更快,能极大节约计算和存储资源;与此同时,同样可以实现资源隔离,以及资源使用控制。相比于虚拟机,单个操作系统能够承载更多的容器,可以部署数量更多的容器实例。为面向云平台敏捷、高效的服务型交付,需要在传统网络的技术基础上引入能够更好地与云平台进行对接和联动的网络技术,并且需要实现云平台内网络功能的灵活调整和敏捷交付。在这一大背景下,SDN技术在云中心中成为必不可少的一环,如通过SDN控制器与云平台的联动,集中的下发网络策略,满足VPC等网络服务的敏捷交付,虚拟机网络策略随行等功能,通过SDN控制器对云平台侧提供的北向API接口,更好的满足云平台对网络资源的调用。容器是操作系统虚拟化的一种实现途径,负责为应用程序的运行提供环境。容器包含应用和其所有的依赖包(类/库),不同容器之间共享宿主机的硬件资源及操作系统。通过使用容器,开发者可以便利地打包应用程序的代码、配置和依赖关系,从而实现应用程序快速、可靠、一致性部署。2.Ceph技术3.SDN技术4.容器技术应用(直接访问RADOS)对象存储接口(S3Swift)radosgwlibrbd元数据服务器(MDS)块存储接口(物理主机/虚拟主机)文件存储接口(libcephfs/库/posix接口)Librados(访问RADOS对象存储系统的库,支持C/C /Java/Python/Ruby/PHP)RADOS对象存储系统(可靠的、自组织的、可自动修复、自我管理的分布式对象存储系统)iSCSl、S3、NFS、CIFS、FTP等协议数据通过负载均衡策略获得节点IP地址通过块、对象、文件等协议传输数据到节点上数据被分割成4M对象并取得对象ID对象ID通过HASH算法被分配到不同的PG不同的PG通过CRUSH算法被分配到不同的OSD写日志写主OSD写日志写OSD返回成功写副OSDHASHCRUSHobjectobject_ID4MPGDISK1DISK2 节点1节点nDISKnOSDOSDOSDOSDOSDPGPGPGPG4M4M4M4M分布式存储IO流程Ceph存储系统架构图Container VirtualizationApp1App2App3Bins/LibsBins/LibsOperating SystemInfrastructureBins/LibsContainer EngineApp1App2App3Bins/LibsBins/LibsOperating SystemInfrastructureBins/LibsContainer Engine解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例解决方案篇17/18微服务架构是以开发一组小型服务的方式来开发一个独立的应用系统。其中每个小型服务都运行在自己的进程中,并经常采用HTTP资源API这样轻量的机制来相互通信。这些服务围绕业务功能进行构建,并能通过全自动的部署机制来进行独立部署。这些微服务可以使用不同的语言来编写,并且可以使用不同的数据存储技术。对这些微服务仅做最低限度的集中管理。通过微服务化,使得企业业务门户易于应用集成、易于开发和维护其他组件,提升横向扩展性。服务治理,即对运行中的服务进行负载均衡、限流、熔断等操作,以应对可能的网络抖动或服务出错所带来的请求延迟而造成的部分或者整个系统瘫痪的情况。其优势特点a.大项目可以持续交付微服务将一个大系统拆分成很多个互相独立的服务,每一个服务都可以有一个团队去完成,并且配备自己的开发、部署,而且可以独立于其他的团队。每一个团队开发的微服务都可以由自己的代码仓库、以及部署流水线等,互不相扰。b.易于维护微服务,由于比较小巧玲珑,一个微服务只负责一件事情,很容易理出头绪,然后上手开发。并且相对于单体应用,微服务规模都比较小,项目启动、测试速度都比较快。c.服务可以独立扩展独立扩展,可以让我们充分使用硬件资源。微服务架构,不同的系统独立部署,压力大的时候,可以独立进行集群化部署,这些操作都不会影响到已经运行的其他微服务,非常灵活。(1)分布式计算技术路线分布式计算技术是通过将一个大的任务划分成多个部分,分别交给多个计算节点进行处理,综合得到最终结果的计算技术,是进行数据计算、数据分析和数据挖掘的有效工具。分布式架构的程序能够在大量的普通配置的计算机上实现并行化处理。这个系统在运行时只关心:如何分割输入数据,在大量物理机组成的集群上的调度,集群中物理机的错误处理,管理集群中物理机之间必要的通信。通过分布式计算技术有效利用分布式系统的丰富资源。分布式计算通过调度批量任务操作静态数据,可用于大规模数据集的并行运算。在系统中可采用分布式计算架构进行全文搜索、分布式查询/比对、日志分析统计、大规模索引、海量数据排序、词频统计和历史数据挖掘分析等研判业务操作。5.微服务技术6.大数据技术d.更强的容错性由于每一个微服务都是独立运行的,处理得当,在微服务架构中可以实现更好的故障隔离。当一个微服务发生问题时,例如内存泄漏,不会影响到其他的微服务。e.可以灵活的采用最新技术微服务架构中,每一个服务都是独立运行的,单个微服务的技术升级则非常容易。(2)异构数据集成同步a.异构数据源间同步:轻量化并实现多种异构数据源间相互同步,如Oracle、Mysql、SQLServer、POST-GRESQL、MongoDB、Kafka、FI Kafka、FI Hive、FI Mppdb、API、MQS、FTP、LDAP、Redisb.跨网数据同步:支持复杂多样的网络环境支持跨网络、跨云、跨数据中心、跨机房等网络环境数据同步c.灵活调度同步任务:灵活调度按数据量(增量、全量)、时间(定时、实时)等任务触发规则来调度任务d.数据安全传输数据:安全防护机制提供数据安全、系统安全、网络安全(防火墙防入侵)、业务安全等多层安全防护机制负载均衡根据用户制定的策略(随机、轮询、最小连接数),对应用实例进行负载分担异常熔断配置快速响应和隔离服务访问故障,防止网络和服务调用故障级联发生调用链分析跟踪大规模的系统运行服务调用关系,解决服务故障定位定界问题云主机Service云主机ServiceOS Portal访问访问访问访问访问访问访问OS Portal云主机Service云主机Service云主机ServiceOS Portal云主机Service云主机Service自动容错任意一个实例挂掉(至少-个保持正常),不影响业务的正常运行服务限流请求超过服务的处理能力,按策略丢弃,保证服务的正常运行故障注入根据用户制定的故障类型(时延、中断),对应用的请求做对应的处理云主机Service云主机ServiceOS Portal资源监控Service云主机ServiceOS PortalOS PortalOS Portal云主机Service解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例19/20解决方案篇(3)融合数据库技术路线行式数据库在应用中负责高价值密度结构化数据的存储和事务型处理,列式数据库在应用中负责存储和处理海量非结构化的数据和低价值密度结构化数据。行式数据库弥补了列式数据库在ACID特性和复杂关联运算方面的不足,列式数据库弥补了行式数据库在海量数据存储和非结构化数据处理方面的缺陷。1.性能超大规模统一融合架构2.全栈式云服务能力3.多云统一管理能力a.超大规模:支持多RegionAZ的高可靠架构,依托新华三多年的虚拟化集群技术积累,支持海量服务器,已在生产环境进行落地实践。具备无限水平扩展能力,基于统一架构支持从极小规模到超大规模的全场景应用,降低投资风险。b.高性能:融合SPECvirt测评全球性能第一的计算虚拟化技术;全网通过VRF实现路由层面的租户隔离,为客户提供物理隔离的VPC专有云,满足更高安全要求;业内率先支持基于裸金属部署的大数据服务,满足企业级客户对大数据分析资源独享的极致性能需求。c.与硬件解耦:不绑定特定硬件,支持服务器、交换机等硬件设备的利旧,实现平台与硬件的充分解耦。d.统一融合架构:实现了虚拟化、SDN控制器、NFV虚拟网元、SDS存储、云管理平台的全容器化统一融合架构,支持一站式部署。(三)方案特性提供全栈的云服务能力,包括:全栈式资源池化,全栈式云服务目录,全栈式应用场景,全栈式业务承载能力。帮助客户完成稳态应用的云化与敏态业务的微服务化创新,并做为单一的云服务入口实现企业数据整合与价值发现。a.全栈式资源池化:提供包括云主机、裸金属、GPU在内的丰富计算资源满足核心应用的不同需求;全栈提供虚拟化、容器、存储、网络的池化资源。b.全栈式云服务目录:提供完备的IaaS、场景化PaaS、特定主题SaaS的全栈式云服务。包括基础资源服务、数据服务、应用服务、容器云服务、运营运维服务、边缘计算、智慧行业解决方案等。c.全栈式应用场景:整合私有云,行业云,边缘云,公有云的混合云,凭借开放的可演进云架构,全面满足各行业客户应用场景的复杂多样需求。d.全栈式业务承载能力:支持主流数据库服务(MySQL、Oracle、SQL Server、Redis、mongoDB、达梦),帮助企业数据库云化进程;灾备 提供类型丰富的云灾备方案,包括虚机高可用、数据备份,主备、双运营、多活等站点级容灾方案,保障业务系统连续性的多种维度需求;支持第三方技术能力,为企业业务创新提供完善、灵活的云生态环境,持续有力支撑企业创新发展需求。企业云云平台方案覆盖公有云、行业云、私有云、边缘云的多云混合应用场景。a.多云统一管理:CloudOS提供多云管理能力,企业业务可灵活的在多个不同的云数据中心之间部署,为企业提供可靠易管理的云计算资源。b.混合云:提供私有云和公有云统一管理的能力,构建混合云平台,扩展云服务目录,适配场景化应用需求。c.边缘云:在边缘部署轻量化的边缘云,快速满足边缘计算需求。解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例21/22解决方案篇4.企业云运营能力(四)用户价值完善运营能力,最大限度利用企业在IT人员、流程、管理技术方面的投资,并使IT创造价值可度量,帮助企业IT由成本中心向利润中心转换。a.面向运营多样功能特性:提供包括产品购买、订单计费、云市场等云运营功能。b.企业云运营交付能力:帮助客户打造多样化、适应具体业务需求的认证、流程、计费、运营体系,高效交付以业务为核心的IT服务。(1)统一管控,提升效率通过云计算技术,资源得到统一管控和建设,使得基础资源全部池化,资源得到了充分利用,避免了重复建设和过度浪费,大幅提升了资源的使用效率。(2)业务快速上线软、硬件资源的标准化,改善了应用交付的环境,云平台的自服务和在线审批,保障了资源的快速开通,资源可扩展性的平台调拨,为业务的快速部署和突发的业务流量访问,提供了有效的支撑。(3)图形化、数据化展示,便于管理运维 大屏展示服务作为可视化工具,合理地集成重点指标,达到整体清晰掌握资源使用现状、趋势。针对核心指标进行监控,密切关注各节点运行状况,如有异常,可及时、有效的采取措施,保障业务的健康、稳定运行。(4)业态重构,创造价值云计算加速了企业的转型和升级,通过云原生、大数据等云计算技术,重构企业运营和管理,构建以数据为核心决策的企业战略,为企业创造真正的数据价值。第三篇章 企业公有云 为企业变革而生 让算力与价值触手可得经过多年的发展,云的概念在持续进步。如今,公有云、私有云以及在两者之间延伸出的专享云、专属云等不同类型的云服务,正在为不同需求和架构的行业用户构建数字化转型的坚实底座,加速业务的敏捷创新,赋能数字价值的利用。而公有云以其在部署、效率、成本、灵活性等方面的优势,正在成为敏捷性企业的首选。但面对众多的云服务选择,企业应当如何评判一朵云的价值呢?在紫光云看来,优秀的公有云应该是高性能、高弹性的云,从数十个到数千个节点规模,都能快速部署,提供弹性伸缩的资源和丰富的云服务,更要主动拥抱云原生,能够实现快速升级迭代。同时,公有云还应当是一朵可运营的云,实现智能化的管理和维护。此外,公有云还要做到灵活编排和调度,实现云内部和多云之间的深度融合。作为公有云服务的提供者,紫光云的节点已经覆盖了全国主要地区,我们以城市云和产业云为牵引,构建起了充分满足上述标准的公有云平台。同时,紫光云更以先进的理念和技术重构紫鸾平台,赋能多云和同构混合云创新,用动态灵活的交付方式打造资源管控一朵云,让公有云的能力和服务能够走向企业内部,打通不同云服务之间的边界,让公有云在政企行业的数字化转型中发挥更重要的价值。刘颖丰|紫光云技术有限公司解决方案专家专 家 观 点解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例23/24解决方案篇政府大力推进企业上云 a.发改委、中央网信办:关于推进“上云用数赋智”实施方案(2020)打造数字化企业。b.工信部:印发推动企业上云实施指南(2018-2020年)通知,到2020年,力争实现企业上云环境进一步优化,行业企业上云意识和积极性明显提高,上云比例和应用深度显著提升,云计算在企业生产、经营、管理中的应用广泛普及。c.工信部:中小企业数字化赋能专项行动方案(2020),助推中小企业上云用云。d.国资委:关于加快推进国有企业数字化转型工作的通知(2020),加强对标,着力夯实数字化转型基础。e.国资委:国企改革三年行动方案(2020),加大新动能的培育,构建高质量发展新格局。内外环境压力与挑战也推动企业上云实现降本增效,提高服务质量,提高敏捷性,满足合规要求,降低风险。(一)企业上云背景紫光云结合自身丰富的行业经验和卓越的企业云服务能力,打造一站式企业上云解决方案,为企业数字化转型赋能,一键搭建站点的基础环境,自动完成所有资源的创建和配置,同时通过公有云平台提供更加专业的支持。(二)为什么选择紫光云?紫光云多级架构,骨干节点配合城市节点,让客户就近部署灾备系统,可做到数据不出城;全国23个自营与合营云节点,新节点也在规划筹建中,覆盖全国主要地区。天津-重庆为紫光云双运营支撑中心,负责全网业务。四个大区节点,华北、华东、华南、西南。一级节点,每个省份建设12个,支撑全省业务,并为省内的城市节点提供备份。城市/托管节点,支撑当地智慧城市、政务、工业等区域安全和时延要求高的业务,满足“数据不出城”的要求。1.紫光云节点多紫光云通过等保四级认证,高于一般云厂商的三级等保,安全更有保障。国资背景、业务中立的云厂商,可提供强的安全方案,没有触碰用户数据和业务的驱动力,保障用户数据的安全。2.紫光云安全可靠紫光云在信息安全,软件开发,风险防控,安全运维,灾备与恢复,应急处理等多领域、多维度都获得了权威机构颁发的相关资质认证3.紫光云资质过硬同新华三的技术能力相配合,提供从网络、主机、数据库以及业务应用的整体安全解决方案,确保系统安全合规;紫光云取得云牌照和ISP牌照,可在全国范围内提供云服务和IDC、带宽服务。4.能力全面,整体服务紫光云入围中央国家机关2021年云计算服务协议供货采购项目。紫光云入选河北、河南、天津、重庆等全国多地云服务供给商。过去一年,紫光云与智能事业群在全国65个市县布局智慧城市,并累计服务175个智慧城市的建设和运营,成绩斐然。同时,根据“新型智慧城市资讯”统计,2021年上半年新华三&紫光云智慧城市类供应商中标排名全国前二。5.市场认可紫光云ISO9000云服务用户数据保护能力评估信息安全服务资质认证安全集成安全运维灾难备份与恢复风险评估应急处理软件安全开发CMMI3工业互联网安全控制评估网络安全等级保护四级CSA STAR金牌认证工信部云计算服务能力评估ISO20000ISO270001ISO22301ISO27018可信云评估可信云金牌运维解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例25/26解决方案篇(1)基础产品服务紫光云提供从IDC基础设施、基础云服务(IaaS)、平台云服务(PaaS)、行业云平台到产业应用及应用市场等多层次丰富的产品资源可供客户选择。紫光云提供的云基础服务产品有5大品类,分别为计算服务、存储服务、网络服务、云监控服务、安全防护。平台云服务产品有4大品类,数据库、IOT、数据服务、AI等多种产品与工具。行业云平台与产业应用聚焦智慧城市、工业建筑、芯片云、视频云等领域形成平台、生态、运营产业链。紫光云服务全景如下图:(2)视频云随着基础建设和基础通信技术的不断完善,“互联网 ”和AI等推进下,各行各业的边界越来越模糊,传统安防的概念升级成为以视频为核心的物联信息管理体系。紫光云视频监控云平台基于紫光云公有云节点建设,对监控设备提供视频数据流的接入、转发、存储的管理服务,即将视频内容接入云端管理平台,对用户提供视频内容的实时查看、录制存储、录像回放的功能服务,能够快速地为连锁企业、智慧社区、个体安防等场景提供视频可视化管理解决方案。(3)芯片云紫光云芯片云平台对企业的价值a.提高芯片设计效率,通过紫光云EDA的弹性资源,及平台的海量资源,可在短时间内帮助企业完成芯片仿真工作,极大的提高芯片设计效率。(三)紫光云产品服务方案b.降低企业成本,尤其是中小企业的一次性建设成本过高,通过云计算缓解资金成本,按需使用、按量付费。c.量身定制个性化需求,使企业在计算资源需求量时,不必费力计算成本,完全使用同业务需求相匹配的资源以及相关工具软件,解决用户个性化的需求。d.创造企业核心竞争力,能使企业使用紫光云上最先进的技术和平台能力(如存储、网络、软件相关工具等),使企业能够得到最新的技术和专业的技术支持,协助企业创造核心竞争力。(4)工业互联网平台紫光工业互联网平台可以为包括政府、企业提供端到端的整体解决方案。根据本地政府具体业务要求,统一规范数据信息库、工业云图决策分析平台、企业综合评价子系统、数据交换共享处理平台、企业核心能力评测系统、企业板块一张图子系统、工业云图及数据交互APP、工业云图统一门户、产业政策发布子系统等系统构建政府工业智能分析决策平台,帮助政府掌控辖区工业企业包括但不限于企业经营、安全环保、能耗用量等整体态势情况,为政府精准决策提供直观依据。根据工业企业的发展现状,紫光工业互联网平台提供从咨询、设计、研发、交付、运营等全流程解决方案,协助企业实现从信息化、数字化、智能化转变,提供适合不同时期企业发展状况的解决方案,助力企业实现智能制造2025。(5)建筑云CBIM平台建筑云CBIM设计整体解决方案,是由中设数字公司根据大型央企(中国建筑设计研究院)15年来1000万平方米BIM正向设计项目的实践总结和科研成果转化而来,其中包括3部分内容,分别是:CBIM设计与管理知识库、CBIM专业设计软件、和CBIM设计协同平台。它们分别解决了建筑设计企业的BIM制图标准、培训与推广问题,解决了建筑结构水暖电设计师BIM正向设计质量和效率问题,解决了BIM设计进度管理及企业高层决策问题。从而助力建筑设计企业实现从“二次CAD设计”模式向“BIM正向设计”模式的技术和管理升级。预测性维护设备后服务设备全生命周期管理工业大数据聚焦智慧城市、工业、建筑、芯片等领域平台 生态 运营数据库、IOT、数据服务、Al、4个大类100 种产品与工具16大类300 种服务产品治理中心指挥中心大数据中心能力中心应用中心运营中心远程查勘智能合约标准化票据虚拟设计环境License管理集群管理EDA工具BIM设计工具三维协同平台CIM数据平台平台服务应用服务基础服务工业应用数据库智慧城市金融应用芯片设计仿真建筑应用MongoDB弹性云主机云硬盘对象存储VPCSLB云专线VPN网关KMSSSL证书IAM主机安全WAF堡垒机DDoS高防漏洞扫描防火墙态势感知告警、通知、展示BGP-EIPVPC-PeeringDNSCDN存储网关混合云备份传输工具裸金属GPU专属主机弹性伸缩服务镜像服务容器服务Postgre SQLMySQL多协议接入设备连接管理设备配置管理日志管理数据库管理数据计算&存储数据集成数据集存储模型管理资源调度模型训练人脸比对文本识别机器视觉规则引擎设备建模时间序列分析RedisSQL ServerloT数据服务人工智能计算存储网络安全防护服务云监控解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例27/28解决方案篇紫光云MSP服务具有从调研、咨询、迁移、维护、定制全流程服务能力,帮助客户完成从上云、用云、管云的全流程服务。紫光云MSP服务(四)典型场景与方案集团IT部门希望通过建设统一平台来管理各分支机构、子公司的IT资源和相关业务,提高资源使用效率,降低成本。推广公有云、专享云及同构混合云,通过IT基础资源的建设及围绕云平台的运营,帮助集团、企业进行IT资源的管控和后期运营。企业希望引入最新架构与技术来提高自身的技术水平,并希望基于此平台能够推动自身业务发展。通过推广公有云产品、专享云及着重推荐物联网、AI、数据中台业务,满足用户需要的PaaS平台并根据用户需求推进用户引进工业互联网等相关方案。企业希望利用初期很少的投资获取IT资源,并执行轻资产运营的战略规划。重点推广公有云、专享云,通过按需使用、按量付款的方式提供云服务,解决企业轻资产运营的问题,降低企业的初次投入,提供从方案咨询到上云、用云、云运营的全套服务。企业有很强的行业属性希望利用数字化的手段,进行业务创新,使公司业务有跨域式的发展,并利用最新的数字手段,体现领导的业绩。重点推荐紫光云产业互联网合作伙伴的身份,能够在现有的产业互联网及相关平台基础上,同客户一起,从用户的业务角度入手,解决用户的IT技术难题,从而推动用户的业务革新;推荐的产品可为数据中台、物联网平台及紫光云整体背景和能力。企业有很强的数据安全需求或容灾备份要求,既不想依赖一家供应商,又不想将业务部署于有竞争对手业务的云平台上。重点推荐基于公有云、同构混合云的业务容灾、数据备份平台和产品,充分利用紫光云国家队、高安全性的背景,从独立、安全角度保障用户的数据不被触碰、窃取。行业客户需要基于场景的整体解决方案,希望能够利用紫光云的行业平台降低自身的成本,提高自身的产品和技术、管理能力。从紫光云的重点场景及能力集入手(芯片云、视频云、智慧园区云、工业云、住建云、水务云),提供基于行业的解决方案和平台,为企业的发展赋能。咨询&架构设计监管及安全流程自动化DevOps应用迁移&实施持续管理24x7x365管理服务解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例29/30解决方案篇(1)客户特点(2)场景方案(2)场景方案存量私有云,针对存量私有云客户,营销混合云方案,主打灾备和弹性场景,通过混合云管理平台售卖公有云产品,形成同构混合云新建/扩容私有云,以按量付费/集约运营的公有云/专享云方案替代客户自建私有云,通过给客户计算整体TCO成本说服客户私有云设备维保延期,通常私有云服务合同三年到期,私有云设备寿命五年到期,根据客户私有云建设年限发掘更新换代机会,推介公有云/专享云友商存量公有云客户,互联网公有云厂商一般持续服务能力较为有限,无法满足大企业定制化服务需求,合作“蜜月期”后容易产生分歧。多云架构客户,大型企业客户出于对数据安全性/业务可靠性/避免供应商锁定等方面考虑,通常会选择多家云服务供应商。教育成本低,粘性强,具有多年云服务使用经验,对运营服务水平有独特要求以专享云和混合云切入大企业市场,沉淀其数据及复杂应用,形成高粘性的可持续性收入大型企业怎么上云(1)客户特点技术力量不足,运营水平相对不够高对IT建设成本预算比较敏感对市场反应相对敏捷,更容易接受新的IT架构与公有云政务党政官网,省市级政府政务公开信息网,各委办局关键业务系统及数据、OA等 国企下属企业众多,各级网站数量庞大,管理水平参差不齐,集团总部数据需要集中管理工业企业进行信息化数字化,改善生产和经营水平、IT管理部署,提升信息基础和网站建设 教育高校进行IT管理部署,提升信息管理和网站建设 互联网所有对外经营的网站及业务系统 中/小型企业怎么上云第四篇章 企业云运营 全面实力助力用户建好云、管好云、用好云在传统IT基础设施时代,IT运维人员所面对的核心考验,是保障基础设施软硬件的稳定、安全和可靠,解决问题的主要方式是日常的管理和故障的修复,但随着IT基础设施逐步向云计算架构的转变和过渡,我们也见证了从运维向运营的转型。在新华三集团看来,运营的核心是企业业务的体验、效率、效益,通过挖掘、分析和沉淀客户需求,实现云服务能力的快速迭代,让IT部门从成本中心变为价值中心,最终成为支撑企业数字化转型的创新中心。在多年服务政企行业数字化转型的过程中,新华三集团认识到,云平台的部署和实施只是云平台全生命周期中的一环,在建云之前和建云之后,企业需要考虑如何实现业务、制度、规范等与云平台的融合与集成,达到建好云、管好云、用好云的目标。为此,新华三也为企业用户提供了一整套BFTI分析模型,作为企业云化转型的方法论指导。因此,新华三集团的价值不止在于为客户建好云,更在于实现企业业务模式、组织架构、制度建设与数字化云底座之间的适配和融合,构建从业务需求到云上创新的完整闭环,并且通过主动安全、统一运维等方面的创新,提升云平台的稳定性和安全性,让云平台成为驱动企业创新和增长的有力平台,为未来发展探索新的空间和潜能。新华三致力于通过运营的手段和方式,为用户充分地释放和呈现云的价值,达到建好云、管好云、用好云的目的。李喆|新华三集团云与智能事业群云智服务业务部专家专 家 观 点解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例31/32解决方案篇传统云服务模式功能/服务简单供给关系用户需求云运营服务模式“十四五规划”目标纲要中提出:“加快数字化发展,打造数字经济新优势,协同推进数字产业化和产业数字化转型,加快数字社会建设步伐,提高数字政府建设水平,营造良好数字生态,建设数字中国。”2020年4月,国家发展改革委 中央网信办印发关于推进“上云用数赋智”行动培育新经济发展实施方案的通知。2020年9月,国务院国资委办公厅发布了关于加快推进国有企业数字化转型工作的通知。随着国家数字经济战略的推进,企业的数字化转型进程逐步加快;云计算作为支撑数字化转型的重要技术要素,在企业数字化转型的进程中也变得越来越重要。云计算是企业数字化转型的基石,应用是企业数字化转型的体现,做好企业云的运营对企业数字化转型至关重要。如何有效的建好云、管好云、用好云,也是企业云管理者需要研究的重要课题。新华三结合深耕多年的央企、大型国企云运营经验及自身优势,沉淀了一套企业云运营运维管理方案,为企业数字化转型提供借鉴和参考。无论IT架构如何演进,对于企业的价值和驱动力仍然体现在以下几方面:a.更低的TCOb.更高的业务部署与生命周期管理效率c.更优的业务性能与用户体验因此,在数字化时代,企业云运营的核心目标是支撑企业数字化转型,将信息化部门从成本中心转变为价值中心、创新中心乃至利润中心;为企业达到“降本增效、业务创新、数据智能”等目标。(一)企业云运营的目标什么是运营呢?广义的运营其实是指为了帮助产品/平台与用户之间更好地建立起来关系所需要的一切工作和手段,是产品/平台与用户之间互动的桥梁。如下图所示,在没有做运营的企业云环境中,企业云与用户单位之间是一种简单的供给关系,以所建云的产品能力为主,简而言之就是“我有什么,你用什么”;云的服务能力与用户单位的业务需求存在一定差异,用户上云积极性不高,即使强制上云,效果也不明显。引入运营手段是为了在企业云和用户单位间构建一座桥梁,将服务变被动为主动,把云的价值最大化的传递给用户,同时,也充分挖掘、分析、沉淀用户需求,快速迭代成企业云服务能力,推出贴近用户单位业务需求的服务能力,达到“你要什么,我给什么”的状态。对于企业云运营,我们的定义是在运维基础上为了保障企业云经济、高效地运行以及更好地为业务单位提供云服务,从而充分释放云计算技术的价值所从事的一切活动和工作,是引导企业云持续发展、支撑企业数字化转型的重要手段。(二)企业云运营的定义企业云用户单位功能/服务价值最大化(沉淀/分析/挖掘)被动变主动用户需求快速迭代企业云运营用户单位解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例33/34解决方案篇(1)运营基础部分运营基础部分围绕运营环境展开,优化和完善资产、组织、安全、技术等基础运营环境,奠定运营基础,各模块主要开展工作如下:在谈企业云运营之前,我们先来看看企业云运营与运维的关系,如下图所示:运维是采用保障的方式,确保基础设施、软硬件的稳定、安全、可靠,重点关注故障的方法和修复,达到“活着”的目标;而运营则是采用经营的方式,面对业务、服务以及用户对象,提升体验、效率、效益,重点关注应用性能、用户感知、快速交付以及数据分析等,进而达到“活得精彩”的目标。因此,在企业云的建设中,运维是运营的基础,运维是保障企业云不出问题或尽量少出问题,出了问题能够快速解决问题;运营则是采用经营的方式,让企业云能够更好的服务于内部用户,支撑企业转型和创新工作,让用户有价值获得感。(三)企业云运营与运维的关系接下来我们来看看企业云运营管理究竟该如何考虑。新华三基于多家央企、大型国企企业云运营的陈工经验,将企业云运营管理体系分为两个部分八个模块,如下图所示:(四)企业云运营管理体系企业云运营与运维的关系运维是运营的基础新华三企业云运营体系运营核心(围绕用户体验)运营基础(围绕运营环境)a.资产运营云计算的建设将对企业的资产管理管理带来挑战,尤其在云服务的成本分析、云服务的定价等方面。通过资产运营可清晰的分析云计算投资的去向及主要服务的业务,资产运营是信息中心有成本中心转变为价值中心的必经之路。资产运营主要工作包括:内部资产、预算管理流程梳理、云服务成本分析及定价、上云案例投资回报分析、总拥有成本分析、云平台日常经营分析(上云业务、云资源、计费账单)等。b.技术运营技术运营通常从企业云技术标准、技术架构、容量管理、服务目录管理以及业务上云等方面展开;主要工作包括:编制企业云建设标准、技术架构规范、云计算管理制度;制定容量管理制度、构建容量管理模型、计算资源上限及扩容阈值;制定云服务目录管理规范、服务开发流程;制定业务上云策略以及上云服务决策树等。c.安全运营云安全运营工作中贯彻以”动态提升,持续保障”为理念,致力打造“安全云、可信云”一体的行业标杆云平台,将在等保合规的稳固基础环境建设层面上,进一步细化、优化安全策略,重点保障云平台自身如HW行动等安全举措,搭建并加固可靠的运维环境,并在开发整体生命周期内嵌入安全基因管控,塑造为云上租户提供整套合规的定制化安全服务能力。安全运营工作包括:强化云租户安全、提升容器安全,完善安全开发,优化安全策略,做好安全加固服务及HW保障服务工作等,并要确保这些工作一一落地。d.运营组织云计算从技术架构上给运维工作带来了变化,基础架构的转变对运维人员的技能要求、岗位职责均带来了变化。在运营组织规划中,通常结合企业云运营的要求和现有组织架构、运维管理的情况,制定适应于云环境的运营/运维组织架构,并输出相关岗位的技能要求、人员培养计划、管理制度等文档;(2)运营核心部分运营核心部分围绕用户体验展开,关注用户服务,不断完善服务,寻找业务与技术契合点,不断提高用户价值获得感,各模块主要开展工作如下:a.用户运营用户运营是指通过对用户群体的引入、激励和留存,从而提升产品的用户活跃度和忠诚度。在企业云运营中,服务的对象主要为内部用户,用户运营的最终目的是为了提高用户的体验与价值获得感。主要工作内容包括:制定内部政策推动,通过平台吸引,从可靠运维(Maintenance)“活着”“活得精彩”“保障”“经营”基础设施、软硬件业务、服务、用户稳定、安全、可靠体验、效率、效益故障防范和修复应用性能、用户感知快速交付、数据分析运营(Operation)目标方式对象核心关注区别&关联围绕用户体验,关注用户服务,不断完善服务,寻找业务与技术契合点,不断提高用户价值获得感。围绕运营环境,优化和完善资产、组织、安全、技术等基础运营环境,奠定运营基础。企业云运营体系用户运营资产运用技术运营安全运营产品运营活动运营内容运营运营组织解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例35/36解决方案篇在传统运维管理机制中,业务和业务支撑部门直接参与到资源的分配方案制定和资源利用率、性能的跟踪及优化等活动中,这种情况对业务和业务支持部门对业务运行环境需求方面的技能要求比较高,而且也牵涉了业务和业务支撑部门过多的精力在资源的运营和监控中。在云环境中,通过资源的池化,云平台的运维管理对象增加了虚拟资源,由云平台运维管理人员将云平台虚拟资源抽象化成典型的资源和资源服务模版和实例,供客户和业务部门方便地订阅适合自己业务特点的标准资源配置,并实现服务的自动激活和开通,从而实现对虚拟资源的全生命周期管理。因此在云环境中,增加了资源池这一管理对象,而且这一对象对于业务部门和客户通过自助式资源服务的形式来展现,如下图所示,我们将这一管理对象层级称之为资源服务(平台服务)层。为了应对这种改变,应在传统的运维服务体系上,从服务(基础设施即服务)、流程、角色和技术的视角综合考虑应对的措施,建立云平台环境下的运营运维管理体系,从角色和流程的视角分析和应对云计算的引入对运维管理流程和角色的影响。在提升运维效率和自动化水平、提供标准资源服务和管理模式转变的同时,云平台的管理层次(增加了虚拟资源服务)、管理对象(虚拟资源)、管理技术和手段(如自动部署、迁移)也有所增加,从而带来了资源管理复杂度的提升。因此有必要对运维管理规范的流程和相关角色进行更新,以适应云平台引入所带来的变化。而运维管理步骤、方法的增加以及虚拟化相关资源管理技术,也对开发云计算管理平台以实现云平台资源管理流程的自动化提出了迫切的需求。(五)企业云运维管理体系新华三云运营运维管理方案在多家央企、大型国企落地实践,均取得良好的效果,逐步成为企业云项目中的重要加分项。(六)总结性、安全性、易用性、响应时间、服务满意度、服务定价以及稳定性等方面全面提升服务质量,进而提高用户体验。b.内容运营 广义的内容包括音乐、影视、广播、出版等。侠义的内容运营主要出现在互联网领域,属于运营手段的一种。企业云内容运营就是通过生产和重组内容的方式提升企业云的活跃度,以及用户对品牌的认知度,常见的工作包括:公众号文章、拍摄宣传推广视频、撰写新闻发布会稿件等。c.活动运营 云计算提供的服务本身也是产品,无论功能或体验有多好,都有可能无人问津。活动运营就是为了解决这个问题,给用户一个关注云计算的理由。因此,在运营工作中要充分发挥“活动”这只手的作用,不断有策略的引导用户访问、参与,然后再凭借优质的产品品质,不断铅华用户对云计算的认知,促成用户留存和口碑传播。常见工作包括:组织技术培训;组织大型技术交流活动,如用户大会,将云的价值充分传递给业务部门;国内外的大型推广宣传活动;线上、线下的交流活动等。d.产品运营 产品运营旨在打造企业云品牌,围绕企业的个性化功能及业务需求出发,进行企业云的功能和架构的规划和建设;同时基于企业的业务环境,打造属于企业自身的云服务生态体系。云计算对运维管理工作带来了以下挑战:a.资源标准化服务 b.资源快速部署和动态优化 c.管理层次、对象、管理技术和手段的增加 d.管理复杂度的增加 e.从各业务独立申请和独享物理资源的垂直管理模式,向各业务共享虚拟资源池,并统一规划管理的水平管理模式转变基础架构资源(服务器、存储设备、网络设备)基础架构资源云平台运维管理对象传统IT运维管理对象用户资源服务平台服务业务基础设施(电力设备、环境调节设备、监控设备)基础设施(电力设备、环境调节设备、监控设备)云管理平台实现资源服务的自动化,为对内运营服务和运维管理提供有力支撑基于标准资源模版提供的资源服务和云平台运营管理云运维管理流程支撑云平台的稳定运行云服务运营业务用户云管理平台建设云运营管理体系云运维管理体系组织支援层 平台管理层:服务和云平台规划及管理系统监控层:业务、资源实时监控和云管理平台操作现场操作层:虚拟、物理资源维护解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例37/38解决方案篇第五篇章 企业云原生 加速应用敏捷交付引领云与业务融合共生随着云的迭代和变革,云计算正在从早期注重IaaS平台建设,为数字化转型提供资源支撑,走向更加关注PaaS平台服务创新的新阶段。在这个阶段,PaaS平台的构建将以应用为核心,以实现应用敏捷交付为使命,以求更好地适应业务发展的需求,实现业务的敏捷开发,快速部署、可视化运维。同时,云的建设者们也更加注重云与大数据、AI套件的结合,从而为企业提供更丰富的数据治理套件和智能化工具。在新的目标之下,新华三集团将目光投向了“云原生”。我们相信,云原生是业务上云的一种更加灵活的全新形态,能够依托PaaS提供的配套服务、工具、数据库、中间件等能力,实现应用与底层硬件平台的充分解耦,让云原生应用可以跨平台开发、测试、部署和运维,实现业务应用与云平台融合共生,助力企业业务上云。目前,新华三已经构建起了“1 2 3”的云原生技术体系,即一个容器资源服务,数据库服务和中间件服务两个支撑服务,以及应用管理、微服务引擎和DevOps等三个场景服务,以开源技术的深度开发,实现应用从代码开发、测试、部署、运维、升级迭代的全生命周期的保障,充分发挥云计算灵活、弹性的优势,加速业务的敏捷迭代,引领企业加速转型。什么是云原生?不同的企业对于云原生有不同的解释,当前在业界影响广泛的是云原生基金会(Cloud Native Computing Foundation,CNCF)提出的,云原生是一系列云计算技术和企业管理方法的集合,既包含了实现应用云原生的方法论,也包含了落地实践的关键技术。(一)什么是云原生?容器基于进程级别的隔离技术,共享操作系统内核,使得其具有轻量灵活、启停速度快,资源利用率高等特性。同时,容器技术改变了应用软件的交付方式,通过容器镜像将应用及其依赖打包使得应用不再受环境限制,解耦了应用于运行环境,可以在不同的开发、测试、生产等环境快速、可靠的运行。随着Kuberbetes成为容器编排调度的事实标准,容器技术获得了广泛的应用,其主要场景包括构建Dev0ps流程、构建PaaS平台、企业级应用仓库、构建微服务应用等。(二)容器Containers are isolated,but share OS and,whereappropriate,bins/librariesContainers vs.VWSAppAApp AApp BApp AApp BApp BApp BApp BAppABins/LibsBins/LibsBins/LibsBins/LibsDocker EngineHost OSBins/LibsGuestOSVMContainerGuestOSHypervisor(Type2)Host OSServerServerGuestOSAppB尹华哲|新华三集团云与智能事业群产品与解决方案部专家专 家 观 点解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例39/40解决方案篇云原生体系的建设一般都是业务的发展遇到问题了,需要底层技术的提升来促进业务的发展,业务和技术底座之间相互促进也是云原生的本质。云原生建设的第一步应该是企业架构人员从业务架构出发,梳理业务流程,了解业务运行逻辑,此阶段的输出物为业务流程图。1.业务梳理微服务的拆分是由业务的痛点驱动,在此种情况下可以确保拆分是有收益的。微服务的拆分是一个复杂的系统工程,我们常常选择某一个业务功能项进行试点,在试点的过程中我们可以培养团队,吸取经验,建立规范。2.服务拆分以往架构应用最简单直接的方式就是通过一个工程集成所有服务,也就是单体模式。随着业务的发展和需求的迭代,单体应用代码量激增,功能复杂,应用的迭代效率由于多团队协作开发、测试、发布而下降,难以满足快速多变的市场需求。此外,单体应用中一旦某个功能模块出错可能会导致整个应用程序崩溃,针对不同流量的功能模块也不能细粒度的弹性扩容。为了解决单体应用的上述问题,微服务架构应运而生。微服务是指将大型复杂软件应用拆分成多个简单应用,每个简单应用描述着一个小业务,系统中的各个简单应用可被独立部署;各个微服务之间是松耦合的,可以独立的对每一个服务进行升级、部署、扩展和重新启动等流程,从而实现频繁更新而不会对最终用户产生任何影响。相比传统的单体架构,微服务架构有效降低系统复杂度、可独立部署、可独立扩展、可跨语言编程等特点。微服务架构灵活、开发的敏捷性带来了运维的挑战,微服务框架作为微服务开发和运行治理的必要支撑,帮助实现微服务注册、发现、治理等能力,目前主流的微服务框架有SpringCloud、Dubbo、Istio。(三)微服务DevOps是一组过程、方法与系统的统称,用于促进软件开发、技术运营和质量保障之间的沟通、协作与整合,DevOps目的在统一软件开发和操作,与业务目标紧密结合,在软件构建、集成、测试、发布到部署和基础设施管理中大力提出自动化和监控。DevOps的目标是缩短开发周期,增加部署频率,更可靠的发布;用户可通过完整的工具链、深度集成代码仓库、制品仓库、项目管理、自动化测试等类别中的工具,构建了一种通过持续交付去优化资源和扩展应用程序的方法,实现精益产品开发流程、适应快速变化的市场。云原生应用利用容器、服务网格、微服务、不可变基础设施和声明式API等代表性技术,构建容错性好、易于管理和便于观察的松耦合系统,结合可靠的自动化手段可对应用系统做出频繁、可预测的重大变更,让应用随时处于待发布状态,云原生技术有利于各组织在云的动态环境中,构建和运行可弹性扩展的应用,借助云平台的全面自动化能力,构建微服务、持续交付部署业务系统。(四)DevOps(五)企业云原生最佳实践微服务的拆分方法有很多,常见方法如下:a.基于业务逻辑拆分将系统中的业务模块安装职责范围识别出来,每个单独的业务模块拆分为一个独立的服务。b.基于可扩展拆分将系统中的业务模块安装稳定性排序,将依据成熟和改动不大的服务拆分为稳定服务,将经常变化和迭代的服务拆分为变动服务。解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例41/42解决方案篇拆分完成后需要对拆分出的模块进行重构,在代码重构的过程中是否会产生一堆的bug,为了避免原来单体应用运行的挺好,拆分后bug成堆不稳定的情况,就需要我们搭建DevOps流水线,通过流水线快速迭代拆分后的服务至稳定。DevOps流水线就是制定一系列的流程和借助一系列的工具,将程序开发的各个过程规范起来。DevOps流水线的工具包括项目管理、代码检查、编译打包、单元测试、镜像仓库、自动化测试、编排部署等。流水线的搭建只是其中一部分,要做好DevOps还需要有规范配合。这些规范包括但不限于:工程名规范、代码结构规范、代码设计规范、代码提交规模、单元测试规范、制品发布规范等等。通过流水线可以快速的将拆分出的业务模块迭代至稳定状态。3.构建DevOps流水线微服务拆分之后,进程内的方法调用变成了进程间的远程调用,随着分布式微服务架构的拓扑结构越来越复杂,如何保障这种网状拓扑结构的各微服务之间有机配合形成统一的系统架构,这就需要微服务引擎和服务治理能力。4.微服务基础设施构建新华三DevOps流水线(Pipeline)贯穿软件开发的整个生命周期,将持续集成、持续测试、持续部署(交付)的能力全部覆盖,将强大量分散的开源工具集转变成项目管理、配置管理、测试管理、代码托管、工作流引擎,甚至智能感知等企业级应用场景,使整个工具链成为相对的整体,使研发团队将注意力更加转移到业务本身,而不是对工具和流程的适配上。开发团队运维团队开发人员运行敏捷开发持续集成持续交付持续部署代码构建集成DevOps流水线测试发布部署运维代码审查代码版本管理输入代码输出镜像代码分析管理依赖计算资源池编译日志自动化部署自动化测试项目管理代码质量管理代码扫描c.基于可靠性拆分将可靠性要求高点的核心服务和可靠性要求低的非核心服务拆分开来,然后重点保证核心服务的高可用。d.基于性能拆分将性能要求高或者性能压力大的模块拆分出来避免性能压力大的服务营销其他服务。微服务的拆分常常需要对服务所依赖的数据库进行拆分,数据库拆分后可以选用独立的存储介质、独立的部署方式使用各个服务更加匹配的数据库互不干扰。解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例43/44解决方案篇(1)Spring CloudSpring Cloud是第一代微服务治理框架,是一系列框架的有序集合。它是将业内开发得比较好的Netfilx微服务治理框架集成进Spring框架进行封装,Spring Cloud相当于是提供了构建微服务系统所需的“全家桶”套餐。Spring Cloud没有统一的控制平台,需要将治理工具分散到各业务模块,并没有做到真正的治理与业务分离,因此首先需要完成治理工具与业务模块的融合,才可以使用服务治理功能。(2)IstioIstio是一个由谷歌、IBM与Lyft共同开发的开源项目,采用了“服务网格”技术,分为控制平面和数据平面。控制平面负责配置转发,与平台通信;数据平面和业务结合,共同负责流量转发。Istio使治理工具从业务中完全分离出来为服务网格层,通过一个统一的控制平面对系统中全部服务网格层的流量进行分发和管理,因此治理工具无需融合到业务模块中。只需要专注于业务自身的逻辑,将业务代码构建并部署后,即可使用Istio进行微服务治理。(3)DubboDubbo是一个分布式服务框架,致力于提供高性能和透明化的RPC远程服务调用方案,以及SOA服务治理方案。通过zookeeper提供服务注册发现功能,使用rpc协议提供透明远程调用,只需要简单配置就可以像调用本地方法一样调研远程服务,同时提供负载均衡及容错机制。业界的微服务框架主要分为SDK模式和Sidercar模式,SDK模式是语言相关的、侵入式的,其典型代表为SpringCloud、Dubbo;SideCar模式是语言无关的、非侵入式的,其典型代表为Istio,企业应结合自身IT现状和团队人员技术栈选择合适的微服务框架。注册与发现SDK服务自身业务代码A微服务A服务自身业务代码A微服务ASidecar模式(非侵入式)SDK模式(侵入式)服务自身业务代码A微服务B服务路由配置中心服务注册与发现Sidecar AService MeshSidecar B服务路由配置中心服务注册与发现服务路由配置中心服务注册与发现SDK服务自身业务代码A微服务B服务路由配置中心服务特点说明功能全面由多个框架集成,功能丰富且全面经验丰富在实践方案已经积累足够的经验,有大量成熟的实例可供参考,是目前最为稳妥的可执行微服务框架方案运行环境无限制支持在虚拟机、容器、物理机上运行跨语言能力不足完美支持Java代码,但不支持其他语言,跨语言能力不强。适合使用Java开发业务的企业特点说明支持跨语言对编程语言无要求,跨语言能力强。适合多语言开发业务的企业集成性较弱Istio是独立框架,不支持和其他框架集成经验欠缺目前还没有广泛的应用,但因其强大的管理能力,是一个值得关注的方案。目前仅在kubernetes上支持的比较好,其他平台有待验证运行环境限制仅支持在容器上运行特点说明透明化的远程调用就像调用本地方法一样调用远程方法,只需简单配置,没有任何API侵入软负责均衡与容错机制可在内网替代F5等硬件负责均衡器,降低成本,减少单点服务自动注册与发现不需写死服务提供方地址,注册中心基于接口名查询服务提供者的IP地址,并且能够平滑添加或删除服务提供者解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例45/46解决方案篇将应用整合到容器中并且运行起来的这个过程称为“容器化”,容器凭借其更高效的资源利用、更快速的启动时间、一致的运行环境和更轻松的迁移、扩展及维护特征已成为微服务应用的最佳承载体。应用的容器化改造,一般分为单体应用的容器化改造和微服务应用的容器化。单体应用的容器化改造相对简单且不是本实践的重点,因此不作详述。对于微服务的容器化改造常常包括以下几个重点步骤:容器化改造,首先应获取各个服务的代码并分析各个服务,了解其应用运行的操作系统、依赖包、配置等信息。然后编写容器镜像文件,通过Dockerfile来构建镜像,Dockerfile是一个文本文件,其内包含了一条条的指令,每一条指令构建镜像中的一层。最后以镜像的方式交付并运行。5.应用容器化容器化完成后的应用(容器镜像),应该交由容器平台进行管理,从而实现对容器化应用的自动化管理和编排。Kubernetes是让容器应用进入大规模工业生产环境的容器平台,也是集群调度领域的事实标准,目前已被业界广泛接受并得到了大规模的应用。容器平台的构建是一项非常复杂的系统工程,涉及网络、存储、操作系统、编排等多种技术栈;其安装过程涉需手动配置相关组件、配置文件、证书、密钥等,安装工作繁琐;此外自行搭建的平台其安全性、版本迭代、运维等均需持续投入大量的人力,使得企业成本居高不下,业务人员难以专注于业务本身的开发迭代。因此,选择由专业云厂商开发维护的容器平台是企业云原生实践过程中的最佳选择。6.容器平台构建新华三微服务引擎旨在提供一套完整的端到端的微服务开发与运维一体化平台。基于底层容器云技术,在全面支持Spring Cloud/Dubbo开源框架的同时,与Istio服务网格平台进行了深度集成,实现了业务无侵入性的微服务架构。a.提供微服务的全生命周期管理,集开发、运维、治理一体化的平台;b.服务化的能力提供,保障微服务应用快速落地;c.平台级的服务治理能力,最大程度的解决分布式架构带来的系统复杂性问题;d.以平台服务的方式向用户提供Spring Cloud的公共治理组件的能力,保证相关组件(比如服务注册、API网关、统一配置服务等)在K8S环境下的高可用以及高性能;e.提供脚手架代码框架,自动对接上述微服务治理平台服务,尽量在框架内部封装分布式应用治理的相关细节,应用开发只需关注具体业务实现;f.Spring Cloud与Kubernetes集成,同时全面兼容Istio,在统一的平台之上,向用户提供服务灰度发布、水平扩展、服务降级、服务熔断、全链路跟踪等功能。应用状态外置,无状态化的应用更容易部署且拥有更好的横向扩展能力。应用的无状态化主要是将保存在内存的数据,如session,外置到统一的缓存中间件中,对于业务相关的数据则统一保存在外部数据库中。这样应用就成了仅仅包含业务逻辑的无状态应用,可以进行平滑的横向扩展,所有外部存储(缓存、数据库)都有自身的分布式横向扩展机制。负载均衡缓存内存中的数据持久化数据非结构化数据数据库用户数据分布式存储照片会话用户中心业务逻辑用户中心业务逻辑可扩展集群作为容器/服务运行APPDockerfile推送镜像Docker Registry/Docker hosts docker image build交付运行构建解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例47/48解决方案篇新华三容器平台以新一代容器应用交付件为中心,采用开源的Docker Kubernetes技术架构,对底层的集群管理和资源调度进行了平台化的抽象,全方位支持应用创建、编译、集成、编排、部署和运行的每一个环节,并提供一个高效、高可用的运行环境,并与开源社区最新稳定版本保持基本同步。容器云平台基于业界最先进的容器设计理念,提供了双模式的容器服务容器集群服务与容器实例服务,以及容器镜像仓库服务,全面支撑用户的多种应用开发和运行场景。在容器网络方面,除了支撑开源的Calico、Flannel之外,还支持基于openvswitch构建的多租户容器SDN网络,其转发性能和租户隔离性能更佳。在容器存储方面,在优化优化PV/PVC静态和StorageClass动态存储配置基础之上广泛对接适配了多种存储协议,支持iSCSI、FC、NFS、RBD等协议,支持不同类型不同规格的后端存储。在云原生时代,基础设施与应用的部署构建都发生了极大变化,传统的监控方式已经无法适应云原生的场景。在分布式架构下,系统故障可能出现在任何地方,因此构建全面的可观测性体系是保障应用健壮性的关键所在,云原生时代的可观测性体系应该由日志、指标和追踪三大体系构成以应用为中心的监控体系。日志,展现的是应用运行而产生的事件或者程序在执行的过程中间产生的一些日志,可以详细解释系统的运行状态,协助问题的排查和诊断。7.可观测性体系构建针对企业级客户的需求,容器平台服务主要分为集群管理、镜像管理、应用管理三大部分,通过开放接口可与安全服务组件、运维平台、运营平台集成;基于CSI、CNI等标准接口,可对接IaaS、公有云或私有云,获取丰富的计算、存储、网络等基础资源支持;对外提供标准API,为微服务、DevOps等其他PaaS服务提供容器支撑。通过统一的平台管理服务,实现容器服务的一键安装部署、维护升级、运维监控等一站式管理。参数是一种聚合数值,可以观察系统的状态和趋势,但对于问题定位缺乏细节展示。这个时候使用等高线指标等多维数据结构来增强对于细节的表现力。例如统计一个服务的tps、平均响应时间等。链路,面向的是请求,可以轻松分析出请求中异常点,但与日志有相同的问题就是资源消耗较大。通常也需要通过采样的方式减少数据量。比如一次请求的范围,也就是从浏览器或者手机端发起的任何一次调用,一个流程化的东西,需要轨迹去追踪。新华三打造了全方位的应用可观测方案,包括基于Prometheus的指标监控方案、基于ELK的日志监控方案、基于skyworking/jaeger的调用链追踪监控方案,通过以上监控方案的灵活使用有效满足云原生场景下健壮性需求。容器环境监控,主要指服务所处运行环境的一些监控数据应用服务监控,主要指服务本身的基础数据指标,提现服务自身的运行状况第三方接口监控,主要指调用其他外部服务接口的情况日志数据:包括系统日志、应用程序日志、安全日志可以用于遥测的标签数据拓扑分析调用的执行过程和耗时ELKPrometheus Grafana 开源ExportersPromethuesDevOps弹性伸缩一键部署安装维护升级容器化部署运维监控可用容灾备份恢复容器调度(Kubernetes)容器存储接口CSI物理环境虚拟化私有云托管云公有云容器网络接口CNI安全服务对接运营对接运维对接IaaS对接容器运行时(Docker)容器存储容器网络多集群管理跨云支持节点伸缩监控告警租户隔离高可用节点纳管第三方接入镜像仓库软件包仓库权限管理镜像混合编排负载均衡滚动升级应用管理集群管理平台管理容器平台开放接口统一运营管理平台统一运维管理平台基础设施镜像仓库监控内容监控内容监控内容Skywalking、Jaeger监控内容监控方案指标监控日志监控链路监控监控方案灰度发布服务目录日志监控微服务应用编排数据库中间件Serverless ELKKafka日志解决方案篇精品案例篇专刊解 决 方 案 与 精 品 案 例49/50解决方案篇53|56|58|61|63|65|68|71|73|75|77|79|81|83|85|87|中国建筑集团云华润集团云中国中铁集团云中国海油集团云国家电网调控云中国铝业集团云中国通用集团云中国建设科技集团云首钢集团云中冶赛迪云中海地产云山东黄金云湖北中烟云安阳钢铁云某粮食集团视频云展锐芯片云精品案例篇专刊解 决 方 案 与 精 品 案 例中国建筑集团云以同构混合云激活转型新动能中国建筑集团有限公司组建于1982年,是中国专业化发展最久、市场化经营最早、一体化程度最高、全球规模最大的投资建设集团之一,业务遍布海内外一百多个国家和地区,业务布局涵盖投资开发、工程建设、勘察设计、新业务等多个板块。目前,中国建筑位列世界500强第13位,中国企业500强第3位,稳居ENR“全球最大250家工程承包商”首位,在中国建筑行业中有着无可取代的重要地位。为了顺应“互联网 ”发展新趋势,中国建筑加快了数字化转型升级的步伐,以新技术驱动产业创新变革。为了构建数字化转型的有力底座,紫光股份旗下新华三集团以全新理念的“同构混合云”为建设思路,与中国建筑共同启动了“中国建筑集团云”的建设,承载企业的“数字大脑”,以提升企业数字化与信息化水平。整合实力|构建“136工程”创新底座2020年8月,国资委发布加快推进国有企业数字化转型通知,要求着力夯实数字化转型基础,加快推进产业数字化创新。中建集团开启了全面的数字化转型,以集团十四五规划为战略指导,以建筑产业互联网为目标,打造“技术、大数据、云计算”三大平台,建设数字指挥决策、产业链数字化、海外信息化提升、企业管理协同、产业互联网奠基与信息化基础设施云化六大项目群的“中建136工程”。其中,“中国建筑云”是“中建136工程”的基础数字底座,目标是以大平台支撑能力、产品化输出能力、体系化安全能力和全球化服务能力,满足业务系统的资源需求,保障IT基础设施的可靠运行,实现资源的集约化和服务化,支撑集团的信息化建设和数字化转型。新华三集团在经过缜密的考察之后,为中国建筑集团定制了云网安深度融合解决方案,提供了包括云管理平台、虚拟化平台、统一运维、SDN、交换机、主动安全等数字化创新产品和技术,更为中国建筑提供了从云数据中心咨询规划、建设到运营、运维全生命周期的专业技术服务及IT增值服务,全面助力中建信息化战略的推进和实施。100 ON.11982年中国建筑集团有限公司组建于1982年业务遍布海内外一百多个国家和地区稳居ENR“全球最大250家工程承包商”首位专刊解 决 方 案 与 精 品 案 例解决方案篇精品案例篇53/54精品案例篇同构混合云|激活业务新价值在中国建筑集团云的建设上,新华三集团采用“同构混合云”的建设模式,构建了集IaaS、PaaS、SaaS于一体的全栈云平台,提供了丰富的服务目录和海量资源,构建敏捷、灵活和可移植性的云原生应用,加快了业务的创新。对于管理者而言,同构的公有云与本地私有云之间,更实现了统一门户、统一服务目录、统一认证、统一运营、统一运维的模式创新,极大的提升了运营、管理效率。目前,中国建筑集团云深度整合了现有的数字化资源,形成了敏捷灵动的资源中心、方便快捷的办公中心、高效主动的服务中心、随需而取的交付中心和安全可控的防护中心,以往需要数月的审批流程、上线周期缩短至数小时,提高了整体运营效率并有效降低了运营成本;实现了硬件全面池化,资源利用率提升3倍;故障响应时间缩短60%;同时实现了数据集中,满足了未来集团范围内多数据中心之间资源共享、统一管控的要求。在中国建筑集团云的可靠性和稳定性上,新华三集团助力中国建筑实现了北京同城双活中心和上海灾备中心的“两地三中心”架构,实现核心业务系统的快速切换和相互备份,满足核心业务不间断服务要求,帮助中建集团极大的提升了业务服务能力。在运维管理上,新华三从业务视角出发打造了完善的云运维平台,实现了故障智能定位、优化资源配置,预测业务风险等功能,大幅提升IT运维效率。在“十四五”新阶段,“数字中国”将进一步推动数字化创新与实体经济的深度融合,激活企业数字化转型的新动能。作为数字化解决方案领导者,新华三集团也将持续引领同构混合云、云原生等技术的创新迭代,以更高效、灵活、可靠和安全的企业云平台,助力中国建筑等全球布局的大型企业加速自身转型。华润集团云云优先、智生长以云上创新赋能数字化转型从1938年在香港成立的“联和行”,到1948年由联和进出口公司改组为华润公司,华润在数十年的发展历程中历经多次转型和变革,已经成为一家发展涵盖大消费、综合能源、城市建设运营、大健康、产业金融、科技及新兴产业6大领域的多元化控股企业集团。目前,华润旗下的实体企业近2,000家,在职员工37.1万人,在2021年财富世界五百强排名第69位。近年来,互联网、大数据、云计算技术所孕育出的新商业模式、新资本模式,颠覆了传统商业生态甚至改变了人们的社会习惯,对传统的企业经营模式形成了强烈的冲击。对于华润集团而言,智能化发展、数字化转型是提升企业经营能力、优化服务水平的必由之路。为了达成这一目标,华润集团在紫光股份旗下新华三集团等合作伙伴助力下,以“云优先、智生长”的技术策略打造企业云平台,构建“企业数字大脑”,满足集团业务发展过程中对基础设施、平台、软件服务能力的要求,支持各产业的数字化发展,让产业更智慧,让生产更智能,提升集团的智能化水平。371000人ON.692000家华润旗下的实体企业近2,000家在职员工37.1万人在2021年财富世界五百强排名第69位专刊解 决 方 案 与 精 品 案 例解决方案篇精品案例篇55/56精品案例篇向智慧迈进|以云上创新激活变革价值在数字化系统的建设上,多元化的业务架构在推动华润企业规模和收入增长的同时,也带来了系统重复建设等成本挑战。为了能够降低华润数字化系统建设的整体成本,同时加快业务的敏捷创新和交付上线,华润将集团IT部门单独成立润联科技来承建华润云,成为集团“云优先、智生长”技术战略中的云战略重要支撑,并将以智能化为核心发展方向,助力华润迈向智慧华润2028,赋能产业智能化转型。在2019年,华润云全面上线,成为了华润集团内部各个子公司重要的云服务提供商。在华润云平台的构建背后,新华三集团提供了“云网安”融合解决方案,帮助华润云实现了IT资源的统一管理、一体化调度、服务封装编排和监控运营分析,对外提供先进稳定的云服务,满足等保三级、多云管理等云上业务需求。通过基础设施的云化,华润云大幅提升了资源利用率,同时通过成熟的PaaS业务组件,大幅降低了应用定制难度,显著加速了应用上线周期。例如,华润建筑基于云平台的PaaS能力开发出适合其业务的建筑SaaS平台,成本远低于第三方软件的购买费用。基于对华润云的有效运营,集团整体IT资源使用价格降低15%,每年节省软件授权费用超过1000万元,软件项目的交付周期缩短了50%以上,为集团业务发展提供了有力的技术支撑。云优先,智生长|做华润转型背后的力量从2019年1月明确云计算战略定位之后,华润集团在新华三集团的助力之下,在数月之内完成了IaaS、PaaS平台的建设,成为了践行“云优先,智生长”技术战略的先行平台。通过打造去中心化的业务平台,华润云为集团塑造了新一代ERP基础,同时,华润集团上下游20余万家企业,也将在该云平台的基础上进行数字化转型创新,共同打造传统制造业数字化创新生态。而在“智生长”技术战略的实践上,华润集团将在云平台之上推动新一代智能和信息技术与业务深度融合,将新一代智能和信息技术转变为生产力、将数据转化为新动能,进而驱动和引领业务、管理、产品、服务和商业模式等的创新突破和产业结构调整。华润集团在组织能力、管理机制、制度规范等多个角度和领域,全力推进利润中心的智能化发展和数字化转型工作。随着智能技术、互联网技术、云计算与现有业务的进一步融合,华润集团这艘“航空母舰”已驶入了全新的智能化和数字化时代。在赋能华润集团等企业客户转型升级的道路上,新华三集团将以“数字大脑”为抓手,推进智能数字平台创新,打造智慧应用生态,助力中国企业以数字化力量加快产业与信息技术融合,引领数字经济加速发展。中国中铁集团云以数字化技术提升企业精细化管理水平作为全球最大建筑工程承包商之一,中国中铁股份有限公司拥有一百多年的历史源流,是集勘察设计、施工安装、工业制造、房地产开发、资源矿产、金融投资和其他业务于一体的特大型企业集团,先后参与建设的铁路占中国铁路总里程的三分之二以上,参与建设的高速公路约占中国高速公路总里程的八分之一,并且建设了中国五分之三的城市轨道工程。目前,中国中铁连续16年进入世界企业500强,2021年排名第35位。在数字化转型持续深化的时代大背景下,中国中铁秉承“科技引领创新”的理念,沿着“管理制度化、制度流程化、流程信息化”的方向大力推进信息化建设,相继开展了多轮信息技术革命。作为中国中铁信息化建设的合作伙伴,紫光股份旗下新华三集团始终与中国中铁一路同行,探索数字化技术在大型央企应用的新模式、新场景,共同打造了中国中铁共享云,重塑企业数字化架构,助力企业生产经营和管理能力实现了大幅提升和优化。1/816年2/3先后参与建设的铁路占中国铁路总里程的三分之二以上参与建设的高速公路约占中国高速公路总里程的八分之一中国中铁连续16年进入世界企业500强,2021年排名第35位专刊解 决 方 案 与 精 品 案 例解决方案篇精品案例篇57/58精品案例篇拥抱数字化创新|中国中铁应时而变传统基础设施建设经历过去数十年的高速发展,行业产能逐渐趋于饱和,速度逐步放缓,对经济增长的带动作用逐步减弱,迫切需要向高质量、高潜力的方向转型升级,以实现持续性的增长。伴随着中国中铁业务体量的不断扩张和全球化布局的加速,传统的IT架构已无法支持业务的持续扩展,转型升级和提质增效成为企业基础管理的第一要务。中国中铁着力从顶层设计抓起,从规范标准去入手,制定了一套“三横三纵”的信息化发展规划。“三横”指的是底部基础设施层,中间的应用层,上面的辅助决策层;“三纵”是指数字化建设的三条主线:一是让企业的所有管理流程通过信息化手段去落地,二是让所有数据成为企业的战略资产,三是要靠数据辅助科学决策,要靠知识图谱、大数据分析去辅助企业更科学地预警、预测、预判。2016年,中国中铁率先开启了共享云建设,全面应用新华三集团数字基础设施、主动安全、云与智能平台等能力和技术,实现了IT资源的云化管理,提高了运维效率,保障了业务可持续发展,成为央企上云的示范性“样板”。新华三洞悉中国中铁的业务需求,打造了稳定可靠、高效便捷的计算、存储、网络及安全资源池,承载了中国中铁的研发、生产及经营管理过程中的海量数据收集、传输、存储及处理需求,助力实现高效的设备研发和生产,以统一的共享云服务加速中国中铁的数字化转型和重塑。推进企业创新|提升管理精细化水平中国中铁的共享云平台基本实现了对中国中铁主要业务领域的数字化全覆盖,显著提升了精细化管理的水平。目前,在共享云上运行着2000多套业务信息系统,支持用户上线数23万人,日处理公文流程5万件,日收发邮件300万封,日办结业务量30万件,已经全面承载起中国中铁各分子公司和海外机构上万个项目的运作,为设备、资金、营销、外事、人力资源、电子商务、协同办公等应用平台提供支持,极大地提高了业财一体化和生产经营综合管控能力。同时,中国中铁统一云平台的建立,破解了传统IT系统存在的灵活性差、运维难度大的痛点,实现了IT资源的云化管理,提高了运维效率,提升了整体的资源利用效率。共享云所具备的大数据分析的能力实现了更智慧的业务决策,更能让中国中铁对各个项目、各个系统中产生的庞大数据的收集和整合,避免了以往大量的数据流失。数据成为企业的战略资产,在辅助智慧决策上发挥了重要的作用,企业可以借助大数据分析更加科学地预警、预测、预判生产经营中的风险。面向未来,中国中铁的数字化蓝图中不仅涵盖了全球云中心、BIM应用中心、决策指挥中心等一大批智能管控中心,更包括了智能制造、智慧工地、智慧企业建设等一系列规划,引领和助推着中国中铁实现数字化、网络化和智慧化发展。新华三集团也将依托“数字大脑”的全面技术升级,将在未来继续助力企业业务向云迁移,从而在数字化时代扩大竞争优势,引领产业新发展。专刊解 决 方 案 与 精 品 案 例解决方案篇精品案例篇59/60精品案例篇中国海油集团云把握转型趋势赋能云管理模式创新中国海洋石油集团有限公司是1982年经国务院批准成立的特大型国有企业,是中国最大的海上油气生产运营商,主要业务板块包括了油气勘探开发、专业技术服务、炼化与销售、天然气及发电、金融服务等,并在近年来积极发展海上风电等新能源业务。2020年,中国海油在“世界500强企业”中排名第64位公司,主要经营业绩指标在央企位居前列。近年来,全球油气行业正在经历深刻的变革,市场的供需变化正在不断颠覆行业价值链。为了在数字化持续深化的大背景下构建创新管理的新平台,紫光股份旗下新华三集团助力中海油推进云管理平台建设,为中海油打造了一个统一、安全、高效的云计算平台,为应用系统提供快速部署、弹性扩展、快速响应、可计量的能力支撑服务。应对挑战|以云攻克发展难题历经多年的信息化系统建设,中海油在全面云化转型之前已经构建了一套相对完整的数字化架构。但随着中海油业务规模的持续增长,中海油的传统IT架构日益无法应对海量资源的需求,整体运营成本也在持续上升。此外,相对僵化的传统架构也不利于系统的部署和应用的交付,无法做到集中化的管理和管控。因此,中海油的云平台建设主要聚焦于提升人员效率、提高管理效率、提升安全可靠性、实现快速业务交付、降低投资成本、提高企业业务整体服务能力和创新能力等六大方面的需求。为了满足中海油的数字化转型需要,中海油与新华三集团协同合作,共同建设了一个全球化布局、集约化管理,可以为集团总部及二三级单位在线提供一体化云服务的云计算运营平台。在整体架构上,中海油包括了六大部分。其中,物理层包括了云数据中心机房运行环境;资源抽象与控制层通过虚拟化技术,负责对底层硬件资源进行抽象,构建统一调度的资源池;IaaS云服务层提供了云主机、云存储、云数据库等服务,能够让用户自助完成服务的申请;云安全防护为数字基础设施、云服务等打造了全方位的安全防护;云运维层实现了云的统一管理,满足了云平台的日常运营维护需求;云服务管理更为云管理员提供了更简便的管理工具,方便云服务进行配置与管理。全面赋能|打造全球一体化云平台在中海油云管理平台的建设上,新华三集团采用了当时业界最为先进的云计算整体解决方案,实现了虚拟化、分布式存储、云运维等先机技术的部署,助力中海油后续为集团及下属企业提供了全系列的云产品和云服务。同时,中海油更充分发挥了云计算资源弹性扩展、按需分配的优势,实现软硬件集中部署、统建共用、信息共享,避免重复投资。通过全方位的云平台创新,新华三还协助中海油实现了全球一体化的云平台协同管理能力,实现了与多种云服务的广泛兼容,保证了客户云服务的多样性。而在技术创新之外,新华三集团更为中海油建立起了一套包括共性办公业务标准、管理工作实现标准、技术安全标准等在内的统一的云计算建设规范,简化了云计算的使用,通过制度建设保障了云的效率和安全。在中海油的发展历程中,新华三集团参与打造的“海油云”平台降低了业务应用运营成本,提升了业务应用运营效率,促进了信息共享和业务协同,为决策分析提供了坚实支撑,为信息化运维能力和云服务能力演进提供坚实基础。作为油气行业数字化变革的推动者,新华三也将依托在中海油转型中积累的经验,继续推动油气行业的数字化变革。专刊解 决 方 案 与 精 品 案 例解决方案篇精品案例篇61/62精品案例篇国家电网调控云量身定制云平台重构业务新模式国家电网有限公司成立于2002年,是以投资建设运营电网为核心业务,是关系国家能源安全和国民经济命脉的特大型国有重点骨干企业。近20多年来,国家电网持续创造全球特大型电网最长安全纪录,建成多项特高压输电工程,成为世界上输电能力最强、新能源并网规模最大的电网,专利拥有量连续10年位列央企第一。目前,国家电网的经营区域覆盖了26个省、市和自治区,供电范围占国土面积的88%,供电人口超过11亿。国网拥有全球最大且电压等级最高的输配电网,对生产业务系统的安全、稳定、可控要求极高。为了适应电网一体化运行的变革趋势,国网调度控制中心以电网运行和调控管理业务为需求导向,依托云计算、大数据和移动互联网等数字化创新技术,与紫光股份旗下新华三集团一道构建了调度控制云,逐步形成“资源虚拟化、数据标准化、应用服务化”的调控技术支撑体系,让数字化技术实现了与国家电网业务更深层次的融合。量身定制|构建国家电网的转型基石国家电网调度控制中心经过近半年对国内外主要云计算服务提供商进行深入的调研和考察,最终选择由新华三集团承建调控云平台。通过CloudOS云操作系统的部署,新华三真正实现了云平台IT资源的统一管理和调度,为国家电网调控云“量身定制”了云服务门户,让国家电网总部、分部与各省单位能够拥有一个统一的云服务入口,显著提升了云平台在推动国家电网数字化转型中的作用和价值。在调度云基础架构的建设上,新华三集团实现了计算资源、存储资源的全面池化,提高了资源的利用率、弹性和灵活性,同时实现了IT资源的自动化交付和调度管理。依靠双活架构和平台级数据同步系统,新华三能确保同一业务永远在线可用。同时,新华三实现了存储技术架构的统一和存储服务的统一,具有很强的横向扩展能力,可在不影响业务运行的情况下按需扩展,并且支持数据的异地备份。在运维方面,新华三也搭建了一体化、可视化运维平台。在电力创新背后|做坚实的数字支撑平台新华三集团立足在能源行业的广泛实践和云计算的创新积累,为国家电网调度网提供了先进的云计算架构体系,让IT基础架构具备弹性扩展能力和高可靠性冗余性,实现了计算资源、存储资源、网络资源、安全资源、大数据资源、未来的SDN资源的统一管理和集中化运营和运维。同时,统一的云服务门户通过开放接口与外部服务对接,实现了应用服务化,构建了丰富的应用生态。同时,新华三集团的异地双活架构也确保了业务永续,运用领先的分布式存储与数据同步技术,实现了跨异地数据中心的应用双活与数据的读写分离,容灾与备份相辅相成,在业界具有一定的创新性与先进性。集中的资源管理监控平台也实现了云基础资源、数据库集群、中间件与应用状态性能的统一管理,满足集中化运营和运维的要求。国家电网调控云平台与省级调控云平台的成功上线,开启了调度运行管理的新模式,为调度十四五与未来的新一代电网调控业务开展提供了有力的支撑。在“十四五”新时期,以云平台为代表的数字化创新将成为洞察数据价值的强有力的底座和工具。在这一过程中,新华三集团将充分发挥多年服务国家电网所积累的经验和能力,依托“数字大脑2021”全栈升级的智能数字平台,让更多智慧应用变革电力能源行业的全产业链场景,让数据资源洞察成就未来能源创新,构建行业变革的新格局。专刊解 决 方 案 与 精 品 案 例解决方案篇精品案例篇63/64精品案例篇中国铝业集团有限公司(以下简称“中铝集团”)成立于2001年,是中央直接管理的国有重要骨干企业,主要从事矿产资源开发、有色金属冶炼加工、相关贸易及工程技术服务等业务,是全球第一大氧化铝供应商、第一大电解铝供应商,也是亚洲规模最大的铅锌企业,铜业综合实力位居全国第一。如今,中国铝业集团的业务已经遍布了全球20多个国家和地区,自2008年以来,连续跻身世界500强企业行列,成为了中国矿产行业的代表性企业之一。数字化时代,从资源的开采利用,到企业的经营管理,云计算、大数据、人工智能、IoT等数字化创新日益成为矿产企业保障生产安全、提升运营管理效率的基石。为了应对集团业务布局和规模增长带来的转型需求,中铝集团选择与紫光股份旗下新华三集团合作,打造全面领先的私有云平台,提高运营效率,降低运营成本,全面推动企业的数字化转型升级。20多个500强第一全球第一大氧化铝供应商第一大电解铝供应商也是亚洲规模最大的铅锌企业铜业综合实力位居全国第一业务已经遍布了全球20多个国家和地区连续跻身世界500强企业行列云网一体|以创新驱动企业转型近年来,中铝集团深入贯彻落实新发展理念,加快推动质量变革、效率变革、动力变革,做强做优铝、铜、稀有稀土、铅锌四大核心产业,推动协同产业和新兴产业发展,形成了高质量发展的新格局。在2019年,中铝集团与新华三集团一道开始了私有云平台的建设,以虚拟化、云计算为支撑,以信息安全为核心,以标准化、模块化服务为主体,以运营服务为导向,建设弹性、高效、安全的基础设施资源运营服务中心,实现软、硬件设施资源动态调度、自动管控、共享使用,打造了一朵“数据驱动、用户至上、开放协同、随需应变”的全新云平台。在建设过程中,新华三集团与中铝集团合作构建的私有云实现了底层资源和上层数据的全面打通,借助云管理平台做到了对基础资源的统一管理,实现按需、自动化、可计量的基础架构资源分配,而运维管理平台则能够对资源使用情况和系统整体的健康情况进行监测和管理。此外,作为构建云平台的骨架,新华三也在私有云网络架构上持续探索,满足云数据中心的业务需要,通过部署SDN VxLAN大二层网络,中铝集团私有云实现了计算资源和网络资源的自动入网和动态分配,做到全网支持IPv4/IPv6双栈运行,确保了云网络未来的技术先进性。中国铝业集团云云网协同为企业转型打造高价值私有云专刊解 决 方 案 与 精 品 案 例解决方案篇精品案例篇65/66精品案例篇中国通用集团云重构智慧云底座为创新发展持续赋能中国通用技术(集团)控股有限责任公司(以下简称“通用技术集团”)成立于1998年,是中央直接管理的国有重要骨干企业,境内经营机构488家,境外机构91家,职工总数8.7万人。近年来,通用技术集团聚焦先进制造与技术服务、医药医疗健康、贸易与工程服务三大主业,持续优化布局结构,不断强化创新驱动,实现了高质量的持续发展。在2020年,通用技术集团实现了营业收入1958亿元,利润总额78.3亿元,7次入围财富世界500强。在“十四五”新发展阶段,通用技术集团将深入贯彻新发展理念,在全力构建新发展格局中加快建设“创新通用、绿色通用、技术通用、健康通用、国际化通用”,打造世界一流新通用。为了助力“五个通用”的建设,同时有效提升IT资源的使用率,通用技术集团与紫光股份旗下新华三集团共同建设了“通用技术云”,以支撑各业务单元的日常运转,推动企业实现全方位的数字化,以数据价值引领业务新生。91家87000人488家境内经营机构境外机构职工总数78.3亿元7次1958亿元通用技术集团实现了营业收入1958亿元利润总额入围财富世界500强保障业务平滑迁移|与中铝集团携手共进对于大型央企而言,其云平台建设合作伙伴,一方面要具备前瞻的技术实力,另一方面更要拥有丰富的实践经验,才能真正实现创新云架构与业务运营的深度融合发展。在中铝云的建设过程中,中铝集团需要兼顾现有业务特点,实现应用平滑迁移。为此,新华三集团以专业团队进行了中铝云的规划部署和运营管理,以稳妥安全为前提,详细规划业务迁移步骤,帮助中铝集团实现新旧两个数据中心的应用迁移,确保迁移过程稳妥无虞,让私有云承载起了中铝集团复杂多元的业务系统。如今,数字化先行者已经依靠云与智能的应用为自身构建起竞争优势,在业务创新和成本收益上享受数字化的红利。随着“数字中国”建设的稳步推进,中铝集团等央企将迈向以云化转型推动效益升级全新发展阶段,新华三集团也将凭借丰富的行业洞察与领先的云计算技术,以灵活的合作模式与行业领袖们携手创新,推进数字化转型进程,肩负起智能时代的新使命。专刊解 决 方 案 与 精 品 案 例解决方案篇精品案例篇67/68精品案例篇打造通用技术云|服务业务创新变革在数字化时代,推动央企加速业务上云,加速数字化转型,不止是央企构建核心竞争力的内在要求,更是其承担时代使命的必然之路。对于通用技术集团这类大型企业而言,庞大的业务规模、复杂的组织架构给企业的管理和运营带来了严峻的挑战和转型的需求,而私有云的搭建将有助于业务系统从粗放式、离散化建设向集约化、整体化的可持续发展模式转变,实现集团业务的精细化管理运营,推动企业实现高质量发展。在通用技术云的部署上,新华三集团以“数字大脑”的全面实力提供了云网安融合的完整数字化解决方案,CloudOS云操作系统、CAS虚拟化软件等云的构建技术打造了高效可靠的云资源池,实现了云服务的弹性调度和敏捷部署,SDN控制器SeerEngine实现了云网的深度融合,构建了数据共享共治的基础,U-Center运维管理平台则成为了通用技术云高可用性的有力保障,实现计算、存储、安全设备的快速部署和稳定运维,为集团各二级单位构建属于自己的VPC(虚拟私有云)。此外,在安全性方面,通用技术云也采用了服务链 微分段技术,实现了数据中心南北向和东西向的流量安全防护,满足了等保2.0的高标准要求,实现了虚拟机的安全防护。全面互联|让每一个人都能用好云在通用技术集团,采用云计算、虚拟化、SDN和分布式储存等前沿技术打造的融合开放的私有云平台,为集团业务的高效开展提供了云主机、云硬盘、云网络、数据库等丰富多样的云服务,构建了中国通用技术智慧云底座(GT-Cloud),并且与公有云一起构成了支撑集团核心主业发展的智能化基础混合云技术平台,形成了“资源虚拟化、管理自动化、应用服务化”的技术支撑体系,通过云联网实现了公有云、私有云、集团及各成员企业间互联互通,形成多地多中心布局,为通用技术全面向云化转型提供敏捷、高效、安全、可靠、智能的基础设施保障。在私有云的部署和创新上,新华三集团不止帮助通用技术集团稳健地将业务系统迁移上云,更致力于帮助通用技术集团在组织和管理层面更好地利用云创新、激活云价值。在私有云平台部署完成之后,新华三将凭借自身丰富的运营运维经验,协助中国通用技术集团用好私有云,通过一系列措施降低集团用户上云的学习门槛,使通用技术云资源像水电一样触手可得,真正服务到集团的每一位员工。面对快速迭代的云计算技术,云化转型已经成为了业务发展的必然选择,大型央企更需要兼备前瞻观念和技术实力的转型伙伴,才能精准把脉自身业务需求,构建兼具实用性和创新性的云平台。新华三集团将以实力和服务相融合,提供企业上云的全方位解决方案,以数字化的力量加速企业的高质量发展。专刊解 决 方 案 与 精 品 案 例解决方案篇精品案例篇69/70精品案例篇中国建设科技集团云推动业务融合打造建筑工程行业转型新典范中国建设科技有限公司是国资委直属的大型骨干科技型中央企业,国内最大的建筑设计集团,先后设计完成了国家体育场(鸟巢)、北京火车站、中国美术馆、国家图书馆、西气东输、南水北调、北京城市副中心市政府大楼、雄安新区市民服务中心等国家大型重点工程,是国家建筑标准设计的最具权威单位。作为科技型中央企业,中国建设科技集团始终将科技创新摆在企业发展的重要位置,作为培养科技人才的牢固基础、企业可持续发展的不竭动力。为了更好的支撑集团未来业务发展与战略的实现,集团提出了“一横两纵”的业务战略,并进一步立足信息化现状提出了“跟上时代步伐,加速补课速赢”的要求,与紫光股份旗下新华三集团深度合作,共同打造了“建设科技云”,实现“空间无边界、异地共协同”的规划目标。分级推进|引领建筑行业领军者加速变革为了推动企业数字化转型的深化,中国建设科技集团经过广泛的调研,确立了建设属于自己的云计算平台的指导方针,“建设科技云”应运而生。作为数字化解决方案领导者,新华三集团承担起了“建设科技云”的整体任务,提出“先私后公、实现集团一朵云”的建设思路。初期建设的私有云平台将为整个集团和所有下属企业提供包括IaaS和PaaS在内的全栈式集中云服务;随后建设的集团混合云平台将通过公有云对集团私有云进行容灾,实现集团私有云和公有云统一管理。面向未来,新华三更将推动中国建设科技有限公司向多云迈进,实现全集团的业务负载分担和区域就近访问,可以在全集团二级单位里选择性建设二级云平台,集团云平台纳管所有二级云平台,对外呈现出“一朵云”。最终,通过“一朵云”实现多数据中心和公有云的统一管理,统一认证、统一服务,统一监控,统一展示,实现集团云、公有云和二级云之间的资源共享、容灾备份和负载分担等能力。打破业务壁垒|赋能建筑革新新华三集团联合紫光云共同打造的“私有云 公有云”一体化的混合云解决方案,在各个维度上完美匹配了中国建设科技集团对混合云的建设愿景和目标任务,并已经顺利完成了第一期私有云的建设。通过统一的云资源服务支撑集团各部门业务的日常运转,实现集团各部门的业务应用系统从粗放式、离散化建设向集约化、整体化的可持续发展模式转变,使基础资源和业务系统的管理运维从各自为政、相互封闭的运作方式向跨部门、跨区域的协同互动和资源共享转变,实现集团业务的精细化管理运营。建设科技云的建成打破了中国建设科技集团的业务壁垒,加速了集团的数字化转型步伐,使集团一跃成为央企数字化转型的领跑者。借助建设科技云的落地,新华三集团也实现了在建筑设计行业的重大突破,通过架构统一、品牌统一、服务统一的“云网安”一体化的整体解决方案,打造建筑云行业的典范案例,力图让数字化技术更深入地融入建筑全生命周期流程,推动建筑云行业的创新和布局。专刊解 决 方 案 与 精 品 案 例解决方案篇精品案例篇71/72精品案例篇首钢集团云构建坚实云平台赋能钢铁产销一体化始建于1919年的首钢,是我国钢铁工业的缩影、改革开放的一面旗帜,参与和见证了中国钢铁工业从无到有、从小到大、从大到强的历史跨越。作为首钢集团所属的境内唯一上市公司,北京首钢股份有限公司(以下简称为“首钢股份”),拥有迁钢公司、首钢智新迁安电磁材料有限公司,控股首钢京唐钢铁联合有限责任公司、北京首钢冷轧薄板有限公司等钢铁实体单位,具有焦化、炼铁、炼钢、轧钢、热处理等完整的生产工艺流程,是中国钢铁行业重要的行业引领企业之一。在“十四五”新发展格局之下,首钢股份以“中国制造2025”和首钢钢铁总体发展战略为引领,以推动钢铁板块“制造 服务”转型发展、提高综合竞争力为目标,以“一业多地”的一体化运作、多基地协同制造、供应链两端“互联互供”、智能工厂打造为重点,实现了自身的转型升级。在这背后,首钢股份与紫光股份旗下新华三集团一道共建“首钢云”,成为首钢数字化转型的核心平台和重要枢纽,助力首钢构建面向未来的核心数字竞争力。重构运营管理新模式|首钢拥抱数字化革新在2017年,首钢股份启动了钢铁产销一体化经营管理系统项目,主要建设业务系统包括经营决策系统、经营管理系统、制造管理系统、一贯制过程质量控制系统、能源管理系统等。业务系统部署模式包括集中部署、制造基地属地化部署两种方式。为了满足钢铁产销一体化经营管理业务系统的稳定、高效运行,实现一体化管控、提升产销衔接效率,需要配套设计和建设基础平台云计算数据中心,提升硬件设备资源利用效率,降低企业整体运营成本。基于对首钢股份需求的深刻洞察,新华三集团为其提供了全面的云网安解决方案,涵盖云管理平台Clou-dOS、虚拟化CAS、一体化运维U-Center、AD-DC数据中心网络方案、网络设备、安全设备、x86服务器、存储等产品和解决方案。通过整体云计算解决方案,新华三在迁安和京唐协助首钢股份建设两个云计算数据中心,通过云管理平台统一管理,迁安、京唐互为灾备中心,确保产销一体化基础平台整体运行率达到99.9%。优化IT管理|赋能数据革新新华三集团完整的“云网安”解决方案助力首钢产销一体化项目顺利落地,从整体性、先进性、扩展性等多角度支持首钢产销业务持续发展。迁安、京唐两地数据中心通过云计算技术打造的云计算数据中心基础平台,能够帮助用户改善IT环境的建设和运营模式,对企业发展提供更高效的支撑,业务的优化完善会随着市场环境和企业发展的需求而不断进行,在云计算平台的环境下,客户能够及时创造、收集、分析、利用和共享数据,并通过新技术快速、弹性地实现创新的业务应用,帮助管理持续提升。作为数字化解决方案领导者,新华三集团正依托更优质的产品、服务及整体解决方案能力,加速首钢股份的数字化进程,从而降低成本、提高收益,与首钢股份共同应对错综复杂的商业环境。在“十四五”期间加快“数字中国”建设的大背景下,新华三也将继续参与首钢的数字化建设,不仅实现添智增效的目标,更将帮助首钢实现生产和管理环节的效率升级、节能减排,让首钢实现全面的高质量发展,做钢铁行业变革重塑的新模范。73/74专刊解 决 方 案 与 精 品 案 例解决方案篇精品案例篇精品案例篇中冶赛迪云融合全域技术创新赋能“智慧钢铁”转型1958年,为发展西南地区钢铁工业,冶金工业部鞍山黑色冶金设计院迁至重庆,成为了中冶赛迪集团有限公司的前身。如今,中冶赛迪已经从一家专业化的钢铁设计院,发展成为了国际化的大型工程技术企业集团,成为了世界500强中国五矿集团所属中冶集团的核心子公司,形成了“以高端咨询为引领,以钢铁工程技术、智能化信息化、城市建设、节能环保为四大板块的业务体系。在中国,中冶赛迪率先实现了钢铁工程技术从“引进”到“输出”的转变,服务于全球钢铁行业前50强中的41家,实现了业务飞跃式的增长和发展。为了能应对业务增长的需求,为客户提供更优质的服务,中冶赛迪与紫光股份旗下新华三集团合作,将5G、大数据、人工智能、工业互联网、物联网与传统工程技术相结合,构建起五位一体大数据智能化能力体系,建设了国内首个基于自主芯片架构的数字基础设施赛迪云。以数据激活业务|打造赛迪云平台2019年,新华三集团承建了中冶赛迪集团“赛迪云”平台的建设,让OA系统、开发系统、测试系统等集团业务及子公司的业务迁入到云上,实现了资源的充分利用。在2020年,新华三更在现有私有云的基础上,先后进行了两次扩容,为中冶赛迪带来了新的云桌面等创新服务。未来,中冶赛迪集团将以“两地三中心”为基础,实现物理资源的拉通,以云计算为平台,实现租户的线上申请、开通、关停、注销等服务,继续实现自身价值的对外输出。此外,出于业务连续性的考虑,新华三集团更助力中冶集团旗下的中冶京诚打造了“中冶京诚云”,成为了中冶集团在北京的另一个云资源中心,将集团的部分业务及未来子公司的部分业务迁入到云上,形成两地云中心的可靠架构,以云计算为平台提供租户线上申请、开通、关停、注销等服务,实现业务的集中化管控和资源的最大化利用。持续赋能|开创企业数字化转型加速度新华三集团全栈式的云服务能力助力中冶赛迪插上了“云的翅膀”,让业务能够顺利地迁入到云上,实现资源的充分利用。通过建设集团独享“赛迪云”,兼顾弹性与安全,无需顾虑资源,有力支撑集团战略转型,促进其由传统自建的重资产模式向IT资源按需取用、灵活扩缩的轻资产模式转变,以采购服务的形式实现所有IT资源的弹性伸缩,加快业务部署上线速度,有效支撑赛迪业务的快速发展。不同于传统云技术或者云服务企业,赛迪云还将以提供云基础设施租赁和提供IaaS、PaaS层服务为基础,通过与实体产业深度融合的SaaS智能应用服务,构筑数字经济产业生态,从而带动经济发展。目前,依托资源可伸缩、所有资源池化、泛在化等显著优势,中冶赛迪云已经构建起了360多种云服务,约2500类业务、200多个政务系统、上千家企业登录水土云平台。面向未来,赛迪云的持续创新为中国五矿集团的数字化转型带来了新的思考,加速中国五矿集团数字化转型的步伐,努力发挥金属矿产领域的国有资本投资公司功能,为打造世界一流的金属矿产企业集团开拓新路。作为数字化解决方案领导者,新华三集团也将在中冶赛迪背后,持续引领云化转型,开创数字化转型新价值。专刊解 决 方 案 与 精 品 案 例解决方案篇精品案例篇75/76精品案例篇中海地产云打造“两地三中心”让创新与稳健融入一体中海企业发展集团有限公司(以下简称“中海地产”)隶属于中国建筑集团有限公司,1979年创立于香港,1992年在香港联交所上市,拥有42年房地产开发与不动产运营管理经验,建立起了“不动产开发”“城市运营”“创新业务”三大产业群,具备行业领先的设计、开发、建造、运营、物业服务等全产业链整合联动能力,是中国内地最大的写字楼发展运营商,业务遍布港澳及内地80余个城市及美国、英国、澳大利亚、新加坡等多个国家和地区。在数字化时代,随着地产行业更深入地拥抱数字化,以科技创新优化管理模式、提升工作效率、优化工作流程、升级系统平台已成为趋势,中海地产也在积极推进自身的数字化重塑,实现业务管理系统的迁移上云。为此,中海地产与紫光股份旗下新华三集团合作打造了“中海云”,为地产行业的翘楚创造出了转型求变的新底座,优化业务流程,提升业务效率,从而加速自身数字化转型步伐。稳健创新|让云更安全、更可信面对国家数字化发展战略的要求,以及自身业务增长对于传统数字化架构带来的挑战,中海地产建设云数据中心迫在眉睫。中海地产的云中心旨在实现数据可管可控,让资源根据业务随需提供,确保新业务开发敏捷交付,并且能通过云安全加固及云中心建设,实现数据的安全、可管、可控,满足云等保三级要求。此外,为了保证业务及数据的可靠性,让业务服务不受单个数据中心故障导致业务宕机或数据丢失,中海地产更致力于构建同城双活、异地灾备的“两地三中心”私有云架构,实现多中心资源的统一管理。在建设中,新华三集团与中海地产一道,在全面细致的调研基础上进行了兼具前瞻性和实用性的顶层设计,为中海云平台打造出了新的云平台架构,其中包含了计算、存储、网络、安全等底层基础设施,通过完备的资源池化软件,将IT基础设施逻辑成资源池,并通过上层云管理平台进行管理,为中海业务提供IaaS PaaS层云服务,并提供云安全、云运营和云运维服务。全面承载|引领地产智慧转型在云平台的建设过程中,新华三集团和中海地产遵循面向业务需求的设计思路进行了云数据中心的顶层设计,采用了基于业务场景化、模块化的设计方法,实现了IT基础架构模块与业务模块松耦合,保证云数据中心业务动态扩展和新业务快速上线。在投入使用之后,新华三为中海地产提供的IaaS私有云为中海地产“住宅开发”、“城市运营”、“创意设计及现代服务”三大产业群提供了全面的云服务,成为中海地产数字化升级、进一步提升企业核心竞争力的重要支撑。随着“新基建”的推进,地产行业正在积极寻求将数字技术融入企业的经营管理和产品服务中,向智慧型地产企业迈进。新华三集团也将借助过去服务地产行业变革升级的丰富经验,以敏捷、智能的智慧IT融合解决方案,让更多数字技术深入商业地产的规划、建设和管理之中,在有效降低数字化建设与运营成本,提升地产企业核心竞争力的同时,也让数字创新走进了更多人的工作和家庭,创造了更美好的未来体验。42年拥有42年房地产开发与不动产运营管理经验80余个业务遍布港澳及内地80余个城市及国家专刊解 决 方 案 与 精 品 案 例解决方案篇精品案例篇77/78精品案例篇贯彻“1151”工程|为数字化转型构建关键平台集团贯彻新理念、融入新格局,为了顺应数字化转型发展新趋势,作为黄金产量、资源储备、经济效益等方面位居全国第一的国有大型骨干集团,山东黄金集团面对业务的日益扩展主动拥抱革新,提出了信息化“1151”工程,塑造一体化的智慧管控平台。其中,第2个“1”就是以云计算架构下统一贯通的基础设施,其最终催生出的成果,即这朵“山金云”。“山金云”按照“两地三中心”进行布局规划和集约化管理,能够为集团所属单位提供一体化的云服务。在山东黄金私有云平台的建设过程中,新华三集团提供了数字基础设施、云计算平台和数字化服务等一系列行业领先的产品、技术和解决方案,包括了CAS虚拟化平台、ONEStor分布式存储系统、先知网络架构、S12500X-AF核心数据中心交换机等产品、R4900 G3服务器以及IT运营和定制开发服务,将一系列创新技术和前沿理念引入山东黄金IT基础设施规划建设,为山东黄金推动企业数字化转型筑造了全面领先的云化平台。山东黄金私有云不仅是云数据中心部署的成功实践,更为后续云数据中心的拓展奠定了基础。六大能力|为业务创新加速交付借助新华三集团在云计算领域的深厚技术实力,山金云为集团的业务承载和创新提供了集约化建设、可视化管理、支撑业务创新、全栈式云服务、敏捷化响应和安全可控等六大能力,有力地加速了山东黄金集团的数字化转型。目前,山金云的基础架构服务能够实现按需申请,随时满足业务部署需求,弹性伸缩的能力也能满足业务突发需求。同时,在可用性、可靠性上,“山金云”具备全面的安全服务能力,全方位提升了安全防护水平,并且带来新的运维模式,降低用户单位运维压力,不仅能全面保障数据中心和业务系统的运转,更能提供分级数据保护。此外,在PaaS层的构建上,“山金云”的目标是让应用开发变得更简单、更快捷,应用运行变得更稳定、更安全。为此,“山金云”专程为开发人员和IT管理员提供了新的能力,让PaaS平台可以自动化获取资源进行部署,提供标准化的编程框架和服务来帮助应用开发和运行实现自动化,无需感知底层资源的应用自动化运维。作为数字化解决方案领导者,新华三集团长期参与全球和中国企业的数字化转型与重塑,具备全面领先的数字化技术创新实力和深刻的行业洞察。在数据价值日益凸显,科技变革不断深化的时代背景下,新华三将携手行业客户与产业伙伴,共同推动科技创新与场景落地,进一步提升企业在数字化时代的核心竞争力。山东黄金云迈出转型关键一步再造齐鲁云化转型新标杆山东黄金集团成立于1996年,现为世界黄金协会正式会员,2019年,黄金产量位列全球黄金企业第10位,并且在资源储备、经济效益、技术实力、智能化水平及人才优势等方面均居全国黄金行业前列,是全球黄金领域具有重要影响力的标志性企业之一。2020年,实现利润总额40.15亿元,黄金产量44.73吨,营业收入767.17亿元,资产总额1204.63亿元。作为黄金产量、资源储备、经济效益等方面位居全国第一的国有大型骨干集团,山东黄金集团面对业务的日益扩展主动拥抱革新,提出了信息化“1151”工程,塑造一体化的智慧管控平台。为此,山东黄金与紫光股份旗下新华三集团合作,以云计算架构实现基础架构的统一贯通,打造出了全新的“山金云”,标志着山东黄金集团迈出了数字化转型的关键一步,为集团内部的运营管理、业务创新和效益优化打造了重要平台。44.73吨767.17亿40.15亿实现利润总额40.15亿元营业收入767.17亿元黄金产量44.73吨1204.63亿资产总额1204.63亿元专刊解 决 方 案 与 精 品 案 例解决方案篇精品案例篇79/80精品案例篇从资源到应用|打造企业转型的一体化架构湖北中烟集团作为大型烟草企业,过去搭建的信息化系统也在新时期面临着资源分散、架构传统等问题。为了能够应对数字化时代的新任务和新要求,湖北中烟提出要结合云计算、弹性架构等技术及业务连续性管理等理念,通过业务连续性体系建设、混合云服务模式、云安全体系架构以及构建自动与协同化、服务化、智能化的管控平台等具体工作,实现融合“检测、预测、自我修复、优化、学习与保护”为一体的智能基础架构,敏捷响应业务需求,全力支撑湖北中烟智能化转型。由湖北中烟和新华三集团合作打造的“中烟云”构建了完整的创新架构,其中,支撑后台以虚拟化、SDN等技术构建了一体化的资源池,通过云管理平台,为所有业务提供基础设施资源服务。服务中台分为技术中台、业务中台、数据中台,能构建云原生的开发环境,加速业务的创新和交付,支撑业务快速迭代,提高效率,同时也能实现数据资产全生命周期的治理。应用前台主要包含了智能制造、智能营销、智能研发、智慧决策等业务系统,打通了以数据激活转型价值的最后一步。此外,新华三还为湖北中烟搭建了运营和运维中心,依照等保2.0标准提供了全面的安全保障。打造一体化架构|实现业务与数据的融合协同通过云计算平台的建设和部署,湖北中烟实现了IaaS资源的快速发放,PaaS资源敏捷构建,并且结合微服务治理、DevOPS等云原生技术构建技术中台、业务中台、数据中台,快速开发迭代应用前台,帮助湖北中烟降低了IT投资成本,提升了资源利用率,促进管控协同,凸显共享化、标准化价值,最终支撑了信息化战略目标落地,推动两化深度融合。此外,湖北中烟更通过“中烟云”的建设,为推进“一体两翼”智能化转型构建起了关键的底层平台,其中“一体”指智能制造,“两翼”指营销智能化与研发智能化。在业务应用层面,应用的创新和交付将由传统的单体应用架构,向搭建前后中台架构转变,让底层算力资源能够更好的满足不同类型应用的需求,灵活应对业务高峰的挑战,同时也能在中台内实现数据的共享共治和自由流动,帮助应用在深层次上激活数据价值。面向未来,湖北中烟将以全面推进数字化转型为契机,进一步深化数字化创新与业务流程的全面融合,为湖北中烟实现高质量发展构建必不可少的重要前提。作为数字化解决方案领导者,新华三集团也将背靠“数字大脑”的全面升级,继续为湖北中烟提供更具创新和价值的解决方案,加速中烟数字化转型的进程。湖北中烟云厚平台,薄应用走出企业云化转型的新道路从1916年创立的南洋兄弟烟草公司汉口分公司,到如今华中地区知名的烟草生产企业,湖北中烟工业有限责任公司(以下简称“湖北中烟”)已经走过了百年历程。近年来,湖北中烟大力践行“品牌强企、文化兴企”的发展战略,坚定不移推进全面从严治党,全面推进供给改革、科技创新、生产经营和文化建设等工作,公司出品的“黄鹤楼”“红金龙”等品牌名优卷烟畅销国内、远销海外。在湖北中烟的发展历程中,企业管理者积极求变,主动转型、通过基于云计算的数字化架构支撑起了企业价值链的全程管控,敏捷响应前端业务变化,为中烟工业的业务发展注入新动能。近年来,湖北中烟在紫光股份旗下新华三集团的支持下,正以“厚平台,薄应用”架构为理念,打造了新的“中烟云”云平台,以IaaS重构底层基础设施,通过云原生的PaaS为中烟的智能化变革构建了新的驱动平台,有力推动了企业整体的转型和变革。81/82专刊解 决 方 案 与 精 品 案 例解决方案篇精品案例篇精品案例篇安阳钢铁云与变革同行为业务发展创新提速安阳钢铁集团有限责任公司(简称“安钢”)始建于1958年,经过60年的发展,现已成为集采矿选矿、炼焦烧结、钢铁冶炼、轧钢及机械加工、冶金建筑、科研开发、信息技术、物流运输、国际贸易、房地产等产业于一体,年产钢能力1000万吨的现代化钢铁集团,是河南省最大的精品板材和优质建材生产基地。在安阳钢铁转型变革的背后,是整个钢铁行业数字化转型的深化,而钢铁企业向智慧企业升级迈进的一个重要前提,就是要构建一个能够灵活调度底层资源,全面承载上层智慧应用的云平台。在安阳钢铁,紫光股份旗下新华三集团深度参与了“安阳钢铁私有云”平台的建设,打造了高效可靠的数字化变革基础平台,全力赋能安阳钢铁的智慧新生。1000万吨1958年安阳钢铁集团有限责任公司(简称“安钢”)始建于1958年年产钢能力1000万吨的现代化钢铁集团秉持四化理念|加速向云迈进新华三集团在十多年数字化转型实践和云计算创新的探索中,构建起了一套数字化转型理论、指导战略和具体实践路径的模型。在安阳钢铁,新华三将这一转型的模型投入实践,携手安阳钢铁构建了“安钢私有云”,打造了完备的数字化底座。在建设上,“安钢私有云”以虚拟化、集中化、共享化、自动化的核心理念,旨在打造“1 4”智能化一体平台。“四”包括了技术成熟、超前、高效、便捷的云服务中心,安全、稳定、可靠的云数据中心网络架构中心,集设备、业务、状态监控、事件分析于一体的智能运维中心,网络及业务风险纵深防御的安全管理中心;“一”则是指搭建结合现有业务特点,实现平滑迁移的业务迁移平台。新华三集团为“安钢私有云”的建设提供了网络、安全、服务器、存储等IaaS层基础设施,并在此之上部署了PaaS平台层相关组件。其中,新华三以智慧计算领域的前沿创新提供了层次化的计算能力,在存储侧,新华三利用分布式技术,构建全闪存储和混合存储的阶梯资源池。在软件应用层面,针对集团ERPMES财务业务迁移上云需求,新华三搭建了迁移平台环境,为业务系统迁移和部署提供全方位保障。重构平台|筑基高质量发展新征程在数字化蓬勃发展的时代,安阳钢铁以“创新驱动、品质领先、提质增效、转型发展”为总体战略,基于云计算、大数据等先进技术,通过“重构信息化基础架构”这个强有力的发动机,借助集团IT信息化的差异化和技术创新能力,调整产业结构、延伸产业链条,实现多元支撑、协同发展的产业体系,推动企业业务变革和重塑,全面引领企业走向数字化发展和高质量发展的新征程,引领河南制造业向智慧化、先进化、数字化方向高速发展。“安钢私有云”通过网络、安全、云平台、系统迁移四方面的建设,全面提升了安阳钢铁网络信息安全等级、提高数字基础设施的综合利用率,加快业务系统部署效率,实现对信息化资源的合理化分配与科学管理,满足集团及子公司未来发展的软硬件需求,从而推动企业加快数字化、网络化、智能化转型,改善工作效率,提升管理水平,最终实现业务创新和经济发展的新一轮提速。面临新一轮科技革命的机遇,安阳钢铁正积极瞄准下一步国家战略布局,期望实现“弯道超车”的目标。新华三集团也将继续协同安阳钢铁,把握充分利用云计算平台、业务云化两大关键因素,遵循持续迭代、不断优化、对标一流的基本原则,聚焦完善以“安阳私有云”为中心的数字化底座,重点围绕智慧物流、智慧工厂、智慧能源、智能设备等领域进行关键布局和建设,最终打造河南高端制造新名片。83/84专刊解 决 方 案 与 精 品 案 例解决方案篇精品案例篇精品案例篇打造云上视觉平台为国家粮食安全做好底线保障某粮食集团视频云某粮食集团是与新中国同龄的中央直属大型国有企业,是中国农粮行业领军者,全球布局、全产业链的国际化大粮商。目前,该集团以农粮为核心主业,聚焦粮、油、糖、棉、肉、乳等品类,不断完善农粮主业资产布局,持续提升大宗农产品经营能力,促进农产品采购、储存、加工、运输和贸易环节上下游协同一体,以市场化的方式高效保障粮油供应,同时该集团还涉及食品、金融、地产领域,不仅是优质食品的生产者,也是优质品牌的创造者。作为立足中国的国际一流粮食企业,该集团承担着维护国家粮食安全的重任。因此,该集团也在国家粮食与物资储备局的要求下,承担起了加强国储稻谷定向销售过程监控的重任,需要为稻谷作业打造全流程的监测系统,让视频能够实现实时在线播放,录像资料需要保存三年内以备查询。为了满足监管要求,该集团与紫光云携手,借助紫光云与智能事业群的技术积累完成了视频云的建设,为国家粮食储备的保障提供了数字化的能力支撑。全流程覆盖|为粮食安全保驾护航在紫光云的助力下,该集团完成了全国28个省市中的粮库安保平台建设,同时为保障粮食的生产、流通环节的安全,实现了对整个粮食的流通环境进行监测管理,为粮食溯源提供数据支撑。稳定的业务视频平台实现了全国范围内摄像头的统一管理和数据收集,覆盖了固定仓库、海河航行的船舶、支干公路线行驶的运输卡车等不同的生产和运输环境,同时也通过稳定、安全、统一的存储做好了数据的归集和管理,满足了未来三年的抽查和监管需求。作为AI视觉平台建设的引领企业,紫光云与智能事业群为该集团打造的视频云基于紫光公有云节点进行建设,能够对视觉设备提供视频数据流的接入、转发、存储管理服务,将视频内容全面接入云端管理平台,对用户提供视频内容的实时查看、录制存储、录像回放等功能和服务,能快速地为连锁企业、智慧社区、个体安防等场景提供视频可视化管理解决方案。以创新应对挑战|做视频云创新领导者借助全面的技术创新,紫光视频云平台做到了设备广泛兼容、灵活快速启动、架构稳定可靠、轻资产化运营等多种优势。在该集团,紫光云更利用对象存储与归档存储相结合的方案,有效地降低了用户的使用成本,同时借助高可用的互联网视频接入及存储架构,集群化的部署方案有效地保障了平台的稳定性,大力提高了服务可用性,此外,通过为接入平台提供友好的用户交付接口,解决了传统视频平台后期使用高昂的人力配置及运维成本的痛点。如今,伴随着5G、云计算、物联网、AI等技术的创新迭代,传统的视频安防体系正在依托云、网、智能分析为一体的智能技术实现全面升级,以满足多层次的业务需求。紫光云与智能事业群也将整合旗下多元创新实力,打造更具场景适应性的视频云解决方案,为包括该集团在内的更多企业打造全面领先的AI视觉云平台。85/86专刊解 决 方 案 与 精 品 案 例解决方案篇精品案例篇精品案例篇展锐芯片云重构设计流程激活云上价值紫光展锐(上海)科技有限公司是我国集成电路设计企业的龙头企业,以生态为核心战略,高举5G和AI两面技术旗帜,以价值、未来、服务为三个指向,为个人与社会的智能化服务。当下的展锐拥有超过5000名员工,其中90%是研发人员,更是全球少数掌握5G、Wi-Fi、蓝牙等全场景通信技术的企业之一,并具备稀缺的大型芯片集成及套片能力,产品涵盖了移动通信中央处理器,基带芯片,AI芯片等多种前沿创新,业务覆盖了全球128个国家。目前,数字化转型的普及和深化导致了更大规模的芯片需求,也进一步缩短了芯片的迭代周期,要求芯片设计方不断提高芯片科技含量、缩短交付时间。而另一方面,高等级芯片设计带来的IT资源需求和不断增长的开发周期,与设计初衷背道而驰。作为中国集成电路市场重要的创新型企业,展锐为了解决芯片设计的效率挑战,与紫光云共建了“展锐芯片云”,借助紫光云过去在芯片云上的实力积累,在保障效率和安全的基础上重塑了芯片设计和交付的流程与模式。整合产业资源|云上能力赋能升级在数字化时代,市场的快速变化对芯片设计企业降本增效提出了更高的要求。芯片设计中大量的时间花费在仿真验证上,这些仿真验证很容易并行执行,而且这种需求通常是突发性的、阶段性的,一般的芯片设计企业很难建立这样的能力来匹配的弹性需求。云计算帮助企业降低IT资产的闲置率,让算力资源的使用更灵活、弹性和便捷,通过云端大算力换取时间,而由此带来的产品上市时间的最大程度缩短,是芯片设计企业赢得商机的关键。在展锐芯片云的建设上,紫光云依托对芯片设计业务的深入理解以及最佳实践的持续积累,基于上海芯片云节点整合了计算、存储、IDC等公有云资源,为紫光展锐提供了超过大规模的裸金属计算资源,每月数千TB的高性能NAS存储资源以及高速的裸光纤接入、全体系的安全加密保障技术以及高标准的托管机柜资源。同时,紫光云通过将“芯片设计云”这一单一的标准云产品的需求,拓展到IDC托管领域,证明了紫光云在业界多产品组合服务的能力,以及更帖近客户需求的服务理念。聚焦行业需求|定制专业云平台在展锐芯片设计业务实现彻底云上改造的背后,紫光芯片云发挥了无可替代的关键价值。紫光芯片云是一个体系完善、开箱即用的云上芯片设计平台,为芯片设计企业提供强大、弹性且安全的计算集群和存储资源池,配备资深的IT/CAD专家团队,帮助企业构建云上EDA设计环境、项目和数据管理环境,提供专业的平台服务。在芯片企业最为关注的安全性方面,紫光芯片设计云方案通过了等保2.0标准进行三级评测,满足金融级安全要求。紫光芯片云在紫光集团内部的充分应用实践,彰显了芯片云对于半导体产业发展的独特价值。面向未来,紫光云也将进一步向行业开放,联动整个芯片设计和混合云产业链,实现由单纯芯片设计工具云向芯片设计产业互联网平台的生态化转型升级,带动整个芯片设计产业链各方的协同创新、共同发展,为中国芯片设计产业未来发展注入新的活力。5000名当下的展锐拥有超过5000名员工,其中90%是研发人员128个业务覆盖了全球128个国家87/88专刊解 决 方 案 与 精 品 案 例解决方案篇精品案例篇精品案例篇

    浏览量42人已浏览 发布时间2023-10-11 46页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
272条  共14
前往
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部