上海品茶

用时:50ms

ai产业报告-PDF版

您的当前位置:上海品茶 > 人工智能 > AI产业
  • 人工智能行业专题研究:交换机算力基座迎来新机遇-231025(46页).pdf

    西南证券研究发展中心西南证券研究发展中心 通信研究团队通信研究团队 20232023年年1010月月 人工智能专题研究 交换机算力基座迎来新机遇 1 2 4 核心要点 交换机用于电光信号转发的网络设备.

    浏览量0人已浏览 发布时间2023-10-26 46页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 智次方&挚物产业研究院:2023年Cat.1bis产业发展白皮书(40页).pdf

    Cat.1bis产业发展白皮书智次方挚物产业研究院紫光展锐(上海)科技有限公司2022年11月_Cat.1bis 产业发展白皮书Copyright2022版权与免责声明Copyright2022版权与免责声明本白皮书主要基于公开资料编写,仅供读者参考,不构成任何投资或法律建议。本白皮书版权归北京英维塔科技有限公司(智次方)和紫光展锐(上海)科技有限公司(紫光展锐)共同所有,并受到法律保护。任何形式的转载、摘编或以其它方式利用本白皮书的任何内容,应注明“来源:智次方&紫光展锐”。违反上述声明者,智次方及紫光展锐将追究相关法律责任。_Cat.1bis 产业发展白皮书目 录目 录前 言.1第一章 Cat.1bis 概述.2第一节 Cat.1bis 技术简介.2一、Cat.1bis 定义.2二、Cat.1bis 技术特点.3第二节 Cat.1bis 技术标准演进.4第三节 Cat.1bis 发展历程.5第四节 Cat.1bis 发展背景.7一、政策背景.7二、产业环境.8第二章 Cat.1bis 的竞争优势.11一、Cat.1bis 的网络和成本优势.12二、Cat.1bis 的技术性能优势.12第三章 Cat.1bis 市场发展和应用趋势.14第一节 Cat.1bis 芯片市场发展现状及前景.14一、Cat.1bis 芯片及模组市场规模.14二、Cat.1bis 芯片市场结构.15三、Cat.1bis 芯片市场前景.16_Cat.1bis 产业发展白皮书第二节 Cat.1bis 应用发展现状及前景.16一、Cat.1bis 应用场景广泛.16二、Cat.1bis 国内应用市场潜力巨大.18三、Cat.1bis 出海势头发展良好.20第四章 Cat.1bis 主要应用场景案例.21第一节 智能穿戴.21一、市场前景.21二、解决方案.21三、Cat.1bis 智能穿戴应用的优势.21第二节 共享设备.22一、市场前景.22二、解决方案.22三、Cat.1bis 共享设备应用的优势.24第三节 公网对讲.24一、市场前景.24二、解决方案.24三、Cat.1bis 公网对讲应用的优势.25第四节 车载定位.25一、市场前景.25_Cat.1bis 产业发展白皮书二、解决方案.26三、Cat.1bis 车载定位应用的优势.27第五节 安防监控.27一、市场前景.27二、解决方案.27三、Cat.1bis 安防监控应用的优势.28第六节 智能电表.28一、市场前景.28二、解决方案.29三、Cat.1bis 智能电表应用的优势.31第七节 光伏发电.31一、市场前景.31二、解决方案.31三、Cat.1bis 光伏发电应用的优势.32第八节 金融支付.32一、市场前景.32二、解决方案.33三、Cat.1bis 金融支付应用的优势.34_Cat.1bis 产业发展白皮书1前 言前 言Cat.1bis 作为 Cat.1 的升级演进版本,采用单天线设计,适用于更广泛的应用场景。同时,Cat.1bis 对算法和部分技术性能作了进一步优化,有效降低了元器件的复杂度和成本;与 Cat.1 具有全兼容性,现有 4G 基站可同时支持 Cat.1bis和 Cat.1 终端。总的来看,Cat.1bis 具备明显的网络、成本和技术性能优势。当前,Cat.1bis 呈现出良好发展势头,其适用场景广泛,已在智能穿戴、共享设备、公网对讲、车载定位、安防监控、智能电表、光伏发电、金融支付等众多场景实现规模化落地应用。在此有力牵引下,Cat.1bis 的芯片及模组市场保持快速增长,相应成本已降至较合理区间,为大规模承接原 2G/3G 市场,以及替代其它部分中低速应用市场做好了准备。为促进 Cat.1bis 产业进一步快速健康发展,智次方挚物产业研究院联合Cat.1bis 芯片领军企业紫光展锐特策划推出本白皮书,以期为更多有意加入Cat.1bis 生态的企业、机构和从业人员提供有益参考。_Cat.1bis 产业发展白皮书2第一章 Cat.1bis 概述第一章 Cat.1bis 概述第一节 Cat.1bis 技术简介一、Cat.1bis 定义第一节 Cat.1bis 技术简介一、Cat.1bis 定义(一)Cat.1(一)Cat.1CatX 全称为 LTE UE CategoryX,是 3GPP 用来衡量用户终端设备无线性能的标准。UE Category 包含多项无线特性,其中最重要的是 UE 支持的速率。2009年 3 月,3GPP 在 Release8(简称 R8)中正式提出 LTE,并同步推出 LTE Cat.1(以下简称 Cat.1)、Cat.2、Cat.3、Cat.4、Cat.5 等 5 个终端类别,其中,Cat.1定义的上/下行峰值速率为 5/10Mbps。(二)Cat.1bis(二)Cat.1bis在 3GPP 标准中,Cat.1 采用双天线设计,无法满足众多类型终端,如可穿戴设备等提出的模组小型化要求。而采用单天线规格的终端能力等级仅限于Cat.0、Cat.M1(简称 eMTC)和 Cat.NB1(简称 NB-IoT),它们最高 1Mbps的传输速率难以满足大部分场景的体验需求。业界亟待制定新的,具备更高终端能力等级的单天线标准,Cat.1bis 应运而生。3GPP 在 2017 年 3 月发布的 Release 13(简称 R13)版本中定义了单天线设计的 Cat.1bis 标准。其中的 bis 来源于拉丁语“第二次”或“再一次”之意,放在 Cat.1 之后意指在传统 Cat.1 能力等级基础上的二次衍生。Cat.1bis 采用单_Cat.1bis 产业发展白皮书3天线设计,并对算法作了进一步简化,在降低复杂度的同时,能有效减少元器件成本;并且,Cat.1bis 与 Cat.1 具有全兼容性,现有 4G 基站可同时支持 Cat.1bis和 Cat.1 终端。二、Cat.1bis 技术特点二、Cat.1bis 技术特点Cat.1bis 在 Cat.1 的基础上进行了部分技术性能优化,大幅降低了终端设计的复杂度,适用于更广泛的应用场景。(一)Cat.1bis 与 Cat.1 的一致性技术特点(一)Cat.1bis 与 Cat.1 的一致性技术特点Cat.1bis 的频段、通信协议、UE 能力要求,以及上下行理论峰值速率等均与 Cat.1 保持一致,能最大化利用现有 4G 网络的广泛覆盖优势。(二)Cat.1bis 较 Cat.1 的差异化技术特点(二)Cat.1bis 较 Cat.1 的差异化技术特点一是,Cat.1bis 终端为单天线设计,相比 Cat.1 终端体积更小,适用场景更广。二是,Cat.1bis 终端能力上报规则在 Cat.1 的基础上进行了扩展,引入了oneBis 指示,能让网络正确识别其为 Cat.1bis 终端。_Cat.1bis 产业发展白皮书4表 1:Cat.1bis 与 Cat.1 的异同表 1:Cat.1bis 与 Cat.1 的异同类别类别Cat.1Cat.1Cat.1bisCat.1bis差异解析差异解析3GPP 版本R8R13接收天线2Rx(双天线)1Rx(单天线)单天线可用在体积更小的设备上,应用场景更为广泛峰值速率5Mbps/10Mbps基本一致链路预算MCL=140.7dB基本一致终端成本相比传统 LTE Cat4,成本降低约 28%终端成本降低,更具竞争力来源:公开资料,挚物产业研究院整理第二节 Cat.1bis 技术标准演进第二节 Cat.1bis 技术标准演进2009 年,3GPP R8 定义 Cat.1 采用双天线设计,具备低功耗、中等速率等特点,主要应用于智能穿戴类产品。但智能穿戴设备对体积的敏感度极高,双天线设计使得其体积过大,市场接受度不高,产品推出初期并未形成规模化放量。2016 年 6 月至 2017 年 3 月,为实现芯片单天线和终端小体积,3GPPRAN#73#75 标准全会就此终端能力新等级作讨论与定义,最终在 2017 年 3 月9 日,对 3GPP Release 13 LTE Cat.1bis 核心部分进行正式冻结。通过将初代LTE Cat.1 作为技术锚点,结合后续配套的标准性能和一致性认证,实现以极低的标准修订成本,定义出符合中速人联/物联应用场景,且具备完善的后向兼容能力的终端能力等级 Cat.1bis。2019 年 8 月,中国通信标准化协会 TC5 WG9 第 100 次会议正式通过决议,_Cat.1bis 产业发展白皮书5将 Cat.1bis 写入通信行业标准 LTE 数字蜂窝移动通信网终端设备技术要求(第四阶段)。2020 年 10 月,中国通信标准化协会 TC5 WG9 第 109 次会议讨论通过 LTECat.1bis 数字蜂窝移动通信网终端设备测试方法 立项申请。本次申请由中国移动、中国信息通信研究院、中国联通、中国电信等共同牵头,紫光展锐等十数家芯管端代表企业共同联署,反映出业界对 Cat.1bis 技术方向的高度一致认可,以及加快形成配套测试规范行标的迫切期望。图 1:Cat.1 到 Cat.1bis 的标准演进过程图 1:Cat.1 到 Cat.1bis 的标准演进过程来源:公开资料,挚物产业研究院整理第三节 Cat.1bis 发展历程第三节 Cat.1bis 发展历程2017 年,在 3GPP 讨论和定义 Cat.1bis 标准的同时,以紫光展锐等为代表的国内芯片厂商同步跟进,把 Cat.1bis 芯片的开发计划列上日程。_Cat.1bis 产业发展白皮书62018 年,展锐 Cat.1bis 芯片样片开始针对战略客户进行推广。2019 年 4 月,全球认证论坛 GCF CAG#58 次会议,紫光展锐联合罗德与施瓦茨成功激活 Cat.1bis GCF WI-299,开启 Cat.1bis GCF 认证及一致性测试生态建设。2019 年 11 月,紫光展锐在第 7 届中国移动全球合作伙伴大会发布全球首颗Cat.1bis 芯片 8910DM,加快推进 Cat.1bis 技术创新和市场应用进程。2019 年 12 月,中国移动研究院组织的 Cat.1/1bis 现网兼容性测试验证中,8910DM 率先通过全部六家主流基站厂商的现网测试项。2020 年 4 月,广和通基于 8910DM 芯片的模组产品 L610,率先全部通过CCC、SRRC、NAL和中国电信运营商的认证,成为国内首家量产出货Cat.1bis模组产品的企业。2020 年 6 月,中国联通发布搭载 8910DM 芯片的业内第一款支持 Cat.1bis,且与主流 Cat.4 模块软硬件兼容的雁飞 Cat.1 模组。2020 年 7 月,哈啰出行联合中国联通、紫光展锐、广和通三家企业共同宣布,哈啰出行率先在其共享两轮出行服务中应用 Cat.1bis 技术,搭载Cat.1bis 模组的 1500 辆哈啰助力车正式投入使用。这是共享两轮出行领域第一次应用 Cat.1bis 技术,标志着共享两轮出行将大规模迈入 4G 时代。2020 年 11 月,中国联通宣布搭载 8910DM 芯片的雁飞 Cat.1 模组完成全球首个 LTE Cat.1bis PSM 特性现网规模测试,标志着 Cat.1bis PSM 特性端到端可商用能力正式获得运营商现网权威论证。2020 年 11 月,中国移动研究院在第 8 届中国移动全球合作伙伴大会正式发布中低速物联网业务迁移技术能力报告(2020 年),明确提出中国移_Cat.1bis 产业发展白皮书7动将采用 Cat.1bis 技术承接中速率、语音类和高速移动类物联网业务。2020 年 12 月,紫光展锐与泰尔终端实验室、广和通共同宣布,广和通L610-EU 模组正式获得全球首个 Cat.1bis 模组 GCF 认证,标志着搭载8910DM 芯片的 Cat.1bis 模组正式具备海外供货资质。2021 年 2 月,移芯通信在 MWC 上海展上宣布,自主研发的 Cat.1bis 芯片已流片,Cat.1bis 芯片市场正吸引更多企业进入。2021 年 3 月,紫光展锐面向海外头部运营商,全面启动 Cat.1bis 芯片与模组测试认证合作。图 2:Cat.1bis 发展历程图 2:Cat.1bis 发展历程3GPP Cat.1bis 标准开始讨论,国内芯片厂商同步跟进国内 Cat.1bis 芯片厂商开始联合模组厂家合作开发Cat.1bis 进入测试阶段,形成行业规范标准文件Cat.1bis 芯片模组产品进入规模化应用阶段2017 年年2018 年年2019 年年2020 年年来源:公开资料,挚物产业研究院整理第四节 Cat.1bis 发展背景一、政策背景第四节 Cat.1bis 发展背景一、政策背景2020 年 5 月,工信部发布的关于深入推进移动物联网全面发展的通知明确提出,推动 2G/3G 物联网业务迁移转网,建立 NB-IoT、4G 和 5G 协同发展_Cat.1bis 产业发展白皮书8的移动物联网综合生态体系。在深化 4G 网络覆盖、加快 5G 网络建设的基础上,以 NB-IoT 满足大部分低速率场景需求;以 4G 承载中速率、语音类、高速移动类业务,满足中等速率物联需求;以 5G 技术满足更高速率、低时延联网需求;引导新增物联网终端不再使用 2G/3G 网络,推动存量 2G/3G 物联网业务向NB-IoT/4G/5G 网络迁移。在明确的减频退网政策引导下,为实现新旧动能转换、集约利用优质资源和降低运维成本,国内三大运营商近年加快了 2G/3G 退网的步伐。但退网不能退服务,NB-IoT 和 Cat.1/1bis 等是较为成熟和合适的替代技术,能较好地满足低功耗、大连接的物联网应用场景需求。2G/3G 退网为 Cat.1/1bis 的快速发展提供了巨大的市场替代空间。二、产业环境二、产业环境(一)产业链快速壮大(一)产业链快速壮大随着 2G/3G 物联网业务加快迁移转网,国内物联网芯片和模组厂商开始大量转为研发和推出 Cat.1/1bis 相关产品。其中,紫光展锐推出了 Cat.1bis 芯片8910DM,翱捷科技推出了 Cat.1 芯片 ASR1601/3601 等。这些产品较好地满足了物联网中低速应用场景的市场需求。国内主流模组厂商移远通信、中移物联网、广和通、美格智能、高新兴、日海智能、骐俊物联、芯讯通等纷纷基于国产芯片平台,累计推出超 20 款模组产品。_Cat.1bis 产业发展白皮书9表 2:国内 Cat.1/1bis 产业链简表表 2:国内 Cat.1/1bis 产业链简表终端类别终端类别芯片厂家芯片厂家模组厂商模组厂商3GPPR133GPP R8Cat.1bisCat.1紫光展锐:8910DM广和通、有方、中移物联、移远、美格智能、有人物联网、合宙翱捷科技:ASR3601移远、移柯、高新兴、域格、信位通讯、锐骐科技、芯讯通来源:公开资料,挚物产业研究院整理表 3:搭载 8910DM 的主流 Cat.1bis 模组表 3:搭载 8910DM 的主流 Cat.1bis 模组模组企业模组企业模组(系列)产品模组(系列)产品移远通信EC200U 模组广和通L610 系列模组美格智能SLM320 模组有方科技N58 模组中移物联网ML302 模组联通物联雁飞 CAT1 模组琪俊物联ML110 模组夏新AL36 模组博实结科技BC76 系列飞图同辉FLY380S 模组合宙Air724UG 系列模组宽翼通信BM215 模组有人物联网WH-GM5 模组龙尚科技M5700 系列模组来源:公开资料,挚物产业研究院整理_Cat.1bis 产业发展白皮书10随着更多芯片和模组厂商进行 Cat.1bis 相关产品的研发设计与应用推广,Cat.1bis 在中低速物联网市场的技术性能优势将持续得到挖掘和释放,Cat.1bis芯片和模组的性价比及出货规模有望持续走高。(二)网络配套成熟(二)网络配套成熟中国已建成全球规模最大的 4G 网络,截至 2021 年底,全国 4G 基站规模达 590 万站,4G 网络的覆盖广度和深度均居全球领先地位。Cat.1/1bis 可以充分利用现有 4G 网络,无需再增加建网投入,将节省大量成本。图 3:2015-2021 年中国 4G 基站规模及同比增速(单位:万站,%)图 3:2015-2021 年中国 4G 基站规模及同比增速(单位:万站,%)来源:工信部,挚物产业研究院整理_Cat.1bis 产业发展白皮书11第二章 Cat.1bis 的竞争优势第二章 Cat.1bis 的竞争优势Cat.1bis 的传输速率属于中低速档,业务场景上与 2G/3G、eMTC 和 NB-IoT等有部分重合,能在一定程度上满足高速移动、时延敏感场景的通信要求。同时,其支持语音交互,具备低成本、低功耗等优势。根据艾瑞咨询估算,预计至 2025 年,我国物联网的连接数有望高达 198.8亿个。业界预计,中低速物联网应用的占比将约为 90%。未来,近两百亿的物联网连接中,对网络的能力要求将是差异化的:约 10%的节点需要大带宽、高速率的通信技术,如高速率 4G(LTE Cat.4 以上)、5G 等提供支撑;约 30%的节点需要中等传输速率的技术,如 3G、Cat.1/1bis 与 eMTC 等进行配套;约 60%的节点仅需低速率连接技术,如 2G、NB-IoT、LoRa 等即足以满足相关需求。Cat.1bis 有望成为 30%的中速场景中的主要承载技术,同时,对 60%的低速场景也具备较大的替代优势。表 4:2G、NB-IoT、Cat.1bis 及 LoRa 技术对比表 4:2G、NB-IoT、Cat.1bis 及 LoRa 技术对比2G2GNB-IoTNB-IoTCat.1bisCat.1bisLoRaLoRa覆盖增强覆盖增强144dB164dB144dB( 15 dB)155dB功耗功耗关机态:60uA待机态:2mA休眠态5uA待机态1mA休眠态20uA待机态:2-4mA休眠态:1.8uA待机态:10mA速率速率上下行 85.6kbps(少部分可达 171kbps)R13:上下行 62/21kbpsR14:上下行150/100kbpsFDD:5Mbps/10MbpsTDD:1Mbps/7.3Mbps0.2kbps/50kbps频谱频谱授权频段授权频段授权频段未授权频段语音语音支持不支持支持不支持时延时延非深度覆盖场景时延性能相当,深度覆盖时NB-IoT 差于 2G(时延换覆盖)典型值1sNA来源:公开资料,挚物产业研究院整理_Cat.1bis 产业发展白皮书12一、Cat.1bis 的网络和成本优势一、Cat.1bis 的网络和成本优势Cat.1bis 与 NB-IoT、2G/3G、eMTC、Cat.4 和 LoRa 等相比,具有网络覆盖和成本支出优势。Cat.1bis 可由现有 4G 网络承载,运营商无需额外升级基站的硬件配置,只需对基站参数进行调整,即可实现Cat.1bis 终端接入。而NB-IoT、2G/3G、eMTC、Cat.4 和 LoRa 等面临着较大发展限制:NB-IoT 的网络覆盖远不如 4G,需要投入较大资源进行基站新设或改造;2G/3G 进入减频退网阶段;4G 网络支持 eMTC 需支付额外费用进行升级,且 eMTC 在国内的产业生态并不理想;Cat.4 与 Cat.1bis 网络兼容,二者具有相同的基础网络优势,但 Cat.4 在功耗、集成度、价格等方面难以满足部分场景的需求;LoRa 作为非授权频段技术,可用以点位组网,但不能进行大面积建网,从而限制了其更广泛应用。通信方面,NB-IoT 受限于数据传输速度和物体移动速度、时延需求,通常适用于小码流、静止状态的场景,如三表(水表、电表、燃气表)。Cat.1bis可以传输更大码流,且具有更好的对移动性与语音的支持能力。二、Cat.1bis 的技术性能优势二、Cat.1bis 的技术性能优势Cat.1bis 的技术性能优势表现在多个方面:一是 Cat.1bis 相较 NB-IoT、2G/3G 等可以传输更大码流,且具有更好的移动性与语音支持能力,能有效降低公网对讲时延,提升通话音质。二是 Cat.1bis 芯片支持扩展 eDRX 和 PSM,具备 uA 级低功耗优势。三是在降低功耗的前提下,Cat.1bis 可实现 15dB 的覆盖增强。_Cat.1bis 产业发展白皮书13四是 Cat.1bis 同时支持 A2DP 和 HFP 等蓝牙媒体协议,并加入了 BT 特性,可以实现近程和远程随时切换,方便设备维护和升级。五是 Cat.1bis 芯片的安全保障得到增强。六是具备 FOTA 差分升级和整包升级功能,方便客户进行版本管理。_Cat.1bis 产业发展白皮书14第三章 Cat.1bis 市场发展和应用趋势第三章 Cat.1bis 市场发展和应用趋势第一节 Cat.1bis 芯片市场发展现状及前景一、Cat.1bis 芯片及模组市场规模第一节 Cat.1bis 芯片市场发展现状及前景一、Cat.1bis 芯片及模组市场规模2020 年,全球 Cat.1/1bis 芯片市场规模约为 4.7 亿美元,预计到 2024 年,市场规模有望达 6.7 亿美元,2020-2024 年的年均复合增速为 9.3%。基于 Cat.1/1bis 芯片的模组具备优异性能,其未来增长前景同样乐观。在市场规模方面,2020 年,全球中低速蜂窝模组的价值空间约为 27 亿美元,其中Cat.1/1bis 模组占据了 25.9%的份额。预计到 2025 年,全球中低速蜂窝模组的价值空间将增至 55 亿美元,其中 Cat.1/1bis 模组将占据 27.3%的份额,相应的市场价值规模将从 7 亿美元增至 15 亿美元,实现份额、规模双提升。在出货量方面,2022 年,全球 Cat.1bis 模组将迎来爆发式增长,其出货量或接近 1 亿片,市场份额超过 Cat.1 模组,在各蜂窝制式中位居第二。至 2027年,全球 Cat.1bis 模组的出货量有望超过 3 亿片,达到历史最高点。此后年份,Cat.1bis 模组仍将保持较高出货规模,在各蜂窝制式中位居第三,并对第四名Cat.1 模组保持较大领先优势。_Cat.1bis 产业发展白皮书15图 4:全球市场各制式蜂窝模组出货量变化趋势图 4:全球市场各制式蜂窝模组出货量变化趋势来源:Counterpoint二、Cat.1bis 芯片市场结构二、Cat.1bis 芯片市场结构近年来,紫光展锐等多家国产芯片厂商陆续推出 Cat.1bis 芯片,吸引一众模组厂商跟进,有效促进了产业应用成熟。同时,叠加 2G/3G 加速减频退网,Cat.1bis 开始进入快速发展期,移芯通信、智联安等厂商也相继开始发力Cat.1bis 芯片市场。截至 2021 年底,紫光展锐在 Cat.1bis 芯片市场占据 7 成以上份额。_Cat.1bis 产业发展白皮书16三、Cat.1bis 芯片市场前景三、Cat.1bis 芯片市场前景Cat.1bis 适用于中低速场景,同时能在一定程度上满足高速移动、时延敏感场景的通信要求。并且,其支持语音交互,具备低成本、低功耗等优势。目前,Cat.1bis 模组的成本已降至较合理区间,为 Cat.1bis 大规模承接原 2G/3G 市场,以及替代其它部分中低速应用市场做好了准备。2020 年 9 月,紫光展锐宣布独家中标中国联通 Cat.1 芯片集采项目,采购规模达 500 万套,是目前运营商 Cat.1 芯片招标中规模最大的项目之一,将推动Cat.1 产业快速规模化发展。目前,中国移动、中国联通、广和通,有方科技、美格智能、合宙、龙尚、有人物联网等多家模组厂商进一步推出了搭载 8910DM芯片的 Cat.1bis 模组,并已在多个领域和场景落地应用。Cat.1bis 凭借良好的性能优势,正逐步成为芯片和模组厂商青睐的方向,有望在未来持续提升产业价值规模和连接份额。第二节 Cat.1bis 应用发展现状及前景一、Cat.1bis 应用场景广泛第二节 Cat.1bis 应用发展现状及前景一、Cat.1bis 应用场景广泛目前,Cat.1bis 在国内的主要应用场景有共享充电宝、共享电动单车、POS机、云喇叭等;同时,在智能穿戴设备(如儿童手表、智能手环等)、安防监控、电力抄表、户外广告等场景中也表现出了巨大应用潜力。未来,其芯片/模组在相应领域的出货规模有望达到甚至超过千万数量级。_Cat.1bis 产业发展白皮书17表 5:Cat.1bis 在多个行业中的适用匹配度表 5:Cat.1bis 在多个行业中的适用匹配度行业行业典型业务典型业务覆盖需求覆盖需求移动性移动性功耗要求功耗要求匹配程度匹配程度2025 年 Cat.1bis 芯片/模组潜在出货空间2025 年 Cat.1bis 芯片/模组潜在出货空间2G/3G2G/3GNB-IoTNB-IoTCat.1bisCat.1bis表计水、燃、热室内深度覆盖无高,10 年中高中亿级能源电力全国覆盖无高,5-10 年高中高亿级智能穿戴手表、手环广域/室内覆盖10km/h高,2 年中低高亿级智能消防烟感室内深度覆盖无高,5 年低高中千万级金融行业POS 机广域/室内覆盖无低,可充电中低高千万级共享行业共享单车全国覆盖10km/h高,2 年中高高千万级交通物流物流追踪全国覆盖120km/h中,6 个月高高高千万级智慧城市智能路灯室外覆盖无无中高高千万级智能停车室内外覆盖无高,5 年低高高千万级智能门锁室内深度覆盖无高,3 年低高高千万级来源:挚物产业研究院、公开资料以全球首款 Cat.1bis 芯片 8910DM 为例,其采用 28nm 成熟工艺,支持Cat.1bis 和 GSM 双模,上行速率 5Mbps,下行速率 10Mbps。拥有高集成度,同时集成了蓝牙通讯和 Wi-Fi 室内定位,支持 VoLTE,可实现更稳定的连接。同时,通过系统优化,8910DM 可实现大幅降低功耗,能以更广覆盖、更快速率、更低时延满足更多应用场景的需求。_Cat.1bis 产业发展白皮书18图 5:8910DM Cat.1bis 芯片应用场景图 5:8910DM Cat.1bis 芯片应用场景来源:公开资料,挚物产业研究院整理二、Cat.1bis 国内应用市场潜力巨大二、Cat.1bis 国内应用市场潜力巨大国内中低速场景的市场空间巨大,其连接数将占到移动物联网整体连接份额的 90%左右。Cat.1/1bis 支持中速视频和语音交互,具备小体积、易部署、广覆盖等优点,在中速应用场景具有绝对优势。而且,随着其成本不断下降,性能持续优化,Cat.1/1bis 开始进入部分低速场景。Cat.1bis 在国内市场经过 2017-2019 三年的技术探索和应用场景锚定,从2020 年开始取得较大突破。以中国联通雁飞 Cat.1bis 系列模组产品为例,截至目前,其销售量已超 200 万片,在 4G 降本、2G/3G 迁转、与 NB-IoT 互补等方面均发挥了重要作用。_Cat.1bis 产业发展白皮书19未来,国内 Cat.1bis 模组的出货规模有望持续提升,其潜在市场空间主要包括:1)逐步替代 2G/3G 减频退网后空出的市场空间;2)从 Cat.4 迁移至 Cat.1 的 4G 中低速市场空间;3)在自身技术性能优势支持下拓展出的新市场空间。(一)Cat.1bis 将成为 2G/3G 减频退网后的最佳替代方案(一)Cat.1bis 将成为 2G/3G 减频退网后的最佳替代方案2G/3G 物联网主要应用于中低速领域,如水/气/电表计、共享充电宝、公网对讲、POS 机、云喇叭及支付盒子等。随着 2G/3G 减频退网,Cat.1bis 的技术性能及价格优势将使其成为原 2G/3G 网络的最佳替代方案,有望获得原 2G/3G物联网连接约 60-90%的份额。(二)Cat.1bis 相对 Cat.4 具备低成本和低功耗优势(二)Cat.1bis 相对 Cat.4 具备低成本和低功耗优势如共享充电宝、公网对讲、低功耗视频摄像机等小流量、成本敏感及低功耗场景,Cat.4 的硬件配置成本和功耗高,存在大量应用痛点,Cat.1bis 有望更好地满足相关场景的市场需求。相比 Cat.4,Cat.1bis 芯片的成本和功耗更低;系统优化后的 Cat.1bis 模组集成度更高,硬件架构更简单;相应的物联网终端设备成本及功耗也将显著降低。_Cat.1bis 产业发展白皮书20(三)Cat.1bis 凭借技术性能优势抢占低速市场(三)Cat.1bis 凭借技术性能优势抢占低速市场随着Cat.1bis持续发展优化,其芯片价格有望逐步降至NB-IoT芯片的水平。同时,Cat.1bis 依托现有 4G 网络基础,部署成本低,带宽足够支持语音交互和中速视频。在广域覆盖范围内,Cat.1bis 的应用场景更为丰富,能够提供更好的体验,将对 NB-IoT 等低速市场形成部分替代。三、Cat.1bis 出海势头发展良好三、Cat.1bis 出海势头发展良好在政府和国内一众芯片模组厂商的大力推动下,Cat.1bis 的国产产业链快速发展壮大。其中,紫光展锐等企业成为全球 Cat.1bis 芯片技术的领军者。由于中国 Cat.1bis 的产业实力全球领先,多家龙头企业正凭借先发优势和技术积累,加快拓展海外市场。以紫光展锐为例,其联合上下游合作伙伴与海外运营商建立了深度合作关系,并发布了符合欧洲等多个海外地区运营商需求特性的 Cat.1bis芯片。2020 年 12 月,广和通推出搭载 8910DM 芯片的 L610-EU 模组,并获得全球首个 Cat.1bis 模组 GCF 认证。目前,8910DM 芯片已完成对 63 个国家的场测和发货。中国的 Cat.1bis 芯片产品已在海外市场获得充分认可。_Cat.1bis 产业发展白皮书21第四章 Cat.1bis 主要应用场景案例第四章 Cat.1bis 主要应用场景案例第一节 智能穿戴一、市场前景第一节 智能穿戴一、市场前景综合 IDC、中商产业研究院、华经产业研究院等机构数据,2021 年,中国可穿戴设备出货量为 1.4 亿台,市场规模达 964.2 亿元。其中,出货量同比增长30.8%,市场规模同比增长 24.9%。2017-2021 年间,中国可穿戴设备出货量和市场规模的年均复合增速分别高达 25.2%和 34.6%。预计到 2025 年,中国智能可穿戴设备市场规模将增至1573.1亿元,2021-2025年的年均复合增速为13%。未来数年,智能可穿戴设备市场仍将保持高速增长态势,并带动 Cat.1bis 快速增长。二、解决方案二、解决方案Cat.1bis 提出的最初目的,即为满足可穿戴设备等提出的模组小型化、低功耗和中速率传输要求。以智能手表为例,通过采用 Cat.1bis 芯片,将有效实现产品体积、功耗和性能的平衡,大幅提升用户体验。三、Cat.1bis 智能穿戴应用的优势三、Cat.1bis 智能穿戴应用的优势早期智能穿戴设备采用 Cat.1 双天线设计,导致其体积过大,市场接受度不高,产品面世初期并未形成规模化放量。相较 Cat.1,Cat.1bis 采用单天线设计,_Cat.1bis 产业发展白皮书22支持语音交互,具备低功耗、中等速率等优点,既能满足小微型体积设备对芯片的要求,又能提供较佳的中速人联/物联服务体验,极为适用于智能穿戴类产品。第二节 共享设备一、市场前景第二节 共享设备一、市场前景据国家信息中心数据,2021 年我国共享经济市场交易规模约为36881 亿元,同比增长约 9.2%,增幅较上年明显提升。其中,以共享新零售、共享出行、共享充电宝、共享按摩椅等为热点的生活服务共享经济市场规模达 17118 亿元,居于共享经济各细分领域首位。展望“十四五”,在 5G、AI、区块链、元宇宙等技术的创新应用引领下,共享经济在生活服务领域的渗透场景将更加丰富。共享经济的发展将带动通信芯片、模组、传感器等大量出货,为 Cat.1bis 发展创造良好条件。二、解决方案二、解决方案(一)共享充电宝(一)共享充电宝通过搭载 Cat.1/1bis,后台对共享充电宝实现高效数据传输、精准定位和准确计费,满足用户即时手机充电的需求,助力入驻场域提升服务体验。_Cat.1bis 产业发展白皮书23(二)共享 KTV(二)共享 KTV基于 Cat.1/1bis 的共享 KTV 可以满足人机互动网络传输的要求,使顾客在演唱歌曲的同时,能在线录音并传输至手机。同时,还能通过移动支付,在无人收银的情况下完成交易,实现设备低成本运营。(三)共享雨伞(三)共享雨伞基于 Cat.1/1bis 的共享雨伞将替代传统 2G 共享雨伞成为主流。结合Cat.1/1bis、RFID、霍尔线圈、蓝牙等技术,实现共享雨伞的自动感应、识别和管理,使消费者便捷完成借还。(四)共享家电(四)共享家电基于 Cat.1bis,将保障共享家电随时随地实现稳定连接、高效交互和可靠控制;同时,通过 Cat.1bis 标准蓝牙鉴权等方式,还能为应用的指令控制、数据交互等提供安全保障。(五)自动售货机(五)自动售货机借助 Cat.1/1bis 连接技术,实现消费者不进入商店、不接触收银员的情况下,通过简单按键操作和移动支付即能快速获取商品。此外,基于 Cat.1/1bis的自动售货机还能开展广告运营、大数据管理等。_Cat.1bis 产业发展白皮书24三、Cat.1bis 共享设备应用的优势三、Cat.1bis 共享设备应用的优势以哈啰共享单车出行为例,哈啰出行联合紫光展锐、广和通宣布率先在共享两轮出行服务中应用 LTE Cat1/1bis 无线通信解决方案,充分释放 Cat.1/1bis在移动场景下高速率、稳定可靠、低时延、低功耗等优势,助力哈啰出行为用户提供更多优质服务:搭载广和通 Cat.1/1bis L610 模组的哈啰单车,平均开关锁时长较搭载 NB-IoT 或 2G 模组的时长缩短 30%以上,用户能直观感受到开关锁体验的明显提升;同时,哈啰出行还能给用户带来基于 LBS 的动态天气提醒、升级版智能语音互动和商圈广告推送等服务。第三节 公网对讲一、市场前景第三节 公网对讲一、市场前景公网对讲是依托电信运营商的通讯网络和第三方对讲系统,搭建起来的对讲解决方案。公网对讲属于基础集群通信产品,用户规模在千万级以上,其主要应用场景包括执法、调度、商业服务和园区管理等。目前,公网对讲开始越来越多地嵌入到企业/机构的业务流程中,行业定制化解决方案与客户 IT 系统深度集成的案例正不断涌现。二、解决方案二、解决方案公网对讲解决方案包括对讲终端、USIM 卡和公网对讲平台等。以联通公网数字对讲平台为例,其平台侧采用安卓系统,面向对讲终端厂家提供一站式SDK,_Cat.1bis 产业发展白皮书25终端与平台适配仅需 1 天;面向基础语音对讲需求主打 Cat.1/1bis RTOS 系统,提供轻量级 SDK 植入芯片,并提供标准 API 接口。三、Cat.1bis 公网对讲应用的优势三、Cat.1bis 公网对讲应用的优势Cat.1bis 公网对讲除了具备一般公网对讲所具有的语音上传、群呼、单呼、定位、视频上传等功能,以及需要满足未来系统扩容和升级等冗余要求外,还具有语音高质传输、芯片算力开放、芯片内置能力丰富等优点。以飞图同辉公司联合联通物联网发布的,基于 Cat.1bis 芯片 8910DM 的雁飞公网数字对讲 PCBA套件产品为例,该套件产品适配联通的 LTE FDD 网络,能有效保障语音高质量传输;产品基于 Cat.1/1bis 芯片的 OpenCPU 架构,可面向对讲应用充分开放芯片算力;主芯片内置音视频编解码、蓝牙连接等能力,有效降低了对讲机的硬件设备成本。第四节 车载定位一、市场前景第四节 车载定位一、市场前景车载定位器广泛应用于汽车金融风控、资产追踪、网约车监管、物流车及电动车管理等多种场景。2020 年,全国汽车保有量 2.81 亿辆,另有 2.8 亿辆电动自行车和摩托车,车载定位器的年出货量接近 6000 万台,其中采用 2G 连接的占比约 80-90%,Cat.1bis 在该细分领域的替代市场空间巨大。_Cat.1bis 产业发展白皮书26二、解决方案二、解决方案(一)汽车金融风控解决方案(一)汽车金融风控解决方案针对汽车金融/融资租赁车辆,可在标的物上安装搭配 Cat.1bis 连接技术的GPS/北斗定位器,用于车辆定位和监控。(二)电动自行车资产管理解决方案(二)电动自行车资产管理解决方案通过在电动自行车加装搭配 Cat.1bis 连接技术的定位器,准确采集车辆的经纬度和对应时间等信息,并上传至平台,实现对电动自行车的实时跟踪管理。(三)公务车管理解决方案(三)公务车管理解决方案全国公务车规模约 522 万辆,目前,公务车管理中仍存在公车私用、信息不透明、用车成本高、管理效率低等问题。通过安装搭配 Cat.1bis 连接技术的定位器以及其它智能车载设备,并结合公务车管理平台,可以记录和显示公务车的用车信息、车辆位置、运行轨迹,有效解决相关痛点。(四)其他场景解决方案(四)其他场景解决方案车载定位器成本低、安装便捷,除上述场景外,还被广泛应用于公交车、出租车、工程车、警用车、两客一危、物流车、冷链车等多类车型的定位、轨迹跟踪和安全监管。_Cat.1bis 产业发展白皮书27三、Cat.1bis 车载定位应用的优势三、Cat.1bis 车载定位应用的优势Cat.1bis 能最大化利用现有 4G 网络的广泛覆盖优势,与车载定位器目前的主流连接方式 2G 相比,前者的网络覆盖面积更广、传输速度更快、时延更低,可以获得更为良好的体验。而且,Cat.1bis 的芯片模组成本正逐步降低,将为加速车载定位器的“2 转 4”进程提供更为有利的环境。第五节 安防监控一、市场前景第五节 安防监控一、市场前景随着安全发展的重要性日益凸显,国内安防市场需求规模巨大。据中研网数据,2021 年全国安防行业市场规模达到 9452 亿元,2016-2021 年的年均复合增速近 12%。尤其自新冠疫情爆发以来,基于人形/人脸识别的非接触测温、基于摄像头的人员轨迹追踪、基于运动侦测的家居隔离监控、基于视觉的防疫机器人协作等安防监控解决方案创新层出不穷,贡献显著,大大加快了安防监控行业的发展。预计 2022 年我国安防行业市场规模将达 10134 亿元,未来数年行业将保持较高景气度。二、解决方案二、解决方案通过在网络摄像机搭载 Cat.1bis 模组,将画面实时流畅传输至后台,及时发现异常和处理问题。_Cat.1bis 产业发展白皮书28三、Cat.1bis 安防监控应用的优势三、Cat.1bis 安防监控应用的优势Cat.1bis 具备传输速率优势。网络摄像机从 2018 年开始,逐步采用高压缩比的 H.265(HEVC)视频压缩编码格式,传输占用的带宽较低。目前,网络摄像机主要分为消费级和行业级;消费级摄像机若使用标清分辨率,码流在512kbps 以下,若使用高清/超清分辨率,码流在 1.5Mbps 以下;行业级摄像机若使用超清分辨率,码流在 3Mbps 以下,目前 Cat.1bis 的传输速率完全可以满足网络摄像机的使用要求。Cat.1bis 具备价格和功耗优势。相比安防监控目前更多采用的 Cat.4 连接,Cat.1bis 的芯片成本和功耗更低;系统优化后的模组集成度更高,硬件架构更简单;相应的终端设备成本及功耗也明显更低。第六节 智能电表一、市场前景第六节 智能电表一、市场前景中国智能电表发展全球领先。国家电网自 2009 年推广智能电表以来,国内智能电表存量规模已超 5 亿台,其中,主流的连接方式包括 2G、NB-IoT 和 Cat.4。随着 2G/3G 加速减频退网,空出的市场空间巨大;同时,Cat.4 方案的价格较高,性能冗余过多,Cat.1bis 可以完全满足电力抄表要求,且成本更具吸引力,Cat.1bis 有望成为智能电表领域的主流通信方案。_Cat.1bis 产业发展白皮书29二、解决方案二、解决方案(一)4G 集中器(一)4G 集中器集中器最多可下挂上百块智能电表,通过集中器将有效提升电力抄表效率,目前,其在电网及民用电表领域应用广泛。在集中器抄表场景下,智能电表通过电力线载波或 RS-485 总线与集中器进行数据通讯,集中器再通过蜂窝网络将数据上传到数据采集系统。通过在集中器配置 Cat.1bis 模组,将高效满足数据传输的实时性要求。图 6:集抄模式下的智能抄表图 6:集抄模式下的智能抄表来源:紫光展锐,挚物产业研究院整理_Cat.1bis 产业发展白皮书30(二)4G 智能电表(二)4G 智能电表智能化 4G 远传电表作为用电信息及能源分配的末端设备,覆盖及使用范围广,相较集抄模式下的智能电表,需要更为敏捷和网络覆盖良好的接入方式,以实现数据实时传送至后台进行存储、分析和应用,及时发现能耗漏洞,解决用能核算、收费、预测、控制和安全等问题,并为宏观决策提供数据支撑。基于 Cat.1bis方案,将有效满足 4G 智能电表的数据实时传送要求。图 7:Cat.1/1bis 智能电表图 7:Cat.1/1bis 智能电表来源:紫光展锐,挚物产业研究院整理_Cat.1bis 产业发展白皮书31三、Cat.1bis 智能电表应用的优势三、Cat.1bis 智能电表应用的优势Cat.1bis 智能电表相较 2G 和 NB-IoT 等连接方式,具有更快的传输速率和更低的时延,而且网络覆盖更好、建设成本更低,能有效满足用电数据实时采集和远程控制等应用需求。未来有望大规模应用于公共建筑、工矿企业、商业楼宇、高校院所等场景,高效赋能智慧能源监测和综合能源管理。第七节 光伏发电一、市场前景第七节 光伏发电一、市场前景近年来,物联网监控系统在光伏发电行业得到广泛应用,用以持续记录操作数据、事件和警报,进行远程监测和控制运行,以及预测未来的发电量、收入等,大幅提升了光伏发电站的工作效率和安全性,降低了运营成本。“双碳”战略背景下,预计光伏发电装机量将持续快速提升,基于 Cat.1bis 的物联网监控系统也将迎来良好发展机遇。二、解决方案二、解决方案光伏物联网监控系统在采集光伏电站逆变器、汇流箱、辐照仪、气象仪、电表等设备的数据后,通过 Cat.1bis 连接,将数据传输至后台,相关管理和运维人员可随时查询光伏电站的运行数据,及时发现问题,对设备进行高效管理和维护。_Cat.1bis 产业发展白皮书32三、Cat.1bis 光伏发电应用的优势三、Cat.1bis 光伏发电应用的优势光伏物联网监控系统搭载 Cat.1bis 模组,将较采用有线以太网、Wi-Fi 或GPRS 通讯的传统光伏物联网监控系统布线成本更低,部署位置更灵活,传输距离更长,稳定性更可靠。同时,能有效规避运营商 2G/3G 减频退网的风险,保障电站数据安全、稳定、高效传输,是当前光伏行业更优的解决方案。第八节 金融支付一、市场前景第八节 金融支付一、市场前景金融支付场景的产品包括 POS 机、云音箱(又称云喇叭)等。POS 机作为为商户提供收单支付功能的专用设备,是金融生态中不可或缺的重要工具。随着 2G/3G 加速减频退网,Cat.1bis 有望承接其空出的较大比例的市场空间。云音箱随着移动支付的加速普及,近年迎来快速增长。2021 年,国内收款音箱出货量约 4000 万台,其中蓝牙收款音箱约占 75%,其他为云音箱。云音箱不同于传统蓝牙音箱,无需与手机连接,能避免手机卡顿、超出蓝牙连接距离、APP 闪退等带来的播报延迟、漏报等问题。此前,云音箱芯片以 2G/3G 平台为主,自 2019 年下半年始,国产 Cat.1/1bis 芯片平台日益成熟,并在云音箱领域大规模落地。预计未来数年,Cat.1/1bis 芯片平台在云音箱领域将保持高速增长态势。_Cat.1bis 产业发展白皮书33二、解决方案二、解决方案(一)通信安全(一)通信安全基于 Cat.1/1bis 模组,POS 机将通过 4G 网络完成与各金融业务系统的连接,确保通信安全,防止非法劫持、加密破解等恶性事件发生。图 8:Cat.1bis POS 机具图 8:Cat.1bis POS 机具来源:公开资料,挚物产业研究院整理(二)设备定位(二)设备定位POS 机搭载 Cat.1bis 模组后,能基于广泛覆盖的 4G 网络信号对设备进行定位,且不受天气环境、楼宇位置等影响,与 GPS、Wi-Fi 等定位方案形成互补。_Cat.1bis 产业发展白皮书34三、Cat.1bis 金融支付应用的优势三、Cat.1bis 金融支付应用的优势银行卡跨行支付系统联网 POS 机具近 3100 万台,遍布全国各地,需要基于覆盖完善、安全可靠的网络为其提供连接服务。Cat.1bis 能最大化利用现有4G 网络的广泛覆盖和安全可靠等优势,保障基于 POS 机的各项金融业务顺利开展。此外,相较 2G POS 机,Cat.1bis 的时延低、速度快,用户体验更佳。智吱屋微信小程序扫码下载完整版智次方挚物产业研究院 紫光展锐(上海)科技有限公司 紫光展锐微信公众号紫光展锐官方微博物联网头条君微信公众号物联网智库微信公众号

    浏览量0人已浏览 发布时间2023-10-25 40页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 人工智能行业垂类AI应用专题(2):从AIGC看Adobe和美图的新机遇-231023(47页).pdf

    请务必阅读正文之后的免责声明及其项下所有内容20232023年年1010月月2323日日垂类垂类AIAI应用专题(应用专题(2 2):):从从AIGCAIGC看看AdobeAdobe和美图的新机遇和美. 

    浏览量0人已浏览 发布时间2023-10-25 47页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 人工智能行业Cohere:着力于B端赛道OpenAI 的强劲对手-231022(15页).pdf

    中 泰 证 券 研 究 所 专 业 领 先 深 度 诚 信证券研究报告2 0 23.1 0.2 2Cohere:着力于B端赛道,OpenAI的强劲对手分析师:闻学臣执业证书编号:S0740519090.

    浏览量0人已浏览 发布时间2023-10-24 15页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 人工智能行业:海康机器人推出全新AMR及工业相机产品工业智能化加速-231022(16页).pdf

     本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请务必阅读正文之.

    浏览量0人已浏览 发布时间2023-10-24 16页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 毕马威:2023长江三角洲未来独角兽人工智能创新双30企业报告(70页).pdf

    2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。0长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。1 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。2长江三角洲未来独角兽人工智能创新双30企业报告卷首语人工智能是新一轮科技革命和产业变革的重要驱动力量,在新时代的技术发展中具有很强的“头雁”效应。随着技术迭代,我国人工智能的通用性正在不断增强,从制造业、金融、交通运输、能源行业、公共安全到文旅教育、城市管理甚至生态农业、医疗健康而生成式人工智能技术的加速进化,将进一步提升我国科学技术的创新潜力以及融合能力。人工智能技术的研发周期长、投入大、风险高,在过程中存在很多不确定因素。我国众多高校园所、科技企业多年以来积极投入研发,在大数据、大算力、大模型等方面各有侧重。近年来中国人工智能的发展体现科技发展优势,同时也凝聚了资本、产业、人才和科研技术的力量。目前,长三角、京津冀及粤港澳大湾区作为我国三个主要的人工智能产业聚集区,已加速进入产业赋能深化阶段,除了大型科技领军企业之外,一批科技型中小企业与独角兽企业也崭露头角,这体现了我国创新主体紧跟行业变革、积极推动人工智能发展的决心与担当。今年,毕马威中国提出“未来独角兽”的概念,从长江三角洲地区中评选出未来独角兽人工智能双30企业。希望通过这一次评选,能甄选出具有创新活力、市场潜力的优秀企业,搭建一条优质创新企业和优质资本之间的合作对接桥梁,助力行业高质量发展。2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。2随着新一轮科技革命和产业变革加速推进,人工智能成为引领新一轮科技革命和产业变革的重要驱动力。近期,以智能聊天机器人为典型应用的生成式人工智能(AIGC)技术的快速发展,带动着人工智能产业生态进入发展快车道。目前,我国人工智能核心产业规模已达到5,000亿元,企业数量超过4,300家,创新成果不断涌现。为了进一步支撑我国人工智能产业发展,自2017年开始国家层面频繁颁布重要指导文件。国家新一代人工智能创新发展试验区建设工作指引中明确指出要“重点围绕长三角区域一体化发展等重要区域发展战略进行布局,推动人工智能成为区域发展的重要引领力量”。长江三角洲地区包括上海、江苏、浙江和安徽,该地区长久以来都是中国经济发展的重要引擎。而如今,这个引擎正在将人工智能发展成为新的增长点。长江三角洲地区的人工智能产业一体化发展特征明显,区域协同程度较高,产业发展得到高度重视与支持。其中,G60科创走廊是推动长三角区域一体化发展的重要动能。长三角G60科创走廊自2016年启动建设以来,历经1.0版G60上海松江科创走廊、2.0版沪嘉杭G60科创走廊,依托G60高速公路和沪苏湖高铁交通大通道,发展成为贯穿沪苏浙皖三省一市、覆盖松江、嘉兴、杭州、金华、苏州、湖州、宣城、芜湖、合肥九市的3.0版长三角G60科创走廊。2019年5月,G60科创走廊被纳入国家长江三角洲区域一体化发展规划纲要,成为长三角一体化发展国家战略的重要平台;2021年,G60科创走廊再次被纳入国家“十四五”规划,进一步深化为国家方案、国家行动,为下一阶段高质量发展提供新动能。长三角G60科创走廊凭借其长三角中心腹地区位优势,汇聚大量高校人才与高新技术企业。在政策深化落地、市场下游需求不断爆发的双轮驱动下,长三角G60区域人工智能发展正面临重大发展机遇。上述背景下,为促进长三角区域人工智能产业的发展,2月22日,毕马威中国在G60科创云廊宣布面向长三角正式开启未来独角兽人工智能创新企业榜单评选,推出“未来独角兽”榜单,最终评选出“鲲鹏独角兽”与“新睿独角兽”企业,旨在促进中国人工智能领域的发展以及为企业成长提供全方位的支持,搭建一条优质创新企业和优质资本之间的合作对接桥梁,探讨未来创新机遇和跨越发展瓶颈之道,帮助企业加速发展,引领行业实现创新突破,从而进一步助力长三角地区人工智能产业转型升级。本次评审委员会由多位来自人工智能领域的行业权威专家组成,包含多名毕马威行业专家及合伙人以及外部专家共同组建。评分体系包含5大维度36个方向,将人工智能及产业深度结合,从基础层、中间层、应用层三大层面,划分31个细分赛道。毕马威团队将与上榜企业一起分享专家评委基于核心评估维度的分析结果,并基于不同纬度的分析结果来帮助企业诊断识别提升空间和路径,探讨新形势下人工智能企业如何破局。同时,毕马威全球中国业务发展中心也将协助企业进行全球布局,让企业具备更加开阔的国际视野,保持竞争力,实现高质量增长。毕马威中国希望通过本次未来独角兽人工智能榜单的评选,成为一个提供行业赛道的平台,为企业带来更多的市场机遇,持续助力行业创新变革,共同探索行业深刻洞察,预见行业未来。引言 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。3 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。4长江三角洲未来独角兽人工智能创新双30企业报告评选概览 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。5长江三角洲未来独角兽人工智能创新双30企业报告1.1.3 核心评价维度毕马威中国对人工智能企业榜单评选的五大核心维度分别是:财务健康状况与增长水平技术领先和突破性AI科技对传统行业的赋能与变革商业模式和创新性市场认可度、科技伦理和社会价值我们认为技术领先以及突破性能力对于早期企业在竞争激烈的市场格局中是立身之本。对于大多数成长企业而言,技术领先及突破能力和财务状况同样重要,而那些在行业当中发展较为成熟、已具一定规模的较大企业,我们则更看重他们在这六大维度中均衡发展的能力。基础层:包括传感器、AI芯片、云计算等中间层:包括技术层、知识图谱、数据中台等应用层:包括智能制造、机器人、AI 汽车等1.1榜单概况1.1.1 毕马威中国未来独角兽人工智能榜单介绍作为全球知名的专业服务机构,毕马威深耕人工智能科技行业,持续助力创新变革。当前,中国企业经过多年发展,原始技术积累、落地场景和商业形态已逐步成熟。人工智能技术与各行业的融合正在不断加速,赋能数字化转型,并引领中国加速向智能经济社会迈进。通过此次评选,毕马威期望与企业共同揭示行业深刻洞见,并为企业带来更多市场机遇。毕马威中国在长江三角洲地区正式开启未来独角兽人工智能榜单创新双30企业评选,旨在促进中国人工智能领域的发展以及为企业成长提供全方位的支持。榜单涵盖人工智能的三大层次,即基础层、中间层和应用层,寻找各层次的前沿技术驱动型公司。通过专家团队综合评选机制,评选优质创业企业,助力企业创新。1.1.2 参评企业类型本次评选的目标企业其总部或者注册地应位于长江三角洲地区,具备从事人工智能业务的基础设备条件和专门经营场地,在人工智能领域有丰富的专利储备且有行业影响力、在参评领域经营至少12个月的非上市实体。主要涉及以下业务领域:毕马威中国未来独角兽人工智能榜单核心评价维度 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。6长江三角洲未来独角兽人工智能创新双30企业报告1.1.5评委会组成评审委员会由外部专家,以及具有专业领域经验的毕马威行业专家及合伙人等组成。1.1.4评选流程及时间安排2023年8月启动报名及初选工作2023年4-7月2023年2月准备榜单资料筹备发榜仪式2023年9月讨论及筛选2023年10月发布上榜企业名单企业访谈 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。7长江三角洲未来独角兽人工智能创新双30企业报告1.2榜单概况本届榜单评选过程中,分别有30家人工智能行业鲲鹏独角兽企业和16家人工智能行业新睿独角兽入围(企业排名不分先后,按拼音首字母排序)。序号企业名称序号企业名称1博泰车联网科技(上海)股份有限公司16上海跬智信息技术有限公司2常州微亿智造科技有限公司17上海弘玑信息技术有限公司3杭州程天科技发展有限公司18上海诺亚木木机器人科技有限公司4杭州飞步科技有限公司19上海森亿医疗科技有限公司5杭州蓝芯科技有限公司20上海维智卓新信息科技有限公司6杭州灵西机器人智能科技有限公司21上海仙途智能科技有限公司7杭州语忆科技有限公司22上海云拿智能科技有限公司8杭州一知智能科技有限公司23数库(上海)科技有限公司9江苏范特科技有限公司24苏州智华汽车电子有限公司10亮风台(上海)信息科技有限公司25英矽智能科技(上海)有限公司11魔视智能科技(上海)有限公司26浙江凌迪数字科技有限公司12南京硅基智能科技有限公司27浙江蘑菇云创物联技术有限公司13南京云问网络技术有限公司28智昌科技集团股份有限公司14上海冰鉴信息科技有限公司29中科融合感知智能研究院(苏州工业园区)有限公司15上海非夕机器人科技有限公司30中科智云科技有限公司鲲鹏独角兽新睿独角兽序号序号企业名称企业名称序号序号企业名称企业名称1 1复睿智行科技(上海)有限公司9上海羚数智能科技有限公司2 2杭州德睿智药科技有限公司10上海星亢原生物科技有限公司3 3杭州拓数派科技发展有限公司11上海易澳科技有限公司4 4杭州易现先进科技有限公司12无锡斯帝尔科技有限公司5 5南通金予博信智能科技有限公司13西湖心辰(杭州)科技有限公司6 6上海安维尔信息科技股份有限公司14星逻智能科技(苏州)有限公司7 7上海富数科技有限公司15以见科技(上海)有限公司8上海零眸智能科技有限公司16浙江数新网络有限公司 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。8长江三角洲未来独角兽人工智能创新双30企业报告1.3上榜企业概况1.3.1区域及城市分布从区域分布来看,长三角特别是江、浙、沪地区是在榜企业的主要集聚城市,产业抱团优势明显。上海、浙江、江苏三地企业分别占榜总量的47.8%、30.4%以及19.6%。当前,上海、杭州、合肥、苏州等城市已入选我国国家新一代人工智能创新发展试验区。长三角人工智能企业区域分布(家)长三角人工智能企业城市分布情况(家)SOUTH CHINA SEA ISLANDS上海:22南通:1杭州:13合肥:1宁波:1苏州:3南京:2常州:1无锡:20510152025合肥南通常州宁波南京无锡苏州杭州上海 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。9长江三角洲未来独角兽人工智能创新双30企业报告1.3.2主要场景从主要场景来看,当前人工智能主要应用于智能制造、智能客服、AI 智慧城市、AI 智慧港口、AI 零售、AI 零售、AI 生物医药等多个场景,说明人工智能在我国已得到多行业的广泛应用。2022年8月,科技部公布关于支持建设新一代人工智能示范应用场景的通知,明确十个新一代人工智能首批示范应用场景,其中包括智慧农场、智能港口、智能矿山、智能工厂、智慧家居、智能教育、自动驾驶、智能诊疗、智慧法院以及智能供应链。人工智能在制造、交通、医疗、教育、金融等领域的融合应用,进一步加速新产业、新模式的产生,对社会发展产生深刻的影响。人工智能在榜企业关键词图谱 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。10长江三角洲未来独角兽人工智能创新双30企业报告1.3.3赛道分布从赛道分布来看,本次上榜企业主要集中在应用层。随着人工智能与传统行业、新型行业的深度融合,人工智能应用场景愈发丰富。本次上榜企业赛道主要涉及大模型、智能制造、智能客服、机器人以及AI 汽车、AI 生物医药、AI 零售、AI 大文娱、AI 金融、AI 新能源、AI 智慧城市、AI 智慧港口、AI 智慧矿场、AI 智能建造等10个“AI ”子赛道。赛道分布情况本次榜单赛道落地具有泛在、实在的特点,同时具备多点涌现、场景多,产业场景融入深以及产业升级场景多四大特征。应用层基础层中间层应用层行业应用AI 大文娱AI 新能源AI 智慧城市AI 智慧港口AI 智慧矿场AI 智能建造AI 汽车AI 生物医药AI 金融AI 零售大模型智能制造智能客服机器人中间层基础层 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。11长江三角洲未来独角兽人工智能创新双30企业报告趋势与展望 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。12长江三角洲未来独角兽人工智能创新双30企业报告2.1人工智能发展现状2.1.1 人工智能引全球共振,获蓬勃发展随着经济全球化的快速发展、低附加值劳动力成本的逐渐上升、新一代科技革命与产业变革的兴起,人工智能产业蓬勃发展,已建立起由基础层、中间层与应用层组成的完整产业链条,并不断向各个产业渗透,赋能智能制造、AI 智慧城市、AI 医疗、AI 零售等新兴应用领域。人工智能产业的日趋成熟释放出极大的经济发展空间,为新一轮科技变革提供主要驱动力,因此,全球各国纷纷将人工智能提升至国家级的战略高度,持续加码政策和资本的投入,努力抢占人工智能产业发展的制高点,助推人工智能产业全面深入发展。人工智能产业在全球范围内飞速发展,全球人工智能产业目前已达数千亿美元,并在医疗、制造、教育等多个领域实现技术落地,将对人类社会的经济发展、生产生活方式带来变革式的影响。作为支撑全球经济发展的核心产业之一,据Statista数据预计,2030年全球人工智能产业规模将达到7,388亿美元。2020-2030年全球人工智能产业规模(十亿美元)0.0100.0200.0300.0400.0500.0600.0700.0800.02020202120222023E2024E2025E2026E2027E2028E2029E2030E信息来源:Statista,毕马威分析 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。13长江三角洲未来独角兽人工智能创新双30企业报告信息来源:公开资料整理,毕马威分析注:2022年数据暂未披露,为预测数据从区域角度来看,北美地区人工智能产业规模处于领先地位,人工智能领域高水平论文、专利数量及独角兽企业数量领跑全球。据Statista数据统计,2022年北美地区人工智能产业规模约582亿美元,其次是欧洲与亚洲地区。作为亚洲地区最重要的经济体之一,中国人工智能产业发展活跃,产业规模增速高于全球。随着数字经济的高速发展和人工智能第四次浪潮的袭来,全球人工智能产业规模高速增长。根据公开资料整理,过去五年全球人工智能产业规模年复合增速达到31%。从基础层来看,人工智能芯片作为底层算力的关键硬件,是带动产业规模增速的重要拉力之一;从中间层来看,人工智能的三大核心基础技术计算机视觉、机器学习与自然语言处理,皆为产业规模增长的主要来源,过去五年行业年均增速均超过25%,催生出一批拥有广阔空间的应用场景。从应用层来看,交通、金融与医疗行业人工智能应用规模增长显著,主要应用产品与服务为智能驾驶汽车、人工智能风控、医疗机器人等。全球人工智能产业规模(按层次分,亿美元)2.1.2中国人工智能战略高度提升国内人工智能发展成效显著智能时代的快速到来,使人工智能技术持续突破。我国把握住人工智能产业新机遇,加快培育壮大智能产业,取得显著的成效。目前,国内人工智能核心产业规模已达到5,000亿元,企业数量超过4,300家。智能网联和新能源汽车产业规模持续壮大,新能源汽车累计产量突破2,000万辆,市场渗透率达到28.3%。智算和超算协同发展,算力规模居全球第二。累计建成5G基站超过305.5万个,具有一定影响力的工业互联网平台超过240家,路侧感知单元、大数据中心、云控平台等新型基础设施加速建设。融合应用深度拓展,建成数字化车间和智能工厂2,500多个,生产智能化水平明显提升1。近年来,中国在人工智能领域正以惊人的速度取得显著进展,成为全球人工智能创新的引领者之一,这得益于中国政府、企业和学术界的共同努力。政府层面高度重视发展人工智能产业的必要性和紧迫性,自2017年开始国家层面频繁颁布重要指导文件,人工智能作为国家战略也成为了学界以及企业间的共识。1工业和信息化部副部长张克俭出席2023中国国际智能产业博览会开幕式并致辞,工业和信息化部,https:/ 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。14长江三角洲未来独角兽人工智能创新双30企业报告2017年至今中国人工智能行业政策汇总(中央层面)新一代人工智能发展规划20172019国家新一代人工智能创新发展试验区建设工作指引关于促进人工智能和实体经济深度融合的指导意见中共中央关于制定国民经济和社会发展第十四个五年规划和2035远景目标纲要的建议新一代人工智能治理原则发展负责任的人工智能建设人工智能创新应用先导区2020可信AI操作指引国家新一代人工智能标准体系建设指南2021新型数据中心发展三年行动计划(2021-2023年)新一代人工智能伦理规范关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见2022科技部关于支持建设新一代人工智能示范应用场景的通知2023生成式人工智能服务管理暂行办法人工智能上升为国家战略层面,确定人工智能产业发展的总体思路、战略目标和任务,AI产业“三步走”战略支持建设多个人工智能创新发展试验区构建数据驱动、人机协同、跨界融合共创分享的智能经济形态明确大力发展人工智能产业,打造人工智能产业集群以及深入赋能传统行业成为重点,着重构建开源算法平台我国首次发布发展人工智能治理原则目前已建立上海(浦东新区)、济南-青岛、深圳、北京、天津(滨海新区)、杭州、广州、成都国家人工智能创新应用先导区公布了首批商用人工智能系统可信评估结果,为用户选型提供了重要参考到2023年,初步建立人工智能标准体系,建设人工智能标准试验验证平台,提供公共服务能力推动新型数据中心与人工智能等技术协同发展,构建完善新型智能算力生态体系将伦理道德融入人工智能全生命周期,积极引导全社会负责任的开展人工智能研发与应用活动明确了发展目标:场景创新成为人工智能技术升级、产业增长的新路径,场景创新成果持续涌现,推动新一代人工智能发展上水平首批支持建设十个示范应用场景:智慧农场、智能港口、智能矿山、智能工厂、智能家居、智能教育、自动驾驶、智能诊疗、智慧法院和智能供应链旨在促进生成式人工智能规范应用和健康发展,是全球首部针对生成式人工智能的专门立法,在促进产业发展和规制风险方面,形成了中国式立法探索来源:公开资料搜集,毕马威分析 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。15长江三角洲未来独角兽人工智能创新双30企业报告长三角区域优势凸显,协同领跑ChatGPT“大模型”的爆发加速了中国人工智能产业的发展。作为中国经济发展活跃、开放程度高、创新活力十足的区域之一,长三角积极进行人工智能产业布局,抢占人工智能先机,在人工智能的竞技场上协同领跑。长三角在发展人工智能产业方面优势凸显,一方面,长三角地区拥有丰富资深的科研人才和高等教育资源,这为人工智能领域的科研提供了坚实的基础。另外一方面,长三角地区经济发展强劲,具备完善的产业链和市场体系,能够提供良好的创新环境和更多的商业机会。此外,长三角区域不仅具有完善的基础设施和交通网络,便于人才流动和资源共享,还拥有上海发达的金融业作为支撑,利于吸引全球资本市场大量资金的集聚,为人工智能产业发展注入强劲的发展动力。长三角致力于建设具有全球竞争力的国家级战略性新兴产业基地,以打造全国乃至全球先进制造产业集群为目标。通过建立人工智能相关产业园和产业联盟,借助各地区的优势产业资源和集群发展辐射效应,发挥区域内各省市产业优势,并通过强化区域内配套基础设施与管理体系,整合及协调产业、物流调度和人才引进等资源,形成以企业为主体,大学、科研机构参与建立的“产学研”合作创新机制,努力打造“世界级领军企业”。2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。16长江三角洲未来独角兽人工智能创新双30企业报告2.2人工智能发展趋势重塑产业格局,走深向实发展现阶段,产业应用规模不断突破,人工智能产业正在迈向发展“成熟期”,并逐渐渗透到各行各业,助力各合作伙伴实现高效的数字化变革与发展。伴随着国家一系列衔接有序的政策措施密集落地,人工智能应用不断走深向实。首先,人工智能已被广泛运用在制造、金融、医疗、交通、物流等多个行业;其次,人工智能不仅促进单个企业提质降本增效,也带动产业链上下游协同高效运转;最后,人工智能通过改造现有场景、增加创新渠道,扎实推进各行业的产业革新。在此大环境下,人工智能成为未来时代的大模型和竞争新热点,若要进一步重塑人工智能的产业格局,则要搭建创新平台,从而形成规模效应和范围效应。场景创新成为人工智能技术升级、产业增长的新路径,人工智能需要在更多行业及场景的转型化中获得机会,从目前的制造、物流、医疗等向更多行业和更核心的业务领域渗透,例如IT领域、智能传感器、产品质量判断等,让人工智能技术能顺利向追求更高精度、挑战更复杂任务等方向演进,更快实现人工智能生态伙伴的业务聚合、资源聚合和战略聚合。颠覆劳动力市场,人机协作成主流在人工智能、数字经济等新一代技术发展的推动下,我国经济运行模式正经历巨大变化,进而对劳动力市场产生较大影响。根据目前的市场就业模式,一些涉及编码、数据分析、客户服务的工作内容,较容易被人工智能、自动化机器所替代。但是,人工智能的发展也衍生出新的就业机会。在2019年,人力资源社会保障部等部门向社会发布了13个新职业,其中包括数字化管理师、人工智能工程技术人员、物联网工程技术人员、建筑信息模型技术员、电子竞技运营师、电子竞技员、无人机驾驶员、物联网安装调试员、工业机器人系统运维员等。新职位与新技术的出现,对劳动者的素质与能力带来新的要求,未来提升劳动者受教育程度与技能水平成为迫切的任务。人工智能的细分领域繁多,其运行过程不仅是依靠机器与算法,更重要的是需要对应的人才把各个环节连接起来,未来,人机协作将应用到各个生产和生活场景,以此提升效率、加速任务执行速度。随着政府加快推进国家新一代人工智能创新发展试验区和国家人工智能创新应用先导区建设,绿色化、场景化、市场化成为人工智能未来的风向标,这三者相互融合、相互支撑,共同助力科技企业策源和产业创新。在绿色化方面,深化人工智能等数字技术应用,构建美丽中国数字化治理体系,建设绿色智慧的数字生态文明显得日趋重要。未来将加快人工智能、物联网、云计算等新兴技术与绿色低碳产业深度融合,围绕碳排放、生态环境风险防范等内容,研发生态环境智能感知体系,提升数据检测与环境保护能力,全面推进绿色智慧的数字生态文明建设。在场景化方面,目前人工智能在主要行业的应用场景已经从单一的应用场景转换为多元化的应用场景,场景创新成为人工智能技术升级、产业增长的新路径。下一步,人工智能企业将继续以场景化应用为切入点,在制造、农业、物流、金融等重点行业深入挖掘人工智能技术应用场景,不断探索新的领域、创造新的应用场景。在市场化方面,人工智能正加速与市场对接,目前我国拥有超过4,300家人工智能企业,产品成果获得社会的广发关注。未来,政府与企业将积极探索市场化运营机制,通过项目合作等方式助力人工智能技术与市场发展相结合,引导人工智能参与到商业、高端制造等不同的领域。绿色化、场景化、市场化成为风向标数据、算法、算力作为人工智能发展的三大核心要素,决定了人工智能技术的效果与性能。2021年,国家发改委宣布正式启动全国一体化算力网络国家枢纽节点建设,在国家枢纽节点布局建设若干个大数据产业集群,加快在人工智能、大数据等领域的探索。有了这三大核心要素的支撑,人工智能技术能有效实现各种应用。随着人工智能的不断发展,市场上出现了数据信息泄露、伪造数据等现象,对社会造成极大的危害。如何正确地运用大数据、管好算法,是用户高度关注的问题,也是政府与科技企业需要正视的问题。在未来的发展中,人工智能的数据隐私监管需要多方共同参与和努力。政府需要制定和完善详细的数据管理规则,定期检查、审核企业的隐私管理机制;企业自身要设立对应的监管部门,保证算法的逻辑必须围绕如何保障用户隐私安全,不能将用户的隐私资料视为私产;用户应提升警惕意识,自觉抵制不明来历的人工智能产品,保障自己隐私安全。隐私安全引重视,数据、算法、算力三位一体 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。17长江三角洲未来独角兽人工智能创新双30企业报告上榜企业介绍 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。18长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。182009年10月智能座舱博泰车联网应宜伦,创始人&CEOAI AI 汽车汽车擎AI语音平台支持全双工连续对话、车控一句话多意图、全场景可见即可说、用户自定义场景、个性化NLG、声源定位、多屏交互等功能,具有响应速度快、唤醒与识别率高、用户体验好等特点。截至目前,已经搭载多家知名汽车品牌多款车型量产落地。2015年11月06日 博泰“第三代iVoka语音云驾驶技术”荣获第十六届中国国际工业博览会银奖【由国家发展改革委、工信部、商务部、科技部、中国科学院、中国工程院、中国贸促会、联合国工发组织和上海市人民政府主办】2016年及2017年 连续两年荣获中国卫星导航定位协会颁发的“卫星导航定位科技进步奖-二等奖”【中国卫星导航定位协会,科技部授权】2019年4月28日 入选中国汽车产业知识产权投资运营中心发布的“中国汽车硬科技新势力50强榜单”【国家级产业类知识产权运营中心】2021年03月31日 AR智能导航项目获得中国物流与采购联合会颁发的“中国智能网联汽车技术创新成果奖”【颁发机构由国务院批准设立、受国家经贸委直接管理】2023年8月8日 入选国家企业技术中心,这是国家发改委对博泰车联网持续深耕智能网联汽车领域的高度认可。【国家发改委】2023年09月12日博泰首次上榜上海制造业企业百强、连续三年入选民营制造业企业百强和新兴产业企业百强。【上海市企业联合会、上海市企业家协会、上海市经济团体联合会和解放日报社联合发布】博泰车联网作为一家以国有股份为主体,具备国家使命的民营先进制造科创企业,是业内知名的综合型智能座舱全栈解决方案提供商,具备提供硬件、软件、云端服务及运营一体化的能力。公司业务覆盖智能座舱产品研发、生产制造及运营服务的各个方面,凭借在全产业链的布局,成为智能座舱垂直一体化业务发展的领军企业。博泰以高性能计算单元为目标发力智能汽车中央计算集群,旨在聚焦汽车智能化征程中的关键发展问题和迫切需求,加强各方资源力量协同,助力中国智能汽车产业的国产自主可控,推动构建世界一流的智能汽车产业生态。全双工连续对话一步触达与可见即可说车控一句话多意图用户自定义场景个性化NLG反馈语音多屏交互功能覆盖全响应速度快唤醒率与识别率领先 智能座舱 智能网联 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。19长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。192018年8月智能质检 修复及巡检微亿智造张志琦,董事长潘正颐,总经理侯大为,副总经理李科频,副总经理赵何,首席技术官智能制造智能制造业务需求:深圳某动力有限公司是国内知名新能源汽车品牌的全资控股、核心零部件子公司。电机作为驱动系统核心部件,带故障装车后可能引起严重的安全事故。但传统检测严重依赖人工经验及工作状态,效率低且一致性难以保证。解决方案:针对新能源汽车驱动电机定子装配后可能存在的线圈敷涂、装配不良、关键部件变形、损伤等问题,“工小匠|AI数字质检员”利用工业6轴机械臂高自由度及高速飞拍技术于定子装配后下线工位进行高精度、快速外观缺陷检测。国家级专精特新小巨人企业国家级服务型制造示范项目国家级新一代信息技术与制造业融合发展试点示范(面向特定技术领域的专业型工业互联网平台)江苏省重点工业互联网平台江苏省工业互联网服务资源池(三星级)江苏省智能制造领军服务机构江苏省专精特新小巨人企业(创新类)江苏省级服务型制造示范平台江苏省潜在独角兽企业微亿智造成立于2018年,是国家级专精特新小巨人企业,总部设立在常州市,在上海、深圳、北美均建有AI算法研发中心。公司专注于以工业人工智能及大数据技术助力工业企业快速实现数智化转型升级。微亿智造长期布局“视觉AI 机器人控制”的全栈技术并持续领先,并将技术能力已沉淀到标准化、集成化、一体式的产品体系上,并基于产业“know-how”,实现质检标机、行业专机的快速规模化落地应用。同时,针对市场上的成像难题“漫反射,高反光,高透光性材质”有达到或超过世界领先水平的硬件研发能力,同时针对物体内部3D精细成像有完整的技术储备和硬件研发能力,并研发了一系列产品,对标国际知名产品,多项核心精密零部件实现国产化替代。微亿智造凭借丰富的项目沉淀,深耕3C电子、新能源、汽车制造、家用电器等行业,并在IDC2022年中国AI工业质检解决方案市场份额报告位居市场份额第四。视觉感知及数据采集、非结构化数据的(图像,视频)模型开发及应用、以及高纬度多模态数据处理分析,实现全景大范围多场景人机料边缘端认知和跟踪;多光场高稳定光学成像;非结构数据的高效无损压缩传输;深度学习模型高效在线训练;2D 3D混合视觉算法;海明空间中的知识图谱嵌入方法等六项关键技术 智能生产 智能质检 机器人视觉 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。20长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。202017年外骨骼机器人程天科技王 天,创始人&CEOAI AI 生物医药生物医药用外骨骼机器人探索“康复即服务”模式成本控制能力加持下,程天科技将首先从康养领域切入,探索和深化与康复机构联合运营的“康复即服务”新模式,即将外骨骼机器人康复体系下沉到二级康复专科医院,维持期的康复服务由社区或居家完成,实现居家、社区、民营机构的联合运营方式。具体而言,程天科技的“康复即服务”新模式结合我国三级康复体系,即急性期在三级医院康复科,恢复期在二级康复专科医院,维持期的康复服务由社区或居家完成。该新模式的核心在于解决二级康复专科医院与社区或居家康复的专业度问题,实现标准、一致、重复的康复治疗目标,为患者提供分阶段、全周期的康复服务。杭州专精特新中小企业杭州医疗健康领域准独角兽企业澎橙奖年度创新企业年度中国康复机器人辅助起航奖维科网年度卓越技术创新企业奖DIA佳作奖IAI智造奖IAI工业产品设计最佳设计大奖IDEA设计大奖程天科技成立于2017年,是一家以技术创新为核心驱动力的国家高新技术企业,致力于核心算法与核心元器件在内的外骨骼机器人技术的研发与应用。目前专注于康复与养老领域,通过结合人机交互技术、人工智能技术、数据分析以及云计算为医疗康养机构和个人用户提供智能化产品和解决方案。人机智能交互的外骨骼康复机器人研发和产品化外骨骼康复机器人神经反馈的主动康复控制研究生物信号反馈的外骨骼安全性评价研究和标准化外骨骼辅助康复的神经疗效临床研究与示范应用数字疗法医疗机器人电子病历 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。21长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。212017年8月港口无人运输飞步科技何晓飞,创始人&CEO杨政,联合创始人&CTOAI AI 智慧港口智慧港口飞步科技全无人运输车队部署浙江飞步科技全无人运输车队部署浙江、江苏多个港口码头江苏多个港口码头飞步科技连续多年为宁波舟山港、南通港提供自动驾驶水平运输技术运营服务,包含无人驾驶水平运输系统(FabuDrive)、远程控制系统(FabuRemote)、车队及设备调度管理系统(FabuDispatch)等系列产品,在多个码头落地含集卡与智能平板运输车(IGV)在内的无人运输车队。其中宁波港梅东码头无人集卡数量已超60台,开展多路编组实船作业近1500天,多次参与全球最大集装箱船的装卸船作业;南通港吕四作业区实现集卡 IGV混编作业。基于车载无人驾驶系统 远程控制,无需基建或工艺改造便可快速实现全无人、全工况、全天候运营,相比地下预埋磁钉、采用物理硬隔离等传统方式方法,智能化程度更高,落地成本更低。同时基于云端调度平台提供车队与设备管理、实时路径规划等服务,进一步提升作业效率。省部级奖项:浙江省自然科学一等奖(2020年度)飞步科技是一家致力于研发无人驾驶、辅助驾驶相关技术的人工智能企业,拥有自主知识产权,是智能驾驶系统供应商与技术服务商。多模态信息融合障碍物检测算法基于深度学习的多传感器融合定位算法基于深度神经网络的复杂集卡行为预测算法基于深度强化学习的云端调度决策算法无人驾驶运输工具自动路径规划高度自动驾驶智慧物流智慧交通智能调度计算机视觉机器学习 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。22长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。222016年3C、光伏、锂电、包装蓝芯科技高勇,CEO郑超,副总裁郑卫军,副总裁机器人机器人锂电池工厂智能产线物流解决方案 应用场景:在部署方案前,锂电池生产车间的原料、半成品和成品转运工作均由人工手拉地牛或推料车的方式完成,物流流程多且路线长,需要搬运的原材料电芯、成品重量大,耗费企业大量人力但周转效率并不高,且管理难度大。该企业迫切希望:1、由机器人承担其中的搬运工作,提升内部周转效率;2、建立车间物流信息化系统,实现系统互联,打造数字化车间。解决方案:导入蓝芯科技智能搬运机器人、蓝芯科技视觉SLAM无人叉车、蓝芯科技机器人调度系统RCS。工作流程:1.由蓝芯科技智能搬运机器人完成单节电芯配送:交接区线边仓产线线头废料收集区空车回流交接区;2.由蓝芯科技智能搬运机器人完成多节电芯配送:前加工区产线线头空车回流前加工区;3.由蓝芯科技智能搬运机器人完成物料车转运:线边仓产线,镭雕区产线,产线分板房插件区;4.蓝芯科技视觉SLAM无人叉车完成硬件成品下线:打包区成品入库区。被认定为2023年度第一批省“专精特新”中小企业锂电池工厂智能产线物流解决方案入选2023年度浙江省机器人典型应用场景荣获中国自动化学会颁发的CAA科技进步奖二等奖荣登2023杭州准独角兽企业榜单高分辨率大成像范围的3D视觉传感器研发及产业化项目入选浙江省2023年度第一批尖兵研发计划获得2022年创-第二届智慧物流应用式创新大赛一等奖蓝芯科技是新一代移动机器人和智能工厂整体解决方案提供商。团队核心成员来自中科院、复旦、浙大及国内机器人企业。公司以核心技术LX-MRDVS(蓝芯-移动机器人深度视觉系统)赋予机器人3D视觉感知能力,为制造业提供更安全、更稳定、更智能的生产线物流解决方案。市场聚焦3C、光伏、锂电、包装,合作客户包括多家高新技术企业、手机制作厂商以及新能源企业。LX-MRDVS(蓝芯-移动机器人深度视觉系统)机器人视觉移动机器人工业机器人 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。23长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。232018年5月“3D AI”机器人视觉智能解决方案灵西机器人丁丁,创始人&CEO王灿,副总裁&视觉技术负责人王磊,副总裁机器人机器人LINX视觉拆垛解决方案国内某企业奶饮仓 3D高精度相机:灵西机器人自研LINX-FLEX-M线扫相机能够稳定输出高质量的点云,有以下特点:成像精度高(小于0.5mm);适用性强,高功率的激光投射技术抗环境光干扰能力强,对极端的包装表面(吸光、反光)具有很好的适用性;智能识别算法:LINX-FLEX-M相机在解决箱规尺寸和包装材质带来的挑战后,LINX-AI智能控制系统可以对中缝、提手、扎带等特征进行准确的识别和过滤;定制化吸盘:根据SKU尺寸和重量分布,定制化设计吸盘的大小以及吸力,保证系统效率达成和SKU的安全抓放;异常掉落监控机制:实时监控异常掉落情况,智能选择“重扫补抓”或提示“人工干预”。浙江省省级产业数字化服务商浙江省“专精特新”中小企业2022年中国未来独角兽企业“基于3D视觉和机器人技术的智能拆码垛系统”省内首台(套)认定企业创客中国二等奖杭州灵西机器人智能科技有限公司是“3D AI”机器人视觉智能解决方案提供商,拥有全套自研的3D视觉相机、机器视觉算法、机器人控制等核心技术。目前,产品和解决方案已在仓储物流、新能源、工业等诸多行业实现规模化落地。面向仓储物流行业的“3D视觉智能拆码垛系统”新能源领域的外观检测、机器人智能拆组盘等系统汽车及一般工业领域的视觉引导装配及上下料、表面检测智慧物流智能仓储智能生产计算机视觉机器学习 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。24长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。242016年9月客服智能管理系统语忆科技程凯,CEO魏志成,CTO蔡政,首席架构师CHI FENG,AI负责人智能客服智能客服运动类目某知名品牌解决全渠道的数据整合管理难题 客户背景:该品牌在TM、JD官网等不同平台持有多家店铺,管理坐席3000 账号,面临数据整合难度大、人力管理成本高、效率低等诸多跨平台管理难题。语忆赋能:Usight通过对该品牌在多平台对话数据的全量监测,让品牌实现跨平台数据的统一管理,提升了管理效率,降低了品牌管理成本。杭州大创小镇2021年度十佳优秀创业项目2021年度电商领域最佳服务商2021年度企业服务领域最具影响力创新企业杭州大创小镇2022年度高成长性项目语忆科技成立于2016年,为企业提供全生命周期管理解决方案,助力企业实现数字化智能管理转型,全面提升企业客户服务水平。语忆科技致力于将高度工程化的自然语言处理技术应用于企业销售效率的快速提升与客户服务全流程管理体系的完善。公司目前已经在消费品、地产、汽车、通信等数十个细分行业收获了大量成功案例,积累了丰富的行业实践经验。情绪识别算法语意语音识别智能平台管理 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。25长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:企业标签企业二维码赛道:企业形象企业介绍 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。25客户联络中心解决方案(AICC)&数字人一知智能智能客服智能客服杭州一知智能科技有限公司是一家专注于人机语音交互技术的的研发型、服务型人工智能公司,致力于通过人机交互技术为全球中大型企业用户提供优质的智能化综合解决方案。公司凭借自研的语音识别、语义理解和语音合成三大人机交互核心算法,为零售、生活服务等泛消费行业以及公共服务提供AI场景化智能服务。智能客服企业照片 精准营销 数智人 语意语音识别2017年8月陈哲乾,创始人&CEO张蕾,CFO姜兴华,CTO陈乐,COO薛弘扬,AI Lab负责人 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。26长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。262021年3月核心元宇宙基建(AI AR)范特科技李浩,董事长吴圣阳,CEO汝骏仁,首席科学家张杰,AR事业部总经理代亮,智慧治理事业部总经理中间层中间层典型案例介绍典型案例介绍 MyModMyMod大模型平台大模型平台(银行版银行版)上一个时代的AI和CV能力都是固定的算法,然而用户的需求是千变万化层出不穷的。这也就导致了上一个时代的AI本质实际上是通过强制收敛用户需求来解决其最痛点的问题,但是本质上还是有很多长尾需求未满足,因此还有银行人员通过肉眼来盯着摄像头。公司通过给银行部署一个私有化的MaaS平台,协助客户自行来完成算法的训练、业务流程的编辑等。主要功能包括 开放性:包括语言类大模型、检测一切、分割一切大模型以及多模态大模型等全面面向企业和开发者开放。动态性:算法支持自动化的采集、标注、训练、测试、上架和部署更新。零门槛:算法训练的过程不需要对数据标注、算法调优等专业领域有经验要求。端到端:支持可视化的业务流定制,函数式编程,通过拖拉拽的方式组合多个算法模型完成自定义业务流。对于复杂的业务逻辑,支持插入自定义代码。国产CPU支持:支持国产x86,如海光,arm64处理器。国产GPU支持:支持国产GPU/NPU如华为Ascend、登临Goldwasser等。国产软件支持:支持UOS,麒麟操作系统,达梦数据库、人大金仓数据库等。一键部署:实现数据、算法、算力、应用、部署、运维AllInOne全管控。上海虹桥机场数字创新案例入围36氪“数字创新标杆案例TOP36”入选开源GitOps产业联盟生态全景图2.0入选36氪“2022年度数字化创新服务商”榜单为河南省“防汛应急2022”演习提供数字化作战保障应急使命2023”高山峡谷地区地震灾害空地一体化联合救援演习首席科学家汝俊仁入选无锡“飞凤人才计划”获评江苏省民营科技企业无锡市瞪羚企业入库江苏范特科技有限公司成立于2021年,秉承“科技赋能业务”理念,以大模型为基础的MaaS(Model as a Service)为核心,通过AR方式实现“模型-行动”最后一公里的打通,赋能应急、公安、金融、文旅、城市运营等多个行业,协助客户实现数智化转型,快速达到业务目标。同时,公司推出了全新城市级元宇宙平台FanSpace,通过AR实景、空间计算、区块链、城市数据联动等技术赋能实体经济。公司目前主要研发是FanSpace,是一个集合AI应用、AR应用、3D渲染引擎、Editor服务等共同构成的全新元宇宙平台。语音处理及自然语音理解计算机视觉机器学习技术开发平台 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。27长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。272012年11月虚实融合互动体验、工作现场虚实融合亮风台廖春元,联合创始人、董事长&CEO唐荣兴,联合创始人&COO中间层中间层已有的工业互联网或数据业务平台无法满足复杂的设备、数据、系统之间的互联互通与现场处置,为推进智慧制造从1.0版迈向2.0时代,2021年,某大型钢铁集团上线 AR智能点巡检系统,将运维模式转变为“以数据为核心”的管理模式。目前,大型钢铁央企正与亮风台合作工业元宇宙示范平台,这也是上海市元宇宙第一批重大应用场景。AR智能点巡检系统结合检维一体化的难点痛点,以工业工程为基础,将点巡检作业进行细化,以点巡检工位、作业任务、检查要素等为突破口,按照五定原则,实现现场点巡检作业标准化、点巡检管理规范化、数据采集实时化、信息记录智能化,从而在一体化进程中发挥重要指导作用。依托于AR智能点巡检系统,企业通过“支持人”“规范人”和“指导人”达到“发挥人”的作用,日常点巡检效率得以提升。2022年国家级“专精特新”小巨人企业2022年上海市“科技小巨人”企业2019年中国电子学会、国家级科技进步一等奖国际三大设计奖:德国红点奖、德国iF设计奖、美国工业设计优秀奖(IDEA)2022年世界人工智能大会SAIL奖TOP30(AR行业唯一)2019年工信部“绽放杯”5G应用大赛全国一等奖2019-2022年中国VR 50强20172020年中国人工智能企业百强人民日报“中国硬核抗疫九大黑科技”亮风台是中国首批AR(增强现实)专业公司,领先的AR平台级技术、产品和服务提供商。公司以AR计算平台为中心,硬件为抓手,应用为切口,数据为价值,面向智能制造、公共安全、互动文娱等行业提供标准化产品与解决方案,打造超实境智慧空间HRIS,构建元宇宙基础设施。目前,公司已为超过20个城市提供公共服务,落地数千家企业与机构。同时,公司坚持开放合作,以平台优势构筑行业生态,已与三大运营商、多家高新技术企业等各领域合作伙伴建立重要合作关系。研发光学透视技术,viSLAM,MTP等核心指标位于国际先进水平针对室内场景自研了大空间定位技术完成了移动端目标识别项目研发 硬件 云计算服务 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。28长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。282015年8月乘用车、商用车及车路协同魔视智能虞正华,创始人&CEO王学海,联合创始人&COO沈春华,联合创始人&首席科学家胡益波,首席技术官AIAI 汽车汽车自2021年开始,魔视智能与某国有汽车集团在乘用车自动驾驶平台化开发与功能渐进式升级上开展深度合作。2022年12月,魔视智能顺利完成某汽车集团自主品牌广汽传祺SUV车型-影酷的量产交付,搭载魔视智能自动泊车系统的乘用车影酷首台量产车下线。2023年,魔视智能MOTOVIS再次获得集团自主品牌广汽埃安2款新车型定点,为其相关量产车型提供L2 级自动泊车系统相关产品,助力平台化车型量产落地。当前,延续双方平台化战略目标,魔视智能正稳步推进相关平台化车型自动驾驶系统的量产与交付。魔视智能MOTOVIS作为该集团的自动驾驶深度合作伙伴,将从产品竞争力、平台开发能力、品质保障能力等方向为其提供高智能化、高安全性的自动驾驶产品,赋能集团智能化转型升级。上海市“专精特新”企业称号入选世界经济论坛“2023年度技术先锋”上榜36 氪“最受投资者关注的硬核科技企业”上榜第七届“铃轩奖”量产类优秀奖屡获高工智能、雷锋网、盖世汽车等50 行业大奖魔视智能科技(上海)有限公司是一家专注于自动驾驶的创新科技公司。魔视智能以领先的人工智能算法,赋能嵌入式芯片平台,实现自动驾驶和高级辅助驾驶产品的大规模量产。魔视智能拥有自主知识产权的全栈式自动驾驶核心技术,包括环境感知、多传感器融合、高精度的车辆定位、路径规划、车辆控制、驾驶决策等所有核心算法及域控制器软硬一体全栈解决方案,支持L1-L4 级自动驾驶。魔视智能独有的深度学习框架,全面支持国际及国内主流嵌入式芯片平台,实现高度优化及精准的人工智能引擎。原创全栈算法能力:从感知、融合、定位到规控全栈自研,无短板全栈式系统能力:从硬件,底层软件,中间件到功能软件的全栈开发能力全场景落地能力:乘用车/商用车、行车/泊车均具有丰富量产经验完整数据闭环能力:持续沉淀高质量数据,推动算法迭代 L4高度自动驾驶 L3条件自动驾驶 L2部分自动驾驶 L1辅助驾驶 智能网联 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。29长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。292017年8月AIGC数字人短视频、直播等应用硅基智能司马华鹏,董事长&创始人&CEO陈莉萍,高级副总裁&联合创始人&董事毛丽艳,高级副总裁&联合创始人&董事汤毅平,AI实验室主任AI AI 大文娱大文娱数字人主播,这些数字人可以根据脚本调整情绪,可以根据现场情况调整策略。可应用于跨境电商服务、本地生活服务、中小企业直播、乡村振兴等领域。通过提供一站式的人、货、场直播解决方案:包括数字人主播选取、话术风格等,打造拥有个性化特征的数字人直播间。该解决方案不仅提供主播库、音色库、直播背景、直播素材等基础能力,还支持智能话术的撰写和违禁词的检测。通过实时监控直播间数据,调整主播口播策略和商品话术配比,进而提升直播间的GMV(GrossMerchandiseVolume,商业交易总额)。入选国家级第四批专精特新“小巨人”企业连续三届入选南京市培育独角兽名单2023年36氪中国下一个百亿规模AIGC产品榜2023年量子位中国AIGC最值得关注的50家公司2023年甲子光年中国AI应用层创新企业TOP202023年界面新闻中国AIGCx泛内容50家最有价值公司2023年中国数字直播产业联盟年度TOP10直播服务商2023年中国数字人TOP100新华日报“2022江苏新锐企业”奖成立于2017年的硅基智能,全球首创了AIGC数字人模式,先后发明电话机器人、数字人直播,是中国商业化智能交互的先行者,是南京人工智能独角兽企业、国家级专精特新“小巨人”企业,始终以人工智能科技、创新为核心驱动力,专注于AI技术深度研发和落地应用,通过自主研发的人工智能核心技术,向社会源源不断地输出硅基劳动力,致力于赋能企业数字化转型,以“算力、财力、电力”为公司三大核心落脚点,通过炎帝行业大模型打造数字人 AIGC的创新应用生产场景,实现更接近于人类、个性化、善学习的数字人应用方案。AIGC数字人炎帝行业大模型智能客服智能营销智能合成制作虚拟人 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。30长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。302013年8月知识智能化管理、智能客服、面向能源、政务、工业、金融领域私有化大模型应用云问科技智能客服智能客服云问科技从知识智能角度,以激活数据要素中的知识资源为基础,构建跨层级、跨区域、跨系统、跨部门、跨业务的决策支撑与精准治理体系。一站式服务、指尖办理、秒办秒批,皆需数据共享与知识复用。政务行业知识库支撑多渠道知识推送、调用及直接访问,赋能文本机器人、电话机器人、智能辅助系统,提供问答交互、图谱可视化、推荐等交互形式。基于底层知识支撑,“AI 知识”服务体系面向省市政府、各委办局提供全面知识管理服务。对内赋能员工高效知识查询、培训学习及一线人员实战经验传承;对外辅助客户进行精准服务,提升用户满意度。国网设备部“电网设备技术标准精确检索与智能问答”双项第一中央网信办人工智能企业典型应用案例2023年度中国十佳呼叫中心系统及设备提供商中国软件行业协会最具投资发展潜力软件企业中国客户联络中心行业发展年会“年度品牌推荐奖”云问科技是一家以自然语言处理等AI技术为核心的人工智能培育独角兽企业。作为行业级“AI 知识”解决方案提供商,云问坚持以“All in One Query”为产品理念,基于“ChatYun云中问道”企业私有化知识大模型,衍生出“AIGalaxy”AIGC应用平台、“Ser viceAI”智慧营服平台与“Know”知识智能平台,多场景满足企业需求,让企业知识管理和服务更简单、智能和高效。公司主要面向能源、军工、政务、工业制造、交通运输等服务场景提供全渠道智能客服平台、AIGC知识快应用、知识图谱构建及NLP能力平台等相关解决方案。在智能对话、智能推荐、情感分析、智能质检、智能助理等方向累计参与7项GB及ITU标准制定工作,全面布局全栈NLP技术与应用、Al多模态技术融合及语音语义数据集构建方面标准体系。王清琛茆传羽“ChatYun云中问道”企业私有化知识大模型“AIGalaxy”AIGC应用平台“Ser viceAI”智慧营服平台“Know”知识智能平台智慧运营精准营销语意语音识别智能平台管理智能运营智能客服设备健康管理语音处理及自然语音理解智能营销智能采辑智能座舱智慧旅游智慧物流智慧应急智慧交通智慧政务智能搜索智能售后知识图谱 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。31长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:企业标签企业二维码赛道:企业形象企业介绍 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。#2015年6月智能风控顾凌云,董事长兼CEO(创始人)郭志攀,运营副总裁李嘉明,销售副总裁AI AI 金融金融冰鉴科技是一家以通用人工智能技术提供企业级服务的高科技公司。经过八年多的发展,已成长为人工智能SaaS服务领域,尤其是金融机构数字化转型领域的企业。公司总部位于上海陆家嘴,在南京、深圳、成都、常州、北京等地设有分支机构。精准营销 智能风控 智能运营 智能客服 智能营销 智慧政务 药物研发 医疗影像 知识图谱 数据中台冰鉴科技 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。32长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。322016年11月智能制造、自动化转型升级、自适应柔性生产非夕科技王世全,联合创始人&CEO叶熙阳,联合创始人&首席技术官钟书耘,联合创始人&首席机器人科学家卢策吾,联合创始人&首席AI科学家机器人机器人底涂剂是一种复合的化工原料,且大多使用挥发性溶剂,对人体健康有一定影响,但受限于自动化水平,目前大部分汽车底涂都是人工完成。客户为某新能源车企,目前产线工位多为人工操作,为解决该人工岗位劳动力流动性大以及招工成本的问题,同时提升生产质量,推进整体自动化变革,需要对现有产线的三角窗玻璃进行自动化底涂改造,实现自动清洁、底涂,提升生产质量、良率。非夕科技基于非夕自适应机器人高精力觉感知和高响应能力,推出高柔性汽车底涂解决方案,在满足底涂剂均匀、稳定和高精度的同时,具备极佳的柔性和自适应能力,无需视觉,通过拖拽示教生成轨迹,自主恒力贴合,适应各种形状物体,对产品位置、尺寸误差具有较高的容忍度,可实现快速部署和产品切换。上海国际工业博览会CIIF2019机器人大奖德国IF工业设计大奖德国工业产品创新奖钛媒体2019年T-EDGE Awards年度最具潜在投资价值企业奖上海市专精特新企业上海市级设计创新中心上海科技小巨人培育企业上海国际传播领域2021年度设计类最高奖项银鸽奖Flexiv(非夕科技)是一家通用智能机器人公司,专注于研发、生产集工业级力控、计算机视觉和人工智能技术于一体的自适应机器人产品,为不同行业的客户提供基于非夕机器人系统的整体、创新性的解决方案和服务。非夕科技成立于2016年,在硅谷、上海、北京、深圳、佛山、台湾、新加坡等地设有办公室。高精度力/力矩传感器首创的轴定位式关节设计稳定且高频的力控算法框架层级式智能控制系统 自动路径计划 智慧农业 医疗机器人 智能生产 工业机器人 计算机视觉 机器学习 具身智能 机器人大模型 柔性线生产 高精度力控 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。33长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。332016年3月指标分析与管理、AI 自助式数据分析与管理跬智信息韩卿,联合创始人&CEO李扬,联合创始人&CTO中间层中间层在企业普遍开展数字化转型的当下,如何构建企业的统一数据视图,深度挖掘数据价值,支撑各级业务团队进行高效的经营管理,已成为企业面临的现实挑战。过去基于报表来响应业务用数需求的模式变得越来越低效。业务用数找不到、看不懂、不敢用等,严重阻碍了企业数字化经营的战略重地。Kyligence提供一站式指标平台“Kyligence Zen”和AI数智助理“Kyligence Copilot”,助力多行业企业对数据资产进行盘点、联接和规范管理,逐步形成“指标资产”管理体系,确保业务用数敏捷化。同时,通过AI Copilot自然语言对话实现指标检索和洞察,并运用KPI评估、自动归因分析等方式提高组织管理和场景分析效率,轻松从指标中获取业务洞察,简化和降低数据分析门槛。工信部“工业大数据分析与集成应用重点实验室”工作组单位中国科协2022年“科创中国”国际创新合作榜2022年上海市“专精特新”企业2022 第三届“长三角金融科技全球创新与应用大赛”年度中国金融科技领军企业奖2022年上海软件和信息技术服务业高成长百家企业Gartner2022年中国数据管理最酷厂商Cool VendorGartner2022年指标中台创新洞察报告代表厂商IT168 2022年度信创卓越贡献奖甲子光年2022年中国数据智能领域最具商业潜力的20家科技Cool Vendor跬智信息(Kyligence)由Apache Kylin创始团队于2016年创办,是大数据分析和指标平台供应商,提供AI数智助理“KyligenceCopilot”、一站式指标平台“KyligenceZen”及企业级OLAP(多维分析)产品“KyligenceEnterprise”,为用户提供企业级的经营分析能力、决策支持系统及各种基于数据驱动的行业解决方案。Kyligence已服务中国、美国、欧洲及亚太的多个银行、证券、保险、制造、零售、医疗等行业客户。基于AIGC的数据分析报告生成指标数据的管理方法及装置带AI增强引擎模块图形用户界面的电脑预计算OLAP系统及实现方法消费者识别分析;商品识别分析;智慧运营;精准营销;智能平台管理;智能投顾;智能风控;智能运营;智能营销;智能维保;智慧旅游;智慧农业;智慧物流;城市管理;智慧应急;智慧环保;智慧社区;智慧交通;智慧园区;智慧政务;监控运维可视化;辅助诊疗;智能监护;院内管理;需求预测;产品研发;智能仓储;设备健康管理;智能售后;智能调度;智慧安全管理;智能生产;数据库;数据中台 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。34长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。342015年6月软件自动化平台、云原生平台及数字化转型解决方案弘玑Cyclone高煜光,创始人、CEO程文渊,联合创始人&COO吴迪,联合创始人&首席战略官高煜丰,联合创始人贾岿,首席产品官王业明,海外事业部总经理中间层中间层某大型电子信息产业集团公司通过弘玑RPA、CoE及流程挖掘在内的超自动化解决方案,将降本增效与数字化转型落到实处。某航空集团有限公司通过弘玑超自动化多核心技术组合,实现跨组织的业务自动衔接和闭环,自动化技术覆盖集团各分公司等多个流程,从RPA试点到数字员工事业部高效运营。某能源企业通过弘玑流程挖掘配置多重维度的多项KPI指标,及多项风险管控点,发现潜在合规性问题9项,并形成流程监控指标,发现低效环节多个并提出措施,进一步提高财务共享中心工作效率和质量。入围2021年Gartner魔力象限入围2022年Gartner魔力象限入围2023年Gartner魔力象限入围2021年FORRESTER RPA报告入围2022年FORRESTER RPA报告入围2023年Everest RPA报告入围2023年Everest流程挖掘报告弘玑Cyclone AI企业级应用服务商,致力于通过人工智能和自动化的变革力量,推动企业数字化落地。以人机之间高效协作,解放人的潜能,为企业带来增长。作为生成式自动化(AIGA)的提出者,公司拥有超自动化产品布局,为全行业提供端到端的软件自动化平台、云原生平台及企业数字化解决方案,公司自主研发的融合AI、NLP等先进技术的Cyclone RPA超自动化解决方案能够为客户自动完成特定业务流程,实现跨行业、跨组织的数字化转型目标。公司总部位于上海,目前已在国内外24个城市设有分公司和办事处,并在美国硅谷设立研发中心。商业化版图已拓展至大中华区、日本、东南亚等市场。实现面向企业和中小企业客户的一站式自动化平台的开发与推广实现AI增强智能自动化和超级自动化的丰富组件式产品功能突破智慧运营;智能平台管理;视觉智能管理系统;智能障碍识别;智能风控;智能运营;身份识别;智能客服;智能营销;智慧物流;城市管理;智慧社区;智慧交通;无人机运维系统;智能监护;院内管理;智能导诊;AI校验;电子病历;云计算服务;语音处理及自然语音理解;技术开发平台;知识图谱;智能搜索 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。35长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。352014年8月药品、检验标本、手术中心洁物、高/低值耗材诺亚木木蒋化冰,董事长、创始人吕威,首席技术官(CTO)孙锐,研发副总经理机器人机器人为缓解医护人员紧缺情况,减少人员交叉感染风险,同时也降低医护人员工作强度,诺亚先后两次共调拨多台医院物流机器人入驻某医院,为患者和医护人员提供自消毒零接触的机器人配送系统,全力支持医院运营,提供安全高效的物流保障。2023年荣获2022年冬奥会、冬残奥会医疗保障突出贡献单位2023年一种助力提升数字医院管理水平的服务机器人管理体系构建与推广项目荣获2022年度上海医学科技奖二等奖2023年荣获20212022年度中国医院物联网“5G智慧医疗”应用十大优秀案例2021年度智能机器人创新应用十大优秀解决方案奖2021年度“基于IPv6 5G技术的医院物流机器人运输平台的探索”入选IPv6规模部署和应用优秀案例2020年度荣获中国医院物联网“5G智慧医疗”应用十大优秀案例2020年度荣膺第三届“绽放杯”5G应用征集大赛上海分赛二等奖2020年度荣膺第三届“绽放杯”5G应用征集大赛三等奖2019年度恰佩克质量奖2018年度机器人质量奖上海诺亚木木机器人科技有限公司是中国医院物流机器人领域企业,致力于用人工智能和机器人技术为医院提供全院多场景的智慧物流解决方案,专注5G智慧医院物流。公司主导产品“诺亚医院物流机器人”以5G、人工智能、无人驾驶三大核心技术为基础,实现院内“动态物体识别”“智能调度”“智能物联”,打造了医院全场景智能实时调度系统,实现全院物资自动化配送。目的是提升物流配送效率,简化人员管理,降低人工配送的差错,节约医院建设、运营成本和能源消耗。语义地图的构建高重复定位精度技术基于端云结合的全局半动态障碍物地图构建和更新多源传感器数据融合的物体识别、姿态估计及跟踪 移动机器人 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。36长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。362016年4月数据分析、数据治理、电子病历森亿智能张少典,创始人&董事长马汉东,联合创始人&副总裁AI AI 生物医药生物医药某医院是集医疗、教学、科研、预防保健为一体的综合性“三级甲等医院”,是国家级住院医师规范化培训基地、多家医院的临床研究生教学基地和临床学院。在高水平医院建设的背景下,数字化转型对于医院高质量发展日趋重要。而随着医院上线信息系统越来越多,加上医院数据采集的及时性、有效性及准确性不足,容易形成信息孤岛,且临床业务系统智能化程度不高导致医院产生大量临床数据无法有效应用到医院的医疗质量管理与运营管理。本项目深度结合该医院的业务需求,通过大数据、人工智能技术,进行高效的数据集成和数据治理,支撑智慧医疗、智慧管理、智慧服务“三位一体”的智慧医院建设。通过一体化、专科化、智能化电子病历建设,重构以电子病历为核心的新一代医院信息系统。在高质量临床数据的基础上完成了VTE和单病种上报等应用,实现医疗数据的智能化提取,用数据驱动质量管理,提高医院各场景智能化应用。2019世界人工智能创新大赛(AIWIN)潜力奖“2019全国医疗人工智能创新奖”技术创新奖2019中国智慧健康医疗优秀成果2019年度浦东新区创新创业奖国家工信部科技抗疫表现突出人工智能企业2021世界人工智能大会最高荣誉SAIL奖TOP302021年度医疗健康大数据平台最具竞争力企业榜前10名中国数字医学-2019全国医疗人工智能创新奖临床应用创新奖SYNERGY医疗人工智能操作系统TOP30榜单项目2023上海硬核科技TOP100榜单上海森亿医疗科技有限公司(森亿智能)成立于2016年,是国内一家专注于将人工智能技术、大数据技术与健康医疗领域的应用场景相结合,提供数智化健康医疗应用的人工智能企业。公司基于融合了人工智能平台、数据平台及医学知识平台的“数智医脑”,和上百家三级医院、多个区域平台与医共体实施经验为坚实后盾,提供医疗大数据管理、健康医疗数智化应用及创新型应用、新一代医疗信息化等应用,驱动医疗卫生、医学科研等机构建设与完善健康医疗大数据资源要素体系,并助力其从信息化向数智化转型升级。基于不同计算机语言的数据处理方法、系统、介质及设备基于人机交互的XML信息提取方法、存储介质及电子设备适用于离线环境的一键部署方法、系统及存储介质 辅助诊疗 院内管理 电子病历 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。37长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。372017年智慧城市、元宇宙、智能商业智能金融维智科技陶闯,创始人&CEO裘靖宇,联合创始人&VP陈文亚,联合创始人&VP中间层中间层通过“业务复盘-知识沉淀 数字建模 优化反馈”的闭环流程打造数据驱动的业务决策,基于数字化体系积累的包括历史项目投资、成本和销售数据、辅以地理信息数据、人口动态数据、市场行情以及业务专题等外部数据,建立一套智能的项目投资和商业定位决策模型,包括通过自身项目一手的运营数据,研判周边新项目的预期价值。第十一届中国创新创业大赛(上海赛区)暨2022“创在上海”国际创新创业大赛中荣获“优胜企业”2022智慧城市先锋榜优秀企业2022城市数字化转型优秀案例评选优秀案例2022IDC十大城市智能计算平台2021IOTE物联之星最具影响力物联定位企业2022iFenxi人工智能最佳实践案例2022甲子光年大数据与人工智能最具投资价值企业2021中国数字化转型年度人工智能创新产品奖维智科技(WAYZ.AI)是时代城市和商业打造决策型“AI大脑”,通过时空感知、时空认知、时空决策与时空智能交互技术,赋能产业、企业和城市的数字化转型升级。面向智能城市、交通、应急、金融、品牌、零售和地产等领域提供“洞察、决策、运营、优化”全链路的智能运营和营销服务。维智的全栈“时空AI”技术体系,自主研发“Phy-gitalTM飞吉特时空智能平台”,推出了数据时空化、时空图谱化与图谱智能化三大核心引擎,发布上百个通用决策人工智能算法系列并提供企业级应用,包括精细化场景洞察、企业知识架构迭代、场景模型构建与优化等核心能力。基于时空AI、时空知识图谱的城市数字孪生底座软件服务与算法服务基于城市级大场景的空间计算算法与高精建图技术 精准营销 城市管理 智慧应急 智慧社区 智慧园区 机器学习 知识图谱 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。38长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。382017年7月无人驾驶环卫仙途智能黄超,创始人&CEO李伟,联合创始人、技术副总裁刘政康,合伙人、企业发展副总裁合伙人唐彦也:产品及运营副总裁AI AI 汽车汽车无锡锡东区公开道路清扫仙途智能无锡某项目包括超百万平方米道路保洁与数十万方绿化保洁。仙途智能自动驾驶清扫车自2022年1月开始运行,运营情况良好,车队规模不断扩大。2022年11月,Autowise V3加入该项目,在多路段执行自动驾驶清扫作业。今年6月,仙途智能中标2023-2025年度某新城商务区智慧环卫一体化项目,未来还将投入上百台V3实施自动驾驶清扫作业。国外某大型跨国集团自动驾驶清扫仙途智能与国外某大型跨国集团战略合作首批落地项目,仙途智能自研自动驾驶清扫车V3在利雅得某高端住宅社区执行自动驾驶清扫任务。此次落地标志着双方的战略合作已进入实质落地阶段。第八届中国创新创业大赛上海赛区暨2019“创业在上海”国际创新赛市赛评选优秀企业奖2019年世界人工智能大会自动驾驶应用场景暨中国赛道AI 交通最佳应用奖2020中关村科学城国际智能网联汽车前沿技术创新大赛10强2021AIWIN应用创新赛潜力奖2021全球科技出行明日之星Top102021全国智能驾驶测试赛(江苏赛区)技术领先奖2022上海市首届高价值专利运营大赛百强上海市专精特新企业仙途智能Autowise.ai是一家科技创新企业,以人工智能和自动驾驶技术研发及应用为核心业务,以“无人驾驶改善城市生活”为发展使命,业务遍布全球。仙途智能为上海市高新技术企业、上海市专精特新企业。公司率先将自动驾驶技术应用于环卫领域,并在多个领域实现商业落地。2022年,Autowise.ai先后推出自研自动驾驶清扫车V3和自研自动驾驶平台Roboard-X。融合激光雷达、毫米波雷达、相机、高精地图等多种数据源进行实时感知,实现精准覆盖式清扫、贴边清扫、安全绕障、准确避让、垃圾自动对接倾倒、自主泊车。L4高度自动驾驶 智能网联 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。39长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。392017年7月无人零售、智慧仓储云拿科技冯立男,创始人&CEO张一玫,总经理李庭涛,高级副总裁夏鼎,COOAI AI 零售零售新加坡某便利店品牌采用了基于AI计算机视觉、深度学习、多传感融合等前沿技术打造的云拿AI数智化解决方案:云拿AI智能无人店:基于计算机视觉、机器学习和多传感融合技术,精准识别顾客拿放动作和商品信息,出门自动结算,打造区别于RFID技术和自助结算的新型购物方式。云拿门店数智化管理系统:经营者可以随时随地查看门店经营情况,在线订货、调整价格、设置活动以及获取缺货提醒等等,实现远程控店。IADT 2022数字科技(元宇宙)创新应用优秀成果-创新应用与生态奖2022“物联之星”年度榜单之中国物联网应用标杆案例榜亿欧2022世界创新奖(WIA2022)“2022中国零售服务创新Top20”长城战略咨询“2022中国潜在独角兽企业”朋湖网“2022数字技术创新企业TOP20”维科杯OFweek2022人工智能行业最具成长力企业奖“直通乌镇”全球互联网大赛人工智能专题赛三等奖首届广州琶洲算法应用国际大赛卓越创意奖第一新声&天眼查“数字新消费2022年最佳服务商榜单”华为云首届IoT创新应用开发大赛第一名上海云拿智能科技有限公司是一家为实体经济提供数智化升级解决方案的跨国公司,于中国、日本、德国等国家和地区设有自己的分支机构。云拿科技致力于以计算机视觉、机器学习、多传感融合等核心技术,通过具有自主知识产权的人体行为识别和物体识别算法引擎“Cloudpick ”,为多个行业和场景提供改善运营效率、提升从业者及服务对象工作乃至生活幸福感的技术方案。在零售行业,云拿科技为顾客提供“拿了就走、无感支付”的新型购物体验,帮助实体零售商打造高度数字化、智能化、无需人工收银的智慧商店。物品监控方法数据处理设备及物品监控系统(展台与顾客交互感知系统)售货设备及无人售货系统门禁设备,闸机,单向闸机,门禁装置一种电子价签安装结构(用于电子价签的无极定位安装导轨)一种货架(托盘与支架的具体连接结构)无人贩卖 消费者识别分析 商品识别分析 智慧运营 精准营销 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。40长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。402009年9月依托产融大数据服务于金融机构、产业园区、企业集团、政府部门数库科技刘彦,创始人&CEO沈鑫,创始人&总裁AI AI 金融金融银行领域:数库Clue对公数字化引擎可帮助银行对内建构内部统一治理体系,提升数据使用效率;对外提升对公业务体量,打通外部产业链数据,最终实现智能获客、智能风控、智能行研服务。资管领域:数库产业链数字投研平台可协助行研、商分等专业人士通过链接海量多源数据完成数据分析和产业研究。该平台支持探索和绘制产业上下游之间错综复杂的连接、依赖关系和相互作用,洞察识别行业间的影响和产业变化,评估市场趋势、扰动和政策变化影响,并基于数据分析进行决策。此外,数库科技还打造了产业链知识管理和分析平台用于提高投研决策效率,以及数库全景知识图谱平台为营销、风控等场景构建数据平台业务支撑。政务领域:实现了政府产业规划、强链补链延链、产业链供应链解析及舆情监控、园区智慧招商引资、精准企业服务对接等数字化城市核心模块的应用落地。上海市专精特新企业上海市和谐劳动关系达标企业上海市大数据服务供应商推荐目录企业上海市闵行区数字化转型服务商(第一批)上海市闵行区科技小巨人企业上海市闵行区企业技术中心中国软件和信息技术服务业企业信用评价AAA级2016/2017/2018/2021/2022年毕马威中国金融科技企业50强福布斯中国企业科技50强数库科技成立于2009年,是一家产融数字化的数据科技公司。公司对多种来源、多种形式的海量数据进行收集,通过数据特征标记实现数据结构化,再通过对于应用场景的需求实现数据标准化。标准化数据是数据串联的重要基础,数库科技应用人工智能技术打造了一体化数据中台,实时、高速、精准处理海量数据源,产出结构化、标准化、可串联、可编织的数据网络,在此基础上赋能金融、政府及产业领域数字化转型,实现数据互联化和决策智能化。数库科技目前提供产业监控、区域产业解析、智慧招商、智能风控、智能投研、优企追踪、智能资讯、量化投资等多维度业务场景。同时,拥有SAM产业链、供应链、企业图谱、新闻舆情等全方位数据流服务,以及Clue对公数字化引擎,企业舆情监控及风险预警中心、政务级产业大脑、供应链舆情预警等场景化解决方案。数库科技通过多年积淀,构建了一套由底层统一数据体系(One Data)、统一平台(One Platform)、统一流程(One Process)三大支柱、中间层算法模型,以及上层场景应用构成的技术体系。产品研发 智能投顾 智能风控 智能运营 智能营销 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。41长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。412012年行车、泊车、座舱智华科技AI AI 汽车汽车i i-DriveDrive智能驾驶解决方案智能驾驶解决方案 智能驾驶:智华科技是业内首批实现中高级别智驾产品量产的系统级供应商,拥有前视主动安全系统(FAS-AFB、ICC、ACC)、领航辅助系统(NOA);融合自动泊车系统(FAPA)、记忆泊车系统(HPA)、代客泊车系统(AVP);行泊一体域控系统(i-Drives)、行泊舱一体域控系统(Hi-Drives)等完整智能驾驶产品序列。在系统开发上,具备板级硬件设计和底层软件服务能力,打造高可靠短周期的模块化方案;在算法设计上,依据场景功能需求配合整车制造商进行规划控制算法的定制开发,共建数据闭环,打造全新的量产级智驾功能“中国方案”。智能交互:智华科技是以视觉技术为基础,拥有座舱增强交互全产品谱系的供应商。包含3D全景环视泊车系统(AVM)、透明A柱系统(TAP)、电子后视镜系统(CMS)、增强抬头显示系统(AR-HUB)、驾驶员监测交互系统(DMS)、座舱监测交互系统(IMS)等。在产品形态设计和计算平台选择上灵活可靠,满足各类分布式和集中式电子电气架构搭载要求,打造多元智能的“第三出行空间”。智能网联:智华科技智能网联解决方案包含独立千兆以太网关(GW)、智能网关域控制器(AICS)等产品形态,采用新一代集中式架构设计,规划集成通信模组、定位模组、高精度地图、V2X模块等功能单元,满足L3级别智能驾驶的数据传输带宽及速率要求,能够提升自车及OTA的信息交互效率。国家科学技术进步二等奖(2018年)中国汽车工业科学技术进步一等奖(2017年)中国汽车工程学会科学技术奖科技进步一等奖(2023年)智华科技成立于2012年,定位渐进式智能驾驶定制化系统供应商,致力于智能驾驶系统关键技术攻关及核心技术“中国方案”产业化发展。公司拥有智能驾驶融合感知及规控算法能力、定制化智能驾驶系统及智能传感器的设计开发及创新能力、车规级制造及规模化量产能力。公司聚焦智能行车、智能泊车、智能座舱三大智能驾驶场景领域,为全球汽车行业提供智能驾驶系统产品。一种用于360全景系统的多路图像同步显示的方法、系统一种车载以太网转接板以及多路车载以太网设备通讯系统基于深度学习的汽车全景影像系统的外参标定方法、装置一种在全景环视系统中实现视角自动变化的方法、装置基于AUTOSAR协议栈的诊断报文路由方法、系统一种汽车电子后视镜图像处理系统及处理方法基于深度学习的实时全景车位检测方法、装置、存储介质基于单一程控电源对车载控制器进行测试的系统、方法邓博,CEO刘军山,CO-CEO杨波,CTO张小勇,VP增田悟,首席技术专家田梦雨,CFO&董秘费健卫,HRDL3条件自动驾驶L2部分自动驾驶L1辅助驾驶智能网联智能车云智能座舱 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。42长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。422014年2月AI生物智药研发英矽智能Alex Zhavoronkov,创始人&董事会主席任峰,执行董事、联席首席执行官&首席科学官Alex Aliper,科学联合创始人Sujata Rao,首席医疗官AI AI 生物医药生物医药ISM001-055是英矽智能在Pharma.AI平台赋能下发现的众多管线中进展最为领先的项目。这是一款由AI发现和设计的抗纤维化小分子抑制剂,现已获批在中美两地开展2期临床试验,完成首批患者用药,并取得美国FDA孤儿药认证。在ISM001-055项目研发过程中,团队通过对比纤维化患者组学数据和健康人组学数据,利用包括核心“iPANDA”算法在内的多种预测模型和生成生物学模型,寻找影响相关信号通路的组学数据,定位到多个纤维化靶点,并通过“PandaOmics”中集成的筛选条件工具挑选出其中针对特发性肺纤维化的最具潜力靶点。之后,在Chemistry42辅助下,研发团队采用基于结构的分子设计策略,从头生成了一组新的化合物来选择性地抑制该特定新颖靶点,并从选择性、生物利用度、代谢稳定性、口服给药性质、安全性等成药属性进行评估优化。并在细胞和动物实验中进行活性及成药性测试,实验结果反馈给人工智能系统,以指导后续进一步优化。中国企业家2023年度高成长性创新公司“未来之星”浦东新区经济突出贡献企业T Employer 大健康卓越雇主上海国际生物医药产业周“生物医药产业数字化转型先锋企业”HONGKONG ICT AWARDS 2023-商业方案奖银奖百华协会(BayHelix)国际生物制药峰会2022“年度企业奖”2022世界人工智能大会SAIL之星奖CB Insights 全球最具潜力的100家人工智能公司榜单MIT Technology Review“50家聪明公司”Frost&Sullivan 2021全球AI制药领域年度创业公司奖CB Insights2020全球数字健康150强Fierce MedTechs 2019 Fierce15英矽智能(Insilico Medicine)成立于2014年,是一家由生成式人工智能驱动的全球性生物科技公司。利用深度生成模型、强化学习、转换模型等现代机器学习技术,构建了人工智能药物研发平台Pharma.AI,连接从生物学、化学到临床试验分析的一体化药物发现流程。公司聚焦癌症、纤维化、免疫、中枢神经系统疾病、衰老相关疾病等未被满足医疗需求领域,以自主研发的人工智能平台推进并加速创新药物研发,并布局了快速增长的疗法组合。其中进展最快的抗特发性肺纤维化项目是由人工智能发现靶点并生成化合物的候选药物,正在中国和美国同步开展2期临床试验,另有三款候选药物已经获批进入1期临床试验。英矽智能通过共同开发、对外授权和软件许可等方式扩大与生物制药业的合作。此外英矽智能先后与多家医药企业达成创纪录首付款的共同开发和对外授权药物项目合作。由生成式人工智能驱动的一体化药物发现平台Pharma.AI,旗下包括:生物板块biology42、化学板块Chemistry42以及临床板块Medicine42代表性应用包括:人工智能靶点识别引擎PandaOmics、化合物生成引擎Chemistry42、以及临床试验结果预测引擎InClinico、智能机器人实验室Life Star 1等 药物研发 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。43长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。432015年10月3D柔性体仿真设计软件凌迪数字刘郴,CEO王华民,首席科学家、凌迪研究院院长金小刚,特聘科学家黄宁海,CTO(首席技术官)鄂彦志,高级算法专家王振东,高级算法专家AI AI 零售零售Style3D针对服装产业中不同应用场景:服装设计推款、生命周期管理、面料展销等提供相应的解决方案。2021年纺织行业“专精特新”中小企业名单浙江省行业创新创优示范单位2021杭州准独角兽企业2021年度服装行业用优秀新技术成果及解决方案推荐项目TSCI纺织服装科技创新品牌等多项殊荣2022年浙江省企业高新技术研发中心2022年浙江省科技型中小企业、创新型中小企业、杭州市专利试点企业2023年浙江省“专精特新”中小企业浙江凌迪数字科技有限公司(Style3D)成立于2015年11月,总部位于浙江杭州,是一家以技术赋能进行柔性快反供应链管理的时尚科技企业,核心产品有服装3D数字化建模软件、3D数字化设计研发管理SaaS、3D数字化服装供应链交易平台,致力于以技术赋能进行柔性快反供应链管理,更好地满足新时代的时尚消费需求。基于GPU的预处理器MASGPU实时模拟布料碰撞特效(SIGGRAPH 2022)AI图案生成AI版片生成AI人体3D姿势生成AIGC服装款式设计AIGC模特脸定制人工智能面料搜图图片3D姿势智能提取智能合成制作虚拟人智能设计产品研发技术开发平台 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。44长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。442020年6月通用工业设备及其组成的公辅车间蘑菇物联洪晓东,浙江蘑菇云创董事长范晓晓,浙江蘑菇云创总经理智能制造智能制造 医药行业:某药业空压站部署云智控后,通过AI 数据管理工厂能耗,助力企业节能减排、降本增效。汽车行业:某现代化交通运输装备和服务企业集团空压站部署云智控后,通过AI 数据管理降低工厂能耗,达到节能效果。电池行业:国内电池企业空压站部署云智控后,自动调整设备配置,使供需匹配更合理,有效减少了高压浪费。光伏制造行业:某上市光伏组件制造企业中央空调站部署云智控后,AI接管人工巡检和控制,将2小时1次的巡检降到一天巡检2次,并实现整站节能优化。国家工信部:2019年工业互联网APP优秀解决方案国家工信部:2021年中国第三批服务型制造示范平台国家科技部:中国创新创业大赛洁净能源产业技术创新专业赛一等奖国家工信部:国家工业和信息化领域节能技术装备目录浙江省工信厅:工业节能降碳工程解决方案服务商(2023年版)团体标准:公辅车间气动设备物联网基础数据采集技术要求团体标准:工业人工智能算法在公辅车间的应用指南虎嗅:大鲸榜2023工业AI高成长科技公司TOP30财富:2022年中国最具社会影响力的创业公司中国企业家:21家高成长性创新企业浙江蘑菇云创物联技术有限公司成立于2020年6月,作为广东蘑菇物联科技有限公司旗下子公司,定位于通用工业设备产业链AIoT工业互联网平台公司,帮助设备产业链三端客户,即设备制造企业、设备服务企业、设备使用企业,实现通用设备数智化和公辅车间数智化,达成安全供能、无人值守和节能降碳的目标。浙江蘑菇云创依托母公司专业的技术支撑及联合各高校院所的产学研合作,公司自成立以来已在浙江省内汽车、电子、医药、食品、化工、纺织(印染)、化纤、环保等行业领域开展了空气压缩机、空分设备、制冷设备等多场景的节能管理系统应用,为多家企业提供优秀的节能解决方案。连接能力强:连通20 类设备种类(空压机、制冷机等)、超过300 个设备品牌、支持1500 种工业设备协议可落地的AI算法模型:拥有公辅车间超60项AI算法模型,保证客户ROI,客户预计18个月内可收回投资成本低代码开发技术的APaaS平台:可匹配工业企业不同的数智化转型路径和场景,也便于客户接入其他系统智能维保智能网联工厂设计设备健康管理智能调度智慧安全管理智能生产工业机器人服务器数据库云计算服务机器学习技术开发平台知识图谱数据中台 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。45长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。452016年6月全产业链个性化制造工蜂:个性化制造设备章蜂:个性化制造产线及工厂群蜂:个性化制造产业智昌集团甘中学,创始人赵伟,执行总裁冯浩然,研发副总经理戚骁亚,技术委员会主席陈益飞,技术委员会秘书长殷兴国,装备智联事业部总监乔利峰,工业互联网研究院副院长机器人机器人2018年,智昌集团就与江苏某钢帘线企业签订战略合作。智昌通过在企业布局工业互联网应用,将三层架构植入其中,打造“实时透明工厂”,帮助企业践行“智改数转”,进一步提高企业经济效益和市场竞争力。该智能工厂工业互联网平台利用新一代通信和信息化技术,打造了工厂底层智能装备的实时数据采集、决策,调度的闭环控制,实现了制造环节工艺、生产、物料的三流融合机制。平台按照五层架构来进行组织。自底向上分别是泛在装备层、边缘网络控制层、IaaS层、PaaS层与SaaS层。以群智网络控制器和泛在智能控制器为支撑的透明工厂建设,全面打通“从轮胎到铁矿石”的全产业链追溯和产品优化迭代工作。实现减员、加速、减废、节能、关联轮胎产业链,建立轮胎护城河。中标工信部工业强基项目高速高性能机器人伺服控制器和伺服驱动器科技部国家重点研发计划项目“工业机器人控制器产品性能优化及智能升级”浙江省科学技术进步三等奖浙江省领军型创业团队浙江省2021年度省级工业互联网平台2022年浙江省服务型制造示范企业宁波市级工业互联网示范平台宁波市优秀工业互联网平台国家专精特新小巨人智昌集团是一家以三元控制技术为核心,由蜂群机器人为载体的产业脑联网创新型集团公司。智昌集团成立7年来,始终坚持将新一代信息技术与工业制造深度融合,不断推进集群机器人应用升级创新,实现从“锐智”运动控制器到三元智能控制器的升维,从AE-Net OS操作系统到三元蜂脑的进化,以此构建了“智昌蜂脑工业互联网平台”,并拥有泛在控制器和群智网络控制器两大核心硬件,成功开发了“工蜂机器人微网、章峰边缘网、群峰产业云网”,在此基础上全面布局“装备智联、工厂智联、产业智联”的业务模式,致力于为中国新型工业化重构新的制造体系,通过自相似三元控制技术实现全产业链OT/IT深度融合,满足全产业链个性化制造需求,开创“自下而上建网,自上而下服务”新模式,实现产业全要素、全流程、全价值链实施全面链接和赋能,打造“个性化定制、规模化协同、网络化生产、智能化服务”的可持续进化的产业共享新生态。三元控制技术:是依托科技部重大专项,自主研发出拥有规划、调度、控制三层功能的分布式技术架构AI蜂脑大模型系统:融合公司自主研发的三元智能控制器,面向工业与智能制造领域的分布式工业大模型平台需求预测产品研发工厂设计智能仓储设备健康管理智能售后智能调度智慧安全管理智能生产智能质检 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。46长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。462018年10月微镜芯片中科融合基础层基础层中科融合是国内专注于“AI 3D”自主核心芯片技术的硬核科技创新性企业。激光微振镜芯片3D智能相机模组,广泛应用于汽配、物流及重工等工业自动化场景。在大、中视野的上下料、供包、拣选,以及超大视野的工业抓取和物流拆码垛中,为各大知名客户提供了不同场景、相同高精度3D图像共性需求的整体解决方案。2020年度中国MEMS产业最具投资价值奖一等奖江苏省工信厅“i创杯”一等奖江苏省重点研发计划等2012年度“江苏省高层次创新创业人才”2012年度苏州工业园区“双百人才计划”中科融合感知智能研究院(苏州工业园区)有限公司是国内一家专注于“AI 3D”自主核心芯片技术的硬核科技高新技术企业,来自芯片制造国家队中国科学院苏州纳米技术与纳米仿生研究所,并且由中国资本清华启迪金控集团和苏州工业园区领军创投共同发起设立。3D视觉感知基于视觉的3D-SOC模组王旭光,董事长/CEO车汉澍,联席CEO刘欣,CTO刘宇,COO董宇璞,高级业务总监程诚,高级算法总监张华,高级SOC芯片总监黎江,高级系统架构总监刘永波,高级MEMS工艺总监周宇,高级MEMS设计架构师虚拟人医疗影像产品研发智能生产智能质检机器人视觉芯片 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。47长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。472018年6月行业人工智能大模型一站式企业数字化转型应用平台中科智云魏宏峰,创始人&CEO胡方辉,联合创始人&董事长唐亮,联合创始人&董事中间层中间层中科智云助力某国际矿石码头的智能化升级重大工程某国际矿石码头,是京津冀及“三北”地区的海上门户,是“一带一路”的海陆交汇点,也是新亚欧大陆桥经济走廊的重要节点和服务全面对外开放的国际枢纽港。随着5G、AI技术的发展,港口对数字化转型提出了更高的要求。在矿石码头堆的取料作业中,需要通过卸船机将船舶上的矿石散料卸下,由堆料机堆放在料场,并通过取料机和装载机将散料装载至各类物流工具。在上述作业过程中,长期以来面临着以下两个难题:(1)因物料形状和搬运操作复杂,难以进行精确识别、统计和监测;(2)物料的堆放和搬运路线主要依靠工作人员的经验,难以根据实际场景变化进行统筹规划;解决方案:通过中科智云的智能化无人管理平台,可对各类物料和料堆的位置与形状进行识别,并自动计算其宽度、高度与体积,使得管理人员能对全料场实时状况进行监测,并根据以上数据和实际场景对堆放方案与搬运路线进行动态规划,实现了堆料、取料、搬运的动态优化规划和料场的无人化、智能化管理。国家级专精特新“小巨人”企业安徽省大数据企业合肥“一百个创新企业”上海市(院士)专家工作站上海市软件核心竞争力企业ICCV2019视觉领域国际顶级赛事VOT-LT2019冠军ECCV2020视觉领域国际顶级赛事VOT-RT2020、VOT-LT2020、VOT-RGBD2020三项冠军ICCV2021视觉领域国际顶级赛事VOT-RT2021、VOT-RGBD2021两项冠军中科智云IntelliCloud,是全球性创新型人工智能科技公司,专注提供数字化生产与运营的行业算法平台。公司依托自主独创的数字化智理AI 物模型平台“X-Brain”,以先进的多源融合感知计算、小样本主动学习等核心技术,围绕“人员、设备、流程、环境”四大产品体系,以AI助力建造、交通、工业、能源等传统行业实现数字化转型升级。中科智云2021年参与了科技冬奥课题,为某比赛场地提供了多项AI安全保障工作。小样本学习算法技术主动学习技术行业多模态大模型技术 计算机视觉 机器学习 技术开发平台 知识图谱 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。48长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。482021年9月4D毫米波雷达及前感知融合复睿智行王立普,董事长Dr.Yizhou,总裁兼CTODr.GuoweiShen,德国研发总监Dr.MohamedEIMikaty,英国研发总监马良,中国研发总监AI AI 汽车汽车2022年7月,成功点亮中国首个搭载TI2944芯片的4D毫米波雷达2022年11月,成功点亮基于黑芝麻方案的车载L2 域控制器2022年12月,快速交付与南京某汽车品牌中心共研感知系统项目2023年1月,成功点亮生命体征检测雷达,并与某药企达成全面战略合作2023年4月,国内业务突破获取大型主机厂车载毫米波雷达定点2022年9月,获选2022WAIC全球创新项目路演TOP20(世界人工智能大会)2022年10月,被收录于2022盖世汽车优质供应商名录,并授予4项荣誉称号2022年12月,获选高工智能2022年度智能汽车产业链TOP100创新企业2023年1月,获评复星全球化组织进化奖及优秀科创成果奖两大荣誉2023年1月,获评“上海市闵行区创新型中小企业”称号2023年3月,获评闵行区南虹桥2022年度“最佳成长奖”2023年3月,获评第五届“中国汽车隐形独角兽称号”复睿智行科技(上海)有限公司于2021年9月成立,是复星集团汽车科技与智能出行产业中的核心企业。复睿智行以感知融合为核心理念,致力于提供智能出行时代的感知更优解。公司目前在伦敦、慕尼黑、上海、南京等多地设立研发中心,专注于智能驾驶技术的自主研发及落地,包括高算力硬件平台、关键感知传感器如4D毫米波雷达及融合感知技术等,集全球科研力量,赋能安全高效且有温度的智驾出行未来。目前,复睿智行已获得多家主机厂定点合作项目。毫米波雷达mimo波形及波导天线技术4D毫米波雷达算法技术异构传感器前融合技术自动驾驶多传感器融合核心零部件智能驾驶ADAS机器学习 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。49长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。492020年11月一站式AI 驱动新药研发平台德睿智药牛张明,创始人、CEO张龙,联合创始人、中国区总裁David Rubinsztein,l联合创始人、首席科学家、首席科学顾问SreeVadlamudi,战略与企业发展执行副总裁AI AI 生物医药生物医药德睿智药以自研AI制药平台为底层驱动,已发现多个同类首创以及具有同类最优潜力的难成药靶点PCC化合物。公司首个自研AI设计的减重/二型糖尿病治疗性GLP-1RA小分子口服新药MDR-001,已于2023年9月启动IIa期临床研究。此外,德睿智药已与国内多家上市制药公司及国际前五药企建立并深化AI技术合作,高质量交付多个合作里程碑,包括已成功为上市药企交付数个具有同类最优潜力的临床前候选化合物PCC分子,及先导化合物。行业奖项:行业奖项:入选2023福布斯亚太区最值得关注企业100强 入选由WellcomeLeap和淡马锡信托基金会共同发起的Dynamic Resilience计划,为中国大陆唯一 AI医药解决方案被Deep Pharma Intelligence评为“2018-2020全球最重要的11个AI药物研发突破性成就之一”政府奖项:政府奖项:科技型中小企业(国家级)、浙江省2022年第4批科技型中小企业 2022&2023年杭州准独角兽企业、浙江省药学会创新与成果转化专委会首届委员单位德睿智药正式运营于2021年初,公司建成自研工业级一站式AI驱动新药研发平台,包括三大平台:1)一站式AI药物设计平台Molecule Pro:主要功能包括分子生成、虚拟筛选、ADMET性质预测、逆合成、分子活性预测等;2)蛋白质动态模拟、结构预测平台Molecule Dance:对于一些蛋白结构或构象不确定的或变构位点相对于其它手段如CADD等,有着更大的功效;3)基于知识图谱的数据挖掘平台PharmKG:通过病理通路分析、靶点分析、机理阐述和老药新用进行海量数据自动化清洗,多维度信息提取。该平台已与世界前五国际药企开展商业合作。自研一站式AI驱动新药研发平台在技术应用层面,达成了一系列药物管线和合作进展成功交付多个与国际前五及上市药企的合作项目药物研发 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。50长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。502021年2月聚焦大模型场景下数据计算领域拓数派冯 雷,创始人&首席执行官陆公瑜,联合创始人&首席运营官郭罡,联合创始人&首席技术官周妮娜,联合创始人&首席企业发展官基础层基础层某上市券商引入了“PieCloudDB”的向量数据库引擎,汇聚法律法规、政策文件以及投研类报告等非结构化数据,结合“LangChain框架”,将文本类数据采用M3E算法进行向量化处理,建立数据索引,实现高效的内容检索,未来会不断迭代,逐步引入企业自己的大模型能力,实现关联分析、智能问答以及报告生产等功能,应用于投研分析、机器人顾问、量化交易、金融情绪分析以及金融教育等场景。2023杭州市准独角企业榜单2022年浙江省科技型中小企业2022年度智造中国商业领袖EqualOcean 2022年源自中国值得关注的新锐全球化科技品牌创始人兼CEO冯雷荣膺杭州市唯一2022年度创业人物杭州拓数派科技发展有限公司(又称OpenPie)是立足于国内,基础数据计算领域的高科技创新机构。拓数派以“Data Computing for New Discoveries”“数据计算,只为新发现”为使命,致力于在数字原生时代,运用突破性计算理论、独创的云原生数据库旗舰产品以及之上的算法和数学模型,建立下一代云原生数据平台的前沿标准,驱动企业实现从软件公司到数据公司再到数学公司的持续进阶。拓数派旗下大模型数据计算系统(DataCS),让大模型技术全面赋能各行各业,成为AI的基础科技底座,开启AI技术的新范式,助力企业优化算力瓶颈、充分利用和发挥数据规模优势,构建核心技术壁垒,更好地赋能业务发展。大模型数据计算系统数仓虚拟化技术大模型数据计算系统eMPP分布式专利技术大模型数据计算系统云存储简墨大模型数据计算系统向量计算引擎数据库云计算服务 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。51长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。512018年空间数智化AR端云平台易现先进科技李晓燕,创始人兼CEO丛 林,创始合伙人兼CTO虞崇军,创始合伙人刘海伟,联合创始人AI AI 大文娱大文娱某国家AAAA级旅游景区、全国重点文物保护单位。易现携手某旅游传媒公司共同打造的某景区夜游项目,本着弘扬华夏原生文明,传播中国传统文化的使命,开创了以数字光影科技为创新手段,结合文保景区景点优质旅游资源,积极探索“源于历史、创于IP”的文旅文创开发新模式。七大AR沉浸式互动夜游打卡体验解锁景区流量密码,成为夜游的金名片;未拆一砖一瓦,易现基于现有的景区景观进行二次创作,深度挖掘景区文化和IP内容,打造出具有娱乐性、多元化、沉浸式的夜游活动。本项目结合某景区的优质历史景点资源和优秀的数字光影呈现效果,将“科技 文化 艺术”融于一体,打造AR沉浸式互动体验点。旅客只需要下载APP即可开启夜游地图导览,根据景点标注,到达点位后扫描对应景点实景,识别成功后进入不同主题的AR沉浸式体验。中国VR50强企业VR/AR年度创新奖虚拟现实领域的骨干企业准独角兽企业2021中国AI领军应用大奖2021中国南昌“VR 文旅”应用场景路演推介会金奖2020杭州市领军型青年创新创业团队杭州易现先进科技有限公司是中国从事空间计算、全栈AR技术的企业。易现专注于打造空间数智化AR端云平台,基于全栈自研的AR和空间计算能力,提供软硬一体、端云结合、完整链路的增强现实应用。公司致力于虚与实的高价值连接,成为各行业AR桥梁,通过工具链的不断迭代,培育发展上游内容创作生态,连接品牌、ODM 硬件端厂商,满足下游各类消费应用场景的数智化需求。视觉SLAM算法物体识别与跟踪游戏级AR渲染引擎端云协同算法引擎架构大空间建图与定位技术虚拟人智慧运营智能运营 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。52长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。522010年10月堆放及运输机器人(空中机器人)博信科技吴跃新,创始人/博士袁骊,财务总监王海祥,CEO吴 琦,营销副总裁/博士张志远,供应链副总裁/硕士智能制造智能制造客户现状:该客户为轮胎制造行业企业,生成产工艺的成品胎输送至缓存区按规格和型号进行分拣和码垛、并按照要求输送至成品胎储存仓库。上述过程在客户生产车间均为人工手动模式,无法满足生产量和生产效率的要求,极大地影响了客户成品胎出库交付。客户诉求:迫切期待使用智能制造及自动化手段,实现成品胎的高效、高速和高可靠性的分拣和码垛,减少人工干预的频率,提高生产效率。解决方案:根据客户轮胎生产能力的要求,规划两台桁架机器人,用于成品胎进入桁架库内的自动分拣与码垛,并部署实施相应的WCS/WMS软件系统实现整体系统控制功能,最后以轮胎垛的形式出库,解决了客户生产中存在的痛点。ISO9001国际质量管理证书ISO14001环境管理体系认证证书3A信用等级认证空中机器人高工金球奖空中机器人姑苏领军人物最具创新企业十佳物流协会先进单位南通金予博信智能科技有限公司是家智能制造智慧物流系统综合解决方案提供商,博信以解决人类密集拣选及重载搬运难题为企业使命,专注于数智化技术研究应用,为企业类客户量身打造智能物流拣选及配送系统、重型工件厂内物流系统、工厂物流仓储系统、轮胎生产智能物流系统、智能化装卸车系统、重卡换电系统提供方案设计、系统集成、设备选型、软件开发、电气控制、安装调试、培训及售后的一站式全流程服务,为客户实现生产和物流环节的自动化无人作业、柔性化生产、资源优化配置、数据互联互通、高效协同管理等,从而帮助客户提高效率、降低成本、提升管理水平、开启“工业4.0”和智能制造之路。智能仓储 工业机器人 重载运动控制技术 大型运动组件动态结构算法 大件货品智能物流控制系统 激光点云数据算法 时视觉检测技术 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。53长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。532008年6月智慧安防-智能调度智慧安全管理(港口)安维尔范柘博士,创始人杜滢,创始人&CEO邵莹,平台架构师曹伟,架构师徐志坚,财务总监&董秘AI AI 智慧城市智慧城市随着港口规模的不断扩大,港口业务流的大幅增加,针对堆场、水域、油库、港口周界等各环节的安全监控显得尤为重要和迫切。安维尔“港口智能视频解决方案”针对目前传统监控模式存在的问题,结合港口的环境特点,通过多项技术创新,很好地解决了智能视频监控在港口环境下的应用问题,并已在港口成功实施应用。与国内主要主机厂战略合作,为其定制开发智慧港口所需的智能视频应用。上海市专精特新企业获上海科技进步一等奖2022年度“虚拟场景”Cool Vendor最具商业潜力TOP202022中国综合型AI服务商TOP302022中国AI商业落地企业TOP1002022亿欧元宇宙产业图谱港口落地先锋上海安维尔信息科技股份有限公司是企业数字化、智能化改造专家,针对传感器密集的用户现场(港口、机场、工厂、园区等),利用计算机视觉、智能物联网感知等技术,为用户提供行业解决方案。无代码快速配置感知孪生SiteOS平台智慧环保智慧社区智慧园区智慧安防智能调度智能调度智能生产智能平台管理智慧安全管理城市管理 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。54长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。542016年隐私计算、数联网富数科技陆光明,董事长张伟奇,创始人CEO 卞阳,联合创始人 CTO 来学嘉教授,特聘首席科学家中间层中间层富数科技重点是先做透运营商、金融两个领域的隐私计算平台建设和应用场景的探索,特别是反电信诈骗和营销场景。富数科技全匿踪联邦学习在2022年11月通过了金融行业测评中心的检测认证,拿到了资质证书;同时也在某证券公司进行了商业化应用,实现金融集团跨主体联合风控和全匿名的联合营销建模。此外,富数科技也在政府数据要素市场,电力大数据,和智能网联数据安全方面做了示范案例。首届全国数商大赛一等奖2022全球数商大会、首届数据交易节“年度领军数商人物奖”全国首批五家之一通过“中国信通院一体机专项评测”入选“2022年度上海市网络安全产业创新攻关成果”牵头“数据可信流通存证联合实验室”正式揭牌获上海市2021年度科技小巨人工程立项富数科技成立于2016年,专注于联邦学习、多方安全计算、匿踪查询等加密计算领域,是隐私计算互联互通首个国家标准的牵头单位,参与信安标委、金标委、工信部、中国信通院等标准的制定,是科技部2023年国家课题承担单位。富数科技的自研隐私计算产品 Avatar,获得银行卡检测中心、中国信通院、中国公安部的认证公司,落地场景覆盖金融、政务、运营商、电力等各个数据相关领域,服务了多家央企及客户。隐私计算行业技术、标准制定者、隐私计算行业技术、标准制定者、100 100 发明专利、运营商级别的产发明专利、运营商级别的产品、完成品、完成100 100 商业部署、数联网商业部署、数联网先行先试者先行先试者产品研发产品研发智能风控智能风控身份识别身份识别智能营销智能营销智能网联智能网联 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。55长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。552018年2月零售场景数字化智能化解决方案零眸智能樊凌云,CEO及联合创始人袁宏梁,CTO及联合创始人宋翼,子公司深蔚科技CEO戴恺,企业发展合伙人AI AI 零售零售某国际快消企业具备成熟的市场执行体系,但在线下执行的数字化和智能化有巨大的改进空间:在检查层面,仍依赖大量的人工进行线下门店照片的识别;在策略制定层面,缺乏大数据对执行策略进行推荐及优化;在执行规则层面,缺乏中台系统以提升规则配置效率。零眸智能充分发挥其核心产品与技术优势,通过前沿的AI视觉算法进行秒级高精度图像识别,提供中台系统提升规则配置的效率及稳定性,整合行业大数据提高市场执行规则的动销结果。最终,零眸团队实现了市场稽查时间的有效下降,同时实现上百万家终端门店覆盖。上海市专精特新企业2021年入选腾讯、阿里AI加速器上海零眸智能科技有限公司是一家零售场景的执行数字化智能化解决方案的软硬件一体化服务商,专注于零售场景图像识别核心算法的研究,为用户提供智能零售图像识别大数据解决方案,同时基于图像识别、深度学习等技术研发了秒识系统,能够识别到品牌、子品牌、SKU 的粒度等指标,可应用于零售稽查、零售陈列、无人收银、智慧货架等线下零售场景,主要服务于快消品牌。低功耗物联网摄像头低功耗物联网传感器AI机器视觉算法边缘计算智慧运营精准营销商品识别分析 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。56长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。562021年6月中台-数据处理机器学习制造羚数智能郭文蔚,创始人&CEO 车轶,联合创始人陈启明,联合创始人中间层中间层国内新能源电力设备行业大型企业正式签约羚数智能。羚数智能的羚号工厂生产运营管理系统,将在其标杆工厂率先落地,为其打造全面有机协同的数字化制造过程、迈上智能化生产管理新高度。2023工业人工智能竞赛蓝鼎奖2023首批上海市专精特新企业2023首批上海市数字化诊断服务商2022年度上海市“科技之星”团队2022中国科技创新先进制造品牌TOP102021年最具投资价值企业Venture50新芽榜2021年度高科技高成长新锐企业TOP50羚数智能是由全球500 强公司高管团队创办的一家高科技创新型公司,运用云原生、大数据、低代码等前沿技术,结合多年工业沉淀,满足企业升级中生产管理精细化、高质量化的需求,帮助客户建立稳定、可持续的生产管理能力。羚数智能将世界500强管理体系,抽象为自主可控的数字化生产管理平台,让制造企业数字化转型触手可及。采用低代码、云原生、微服务等先进互联网架构,在生产管理、异常快速响应、层级指标管理、知识库、目视化管理、任务管理等科学生产管理功能等模块稳定生产节拍,需求灵活可配智能运营智能仓储智能生产智能搜索云计算服务技术开发平台设备健康管理 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。57长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。572020年7月人工智能、生物物理与高通量实验有机结合的药物设计平台,变革创新药物研发,攻克“不可成药”靶点星亢原neoX陈航博士,联合创始人兼CEO刘帆博士,联合创始人兼CTO郭炳诗博士,CSOAI AI 生物医药生物医药 星亢原和临床阶段的某创新生物药公司达成战略合作。星亢原将利用其“AI 生物物理 高通量”三位一体的创新药物研发平台,将就双方共同关注的靶点合作开发多个生物大分子药物,现在已经有多个管线达成重要里程碑。星亢原与某上市制药企业针对星亢原自主研发的创新型大分子药物的工艺开发和大规模生产达成合作。星亢原将借助该企业在生物药开发和生产领域积累的经验和实力,推进公司大分子重磅产品的临床前药学研究和临床用药的生产,加速星亢原首个大分子创新药在美国及中国申报临床的进程。The Information全球最具潜力50新锐企业,名列中国区第一首届HICOOL全球创新创业大赛等奖LEO Pharma(利奥制药)创新大赛第一名MIT科技评论Best Innovation大奖复星“星未来”创新创业大赛第一名清科Venture50新芽榜50强以及医疗健康行业50强投中网-中国最佳生物医药领域投资案例Top10创业邦100未来独角兽2021投中榜锐公司100中关村国际前沿科技创新大赛生物医药分领域top10入选强生创新中心JLABS、默克中国创新中心加速器、微软加速器、阿斯利康iCampus星亢原(neoXBiotech)是下一代计算设计驱动的生物科技公司,致力于攻克“不可成药”靶点。2018年,星亢原由美国麻省理工学院(MIT)和加州理工学院(Caltech)校友共同创立,是中国将人工智能(AI)、生物物理以及高通量实验有机结合,进行生物大分子和多特异性分子等前沿药物研发的创新性生物技术公司。针对治疗药物的早期发现,通过前沿的生成式AI以及蛋白质-蛋白质相互作用(PPI)的深度表征,星亢原开发了创新药研发平台。星亢原通过自主开发以及与国内外生物医药公司的合作开发,布局创新药物研发管线。星亢原在北京、上海以及美国波士顿均设有研发中心。基于蛋白相互作用的metaPPI计算平台 生成式AI驱动的de novo分子设计“AI 生物物理”驱动的多维度分子评估药品研发 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。58长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。582021年1月矿山无人车易澳科技蓝水生,创始人兼CEO张磊,联合创始人兼董事长林巧,战略副总裁陈慧勇,技术副总裁孙庆山,首席矿山技术专家AI AI 智慧矿场智慧矿场2022年6月,在某中央能源集团的煤矿实现常态无人化运营,成为业内实现多车常态化安全员下车真实运营的矿山无人驾驶公司。2022年6月,在某露天煤矿实现四编组724小时常态化运行。2023年8月中旬,上百台EL100矿卡已全部完成入矿验收并投入运营。第五批国家级专精特新“小巨人”企业2022 年获批博士后科研工作站2022 年中国能源企业信息化创新成果2022 年财富中国最具社会影响力的创业公司36氪“2022年最受投资人关注的硬核科技企业100调研”榜单2021 年&2022 年华为智能汽车解决方案优秀合作伙伴上海易澳科技有限公司是业内矿山L4级无人驾驶企业。公司无人驾驶技术与雄厚的运营能力相结合,为矿区提供无人驾驶全栈技术与运输运营服务。经过多年的专业积累,已经成为细分赛道知名企业,并与等多家大型矿企建立深度战略合作。多编组多车辆任务调度方法基于全局轨迹的防碰撞方法基于高精地图的巡检方法基于高精地图的动态障碍物识别车辆的智能配电方法激光雷达减振系统多传感器多次融合算法智能网联智能车云智能座舱智能调度自动路径规划无人驾驶矿车智能障碍识别监控运维可视化L4高度自动驾驶 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。59长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。592005年7月打磨柔性机器人斯帝尔王红波,创始人&CEO JING.JIANG,全球首席科学家刘禹,CTO 机器人机器人斯帝尔助力宣城企业打造机器人打磨智能工厂。为当地家居钣金行业提供整体智能工厂式一体化解决方案。斯帝尔将竭诚搞好服务,赋能客户,推动项目早结硕果。无锡市专精特新企业科技型中小型企业创新性中小企业斯帝尔是一家机器人厂商,专注“基于AI感知的柔性打磨机器人”。斯帝尔是一家在打磨细分场景拥有技术闭环并提供解决方案的公司,即:从机器人AI大脑(底层控制系统),AI感知神经系统(柔性力控、触觉、视觉、声觉),本体硬件设计,打磨工艺方案形成完整自主技术闭环(AI磨菇云系统),从底层控制到应用层的交互再到表面质量的工艺实现,给用户提供终端交付。柔性力控系统基于3D视觉和人体动作仿真的机器人免示教自主学习轨迹规划CSO鸡群算法AI磨菇云系统机器人视觉移动机器人工业机器人 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。60长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。602021年7月N/A西湖心辰蓝振忠,创始人、CEO俞佳,COO大模型大模型某知名APP接入心辰AI绘画API,实现二次元头像定制、文字生成图片等功能,同时提供了多种艺术风格支持。2022年浙江省科技型中小企业2021年获得西湖区科研成果产业化项目专项“西湖英才计划”A类西湖心辰致力于AI大模型技术的探索与研究,专注于人工智能服务的创新与应用。公司研究多模态情感大模型,发布了“西湖大模型”,并推动AI在情感陪伴、心理咨询、内容生产等方面的商业化与民用化。目前已推出AI绘画、AI写作、AI心理咨询等创新产品。基于大模型技术下的通用人工智能模型西湖大模型虚拟人智能客服机器学习智能合成制作 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。61长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。612017年无人机库以及无人机大数据处理分析平台星逻智能王海滨,创始人兼总经理钱茂冬,联合创始人兼副总经理肖素枝,联合创始人兼技术总监仲惟姣,商务合伙人兼营销总监AI AI 新能源新能源为提升光伏场站的发电质量,降低光伏场站运维的成本,某海外城市首次引入星逻智能研发的星逻驭光无人机光伏巡检系统,通过无人机全自动飞行技术,自动采集光伏场站数据,并上传到运维中心,一键生成巡检报告,快速完成缺陷查看与处置,替代人工,提升巡检效率及查准率。2023年专精特新企业2022年江苏省“潜在独角兽企业”肖素枝获2023年全国五一劳动奖章钱茂冬入选上海市科技青年35人引领计划王海滨入选江苏省双创人才星逻智能专注于无人机赋能领域,为行业用户和合作伙伴提供基于无人机库、无人机机场,实现无人机自动充电、自动调度、自主飞行、自动采集和自动分析功能使无人机电力巡检等应用成为真正的无人系统。公司成立于2017年,是商业化运营相对成熟的无人机全自动运营供应商。历经四年,研发出适应全场景的无人机充电机库与自动驾驶系统,兼容多款行业无人机机型,产品已销售给多家世界五百强企业,应用于电网巡检、安防应急、红蓝藻巡检、光伏巡检、偷渔识别等场景。目前公司产品已落地上海、江苏、云南、欧洲,是国内出口海外的无人机自动化供应商。无人机地面机库技术无人机网联控制技术无人机与机库的集群协同调度技术人工智能自动识别技术智慧应急智慧园区智慧安防智慧安全管理计算机视觉 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。62长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。622018年1月建筑管理以见科技罗锋,创始人兼CEO蒋 童,联合创始人兼CTOAI AI 智能建造智能建造以见科技BIM AR技术紧密结合变电站实际工程,通过以自研产品“一见BIM AR施工助手”,运用AR(增强现实)技术,将建筑BIM模型1:1投影还原至项目现场。应用于建成模拟、进度管控、钢构架安装、辅助测量、机电管线交底核验等施工阶段,保证实模一致,并将数字信息移交运维管理,辅助BIM应用落地,实现数字化施工管理,助力绿色低碳智慧建设。2022年工信部创客中国“上海百强”WATIC世界建筑科技创新成果奖2022年B4B建筑大数据应用挑战赛“最佳碳方案”2021“智建杯”智慧建造创新应用大奖赛2021年澳门BEYOND 科技创新大奖AEA2020亚洲创业奖全球第三2020年中国电子“i ”现代数字城市创新创业大赛二等奖2019年Slush Shanghai 路演大赛冠军2019年PLUG and PLAY China 最受大企业青睐奖以见科技为建筑提供BIM 数据可视化管理与智能服务,通过AR/MR,AI 等技术将BIM融入实景,辅助设计成果展示,施工过程管理以及运营维护管理。公司构建的产品矩阵,在AR/MR技术、AI技术、IoT技术等领域积累了优势,并拥有BIM数据生产与优化能力,为地产开发、工程管理等领域提供BIM咨询、施工过程管理软件、BIM运维可视化软件等产品与服务。室内定位室外定位智能图像算法3D视觉算法BIM数据持久化城市管理智慧园区 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。63长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告概况创立时间:核心团队:主要场景:技术要素标签二维码赛道:公司描述典型案例介绍荣誉奖项 2023毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。632020年7月支撑企业数字化转型的核心基础设施软件平台数新网络陈廷梁(王贲),数新网络创始人原攀峰,CTO于军,产品副总裁张欣,金融事业部总经理关勇跃,财务总监张伟斌,销售总监张轩,市场部总监基础层基础层某银行使用CDH进行大数据管理运维,每年的订阅服务费带来高额成本,同时需要有经验丰富的大数据开发团队才能把该平台应用起来,间接增加了使用成本。另一方面,随着信创化自主可控的要求提升,摆脱国外产品的束缚,基于开源自主研发一套用于支撑行内大数据核心业务的平台,并具备对外输出的能力显得尤为重要。数新网络为该行提供基于“CyberEngine”方案,解决银行内部五大数据集群的组件安装、升级、监控等运维复杂度高、人力投入大等问题,提升平台整体运营服务效率,有效保证平台的可用性。华大信用评估企业信用等级“AAA”证书入选2022爱分析数据智能厂商全景报告杭州市“雏鹰计划”企业浙江省软件行业协会软件企业浙江省科技型中小企业浙江省高新技术企业2022大数据产业国产化优秀代表厂商2022大数据产业创新技术突破2022企业盘点数据科学平台领域最具商业合作价值企业中国信通院应用现代化推进中心首批成员单位电力行业边缘计算优秀实践奖数新网络是一家云数据智能操作系统和数据价值流通的服务商。公司自主研发的核心产品云数据智能操作系统,主要包括数据智能引擎“CyberEngine”、数据平台“CyberData”、人工智能平台“CyberAI”。数新网络可提供大数据开发管理、安全合规、建模分析、价值流通等多种服务,让大数据、AI和数据价值安全流通得到结合,助力客户实现数字化、智能化转型,激活数据要素潜能,提升企业整体竞争力。截至目前公司已与上百家企业达成合作,在金融、能源电力、教育科研、高端制造、军工和政务等行业都有相应解决方案与成功案例,致力于让每个人享受数据的价值。一种松耦合的分布式高性能工作流任务调度系统知识图谱数据中台机器学习基础开源框架技术开发平台 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。64长江三角洲未来独角兽人工智能创新双30企业报告结语人工智能作为一项革命性的技术,正以惊人的速度改变着我们的世界,在由基础层、中间层、应用层组成的产业链条之上,为新一轮科技变革提供着重要的驱动力,也对我们身边几乎所有的产业带来了深远的影响。制造业工厂逐步从自动化、智能化再到无人化;自动驾驶渐渐成为主流保障出行的安全与高效;AI金融为每个人提供创新与个性化的金融服务与理财方式;AI医药帮助我们攻克一个又一个过去的不治之症;智慧医疗通过精准与个性化的诊断与治疗保障每个人的健康与养老然而,我们也要清醒地认识到,人工智能在产业发展方面也面临着很多挑战。伦理、数据隐私、算法安全等问题,随着AI走进我们每个人的日常生活而变得愈发重要。全球已经有多位知名科技企业的创始人公开表达了自己的忧虑,而对于在立法以及治理方面相对还较早期的国内市场来说,要走的路还很长。与此同时,技术的不断更新和迭代也伴随着产业上的革命,如同蒸汽机、电力、计算机、互联网的等的出现,每一次都彻底地改变了我们的生活方式,这就需要我们不断学习和适应,提升应用AI的技能和知识,拥抱人工智能,与人工智能共存。此外,人工智能产业需要加强国际合作和共享。跨国界的合作可以促进知识和经验的共享,加速技术进步,并解决全球性的人工智能挑战,如数据共享、伦理标准和政策制定等。回看过去几十年,人工智能产业的发展为我们带来了无限的可能性,但也带来了一系列的挑战。我们需要以人类福祉为导向,制定相应的政策和措施,确保人工智能的发展是可持续、公平和有益的。只有这样,我们才能充分发挥人工智能的潜力,推动社会的进步和繁荣。聚焦长三角地区,作为中国经济发展的龙头,同时也是数字经济发展最活跃、规模最大、创新能力最强的区域之一,创新氛围浓厚,已迸发与孕育出一批优秀的人工智能企业,他们在基础算力、人工智能算法、以及智能制造、智能驾驶、AI医药等众多垂直领域展现出百舸争流的发展态势与生机勃勃的发展潜力。但我们看到长三角地区并不满足于此,为了更好地推动人工智能在产业领域的发展,我们的政府、科研机构和企业始终在协同努力。政府不断制定相关政策和规范,为发展提供支持和指导。科研机构不断加强研究和创新,推动人工智能前沿技术的突破和进步。企业则积极探索人工智能技术的应用落地,并通过产学研紧密合作,培养人工智能人才梯队。展望未来,长三角地区人工智能产业将在浓郁的创新创业氛围、良好的产业土壤之上,有机融合创新链与产业链,完善创新发展的生态。产业将继续迅猛发展,并在智能化渗透、自主学习能力的提升、多模态融合、隐私保护和人机协同等多个领域开花结果。在一批优秀的独角兽、准独角兽企业带动下,人工智能浪潮将在长三角地区加速赋能千行百业,以及辐射全国,深入推动实体经济的科技创新发展。2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。64 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。65长江三角洲未来独角兽人工智能创新双30企业报告附件 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。66长江三角洲未来独角兽人工智能创新双30企业报告张庆杰毕马威中国数字化赋能业务主管合伙人电话: 8610 8508 周臻毕马威中国审计服务合伙人电话: 8621 2212 沈琳毕马威中国市场助理经理电话: 8621 2212 李响毕马威中国审计服务合伙人电话: 8621 2212 冯炳光毕马威中国通信、媒体及科技行业华东及华西区审计主管合伙人电话: 8621 2212 2629 徐海峰毕马威中国长三角G60科创走廊项目主管合伙人电话: 8621 2212 胡旭峰毕马威中国交易战略咨询合伙人电话: 8621 2212 金旭毕马威中国并购融资咨询总监电话: 8621 2212 杨莉毕马威中国审计服务合伙人电话: 86571 2803 史韡毕马威中国新经济和科技咨询主管合伙人电话: 8621 2212 联系我们陈俭德毕马威中国通信、媒体及科技行业主管合伙人电话: 8621 2212 2168 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。67长江三角洲未来独角兽人工智能创新双30企业报告访谈团队徐海峰徐海峰毕马威中国长三角G60科创走廊项目主管合伙人周臻毕马威中国审计服务合伙人李响毕马威中国审计服务合伙人杨莉毕马威中国审计服务合伙人胡旭峰毕马威中国交易战略咨询合伙人金旭毕马威中国并购融资咨询总监周琳毕马威中国审计服务合伙人张易毕马威中国审计服务合伙人余达威毕马威中国审计服务合伙人刘若玲毕马威中国审计服务合伙人倪颖君毕马威中国审计服务合伙人章晨伟毕马威中国审计服务合伙人邵锋毕马威中国审计服务合伙人高竞雪毕马威中国审计服务合伙人司玲玲毕马威中国审计服务合伙人赵琳毕马威中国审计服务合伙人李吉鸣毕马威中国审计服务合伙人莫康妮毕马威中国审计服务合伙人苗桢毕马威中国审计服务合伙人毕马威中国审计服务合伙人李艳艳毕马威中国审计服务合伙人胡世达毕马威中国审计服务合伙人王晓苗毕马威中国审计服务合伙人徐侃瓴毕马威中国审计服务合伙人彭成初毕马威中国金融审计服务合伙人陈思杰毕马威中国金融审计服务合伙人肖鑫毕马威中国税务服务合伙人陈展毕马威中国税务服务合伙人李喜洋毕马威中国税务服务总监朱欣怡毕马威中国咨询服务合伙人闫雷毕马威中国咨询服务合伙人郑震宇毕马威中国咨询服务合伙人朱煜寰毕马威中国咨询服务合伙人张文倩毕马威中国咨询服务合伙人胡建南毕马威中国咨询服务副总监施伟国毕马威中国咨询服务副总监张祎毕马威中国咨询服务副总监 2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。68长江三角洲未来独角兽人工智能创新双30企业报告长江三角洲未来独角兽人工智能创新双30企业报告毕马威中国在三十一个城市设有办事机构,合伙人及员工超过15,000名,分布在北京、长春、长沙、成都、重庆、大连、东莞、佛山、福州、广州、海口、杭州、合肥、济南、南京、南通、宁波、青岛、上海、沈阳、深圳、苏州、太原、天津、武汉、无锡、厦门、西安、郑州、香港特别行政区和澳门特别行政区。在这些办事机构紧密合作下,毕马威中国能够高效和迅速地调动各方面的资源,为客户提供高质量的服务。毕马威是一个由独立的专业成员所组成的全球性组织,提供审计、税务和咨询等专业服务。毕马威国际有限公司(“毕马威国际”)的成员所以毕马威为品牌开展业务运营,并提供专业服务。“毕马威”可以指毕马威全球性组织内的独立成员所,也可以指一家或多家毕马威成员所。毕马威成员所遍布全球143个国家及地区,拥有超过265,000名专业人员。各成员所均为各自独立的法律主体,其对自身描述亦是如此。各毕马威成员所独立承担自身义务与责任。1992年,毕马威在中国内地成为首家获准中外合作开业的国际会计师事务所。2012年8月1日,毕马威成为四大会计师事务所之中首家从中外合作制转为特殊普通合伙的事务所。毕马威香港的成立更早在1945年。率先打入市场的先机以及对质量的不懈追求,使我们积累了丰富的行业经验,中国多家知名企业长期聘请毕马威提供广泛领域的专业服务(包括审计、税务和咨询),也反映了毕马威的领导地位。关于毕马威中国所载资料仅供一般参考用,并非针对任何个人或团体的个别情况而提供。虽然本所已致力提供准确和及时的资料,但本所不能保证这些资料在阁下收取时或日后仍然准确。任何人士不应在没有详细考虑相关的情况及获取适当的专业意见下依据所载资料行事。2023 毕马威华振会计师事务所(特殊普通合伙)中国合伙制会计师事务所及毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。毕马威的名称和标识均为毕马威全球性组织中的独立成员所经许可后使用的商标。

    浏览量0人已浏览 发布时间2023-10-20 70页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 百度营销&益普索:打通全域营销 破局长效增长-2023百度生成式AI浪潮中的增长新范式(45页).pdf

    1!#!#$%&%()* ,-./0!#!#$%&()* ,-./0123456789:;#;?0ABCDEF0;12G4HIJKLM#LM#NCOPQRSTUJKVWO0;XYZVK#HIJK_ab0cd;eAKVfH!#$%&1#* ,4567KNCOKNCOPQPQghHIJKijkghHIJKijkJKlm#JKlm#JKno#JKno#JKpd#JKpd#!#$%&8%9:;()* ?qHIJKrstuvqHIJKrstuvqwxpdruvqwxpdruv!yz|xp*yzPQ*i6PQw*TUAB*JK!#$!#$!#$%&()* ,-./“,”“,”l!#$%!#$%&()* ,-./0123456./789:;$?&ABCDl!EF%!EF%GHIJl!#KLM;N O016PQRS%!#KLM;N O016PQRS%l!#$%!#$%&(TU)* VWXYZ_a23$b_cd6e&fg,hi456jkl$m(nopl!EF%!EF%GHIJ&q&rostl!TUuvw0 xyz |_4s |_r%!TUuvw0 xyz |_4s |_r%c j$ O;N Oc j“”LM ORS uv5w LM O RS uvwHLM OHRSyz”yz”uvT-mU-Te0 xTU“uvx4;x s1x;_VXY$784_V$4$_VXYfhe s1Gx;65m4_ sGx9 H_G_l!#$%!#$%&()* _!234#$U%&F()&56&%&F(*$)* _)&$ ,l!EF%!EF%rostl!$Ur-_./4&F!$Ur-_./4&F(6 |_fr0(%6 |_fr0(%#Kz”Kz”G1fh_./#234&546“G |_./f3$7o4896&5%&F():!;?m(4RM |_ABC G7DEFG)* HIJ4DEK |_LI!#!#$MoNOPQMoNOPQRSnTxhTRSnTxhT$%&(%&(MoUVWXYZZYMoUVWXYZZY44&F&F(G.w0wx$_G.w0wx$_ppMoMo_UDabGcdzSefTxg_UDabGcdzSefTxg44hiTUGjkl,-mhiTUGjkl,-mnop$nop$44qr&Fqr&F(*$jkl!sF*$jkl!sF44tbuZx_tbuZx_$%(%(v,v,)pp&Mo_jTUlcdMo_jTUlcd441xjklwx1xjklwx44cdyzcdyzS|!S|!44x-x-&jx-x-&jppjTUlcd9TUhTjTUlcd9TUhT441x$&j9&F1x$&j9&F(azSlZazSlZ44wxwx(ll/?“”/?“”441xGcdl$1xGcdl$(9.X$lef(9.X$lef44iTUuZiTUuZ%ll)%jjll)pp&1x_$u 1x_$u 44c,$|!c,$|!44jj$n30$n3044-1x-1x-44u&ju&j44SS_$!_$!pp%&%&$rr;N;N,-hi|!xG,-hi|!xG&lm,_cd$TUxE,_cd$(44_./$zC_./$zCppZ/_Z/_44jkjjkj1TUjklE$E,u1TUjklE$E,u44HlD!HlD!pp)* ()* (&bf#!$bf#!$44eja$%&l()eja$%&l()*S$ej*S$ejpp) ,a&1w0wx$-23) ,a&1w0wx$-2344)* _.)* _./././ppGh0Bl1n$AB*Gh0Bl1n$AB*44x$)* _bx$)* _b$44j2_|!cd$-3j2_|!cd$-3ppejej444&Feja4&Feja44bG55Z!$EF6789bG55Z!$EF6789_$e_$eFF441)* _:(Z!$;1)* _:(Z!$;pp: ?: ?44x$|!x$G_./DY=pp%?)%kk)5_$Aop5_$Aoppp&Fej1x&Fej1xm_kW?B&_C$m_kW?B&_C$441_nT$1_nT$zSDu$vzSDu$vpp(&$E-Z_n$?&$E-Z_n$?44Fx_EY8G$HqrFx_EY8G$Hqr44(IixuZIixuZ&%ZJK_ZJK_)44LM-N:$OPLM-N:$OP44Q?RS?,Q?RS?,44225JKxuZ5JKxuZpp/44(Ii_B&$*?Ii_B&$*?44mxGTmxGTOUOU;$VW;$VWpp$_VW$_VW44XYZXYZ44($73cd$AV$73cd$AVWWpp$_a$_aZ/_Z/_44jkjjkjbTUcd,bTUcd,&Fej$ef&Fej$ef44m_kWm_kW44uZvcd$juZvcd$jppTUgTUghi:ihi:i44j!$_8Gj!$_8G44uZTxkl$cdjuZTxkl$cdjpp()*()*$;N9=DEl1mEK;N9=DEl1mEK) l14;I) l14;I,-(,-($%&$%&()* ()* 0()$%&() ,-./0;0()$%&() ,-./0;?0CDEFhKab0HIJKC;?0CDEFhKab0HIJKC;JKNCONCOPQPQ!-0!-0PQPQLM;RSKVWLM;RSKVWOOABCDEFGHIABCDEFGHIJ JKLMNO,KLMNO,23PQRSTUVW23PQRSTUVW!#$%&()* *,-./01(23!#$%&()* *,-./01(23 h./mn4l1l./RS4opqT)j j./rs./m4tpuu4kpv Qw0 x4-xyzD4|z-#K478jpTU“-$*4xxy4m4pTU!#$%&()* ,-.,/.012./m./m!#!#0123456789:;?12:ABCDEFGHIJFKLMNOP(QRSTUVWX;YUVBZZ_abcd()* ,*-i 7 8 0 1 i 7 8 0 1 !03efghi789:;()* ,-.!&#!&#!#!#!#!#jklV6mnBopmqBrSsVtMNuvewnxByz|Vtmq56jhiB()* ,*$UBC Mo,-r78$(4!“4Xz4-“nw“|w4”$nwCnw,-Gr$9:;op4“78p-TU!#$%&()* ,-.0123456789:;?=ABCD!E34567FG&HIJKLM=?=G,-789:;4rcdG#F;56g$rOP zC4y,-rGzrgq-o56z78E$,p,-r$kl,-r$klgq-$(gq-$oz$78!#$%&()* ,./7 8./7 845645647747747447476767878-./01234rzCrzC./0123/0123456456()9:;(23?ABCDE!)F!9:;(23?ABCDE!)F!GHIJKL-MNO)PQ(23GHIJKL-MNO)PQ(23 ,- ,-./-./-.-.-RSTUVW)XYZNRSTUVW)XYZNj)* 6W%Y4)* _YS8899459.6064.5070.4073.0075.600.0 01 0.0 02 0.0 03 0.0 04 0.0 05 0.0 06 0.0 07 0.0 08 0.0 052 0 0 0 54 0 0 0 56 0 0 0 58 0 0 0 51 0 0 0 0 51 2 0 0 0 5!#$%!&()* ,-. /网民规模(万人)增长率(%)x_kW?_&m(5kljop X(&m4-JKCpTU cd&m4k24X*?p-TUOBOB!#$%N.O P Q,R S S 3 R T U V N W X*Y Z O P _&()-.0 1!#$%#!&!%&!%#!&!#%#!&!%#!&U“”TU“”TA A ”!”!Z-Z-789:;#-?ABCD$&?EFDGH%?IJKL9M&!?NOPQRS!)?(ABCDEFABCDEFQQFaFa(=?=?XYCZ,_abc,XYCZ,_abc,XY23dQ()* XY23dQ()* 56WXY%ZG&l$,8G4!1j$,8G4!Ecyvcd$pUTU TGC4Ce$g4zg$_,42vcdj456g$jpTUx-jkl$qr%xGX$j3*4-Sqrjklx$_#$ 4_Hr-$p4-%:z$l)45j$,-T%z/)4pZCkl41t%4#K#Kj#Kj#KBoBM)BV=B V8y z K y z K (!XYGH_:abZcd)efghi);jklXYGH_:abZcd)efghi);jklmnop-qNmnop-qN!#$%&()-.01(5 T U V W!)!X Y Z JKXYJKXYmkmkJK$45JK$EFz04Q?xjpxTU$l4$g94Cx!4/Se-pUTU33jk$3l9j$X($X(4l$X(4I_no$l3m,-TUcd3$o4)$Tp-TUnncdFcdFcdM&j$4GcdX$/,&4cd$ccpxTUllll;H I J K;H I J K Oh0RS!hVOOh0RS!hVOwwfRsRsOfd|RsNCONCOPQPQ!j0CSyzJKw!j0CSyzJKwrstrstx(_55t55tx&,(_u7tu7tx!h-0RS;TUJKVWO!h-0RS;TUJKVWO!#$%&()-.,/.0 1&F(_Z9_EF%&F(kW$&$?_C$p,(&$E-4gF_n4ixqr_EY8G4&F(ixuZ%ZJK)4LM#KQR,wOPp$UBC(#efCghefCghijijklABmnop,qrklABmnop,qrXYst* uvh,XYwxyzu XYst* uvh,XYwxyzu ”-w-w”w w g o%”T UV jg&e$I-4y“|$&4 4kWm4g,$_49I-pTU Mo-S4:4v5-4zmY-$k,pmTU!#$%&()-.0101 0 0 0 02 0 0 0 03 0 0 0 04 0 0 0 05 0 0 0 06 0 0 0 07 0 0 0 08 0 0 0 09 0 0 0 01月2月3月4月5月6月7月8月9月主动经营商家数量(家):”:”IJ_abc-k-kdefgh#ijklfghmnopqrstuvwHrHr/xyzc|h%&?kk,h-$?abc($|C()* ,XY|C()* ,XY u( u(vwvwxyxyz|).abZXY0z|).abZXY0!#!#$%$%&()* ,-./012 3456&()* ,-./012 3456,W,W&,&r,Wr,W&r,&r,&0120123434oMoMjWjW5.-5.-,-&,-&./01./01NCONCOPQPQKi0yzhHIJKJKlKi0yzhHIJKJKlmOhnoxhJKw0cdyzHmOhnoxhJKw0cdyzHIJKIJK(%!#A A$!%&$()*” w,)*” w,abcdefgZh_ijkalmnopqrlstuvwxyzefef|;88l-.-./0U01)!;FB234l56l$78.78.$9:;:B!l?.?.A4BXA”BB;C1D?E$:FtG:FH5#$IJAAKL78&/00 11 22/00 33 44/00 55 66lh”.h”.F_h)MNOP-QRBSTUol”.”.UmV”WeXYZUmBKiKiPQPQ0cdyzHIJK0cdyzHIJKMUMU!#$%&()* ,(&| gh| ghijij()* ()* U“*U“*ZlX(TUnc/A AUUA A_A AhThTI-I-hThThThT*R fgVV”abcabc a a -T U T U -3|x|xMoTU$lZ4-$-4-3p#TUhTS4(!1jTU4m1#$TU&j3i“YZi“YZ”YZ”YZYZYZYZYZdeMo_5TUcd3)%$&ln1AC4S()MoTU*hT4 TUGMoZ/z0-l_no$l4iTUjkvcdxGMop(* C“”()* C“”()* , G* g , G* gi02yz12JK0Ki02yz12JK0KhJKNhJKN ,AfgYZYZ Agg 4mgg -fg/l3,-3,-%k,-#4g!lke3./ke3./&%i78S4F,Q&lgMgM%l01/c/c%&-0 x23TU$401/cl56561/c%1/c%&23$4456cT/T/lTxcTxc%XYrV27/lXY89:XY89:%;dQ-F0mF rA0#$44rgHqGHAIM0%C)“E-%JKEx-TU4SHr&?4k5ZEjTU4SHr&?4k5ZEjTUTUjjLL#$TU#$TU%TUcdj4Mm%TUcdj4Mm%!)启航星钻启航星钻,WW7|yzHIJK7|yzHIJK!启航星钻Hr&#-Hr)S)Sm()j*#*#-Hr,W,WUDaJKNOPU4&mgIEx-4(7TUQP“PPRR$ISTTU=USTTU=U(jXeS!V&eS3Y4JK&:WXYTj-4,k5jXY,jXY,XY$FZ)4TU$x-4(JK(4v&_CGq qkWkWZk4YTUJ4vGwxz0jkl4#zTUGwxlGwxljj$IJ!$IJ!f f78g#78g#&!#$%&%()* ,-.%/-012345678* ,9:4;?ABCDEFGHIJ78KL#M%(%($#$#$)$)#!#!#(#(hi|jBk Rlm00noKpqrss5lmU“U“tu-RSOVvwxyzBwx_(|rssU“pBU“t&OVvprssl“U“eaDbceaDbcqWqW6 677869869!#$%&()-.0 1!(* C* C?* ,()* * ,()* p#Kip#KiPQPQ0p$0p$%iY&JKiY&JKXY,WsXY,WsvwWvwW:6 -:6 -(Z:Z:?l&?l&dd(ee)S)SHrk5Hrk5Z)F k l,-o p 4 T Uk5 o p m(?*q?4(Z:k 4 h iTU?k(eade4JKukl,-P (K )j (K )jVWd&/d&/dV 3 4)jV 3 4)jFZ)%*B T ,-./0./0%1%1 2 3 4 52 3 4 56 7 8 96 7 8 9:;:;U U$,?$,?yzyzOOyzyz$%&#TUfghe?l&49iZ)F4uZ)S_,4lk5;?=?AA!yzyz#ABVC34)j0yzDEJKh#ABVC34)j0yzDEJKhxJKF.u02KGFxJKF.u02KGFjkjk(4LMTUDTlop4LMTUDTlop(|BlVB6-Rs(mI$U:“”BKt,B(InF$JIJ$KLKL!t-t-PQMpN#8oFZ,MO00 I6= I6=/A AUUA Aee*W*WUU#UU#qrTqrT*W*W#HsHs*W*WV#V#F45IW Z0-ZTUI2F_e 6Blm1D_XLCD8m0o043BtaeEaww-ww-44(Z:b*Z:b*!#* C9st),* C9st),Q, 9Q, 9PQPQwpd#NCOwpd#NCOPQPQZl0cyziZl0cyziXDfIXDfI-B&m-B&me&m4&m4B&mkWkRkWkRxyQ,lQ,zQ,&-hi|-hi|D-koQ,2?m&U“U“$:FT78m89#:FT78m89#&56789:;!#&TU($g,hi&4(G?e&kW-E$efkl2?x7BK3:FKTo:BT$!ZTBX)TKBTBbeZXrMR9eB)B:FBx&?,rssU“”E8l8-C“”!#$%&()-.01!)*s4l&mkWkRWRTU-l;$CC!$PQPQwpd#wpd#PQPQlIF.yzJKh:_lIF.yzJKh:_?0ahb!xceA Kd?0ahb!xceA KdKdKdq q?ABCDE=?ABCDEZbZbFGHIAJKLMFGHIAJKLMNO!P#ef#ef#QR7Sab-.%bgGTE,ab-.?%?%a/GEefEef%/,3KK%,3KK%xliITUyz0gnITUyz0gnPQPQpd0hipIjpd0hipIjk)Ijwk)IjwBTlm.mEFFGHIEFFGHIJKLMJKLM&5&5&TUTU 1 1TUTUPQPQpIjpIj!%* Cst,* Cst,F,9stF,9stTUpIj#yzBTpl0cdJKIFTUpIj#yzBTpl0cdJKIF.n0GF.n0GFjdHrY4”VWXY4kHrbOjdHrY4”VWXY4kHrbOA AAA!A A E78mvw:;E7878_TUVWXYZYYYYYYY#”ZTlj/4uZ?kZTlj/4uZ?kKLBQN7P$B:;Y:9B4R:;EcwHrsEF4cwHrsEF4,H5H57878ggY|R2222/lmKLlmKL/Y$Y!&TUAB#op$qwcdD4JK0yzqD4rrTUAB#op$qwcdD4JK0yzqD4rrqD4JKr0s23)j0 IAtID4qD4JKr0s23)j0 IAtID4(,-2m478jxy&m)*ggbb=O4:FEuv*JKvw0 x2yzBfJK#u|=vw0 x2yzBfS-”-khT4MNktu”4iTU-j&4?78&4,-wwU“UmU“UmUVUmUVUmUU“l8Gl8&l8(TUO.kk,-”EYhk-kUuUuUUUUUmUmH5UmYZ$Um!N,4b,-”,4b,-”8ELEl8q#$#$A A AA%&A&A(!-JK#|./JKJK#|./JK*0i$,_0i$,_kZl4TU-3YkZl4TU-3YisE-.Cjk234567$%&89234567$%&89)JKJKx-%x-%$xUnw-cd4Unwnw-ZZ58t58tHrjHrj47ut47ut&5t5tljklEjklEzGjkl4&jk$kzGjkl4&jk$k lk4 4kW4kW“l4d3,E4RM0:,4Hr lMUq44WUmUmh”h”)”)”“*”“*”()* ;()* ;*W*Wrtrt0ZFG;_a0ZFG;_abLcdefgbLcdefgljklk5jklk5:_S5T!#mf$uV)*sZ4!Tac iT-4Ax-s4b OS*Sm OIz0!/GlSSTU4z24Z!g,4F Og,4F OnonoJKJK|x-x-%UIZSeM,-z4“4a lk4nefGk$4k-14k?&4?Hr&4TUL#$42 l4e_S4Y:” ,” ,JKJKt-t-JKJKO”O”JKJK()* ;()* ;Jh_ijkaJh_ijkalmkn;op_bqlmkn;op_bqljklk5jklk5ljklEjklEZZ7rt7rtHr&Hr&s7ts7t&ututAC%e$/,6&m4mlC%lC%9Mo$VWEx-&56ef4Ex-,k5llX_aX_abcdefAXbcghijhklmjnopqropqraastuvwxyz|opefk5efk5,j&$G-_-4XY xGV4j-4,k5A4-,Wj_-jG-e_-#9:;9:;rmstrmst:uvwxby;auvwxby;abLoz|_bLoz|_Hr,WHr,W74t74tHr&Hr&ustustlEENO_aRNO_aRgxgxAC%TUe,-l4,kWlC%lC%(m?Ex-4Ex-4zzTU42TU&j1#$TUTU&j1#$TU(%(%#$TU4TUKdlzC%lzC%kl%W“l%Ex-2dd-l%W TUl%kdd6-6-=QRWX_WX_$* 9:;* 9:;llopop!FGllk5lk5llElE-#$tB?.$/#$tB?.$/$*T9B$”03B23g 1122%B$”6BB$”6BAAAAAAAAAAAAAA?.53*?.53*-A A#$O#$OAAAA,456 BAAAAAAAA*x7118989$X#$X#$%$Um“”B6B=RsB*B8U:Q3Ex-Ex-oo3434BCDBCD“”“”aaVWVWWX_WX_Cp&st* 9:;st* 9:;4cd,4uZ-OP?k#K,W,Ws6ts6tHr&Hr&56t56tl-lE-lE(ww4-9Y“Z-4(mkst* 9:;st* 9:;l-lE-lEoo3434BCDDx1 aBCDDx1 aDSDSX_aX_aKAX“”aaADE A_!A_llefk5efk5Hr,WHr,W7ut7ut!#$%&()-.01eQ,eQ,-a-a:71DB?E:E1%TBZ :voB6e;P(heheaa5656789789,W4Hr&m4,W4Hr&m4e&me&mA71DB=T3?AoBAAAAAwBoAC$:FBDEF3BAAAAAw,W4Hr&,W4Hr&,-G-$y$4z1($64FqHr$4:(b$,pT-TU!#$%&()-.01:7GH7ZIBx:70JKZLVB3!B*7:”!BACM$:FBw?AoBwBoAND2lVB2”!-st* 9:;st* 9:;-3434BCDVaBCDVallX_aX_a7opqropqraaXTA DEAVDEA-uv56789efk5efk5,W,W86t86tHr&Hr&74t74tl-lE-lE-e-e-a9eA-a9eA(heheaa5656789789,W4Hr&m4,W4Hr&m4e&me&m,W4Hr&,W4Hr&kWm4,-hip5e4(v5?$(4v5?p-TU:VWdefaVWdefabLVWsvsvbLVWsvsvAC%Hrkl4&m,WlC%lC%g,23sefz0/s4QkHreS4kHrcd”XYa4jHrOO$IJKL78$IJKL7856)ee|;(P(PBhADR;uvExABrDEAQRGDEGB0vVVl A!l BG#$%&GAB()* #)Q* 9:;Q* 9:;llefk5efk5HrHr76t76tHrkHrkrtrtX_aX_a,-.aa!/10/123z/4567a4567aCAGG8!A9GG8!A#$:ZZ4t4t././4st4stlHrlEHrlE8t8tTl Tl OWOWQx_aef0igQx_aef0igAC%6,-lC%lC%,Moef4mkQ,-4jTX_aX_a;99?4567a4567aABCADEFGHIAJKLM)ANOPQRST7S-EQR.EQR.jX SwTU-Vhi11QR.QR.kWKTX-OVvY.OVvY.Z9QRBVZ9ZB;Z91D_*0qamq70Gab7BcdefB T7T7#(* 9:;* 9:;llefk5efk5HrHrjj67t67tq qHrHr7st7st48t48tTlTl*W*WllElE I-4Qx-s4aAI-49?IVWQX-YZK#_ Br-ghAghAijklijklm m lm lm11ghAghA45,JBij7Rtnlm45,JBij7RtnlmooghAghAGpwBwKnGpwBwKnqrE_&_N%#!* 9:;* 9:;llefk5efk57t7tHrHr6666.1/,-4W4c*.1/,-4W4c*VJawxVJawx#!Yn=U4Y”hi$-Ab4TU$vkLxGa“9$B4!k4-TULTUTU42$4-de-j!stUm!stUm12()Um12()UmuvUmKuvUmK!w9x!w9xU“U“* 9:;* 9:;-GXxXYx-49“w7.n4G/ef“9$B4!k4-TULTUTU42$u!stUmu!stUmytz/Umytz/UmUm$SUm$SU“U“lTUhT1TUjkl,mTUhT1TUjkl,m#ljj(Z:1TUhl(7E4Z:1TUhl(7E4jklwxjklwxl(Z/dZ/d&T/?ZT/l4(Q(TUATll(efef-&-kW4zHr,4i_Zl kkll&TU,-$jT4Z,-j.Z.Zxyxy-Z-ZQ abZQ abZ.(.(JKlmJKlmJKnoJKnoJKpdJKpd

    浏览量0人已浏览 发布时间2023-10-20 45页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 英特尔:最“in”大模型专栏(2023)(56页).pdf

    112目录CONTENTS1采用 Habana Gaudi 2,加速大语言模型 BLOOMZ 推理如何在英特尔 平台上实现高效的大语言模型训练后量化用基于英特尔 SGX 的可信执行环境有效应对大语言模型隐私和安全挑战只改一行代码,在第四代至强 可扩展平台上高效微调优化 ChatGLM-6B创建 OpenVINO Stateful 模型与 Runtime 流水线,赋能 ChatGLMBigDL-LLM:在英特尔 平台上加速大语言模型的便捷新利器GAUDI2 AI 夹层卡第四代英特尔 至强 可扩展处理器借助英特尔 高级矩阵扩展(英特尔 AMX)加速人工智能(AI)工作负载英特尔 至强 CPU Max 系列英特尔 安全引擎助力创新加速,增强数据保护276414750本文作者是 Hugging Face 的机器学习工程师 Rgis Pierrard,并于 2023 年 3 月 28 日发布于 Hugging Face Blogi。感谢 Rgis Pierrard 授权我们翻译和转发本文。本文介绍了如何在 Habana Gaudi2ii 上轻松部署参数量多达数十亿的语言模型,披露了 Hugging Face 针对 BLOOMZ 在 Gaudi2 上的性能评估结果。随着大语言模型(Large Language Model,LLM)的规模越来越大,在生产环境部署和使用这些模型来进行推理也变得越来越具挑战性。为应对这些挑战,无论硬件还是软件,都经历了多次创新。下面,我们将一同探索如何有效克服这些挑战。B BL LO OO OMMZ Z 简介 BLOOMiii 是一个拥有 1760 亿参数的自回归模型,训练后可用于生成文本序列。它可以处理 46 种语言和 13 种编程语言。作为 BigScienceiv 计划中的一个开放科学项目,BLOOM 的设计和训练吸引了世界各地众多研究人员和工程师的共同参与。BLOOMZv 是最近发布的、与 BLOOM 架构完全相同的模型,它是 BLOOM 基于多个任务的调优版本,具有更出色的泛化和零样本vi 能力。无论是训练vii 还是推理viii 场景,这类大模型都对内存和速度提出了新挑战。即便使用 16 位精度,一个实例所需的内存仍高达 352 GB!目前具有如此大内存的设备可能很难找到,但像 Habana Gaudi2 这样的先进硬件却足以让 BLOOM 和 BLOOMZ 模型以更低的时延执行推理。H Ha ab ba an na a G Ga au ud di i 2 2 Gaudi2 是 Habana Labs 设计的第二代 AI 硬件加速器。单个服务器包含 8 张加速卡(称为 Habana 处理单元,即 Habana Processing Unit,简称为 HPU),每张卡内存高达 96 GB,可提供足够的空间来容纳大模型。然而,如果计算速度很慢,那么为大模型提供大内存的意义也不大。所幸,Gaudi2 的计算速度也非常出色。Gaudi2 与 GPU 的主要区别在于它的架构能让加速器并行执行通用矩阵乘法(GeMM)和其他运算,从而加快深度学习工作流。这些特性使 Gaudi2 成为 LLM 训练和推理的理想选择。Habana 的 SDK SynapseAI 支持使用 PyTorch 和 DeepSpeed 来加速 LLM 训练和推理。SynapseAI 图形编译器ix可优化图形中所累积的操作的执行(如算子融合、数据布局管理、并行化、流水线、内存管理、图优化等)。此外,SynapseAI 最近引入了对 HPU Graphx 和 DeepSpeed-inferencexi 的支持,这两者都非常适合时延敏感型应用(参见下文基准测试)。以上所有功能均已集成至 Optimum Habanaxii 库,因此在 Gaudi 上部署模型非常简单。访问此链接https:/huggingface.co/docs/optimum/habana/quickstart,查看快速入门页面。如欲试用 Gaudi2,请登录英特尔 Developer Cloudxiii 并按照本指南xiv 操作。2众多内置加速器,让性能更进一步 在企业和机构寻求扩大规模、降低成本和提供新服务的过程中,通过技术来实现商业价值的重要性日益凸显。面对新的应用场景,他们无需定制系统(这可能会增加复杂性),而是可以通过使用易于扩展的平台来满足现在和未来各种部署的性能需求。第四代英特尔 至强 可扩展处理器旨在为人工智能(AI)、数据分析、存储和科学计算方面快速增长的工作负载提供性能加速。该处理器具备多种内置加速器,帮助人们将零信任安全策略付诸实践,同时利用先进的安全技术,即使面对敏感或受监管的数据,也能解锁新的商业合作机会和洞察。使用这款处理器,您可以跨多个云和边缘环境进行扩展,满足自身的部署需求。英特尔 至强 可扩展处理器具有很强的灵活性,可在其上选择不同的云服务,帮助企业顺利实现应用移植。英特尔几大加速引擎,重新定义性能重新定义您对处理器的期望。与增加 CPU 内核数相比,内置加速器是一种提升性能更有效的方法。通过内置加速器和软件优化,上一代英特尔 至强 可扩展处理器已被证明可以在真实场景下的目标工作负载上实现出色的性能功耗比1。这不但可以提高 CPU 利用率,降低功耗,并提高投资回报率(ROI),同时还能帮助企业实现可持续发展目标。采用 Habana Gaudi2 加速大语言模型 BLOOMZ 推理3基准测试 本节将提供 BLOOMZ 在 Gaudi2 和第一代 Gaudi 上的基准测试结果。虽然 Gaudi2 和第一代 Gaudi 的内存都不小,但由于模型过大,单个设备仍无法容纳单个 BLOOMZ 实例。为解决这一问题,本文使用了深度学习优化库 DeepSpeedxv 来实现多种内存和速度优化,进而加速模型推理并使模型与设备适配。本文方案需依赖 DeepSpeed-inferencexvi:它引入了诸如模型(或流水线)并行xvii等多个功能特性,可充分利用可用设备。对于 Gaudi2,则使用了已添加 HPU 支持的 Habana 的 DeepSpeedxviii 分支。时延 本文基于两种不同规模但参数均达数十亿的 BLOOMZ 模型(批大小为 1 个样本)进行了实验测试,两种模型的参数大小分别为:1760 亿xix参数(BLOOMZ-176B)70 亿xx参数(BLOOMZ-7B)本文使用 DeepSpeed-inference 以 16 位精度在 8 个设备上运行推理,并且使用 key-value 缓存。值得注意的是,尽管 CUDA Graph 目前与 DeepSpeed 中的模型并行不兼容(DeepSpeed v0.8.2,参见此处xxi),但 Habana 的 DeepSpeed 分支是支持 HPU Graph 的。所有基准测试都使用贪心搜索(Greedy Search)xxii 生成 100 个词元。输入提示为:DeepSpeed is a machine learning framework BLOOM 分词器会将该提示分为 7 个词元。推理时延测试结果如下图所示(单位为秒):图 1.BLOOMZ 在 Gaudi2 和第一代 Gaudi 上的推理时延测试结果 Habana 团队最近在 SynapseAI 1.8 中引入了 DeepSpeed-inference 支持,可快速赋能 1000 多亿参数模型的推理。根据图 1 测试结果可知:对于参数量达 1 17 76 60 0 亿的模型 B BL LO OO OMMZ Z,G Ga au ud di i 2 2 性能表现出色,时延仅为约 3 3.7 7 秒 ;对于参数量为 70 亿的较小模型 3.7170.7371.06603.0292.86501234BLOOMZ-176B(设备*8)BLOOMZ-7B(设备*1)时延(单位:s)越低越好BLOOMZ-7B(设备*8)模型BLOOMZ 在 Gaudi 2和第一代 Gaudi 上的性能对比Gaudi 2第一代 Gaudi 4BLOOMZ-7B,Gaudi2 的时延优势更加显著,单设备约为第一代 Gaudi 的 37.21%,而当设备数量都增加为 8 后,这一百分比进一步下降至约 24.33%。Habana 团队会在后续发布的新 SynapseAI 版本中继续优化这些模型的性能。例如,在 SynapseAI 1.9 的预览版中,BLOOMZ-176B 的时延从 3.7 秒进一步降低到 3.5 秒。在完整数据集上运行推理 我们编写的脚本支持模型在完整的数据集上完成所有句子的推理。这尤其适用于想在自有数据集上尝试使用 Gaudi2 进行 BLOOMZ 推理的情况。这里我们以 tldr_news 数据集为例。该数据集包含多篇文章的标题和内容(均可在 Hugging Face Hub 中对其进行可视化处理)。前几个样本如下所示:Input:Businesses Will Not Be Able to Hide:Spy Satellites May Give Edge From Above;Output:Businesses Will Not Be Able to Hide:Spy Satellites to Track Illegal Logging in Indonesia The Indonesian government has announced that it will use spy satellites to track illegal logging in the country.Input:Alphabet and SoftBanks solar-powered drone provides first LTE connection;Output:Alphabet and SoftBanks solar-powered drone provides first LTE connection The drone,which is about the size of a small car,is equipped with a solar panel and can fly for up Input:SQLFlow(GitHub Repo);Output:SQLFlow(GitHub Repo):https:/ The code is written in Java and is available on GitHub.It is a simple,lightweight Input:Secret to keeping ice cream creamy(not crunchy);Output:Secret to keeping ice cream creamy(not crunchy)is to freeze it in a container that is airtight.Input:Teslas giant battery saved$40 million during its first year,report says;Output:Teslas giant battery saved$40 million during its first year,report says Teslas giant battery saved$40 million during its first year,report says Teslas giant battery saved$40 million during its first year,Input:Python 3.9:Cool New Features for You to Try(28 minute read);Output:Python 3.9:Cool New Features for You to Try(28 minute read):This is a great article for those Input:A company aims to power the world for millions of years by digging the deepest holes ever;Output:A company aims to power the world for millions of years by digging the deepest hole ever made in Input:In Nevada desert,a technology firm aims to be a government;Output:In Nevada desert,a technology firm aims to be a government Introduction The use of the Internet has become a common practice in the daily life of people.The Internet has become 下一节将展示如何用该脚本来执行基准测试,以及如何将其应用于 Hugging Face Hub 中任何您喜欢的数据集。5如何复现这些结果?访问此处xxiii 获取在 Gaudi2 和第一代 Gaudi 上对 BLOOMZ 进行基准测试的脚本。在运行上述脚本之前,请确保按照 Habana 提供的指南xxiv安装了最新版本的 SynapseAI 和 Gaudi 驱动程序。然后,运行以下命令:git clone https:/ cd optimum-habana&pip install.&cd examples/text-generation pip install git https:/ 最后,按如下方式运行脚本:git clone https:/ cd optimum-habana&pip install.&cd examples/text-generation pip install git https:/ 关于多节点推理,请查看和遵循 Optimum Habana 文档中的指南xxv。使用参数-dataset_name my_dataset_name 即可加载来自 Hugging Face Hub 的任何数据集以获取用于文本生成的提示。此基准测试基于 Transformers v4.27.1、SynapseAI v1.8.0,和源码安装的 Optimum Habana。对于 GPU,此代码库xxvi包含了可用于复现本文xxvii前述测试结果的脚本。静态形状(static shape)是使用 CUDA Graph 的必要条件,而 Transformers 并不支持静态形状。因此,您需使用 Habana 团队编写的代码xxviii来启用静态形状。结论 从本文可以看出,H Ha ab ba an na a G Ga au ud di i 2 2 在执行 B BL LO OO OMMZ Z 推理时,具有较优的速度优势,且无需编写复杂的脚本,因为 Optimum Habanaxxix 提供了易于使用的工具,来支持在 HPU 上运行数十亿参数模型的推理。Habana 的 SynapseAI SDK 将于后续版本实现进一步的性能提升。随着 SynapseAI 上大语言模型推理优化的不断推进,我们也将定期对此基准测试进行更新,同时也期待 Gaudi2 为 FP8 推理带来更多性能优势。如有兴趣使用最新 AI 硬件加速器和软件库来加速机器学习训练和推理工作流,请查看 Hugging Face 的专家加速计划xxx。如需了解有关 Habana 解决方案的更多信息,请阅读了解 Habana 与 Hugging Face 的合作关系xxxi并联系 Habanaxxxii。如需详细了解 Hugging Face 如何让 AI 硬件加速器更易于使用,请查看 Hugging Face 的硬件合作伙伴计划xxxiii。英特尔研究院认知 AI 团队研究科学家 Phillip Howard 和 Anahita Bhiwandiwalla 在右侧所示的视频中介绍了 Gaudi2 与 BLOOMZ 的相关测试。请观看视频xxxiv,了解如何在 Gaudi2 上轻松部署 BLOOMZ 等大语言模型。6i https:/huggingface.co/blog/zh/habana-gaudi-2-bloom ii https:/habana.ai/products/gaudi2/iii https:/arxiv.org/abs/2211.05100 iv https:/bigscience.huggingface.co/v https:/arxiv.org/abs/2211.01786 vi“零样本”是指模型基于新输入数据或无准备输入数据(即未提供任何训练示例的数据)完成任务的能力。我们向模型提供提示和以自然语言描述的指令(即我们希望模型做什么)。零样本分类不包括与正在完成的任务相关的任何示例。这区别于单样本或少样本分类,因为这些任务包括特定任务的一个或多个示例。vii https:/huggingface.co/blog/bloom-megatron-deepspeed viii https:/huggingface.co/blog/bloom-inference-optimization ix https:/docs.habana.ai/en/latest/Gaudi_Overview/SynapseAI_Software_Suite.html#graph-compiler-and-runtime x https:/docs.habana.ai/en/latest/PyTorch/Inference_on_PyTorch/Inference_Using_HPU_Graphs.html xi https:/docs.habana.ai/en/latest/PyTorch/DeepSpeed/Inference_Using_DeepSpeed.html xii https:/ xiii https:/huggingface.co/docs/optimum/habana/quickstart xiv https:/huggingface.co/blog/habana-gaudi-2-benchmark#how-to-get-access-to-gaudi2 xv https:/www.deepspeed.ai/xvi https:/arxiv.org/abs/2207.00032 xvii https:/huggingface.co/blog/bloom-megatron-deepspeed#pipeline-parallelism xviii https:/ xix bigscience/bloomz Hugging Face xx bigscience/bloomz-7b1 Hugging Face xxi https:/ xxii https:/huggingface.co/blog/how-to-generate#greedy-search xxiii https:/ xxiv https:/docs.habana.ai/en/latest/Installation_Guide/index.html xxv https:/huggingface.co/docs/optimum/habana/usage_guides/multi_node_training xxvi transformers-bloom-inference/bloom-inference-scripts at main huggingface/transformers-bloom-inference GitHub xxvii Incredibly Fast BLOOM Inference with DeepSpeed and Accelerate(huggingface.co)xxviii Model-References/PyTorch/nlp/bloom at 1.8.0 HabanaAI/Model-References GitHub xxix https:/huggingface.co/docs/optimum/habana/index xxx https:/huggingface.co/support xxxi https:/huggingface.co/hardware/habana xxxii https:/habana.ai/contact-us/xxxiii https:/huggingface.co/hardware xxxivhttps:/ me&autoplay=true&lightbox=true 7众多内置加速器,让性能更进一步 在企业和机构寻求扩大规模、降低成本和提供新服务的过程中,通过技术来实现商业价值的重要性日益凸显。面对新的应用场景,他们无需定制系统(这可能会增加复杂性),而是可以通过使用易于扩展的平台来满足现在和未来各种部署的性能需求。第四代英特尔 至强 可扩展处理器旨在为人工智能(AI)、数据分析、存储和科学计算方面快速增长的工作负载提供性能加速。该处理器具备多种内置加速器,帮助人们将零信任安全策略付诸实践,同时利用先进的安全技术,即使面对敏感或受监管的数据,也能解锁新的商业合作机会和洞察。使用这款处理器,您可以跨多个云和边缘环境进行扩展,满足自身的部署需求。英特尔 至强 可扩展处理器具有很强的灵活性,可在其上选择不同的云服务,帮助企业顺利实现应用移植。英特尔几大加速引擎,重新定义性能重新定义您对处理器的期望。与增加 CPU 内核数相比,内置加速器是一种提升性能更有效的方法。通过内置加速器和软件优化,上一代英特尔 至强 可扩展处理器已被证明可以在真实场景下的目标工作负载上实现出色的性能功耗比1。这不但可以提高 CPU 利用率,降低功耗,并提高投资回报率(ROI),同时还能帮助企业实现可持续发展目标。如何在英特尔 平台上实现高效的大语言模型训练后量化提升 SmoothQuant 量化方法的效力作者:英特尔公司 陆崟彤、何欣、郭恒、程文华、王畅、王梦妮、沈海豪 本文介绍了可提升大语言模型的训练后量化表现的增强型 SmoothQuant 技术,说明了这项技术的用法,并证明了其在准确率方面的优势。此方法已整合至英特尔 Neural Compressor(https:/ Neural Compressor 是一个包含量化、剪枝(稀疏性)、蒸馏(知识提炼)和神经架构搜索等多种常用模型压缩技术的开源 Python 库。目前,诸如 TensorFlow、英特尔 Extension for TensorFlow(https:/ Extension for PyTorch(https:/ Runtime 和 MXNet 等主流框架,都能与之兼容。英特尔 Neural Compressor 已经支持多款英特尔 架构的硬件,比如英特尔 至强 可扩展处理器(https:/ 至强 CPU Max 系列(https:/ 数据中心 GPU Flex 系列(https:/ 数据中心 GPU Max 系列(https:/ 至强 可扩展处理器(https:/ 大语言模型(Large Language Model,LLM)需基于海量数据集进行训练,可能拥有数十亿权重参数。其先进的网络结构和庞大的参数量,使它们能够很好地应对自然语言本身的复杂性。完成训练后的大语言模型,可针对各种下游的自然语言处理(NLP)和自然语言生成(NLG)任务进行调优,让其更适合对话式聊天机器人(如 ChatGPT)、机器翻译、文本分类、欺诈检测和情感分析等任务场景。大语言模型部署面临的挑战 大语言模型在执行自然语言处理和自然语言生成任务方面表现出色,但其训练和部署颇为复杂,主要面临以下挑战:AI 与内存墙(https:/ 3.1 倍,内存带宽却只提高 1.4 倍;网络带宽挑战:训练大语言模型需要采用分布式系统,这对网络带宽提出了较高要求;系统资源有限:训练后的模型往往会部署在算力和内存资源均有限的系统上。因此,采用训练后量化的方法来为大语言模型瘦身,对于实现低时延推理至关重要。8大语言模型的量化 量化是一种常见的压缩操作,可以减少模型占用的内存空间,提高推理性能。采用量化方法可以降低大语言模型部署的难度。具体来说,量化是将浮点矩阵转换为整数矩阵:其中 X_fp32、S 和 Z 分别为输入矩阵、比例因子和整数零点。有关每通道(per-channel)量化策略虽然可能会减少量化损失,但不能用于激活值量化的原因,请参看 SmoothQuant 相关文档(https:/ Suppression(https:/arxiv.org/abs/2209.13325)和 SmoothQuant(https:/arxiv.org/abs/2211.10438)。这三种方法思路相似,即把激活值量化的难度转移到权重量化上,只是三者在转移难度的多少上有所不同。增强型 S Smmo oo ot th hQ Qu ua an nt t SmoothQuant 引入了一个超参数 作为平滑因子来计算每个通道的量化比例因子,并平衡激活值和权重的量化难度。其中 j 是输入通道索引。对于 OPT 和 BLOOM 等大多数模型来说,=0.5 是一个能够较好实现权重和激活值量化难度分割的平衡值。模型的激活异常值越大,就越需要使用更大的 值来将更多的量化难度转移到权重上。原始的 SmoothQuant 旨在通过针对整个模型使用一个固定值 来分割权重和激活值的量化难度。然而,由于激活异常值的分布不仅在不同模型之间存在差异,而且在同一模型的不同层之间也不尽相同,因此,本文推荐使用英特尔 Neural Compressor 的自动调优能力,逐层获取最佳 值。相关方法包括以下五个主要步骤(伪代码如下所示):1.通过特殊的回调函数 register_forward_hook 捕获(hook)模型各层的输入和输出值。2.根据用户定义的 范围和步长生成一个 值列表。3.根据给定的 值重新计算平滑因子并调整参数(权重值和激活值)。94.对权重执行每通道量化与反量化(quantization_dequantization),对输入值执行每张量(per-tensor)量化与反量化,以预测与给定 值对应的每层输出值。5.计算相对实际输出值的均方损失,将调整后的参数恢复回来,并保存每层的最佳 值。本文提出的方法支持用多个标准(如最小值、最大值和平均值)来确定 Transformer 块的输入层归一化(LayerNorm)操作的 值。实验发现,将 范围设为 0.3,0.7,步长设为 0.05,对大多数模型来说都能达到很好的平衡。这一方法有两个显著特点:一是全自动化,二是比原始方法支持的融合模式多。下图提供了在 BLOOM-1b7 模型上执行 SmoothQuant 值自动调优的样例代码:启用增强型 SmoothQuant 的样例代码 用户只需传递一个模型名称(model_name)和一个数据加载器。值得注意的是,模型分析主要依靠的是 Torch JIT。用户可以在加载 Hugging Face 模型(https:/huggingface.co/models)时将 torchscript 设置为 True,或将 return_dict 设置为 False。更多信息请参阅英特尔 Neural Compressor 文档(https:/ 本文提出的增强型 SmoothQuant 的主要优势在于提高了准确率。经过对多种主流大语言模型的评估,具备自动调优能力的 INT8 SmoothQuant 最后一个词元(last-token)的预测准确率要高于原始 INT8 SmoothQuant 和 FP32 基线方法。详见下图:10FP32 基线方法、INT8(启用和不启用 SmoothQuant)以及 INT8(启用本文提出的增强型 SmoothQuant)的准确率对比 从上图可以看出,在 OPT-1.3b 和 BLOOM-1b7 模型上,本文提出的增强型 SmoothQuant 的准确率比默认的 SmoothQuant 分别高 5.4%和 1.6%。量化后的模型也缩小到 FP32 模型的四分之一,大大减少了内存占用空间,从而有效地提升大模型在英特尔 平台上的推理性能。更全面的结果请见 GitHub 存储库(https:/ GitHub 问题(https:/ 在企业和机构寻求扩大规模、降低成本和提供新服务的过程中,通过技术来实现商业价值的重要性日益凸显。面对新的应用场景,他们无需定制系统(这可能会增加复杂性),而是可以通过使用易于扩展的平台来满足现在和未来各种部署的性能需求。第四代英特尔 至强 可扩展处理器旨在为人工智能(AI)、数据分析、存储和科学计算方面快速增长的工作负载提供性能加速。该处理器具备多种内置加速器,帮助人们将零信任安全策略付诸实践,同时利用先进的安全技术,即使面对敏感或受监管的数据,也能解锁新的商业合作机会和洞察。使用这款处理器,您可以跨多个云和边缘环境进行扩展,满足自身的部署需求。英特尔 至强 可扩展处理器具有很强的灵活性,可在其上选择不同的云服务,帮助企业顺利实现应用移植。英特尔几大加速引擎,重新定义性能重新定义您对处理器的期望。与增加 CPU 内核数相比,内置加速器是一种提升性能更有效的方法。通过内置加速器和软件优化,上一代英特尔 至强 可扩展处理器已被证明可以在真实场景下的目标工作负载上实现出色的性能功耗比1。这不但可以提高 CPU 利用率,降低功耗,并提高投资回报率(ROI),同时还能帮助企业实现可持续发展目标。用基于英特尔 SGX 的可信执行环境有效应对大语言模型隐私和安全挑战可信执行环境是什么?大语言模型为什么需要它?OpenAI 的 GPT 系列大语言模型(Large Language Mode,以下缩写为 LLM)的兴起与应用,也带来了诸如数据泄露、数据滥用、模型被攻击和知识产权被窃取等一系列隐私和安全风险或挑战。可信执行环境(Trusted Execution Environment,以下缩写为 TEE)是一项基于软硬件组合创建安全执行环境,能够更好地确保计算和数据处理机密性和完整性。其关键机制为:安全隔离:通过硬件加密和内存隔离等硬件隔离技术,将敏感数据和关键代码与其他应用及操作系统相隔离,从而确保它们即使在系统其他部分被攻击或受到恶意软件影响时也能够得到更好的保护。安全验证:在启动过程中进行身份验证和完整性检查,确保只有经过授权的代码和数据可以在其中运行,以此防止恶意软件或未经授权的访问。安全执行环境:提供包含加密算法、安全协议和密钥管理等防护功能的执行环境,用于处理敏感数据和执行关键算法,以增强数据在执行过程中的保密性和完整性。TEE 与 LLM 可在多行业、多场景融合,TEE 可用于为 LLM 提供颇具商业落地价值的隐私和数据保护创新解决方案。2 2.L LL LMM 与 T TE EE E 的融合需求LLM在许多行业的不同场景都有着广泛应用,例如金融行业的风险评估和交易分析,医疗保健领域的医学图像识别、病历纪录和疾病预测,以及法律和合规行业的法律咨询、合同审查和文书处理等。这些行业或场景中涉及到的数据多为重要敏感的交易数据或个人数据,必须得到有效保护。将 TEE 与 LLM 融合,有助于在这类场景中更好地保障数据在 LLM 模型训练和推理过程中的保密性。训练阶段,TEE 中的数据处理都处于加密状态;推理阶段,TEE 则可保护用户输入和模型结果的隐私。同时,其硬件隔离和安全验证机制可以更有效地防止未经授权的访问和攻击,增强模型运行时的安全性。3 3.T TE EE E 与 L LL LMM 融合的挑战:资源和性能限制资源限制:TEE 的计算资源和存储空间通常都非常有限,LLM 庞大的模型参数和计算需求可能会超出一般 TEE 的能力范围。性能下降:I/O 数据的加密和安全计算操作会引入额外的计算开销,导致模型训练和推理性能有一定程度下降。基于算法的解决方案可减少模型规模和计算需求,以适应 TEE 的资源限制,但 CPU 仍会成为制约 LLM 训练的算力瓶颈。作者:英特尔公司 俞巍、李志强、李青青、龚奇源 124 4.基于英特尔 平台的解决方案:加速 T TE EE E 与 L LL LMM 融合应用4 4.1 1 基于英特尔 S SG GX X/T TD DX X 1 1 的 T TE EE E 解决方案 英特尔自第三代英特尔 至强 可扩展处理器开始内置英特尔 软件防护扩展(英特尔 SGX)技术,其安全飞地的容量最多可达单颗 CPU 512GB,双路共计 1TB 容量,可满足目前千亿大模型的执行空间需求。此外,该技术提供支持的机密计算可实现应用层、虚拟机(VM)、容器和功能层的数据隔离。无论是在云端、边缘还是本地环境,都能确保计算与数据始终在私密性和安全性上获得更全面的保护,以免暴露给云服务提供商、未经授权的管理员和操作系统,甚至是特权应用。另一方面,英特尔 Trust Domain Extension(英特尔 TDX)可将客户机操作系统和虚拟机应用与云端主机、系统管理程序和平台的其他虚拟机隔离开来。它的信任边界较英特尔 SGX 应用层的隔离边界更大,使受其保护的机密虚拟机比基于英特尔 SGX 的安全飞地的应用更易于进行大规模部署和管理,在部署 LLM 这类复杂应用时,TDX 在易用性上更具优势。此外,今年推出的全新第四代英特尔 至强 可扩展处理器内置英特尔 AMX,可大幅提升矩阵运算性能,而英特尔 SGX/TDX 也可为英特尔 AMX、英特尔 DL Boost 等计算指令提供支持,进而为 TEE 中的大模型赋予快速落地 优化性能的双重优势。图 1 1.SGX/TDX 的可信边界 构建完善的 TEE 生态系统对推动 LLM 的应用和发展至关重要。开发者需要能够简化集成和使用过程的面向 TEE 的开发者工具和框架。为此,英特尔在 SDK 的基础上,推出了开源的 lib OS 项目 Gramine 来帮助开发者更好地使用基于英特尔 SGX 的 TEE,助推 LLM 与 TEE 的融合。4 4.1 1.1 1 大语言模型推理 使用私有数据进行个性化训练的大模型不仅包含私有数据信息,其查询本身也具有隐私性,尤其是基于边端的非安全环境部署。基于英特尔 SGX/TDX 的 TEE 可为大模型提供更安全的运行环境,在数据上传云端前,查询可先通过客户端对传输内容加密,云端只需在英特尔 SGX/TDX 中解密查询问题,然后输入大模型的推理服务中,并将所得结果在云端的 TEE 中加密后传输回本地客户端。在整个工作流程中,客户端以外的数据和运行态程序均处于密态环境当中,效率远远高于其他基于纯密码学的解决方案。目前像 LLAMA 7B、ChatGLM 6B 等模型都可以在该 TEE 方案上满足实时可交互性能的运行。图 2 展示了使用 LLM 部署知识问答的参考设计。基于英特尔 SGX/TDX 的 TEE 为实际部署 LLM 中的自有知识产权保护提供了一套完整的方案,优化整个模型在查询、传输和推理过程中的安全保护。13图 2 2.基于 TEE 的大语言模型私密问答 4 4.1 1.2 2 联邦学习 借助基于 TEE 的联邦学习解决方案2(见图 3),就可在多机构之间实现基于 NLP 的深度学习,例如使用 BERT 的命名体识别。在金融和医疗等行业提升准确性,实现多机构数据互通,同时更好避免数据泄露。此方案中每个参与方包含一个 Avalon3 管理模块和 Gramine 工作负载,均运行在英特尔 SGX 的安全飞地中,在管理模块彼此间的远程认证完成执行后,即可启动联邦学习过程,参与方在本地使用各自的数据集进行训练,然后将梯度上传至聚合方,聚合方进行聚合后将平均梯度下发至各参与方,以继续进行下一轮训练。对比图 4 所示的 BERT CRF 模型4,此方案可以在强化隐私保护的同时,让性能损失维持在 50%以下2。图 3 3.基于 TEE 的联邦学习 图 2 2.基于 TEE 的大语言模型私密问答 4 4.1 1.2 2 联邦学习 借助基于 TEE 的联邦学习解决方案2(见图 3),就可在多机构之间实现基于 NLP 的深度学习,例如使用 BERT 的命名体识别。在金融和医疗等行业提升准确性,实现多机构数据互通,同时更好避免数据泄露。此方案中每个参与方包含一个 Avalon3 管理模块和 Gramine 工作负载,均运行在英特尔 SGX 的安全飞地中,在管理模块彼此间的远程认证完成执行后,即可启动联邦学习过程,参与方在本地使用各自的数据集进行训练,然后将梯度上传至聚合方,聚合方进行聚合后将平均梯度下发至各参与方,以继续进行下一轮训练。对比图 4 所示的 BERT CRF 模型4,此方案可以在强化隐私保护的同时,让性能损失维持在 50%以下2。图 3 3.基于 TEE 的联邦学习 14图 4 4.BERT CRF 模型4 4 4.2 2 B Bi ig gD DL L:端到端大模型和 T TE EE E 融合的方案 据行业用户反馈,LLM 在端到端应用中的痛点包括:软件栈复杂,难以确保端到端应用的安全。LLM 的训练和推理常依赖较多的软件栈、服务和硬件。为保护用户数据和模型产权,需确保每个环节的安全性(不同硬件、运行环境、网络和存储等)。计算量大,且对性能敏感。LLM 的计算量非常大,需引入足够多的性能优化。但是,不同模型、平台和软件栈需要使用不同的优化方案,要在特定平台上实现更理想的性能,需要长时间的性能调优。为解决这些痛点,由英特尔主导的开源项目 BigDL,近期就推出了针对 LLM 的隐私保护方案,其两大主要功能为:提供端到端的安全保护:在不修改代码的情况下,为单机和分布式的 LLM 应用提供端到端的安全保护功能。具体包括,基于英特尔 SGX/TDX 的 TEE、远程证明、统一的密钥管理接口和透明的加解密 API 等。实现一站式性能优化:BigDL Nano 提供的针对 LLM 的一站式性能优化方案,可让现有 LLM 应用在几乎不用修改代码的情况下受益于英特尔 AMX、英特尔 AVX-512 和英特尔 Extension for PyTorch。同时,用户还可利用 BigDL Nano 提供的 LLM API,快速构建应用。图 5 5.BigDL 端到端安全的大模型方案 15如图 6 所示,在应用了 PPML(Privacy Preserving Machine Learning,隐私保护的机器学习)提供的安全技术后,由于更强的安全和隐私保护会带来额外开销,因此端到端应用性能会略有下降;但应用了 BigDL Nano 提供的优化功能后,端到端的性能得到了显著改善*,总体性能甚至高于没有任何保护的明文性能。图 6 6.BigDL PPML Nano 端到端性能损失情况 目前,该方案已经开源,并开始陆续交付给行业客户进行测试和集成5。5 5.未来趋势TEE 提供了隐私保护和数据安全防护功能的创新解决方案,将在 LLM 实际落地过程中扮演重要角色。通过将二者融合,可更好地保障数据在训练和推理过程中的保密性,增强对未经授权访问和模型结果篡改的防御。然而,在 TEE 中保护用户隐私的同时,需要平衡性能需求,随着大模型对于计算需求的大幅提升,算力可能会执行在异构硬件上,TEE 和异构硬件的结合将成为未来发展趋势。随着 CPU 性能的提升以及内置 AI 加速技术的升级和更新,在方便部署的场景下,CPU 会是大模型推理和 TEE 结合的首选,在训练的场景下,基于 CPU 的 TEE 结合异构硬件的加密支持,则会是大模型训练甚至大模型联邦训练的技术方向。英特尔将一如既往地以软硬结合的产品技术组合促进开发者参与,推动 LLM 与 TEE 的融合。作者简介:英特尔公司 AI 架构师俞巍,英特尔公司平台安全资深架构师李志强,英特尔公司安全软件研发工程师李青青,英特尔公司软件架构师龚奇源,都在从事 AI 和 SGX/TDX 相关工作。1 SGX/TDX:https:/ 2 Wei Yu.et al.2022,TEE based Cross-silo Trustworthy Federated Learning Infrastructure,FL-IJCAI22 3 https:/ Souza,F.,Nogueira,R.and Lotufo,R.2020,Portuguese Named Entity Recognition using Bert-CRF,arXiv.org(请参见 https:/arxiv.org/pdf/1909.10649.pdf)5 https:/ 在企业和机构寻求扩大规模、降低成本和提供新服务的过程中,通过技术来实现商业价值的重要性日益凸显。面对新的应用场景,他们无需定制系统(这可能会增加复杂性),而是可以通过使用易于扩展的平台来满足现在和未来各种部署的性能需求。第四代英特尔 至强 可扩展处理器旨在为人工智能(AI)、数据分析、存储和科学计算方面快速增长的工作负载提供性能加速。该处理器具备多种内置加速器,帮助人们将零信任安全策略付诸实践,同时利用先进的安全技术,即使面对敏感或受监管的数据,也能解锁新的商业合作机会和洞察。使用这款处理器,您可以跨多个云和边缘环境进行扩展,满足自身的部署需求。英特尔 至强 可扩展处理器具有很强的灵活性,可在其上选择不同的云服务,帮助企业顺利实现应用移植。英特尔几大加速引擎,重新定义性能重新定义您对处理器的期望。与增加 CPU 内核数相比,内置加速器是一种提升性能更有效的方法。通过内置加速器和软件优化,上一代英特尔 至强 可扩展处理器已被证明可以在真实场景下的目标工作负载上实现出色的性能功耗比1。这不但可以提高 CPU 利用率,降低功耗,并提高投资回报率(ROI),同时还能帮助企业实现可持续发展目标。只改一行代码在第四代至强 可扩展平台上高效微调优化 ChatGLM-6B大语言模型的应用与微调优化必要性 ChatGPT 的横空出世开启了大语言模型(LLM)的普及元年,BERT、GPT-4、ChatGLM 等模型的非凡能力则展现出类似通用人工智能(AI)的巨大潜力,也因此得到了多行业、多领域的广泛关注。为加速这些大模型与特定领域的深度融合,以及更好地适应特定任务,基于任务特性对这些模型进行定制化微调至关重要。然而,它们庞大的参数使得用传统方式对大模型进行调优面临诸多挑战,不仅要求相关人员熟练掌握微调技巧,还需要付出巨大的训练成本。近年来,出现了参数高效微调(Parameter-Efficient Fine-Tuning,PEFT)和提示微调(Prompt-tuning)技术。这些技术因其成本更低、应用方式更简单便捷,正在逐渐取代大模型传统调优方法。本文结合目前在中文应用场景中具有出色表现的开源预训练大模型 ChatGLM-6B,介绍如何通过对其开源 Prompt-tuning 代码进行极少量的修改,并结合第四代英特尔 至强 可扩展处理器i的全新内置 AI 加速引擎英特尔 高级矩阵扩展(Intel Advanced Matrix Extension,简称英特尔 AMX)及配套的软件工具,来实现高效、低成本的大模型微调。基于英特尔 架构硬件的微调优化方案 本文通过以下三个方面实现了基于第四代英特尔 至强 可扩展处理器的 ChatGLM 高效微调优化:1 1.借助英特尔 A AMMX X,大幅提升模型微调计算速度 AMX 是内置于第四代英特尔 至强 可扩展处理器中的矩阵乘法加速器,能够更快速地处理 BFloat16(BF16)或 INT8 数据类型的矩阵乘加运算,从而显著提升模型训练和推理的性能。图 1 1.英特尔 AMX 技术架构 作者:英特尔公司 夏磊 17目前,现行的 PyTorch 框架中,已经可以通过具备 BF16 自动混合精度功能自动实现对 AMX 加速器的利用。就 ChatGLM-6B 而言,其开源微调代码的 autocast_smart_context_manager()函数,也已具备对 CPU 自动混合精度的支持。因此,只需在启动微调时加入 CPU 自动混合精度的使能参数即可直接利用英特尔 AMX 带来的优势。2601.d de ef f autocast_smart_context_manager(self,cache_enabled:Optionalbool=True):2602.2603.A helper wrapper that creates an appropriate context manager for autocast while feeding it the desired 2604.arguments,depending on the situation.2605.2606.#print(self.use_cpu_amp)2607.i if f self.use_cuda_amp o or r self.use_cpu_amp:2608.i if f is_torch_greater_or_equal_than_1_10:2609.ctx_manager=(2610.torch.cpu.amp.autocast(cache_enabled=cache_enabled,dtype=self.amp_dtype)2611.i if f self.use_cpu_amp 2612.e el ls se e torch.cuda.amp.autocast(cache_enabled=cache_enabled,dtype=self.amp_dtype)2613.)2614.e el ls se e:2615.ctx_manager=torch.cuda.amp.autocast()2616.e el ls se e:2617.ctx_manager=contextlib.nullcontext()i if f sys.version_info=(3,7)e el ls se e contextlib.suppress()2618.2619.r re et tu ur rn n ctx_manager 图 2 2.通过 trainer.py 中的 autocast_smart_context_manager()函数,在 ChatGLM-6B 开源 prompt-tuning 目录下实现对 CPU 和 GPU 的自动混合精度支持 具体方法是在启动微调的 train.sh 脚本时做如下修改:python3 main.py -do_train -half_precision_backend cpu_amp -bf16 182 2.结合英特尔 MMP PI I 库充分利用处理器架构特点和多核配置,发挥 C CP PU U 的整体效率 第四代英特尔 至强 可扩展处理器最多可拥有 60 个内核。这些内核通过 4 个集群(cluster)的方式进行内部组织。理论上,当多个处理器内核并行处理一个计算任务并需要共享或交换数据时,同一个集群内的内核之间的通信时延较低。因此,在使用 PyTorch 框架进行模型微调时,我们可以将同一个集群上的内核资源分配给同一个 PyTorch 实例,从而为单个实例提供更理想的计算效率。此外,通过利用 PyTorch 的分布式数据并行(Distributed Data Parallel,DDP)功能,还可将两个 CPU 上的 8 个集群的内核资源汇集在一起,充分发挥整体效率。图 3 3.第四代英特尔 至强 可扩展处理器的内部集群(cluster)架构 为实现从应用程序代码到数据通信的整体简化,PyTorch 框架支持多种分布式数据并行后端(backend),其中 MPI 后端方式能够很好地满足我们的优化需求。19图 4 4.PyTorch 支持的多种分布式数据并行的后端(来源:PyTorch 官网ii)但是,通过 pip 或 conda 来安装的预编译 PyTorch 二进制包中并未将 MPI 的后端作为缺省功能编译。因此,我们需要安装 MPI 协议工具库并通过手工编译来获得对 MPI 后端的支持。英特尔 MPI 库iii 是一个实现 MPICH 规范的多结构消息传递库,使用该库可创建、维护和测试能够在英特尔 处理器上实现更优性能的先进和复杂的应用。它采用 OFI 来处理所有通信,能够提供更高的吞吐量、更低的时延和更简单的程序设计。以下是基于英特尔 MPI 库的 PyTorch 编译步骤:#下载英特尔 MPI 库并安装 wget https:/registrationcenter- bash l_mpi_oneapi_p_2021.9.0.43482_offline.sh source your_installation_path/vars.sh 20#安装 PyTorch 编译依赖包 pip install numpy pyyaml mkl mkl-include setuptools cmake cffi typing pip install mkl_include#下载 PyTorch 源码并完成编译、安装 git clone-recursive https:/ cd pytorch python setup.py install 在获得了支持 MPI 后端的 PyTorch 后,只需按如下方法在 ChatGLM Prompt-tuning 目录下的 main.py 修改一行代码:将 dist.init_process_group(backend=gloo,world_size=1,rank=0)改为 d di is st t.i in ni it t_ _p pr ro oc ce es ss s_ _g gr ro ou up p(b ba ac ck ke en nd d=mmp pi i)367.i if f training_args.do_train:368.checkpoint=None 369.i if f training_args.resume_from_checkpoint i is s n no ot t None:370.checkpoint=training_args.resume_from_checkpoint 371.#elif last_checkpoint is not None:372.#exit()373.model.gradient_checkpointing_enable()374.model.enable_input_require_grads()375.os.environMASTER_ADDR=localhost 376.os.environMASTER_PORT=12355 377.dist.init_process_group(backend=gloo,world_size=1,rank=0)378.train_result=trainer.train(resume_from_checkpoint=checkpoint)379.#trainer.save_model()#Saves the tokenizer too for easy upload 图 5 5.修改前的 main.py 21367.i if f training_args.do_train:368.checkpoint=None 369.i if f training_args.resume_from_checkpoint i is s n no ot t None:370.checkpoint=training_args.resume_from_checkpoint 371.#elif last_checkpoint is not None:372.#checkpoint=last_checkpoint 373.model.gradient_checkpointing_enable()374.model.enable_input_require_grads()375.world_size=int(os.environPMI_SIZE)376.world_rank=int(os.environPMI_RANK)377.dist.init_process_group(backend=mpi,world_size=world_size,rank=world_rank)378.train_result=trainer.train(resume_from_checkpoint=checkpoint)379.#trainer.save_model()#Saves the tokenizer too for easy upload 图 6 6.修改后的 mma ai in n.p py y 3.利用至强 CPU Max 系列集成的 H HB BMM 满足大模型微调所需的大内存带宽 基于 Transformer 的大模型,由于参数、训练数据和模型规模的复杂程度较高,因此内存复杂度通常是 O(!)。这意味着这些大模型需要足够大的内存带宽支持才能获得更好的运行性能。英特尔 至强 CPU Max 系列iv,配备 64 GB 的 HBM2e 高带宽内存,为在CPU 上高效运行大模型提供了高达1TB/s 的内存带宽支持。该 CPU 集成的 HBM,能够在 3 种模式下灵活配置:HBM-Only 模式支持内存容量需求不超过 64 GB 的工作负载,具备每核 1 至 2 GB 的内存扩展能力,无需更改代码和另购 DDR,即可启动系统。HBM Flat 模式可为需要大内存容量的应用提供灵活性,通过 HBM 和 DRAM 提供一个平面内存区域(flat memory region),适用于每核内存需求 2 GB 的工作负载。可能需要更改代码。HBM 高速缓存模式为内存容量 64 GB 或每核内存需求 2GB 的工作负载提供更优性能。无需更改代码,HBM 将用作 DDR 的高速缓存。针对 ChatGLM-6B 微调,试验结果显示:与其他两种模式相比,H HB BMM 高速缓存模式在性能和使用方便性方面均更胜一筹。在英特尔 至强 CPU Max 系列产品上,结合之前的两项优化,我们可以通过以下命令行启动 ChatGLM-6B 微调:22图 7 7.在拥有 32 个物理核的英特尔 至强 CPU Max 9462 双路服务器上启动微调 优化结果 通过以上简单软、硬件综合优化,无须采用昂贵的 GPU 硬件,即可实现对 ChatGLM-6B 模型的高性能微调。注:以上代码修改需要配合 python 工具包 accelerate 0.18.0 和 transformers 4.28.0。作者简介:夏磊,英特尔(中国)有限公司人工智能首席工程师,拥有近 20 年的人工智能从业经验,在软件算法、自动控制和工程管理等领域积累了丰富经验。i https:/ ii https:/pytorch.org/docs/stable/distributed.html iii https:/ iv https:/ 在企业和机构寻求扩大规模、降低成本和提供新服务的过程中,通过技术来实现商业价值的重要性日益凸显。面对新的应用场景,他们无需定制系统(这可能会增加复杂性),而是可以通过使用易于扩展的平台来满足现在和未来各种部署的性能需求。第四代英特尔 至强 可扩展处理器旨在为人工智能(AI)、数据分析、存储和科学计算方面快速增长的工作负载提供性能加速。该处理器具备多种内置加速器,帮助人们将零信任安全策略付诸实践,同时利用先进的安全技术,即使面对敏感或受监管的数据,也能解锁新的商业合作机会和洞察。使用这款处理器,您可以跨多个云和边缘环境进行扩展,满足自身的部署需求。英特尔 至强 可扩展处理器具有很强的灵活性,可在其上选择不同的云服务,帮助企业顺利实现应用移植。英特尔几大加速引擎,重新定义性能重新定义您对处理器的期望。与增加 CPU 内核数相比,内置加速器是一种提升性能更有效的方法。通过内置加速器和软件优化,上一代英特尔 至强 可扩展处理器已被证明可以在真实场景下的目标工作负载上实现出色的性能功耗比1。这不但可以提高 CPU 利用率,降低功耗,并提高投资回报率(ROI),同时还能帮助企业实现可持续发展目标。创建 OpenVINO Stateful 模型与 Runtime 流水线,赋能 ChatGLM作者:赵桢、罗成、李亭骞、邹文艺 引言 自大语言模型(LLM)成为热点话题以来,涌现了一大批中文大语言模型并在优化平台中得到了积极部署。ChatGLM 正是广受好评的主流中文大语言模型之一。然而,由于 ChatGLM 模型尚未成为 Transformer 生态的原生模型,因此,官方 optimum 扩展库对其仍缺乏支持。本文提供了一种使用 OpenVINO opset 重构该模型架构的便捷方法。该方案包含专为 ChatGLM 定制的优化节点,且这些节点都利用英特尔 高级矩阵扩展(Intel Advanced Matrix Extensions,缩写为英特尔 AMX)内联和 MHA(Multi-Head Attention,多头注意力)融合实现了高度优化。*请注意,本文仅介绍了通过为 ChatGLM 创建 OpenVINO stateful 模型实现优化的解决方案。本方案受平台限制,必须使用内置了英特尔 AMX 的第四代英特尔 至强 可扩展处理器i(代号 Sapphire Rapids)。笔者不承诺对该解决方案进行任何维护。C Ch ha at tG GL LMM 模型简介 笔者在查看 ChatGLM 原始模型的源码时,发现 ChatGLM 与 Optimum ModelForCasualML 并不兼容,而是定义了新的类 ChatGLMForConditionalGeneration。该模型的流水线回路包含 3 个主要模块(Embedding、GLMBlock 层和 lm_logits),结构如下:ChatGLMForConditionalGeneration。该模型的流水线回路包含 3 个主要模块(Embedding、GLMBlock 层和 lm_logits),结构如下:图 1 1.ChatGLM 的模型结构 图 1 1.ChatGLM 的模型结构 24如上图所示,整个流水线实际要求模型有两个不同的执行图,使用输入提示符进行首次推理时不需要 KV 缓存作为 GLMBlock 层的输入。从第二次迭代开始,QKV 注意力机制的上一次结果将成为当前一轮模型推理的输入。随着生成符的长度不断增加,在流水线推理过程中,模型输入和输出之间将存留大量的大型内存副本。以 ChatGLM6b 默认模型配置ii 为示例,输入和输出阵列之间的内存副本类似于以下伪代码,其内存拷贝的开销由模型的参数 hidden_size 以及迭代的次数决定:while(eos_token_id|max_seq_len)memcpy(model_inp,model_outp,num_layer*2*sizeof(model_outp)*hidden_size)model_outp.push_back(gen_token)1.因此,本文要解决的两大关键问题是:如何优化模型推理流水线来消除模型输入和输出之间的内存副本 如何通过重新设计执行图来优化 GLMBlock 模块 构建 O Op pe en nV VI IN NO O s st ta at te ef fu ul l 模型实现显著优化 首先,需要分析 GLMBlock 层的结构,尝试封装一个类并按以下工作流来调用 OpenVINO opset。接着,将图形数据序列化为 IR 模型(.xml,.bin)。图 2 2.为 ChatGLM 构建 OpenVINO stateful 模型 关于如何构建 OpenVINO stateful 模型,可参阅以下文档:https:/docs.openvino.ai/2022.3/openvino_docs_OV_UG_network_state_intro.html OpenVINO 还提供了模型创建样本,以展示如何通过 opset 构建模型。https:/ 25ChatGLM 的自定义注意力机制是本文所关注和优化的部分。主要思路是:构建全局上下文结构体,用于在模型内部追加并保存每一轮迭代后的 pastKV 的结果,这样减少了 pastKV 作为模型输入输出的拷贝开销,同时使用内联优化以实现 Rotary Embedding 和多头注意力机制(Multi-Head Attentions)。英特尔 AMX 是内置在第四代英特尔 至强 可扩展处理器中的矩阵乘法加速器,能够更快速地处理 bf16 或 int8 数据类型的矩阵乘加运算,通过加速张量处理,显著提高推理和训练性能。借助英特尔 AMX 内联指令(用于加速计算的单指令多操作),实现了对 ChatGLM 模型中 Attention,Rotary Embedding 等算子的高度优化,并且使用 bf16 指令进行乘加操作,在保证浮点指数位精度的同时提高运算效率。与此同时,本方案还使用 int8 精度来压缩全连接层的权重,在实时计算中将使用 bf16 进行计算。因此,无需通过训练后量化(PTQ)或量化感知训练(QAT)对模型进行低精度处理。模型压缩方法可以降低模型存储空间,减少内存带宽的负载,因为计算仍然使用浮点,不会造成溢出,不会对模型精度造成损失。为 C Ch ha at tG GL LMM 创建 O Op pe en nV VI IN NO O s st ta at te ef fu ul l模型 请依照下方示例配置软硬件环境,并按照以下步骤优化 ChatGLM:硬件要求 第四代英特尔 至强 可扩展处理器(代号 Sapphire Rapids)或其后续的、仍内置英特尔 AMX 的产品 软件验证环境 Ubuntu 22.04.1 LTS 面向 OpenVINO Runtime Python API 的 Python 3.10.11 用于构建 OpenVINO Runtime 的 GCC 11.3.0 cmake 3.26.4 构建 O Op pe en nV VI IN NO O 源码 安装系统依赖并设置环境 创建并启用 Python 虚拟环境$conda create-n ov_py310 python=3.10-y$conda activate ov_py310 安装 Python 依赖$pip install protobuf transformers=4.30.2 cpm_kernels torch=2.0 sentencepiece pandas 使用 GCC 11.3.0 编译 OpenVINO 克隆 OpenVINO 并升级子模块$git clone https:/ luocheng/chatglm_custom$cd openvino&git submodule update-init-recursive 安装 Python 环境依赖,以构建 Python Wheel$python-m pip install-U pip 26$python-m pip install-r./src/bindings/python/src/compatibility/openvino/requirements-dev.txt$python-m pip install-r./src/bindings/python/wheel/requirements-dev.txt 创建编译目录$mkdir build&cd build 使用 CMake 编译 OpenVINO$cmake.-DENABLE_LLMDNN=ON -DBUILD_PYTHON_TESTS=ON -DENABLE_CPU_DEBUG_CAPS=OFF -DENABLE_DEBUG_CAPS=OFF -DCMAKE_BUILD_TYPE=Release -DENABLE_INTEL_MYRIAD_COMMON=OFF -DENABLE_INTEL_GNA=OFF -DENABLE_OPENCV=OFF -DENABLE_CPPLINT=ON -DENABLE_CPPLINT_REPORT=OFF -DENABLE_NCC_STYLE=OFF -DENABLE_TESTS=ON -DENABLE_OV_CORE_UNIT_TESTS=OFF -DENABLE_INTEL_CPU=ON -DENABLE_INTEL_GPU=OFF -DENABLE_AUTO=OFF -DENABLE_AUTO_BATCH=OFF -DENABLE_MULTI=OFF -DENABLE_HETERO=OFF -DENABLE_INTEL_GNA=OFF -DENABLE_PROFILING_ITT=ON-DENABLE_SAMPLES=ON -DENABLE_PYTHON=ON -DENABLE_TEMPLATE=OFF -DENABLE_OV_ONNX_FRONTEND=OFF -DENABLE_OV_PADDLE_FRONTEND=OFF -DENABLE_OV_PYTORCH_FRONTEND=OFF -DENABLE_OV_TF_FRONTEND=OFF -DENABLE_OPENVINO_DEBUG=OFF -DENABLE_CPU_DEBUG_CAPS=ON -DCMAKE_INSTALL_PREFIX=pwd/install 27 -DCMAKE_INSTALL_RPATH=pwd/install/runtime/3rdparty/tbb/lib:pwd/install/runtime/3rdparty/hddl/lib:pwd/install/runtime/lib/intel64 -Dgflags_Dir=pwd/./thirdparty/gflags/gflags/cmake$make-jobs=$(nproc-all)$make install 安装针对 OpenVINO Runtime 和 openvino-dev 工具构建好的 Python Wheel$pip install./install/tools/openvino*.whl 检查系统 GCC 版本和 Conda Runtime GCC 版本。如下所示,如果系统 GCC 版本高于 Conda GCC 版本,请升级 Conda GCC 至相同版本,以满足 OpenVINO Runtime 的需求。(可选)#check system(OpenVINO compiling env)gcc version$gcc-version gcc(Ubuntu 11.3.0-1ubuntu122.04.1)11.3.0#check conda python(runtime env for OpenVINO later)gcc version$python Python 3.10.11(main,May 16 2023,00:28:57)GCC 11.2.0 on linux#If sys gcc ver conda gcc ver,upgrade conda gcc ver-sys gcc ver$conda install-c conda-forge gcc=11.3.0 将 PyTorch 模型转为 OpenVINO IR$cd.$python tools/gpt/gen_chatglm.py/path/to/pytorch/model/path/to/ov/IR 使用 O Op pe en nV VI IN NO O R Ru un nt ti imme e A AP PI I 为 C Ch ha at tG GL LMM 构建推理流水线 本文提供了使用 Transformer 和 OpenVINO Runtime API 构建推理流水线的样本。首先,在 test_chatglm.py 中,创建一个由 transformers.PreTrainedModel 衍生的新类。然后,通过使用 OpenVINO Runtime Python API 构建模型推理流水线来更新转发函数。其他成员函数则迁移自 modeling_chatglm.py 的 ChatGLMForConditionalGeneration,如此一来,即可确保输入准备工作、set_random_seed、分词器/连接器(tokenizer/detokenizer)以及余下的流水线操作能够与原始模型的源码保持一致。如需启用 int8 权重压缩,只需设置简单的环境变量 USE_INT8_WEIGHT=1。这是因为在模型生成阶段,已使用 int8 对全连接层的权重进行了压缩,因此模型可在之后的运行过程中直接使用 int8 权重进行推理,从而免除了通过框架或量化工具压缩模型的步骤。28请按照以下步骤使用 OpenVINO Runtime 流水线测试 ChatGLM:运行 bf16 模型$python3 tools/gpt/test_chatglm.py/path/to/pytorch/model/path/to/ov/IR-use=ov 运行 int8 模型$USE_INT8_WEIGHT=1 python test_chatglm.py/path/to/pytorch/model/path/to/ov/IR-use=ov 权重压缩:降低内存带宽使用率,提升推理速度 本文采用了 Vtune 对模型权重数值精度分别为 bf16 和 int8 的内存带宽使用率(图 3 和图 4)以及 CPI 率进行了性能对比分析(表 1)。结果发现:当模型权重数值精度压缩至 int8 时,可同时降低内存带宽使用率和 CPI 率。图 3 3.模型权重数值精度为 bf16 时的内存带宽使用率 图 4 4.模型权重数值精度为 int8 时的内存带宽使用率 模型权重数值精度 b bf f1 16 6 i in nt t8 8 C CP PI I 率 10.766 1.175 表 1 1.采用不同模型权重数值精度时的 CPI 率 每条指令消耗的时钟周期(Clockticks per Instruction Retired,CPI)事件率,也称为“平均指令周期数(Cycles per Instruction)”,是基于硬件事件抽样收集的基础性能指标之一,在抽样模式下也称为“性能监控计数器(PMC)分析”。该比率计算方式为:用处于非停机状态的处理器时钟周期数(Clockticks)除以已消耗指令数。每个处理器用于计算时钟周期数和已消耗指令数的确切事件可能并不相同,但 VTune Profiler 可辨别和使用正确的数量。29CPI 1 则可能是停滞时钟周期密集型应用,也可能是内存密集型应用。由此,我们可以得出结论,类似 chatGLM 等语言模型对内存带宽的要求非常高,性能往往受到内存操作或带宽的限制。很多场景下,消除内存操作的负载,性能会因此获得大幅收益。在优化此类模型时,如何在不影响精度的同时对模型进行压缩或轻量化处理是一项不可或缺的技巧。除此之外,在异构平台和框架上进行部署,还涉及到减少内存/设备存储之间的数据搬运等优化思路。因此,在压缩模型的同时,还需要考虑对原始 pytorch 模型推理 forward/generates 等函数流水线的优化,而 OpenVINO 在优化模型自身的同时,还将流水线的优化思路体现在修改模型结构中(将 KV cache 保存在模型内部),通过优化 Optimum-intel 等框架的流水线,减少内存拷贝和数据搬运。结论 笔者根据上述方法重新设计执行图并优化了 GLMBlock,消除了 ChatGLM 模型输入和输出之间的内存副本,且模型运行高效。随着 OpenVINO 的不断升级,本方案的优化工作也将得到推广并集成至正式发布的版本中。这将有助于扩展更多的大语言模型用例。敬请参考 OpenVINO 官方版本iii 和 Optimum-intel OpenVINO 后端iv,获取有关大语言模型的官方高效支持。作者简介:英特尔 OpenVINO 开发工具客户支持工程师赵桢和邹文艺,英特尔 OpenVINO 开发工具 AI 框架工程师罗成和李亭骞,都在从事 AI 软件工具开发与优化工作。i https:/ ii https:/huggingface.co/THUDM/chatglm-6b/blob/main/config.json iii https:/ iv https:/huggingface.co/docs/optimum/main/en/intel/index 30众多内置加速器,让性能更进一步 在企业和机构寻求扩大规模、降低成本和提供新服务的过程中,通过技术来实现商业价值的重要性日益凸显。面对新的应用场景,他们无需定制系统(这可能会增加复杂性),而是可以通过使用易于扩展的平台来满足现在和未来各种部署的性能需求。第四代英特尔 至强 可扩展处理器旨在为人工智能(AI)、数据分析、存储和科学计算方面快速增长的工作负载提供性能加速。该处理器具备多种内置加速器,帮助人们将零信任安全策略付诸实践,同时利用先进的安全技术,即使面对敏感或受监管的数据,也能解锁新的商业合作机会和洞察。使用这款处理器,您可以跨多个云和边缘环境进行扩展,满足自身的部署需求。英特尔 至强 可扩展处理器具有很强的灵活性,可在其上选择不同的云服务,帮助企业顺利实现应用移植。英特尔几大加速引擎,重新定义性能重新定义您对处理器的期望。与增加 CPU 内核数相比,内置加速器是一种提升性能更有效的方法。通过内置加速器和软件优化,上一代英特尔 至强 可扩展处理器已被证明可以在真实场景下的目标工作负载上实现出色的性能功耗比1。这不但可以提高 CPU 利用率,降低功耗,并提高投资回报率(ROI),同时还能帮助企业实现可持续发展目标。BigDL-LLM:在英特尔 平台上加速大语言模型的便捷新利器视频:在一台搭载英特尔 至强 铂金 8468 处理器的服务器上运行 330 亿参数大语言模型的实际速度(实时录屏)B Bi ig gD DL L-L LL LMM:英特尔 平台上的开源大语言模型加速库 BigDL-LLM 是一个针对大语言模型的优化加速库,是开源 BigDL 的一部分,通过 Apache 2.0 许可证发布。它提供了各种低精度优化(例如 INT4/INT5/INT8),并可利用多种英特尔 CPU 集成的硬件加速技术(AVX/VNNI/AMX 等)和最新的软件优化,来赋能大语言模型在英特尔 平台上实现更高效的优化和更为快速的运行。BigDL-LLM 的一大重要特性是:对基于 Hugging Face Transformers API 的模型,只需改动一行代码即可对模型进行加速,理论上可以支持运行任何 Transformers 模型,这对熟悉 Transformers API 的开发者非常友好。除了 Transformers API,很多人也会使用 LangChain 来开发大语言模型应用。为此,BigDL-LLM 也提供便于使用的 LangChain 的集成iii,从而让开发者能够轻松使用 BigDL-作者:英特尔公司黄晟盛、黄凯、戴金权 我们正迈入一个由大语言模型(Large Language Model,LLM)驱动的 AI 新时代,LLM 在诸如客户服务、虚拟助理、内容创作、编程辅助等各类应用中正发挥着越来越重要的作用。然而,随着 LLM 规模不断扩大,运行大模型所需的资源消耗也越来越大,导致其运行也越来越慢,这给 AI 应用开发者带来了相当大的挑战。为此,英特尔最近推出了一个名为 BigDL-LLMi 的大模型开源库,可助力 AI 开发者和研究者在英特尔 平台上加速优化大语言模型,提升大语言模型在英特尔 平台上的使用体验。下面就展示了使用 BigDL-LLM 加速过的 330 亿参数的大语言模型 Vicuna-33b-v1.3ii 在一台搭载英特尔 至强 铂金 8468 处理器的服务器上运行的实时效果。31LLM 来开发新应用或迁移现有的、基于 Transformers API 或 LangChain API 的应用。此外,对于一般的 PyTorch 大语言模型(没有使用 Transformer 或 LangChain API 的模型),也可使用 BigDL-LLM optimize_model API 一键加速来提升性能。详情请参阅 GitHub READMEiv 以及官方文档v。BigDL-LLM 还提供了大量常用开源 LLM 的加速样例(e.g.使用 Transformers API 的 样例vi 和使用 LangChain API 的样例vii,以及教程(包括配套 jupyter notebooks)viii,方便开发者快速上手尝试。安装和使用:简便的安装过程和易用的 A AP PI I 接口 安装 BigDL-LLM 非常简便,只需执行如下所示的这一行命令即可。pip install-pre-upgrade bigdl-llmall 使用 BigDL-LLM 对大模型进行加速也是非常容易的(这里仅用 Transformers 风格 API 进行举例)。使用 BigDL-LLM Transformer 风格 API 对模型加速,只需要改动模型加载部分,后续使用过程与原生 Transformers 完全一致。而用 BigDL-LLM API 加载模型的方式与 Transformers API 也几乎一致用户只需要更改 import,在 from_pretrained 参数中设置 l lo oa ad d_ _i in n_ _4 4b bi it t=T Tr ru ue e 即可。BigDL-LLM 会在加载模型的过程中对模型进行 4-bit 低精度量化,并在后续推理过程中利用各种软硬件加速技术优化其执行。#Load Hugging Face Transformers model with INT4 optimizations from bigdl.llm.transformers import AutoModelForCausalLM model=AutoModelForCausalLM.from_pretrained(/path/to/model/,load_in_4bit=True)示例:快速实现一个基于大语言模型的语音助手应用 下文将以 LLM 常见应用场景“语音助手”为例,展示采用 BigDL-LLM 快速实现 LLM 应用的案例。通常情况下,语音助手应用的工作流程分为以下两个部分:图 1 1.语音助手工作流程示意 1、语音识别使用语音识别模型(本示例采用了 Whisper 模型ix)将用户的语音转换为文本;2、文本生成将 1 中输出的文本作为提示语(prompt),使用一个大语言模型(本示例采用了 Llama2x)生成回复。以下是本文使用 BigDL-LLM 和 LangChainxi 来搭建语音助手应用的过程:在语音识别阶段:第一步,加载预处理器 processor 和语音识别模型 recog_model。本示例中使用的识别模型 Whisper 是一个 Transformers 模型。只需使用 BigDL-LLM 中的 A Au ut to oMMo od de el lF Fo or rS Sp pe ee ec ch hS Se eq q2 2S Se eq q 并设置参数 l lo oa ad d_ _i in n_ _4 4b bi it t=T Tr ru ue e,就能够以 INT4 精度加载并加速这一模型,从而显著缩短模型推理用时。Whisper Llama2 语音 文字 回答 32processor=WhisperProcessor.from_pretrained(recog_model_path)recog_model=AutoModelForSpeechSeq2Seq.from_pretrained(recog_model_path,load_in_4bit=True)第二步,进行语音识别。首先使用处理器从输入语音中提取输入特征,然后使用识别模型预测 token,并再次使用处理器将 token 解码为自然语言文本。input_features=processor(frame_data,sampling_rate=audio.sample_rate,return_tensor=“pt”).input_features predicted_ids=recogn_model.generate(input_features,forced_decoder_ids=forced_decoder_ids)text=processor.batch_decode(predicted_ids,skip_special_tokens=True)0 在文本生成阶段,首先使用 BigDL-LLM 的 T Tr ra an ns sf fo or rmme er rs sL LL LMM A AP PI I 创建一个 LangChain 语言模型(TransformersLLM 是在 BigDL-LLM 中定义的语言链 LLM 集成)。您可以使用这个 API 加载任何一个 Hugging Face Transformers 模型。llm=TransformersLLM.from_model_id(model_id=llm_model_path,model_kwargs=temperature:0,max_length:args.max_length,trust_remote_code:True,)然后,创建一个正常的对话链 L LL LMMC Ch ha ai in n,并将已经创建的 llm 设置为输入参数。#The following code is complete the same as the use-case voiceassistant_chain=LLMChain(llm=llm,prompt=prompt,verbose=True,memory=ConversationBufferWindowMemory(k=2),)这个链条将会记录所有的对话历史,并将对话历史适当地格式化为大语言模型的提示语,用于生成回复。这时候只需要将识别模型生成的文本作为“human_input”输入即可,代码如下:response_text=voiceassistant_chain.predict(human_input=text,stop=”nn”)最后,将语音识别和文本生成步骤放入循环中,即可在多轮对话中与该“语音助手”交谈。您可访问此链接xii,查看完整的示例代码,并使用自己的电脑进行尝试。快用 BigDL-LLM 来快速搭建自己的语音助手吧!33作者简介:英特尔公司 AI 资深架构师黄晟盛,英特尔公司 AI 框架工程师黄凯,英特尔院士、大数据技术全球 CTO、BigDL 项目创始人戴金权,都在从事大数据和 AI 相关工作。i https:/ ii Vicuna 模型是社区基于 LLaMA 模型微调而得的。https:/huggingface.co/lmsys/vicuna-33b-v1.3 iii https:/ iv https:/ v https:/bigdl.readthedocs.io/en/latest/doc/LLM/index.html vi https:/ vii https:/ viii https:/ ix https:/ x https:/huggingface.co/meta-llama/Llama-2-7b-chat-hf xi https:/ xii https:/ 343536第四代英特尔 至强 可扩展处理器产品简介众多内置加速器,让性能更进一步 在企业和机构寻求扩大规模、降低成本和提供新服务的过程中,通过技术来实现商业价值的重要性日益凸显。面对新的应用场景,他们无需定制系统(这可能会增加复杂性),而是可以通过使用易于扩展的平台来满足现在和未来各种部署的性能需求。第四代英特尔 至强 可扩展处理器旨在为人工智能(AI)、数据分析、存储和科学计算方面快速增长的工作负载提供性能加速。该处理器具备多种内置加速器,帮助人们将零信任安全策略付诸实践,同时利用先进的安全技术,即使面对敏感或受监管的数据,也能解锁新的商业合作机会和洞察。使用这款处理器,您可以跨多个云和边缘环境进行扩展,满足自身的部署需求。英特尔 至强 可扩展处理器具有很强的灵活性,可在其上选择不同的云服务,帮助企业顺利实现应用移植。英特尔几大加速引擎,重新定义性能重新定义您对处理器的期望。与增加 CPU 内核数相比,内置加速器是一种提升性能更有效的方法。通过内置加速器和软件优化,上一代英特尔 至强 可扩展处理器已被证明可以在真实场景下的目标工作负载上实现出色的性能功耗比1。这不但可以提高 CPU 利用率,降低功耗,并提高投资回报率(ROI),同时还能帮助企业实现可持续发展目标。英特尔 高级矩阵扩展(Intel Advanced Matrix Extensions,英特尔 AMX)可加速自然语言处理(NLP)、推荐系统和图像识别等深度学习(DL)推理和训练工作负载。面向 vRAN 的英特尔 高级矢量扩展(Intel Advanced Vector Extensions,英特尔 AVX)在相同功耗范围内可将虚拟无线接入网络(vRAN)的密度较上一代产品提高多达 2 倍2。英特尔 数据流加速器(Intel Data Streaming Accelerator,英特尔 DSA)可通过优化流数据的传输和转换操作,大幅提升存储、网络和数据密集型工作负载的性能。英特尔 高级矢量扩展 512(Intel Advanced Vector Extensions 512,英特尔 AVX-512)支持多达两个融合乘加(FMA)单元,并包含多项优化,可为要求严苛的计算任务提高性能。英特尔 存内分析加速器(Intel In-Memory Analytics Accelerator,英特尔 IAA)可提高数据分析性能,同时从 CPU 内核上卸载任务,为数据库查询及其他工作负载加速。英特尔 数据保护与压缩加速技术(英特尔 QAT)可加速加解密和数据压缩,它通过从处理器内核卸载这些任务,帮助降低系统资源消耗。英特尔 密码操作硬件加速(Intel Crypto Acceleration)降低了实施普遍数据加密的影响,并提高了安全套接字层(SSL)Web 服务器、5G 基础设施和 VPN/防火墙等加密敏感型工作负载的性能。英特尔 动态负载均衡器(Intel Dynamic Load Balancer,英特尔 DLB)可随系统负载的变化将网络数据动态地分配到多个 CPU 内核上,基于硬件高效实现负载平衡。373 倍RocksDB 性能提升这是在启用内置的英特尔 IAA 时与上一代产品的比较结果5高达1.53 倍平均性能增益(与上一代产品的比较)3 高达10 倍PyTorch 实时推理和训练性能提升这是在启用内置的英特尔 AMX(BF16)时与上一代产品(FP32)的比较结果4 高达1.6 倍的 IOPS 提升和高达 37%的时延降低这是面对大型数据包顺序读任务,启用英特尔 DSA 时与上一代产品的比较结果6高达95%内核减少幅度以及 2 倍一级压缩吞吐量提升这是启用内置的英特尔 QAT 时与上一代产品的比较结果7高达容量增益这是在相同功耗范围内与上一代产品在 vRAN 工作负载方面的比较结果22 倍高达产品简介|第四代英特尔 至强 可扩展处理器AI凭借更优的矢量指令和矩阵乘法运算,第四代英特尔 至强 可扩展处理器展现出更为出色的 AI 推理和训练性能。英特尔 AMX 可以显著提高推荐系统、NLP、图像识别、媒体处理和分发以及媒体分析等深度学习工作负载的性能。科学计算第四代英特尔 至强 可扩展处理器可以提高科学计算工作负载中常见的多线程代码性能。这些工作负载包括制造业仿真、分子动力学、地球系统建模以及 AI 推理和训练。该处理器内置的加速器可提供较高的精度水平,同时还能加速多种 AI 数据类型的处理。该处理器还支持 DDR5 内存、PCIe Gen5、英特尔 超级通道互联(Intel Ultra Path Interconnect,英特尔 UPI)2.0 和 Compute Express Link(CXL),显著提升了整体数据的吞吐量。数据分析第四代英特尔 至强 可扩展处理器内置的加速器可增强内存数据库、大数据、数据仓库、商业智能(BI)、企业资源规划(ERP)和运营分析的性能。其中,英特尔 DSA 可改善数据处理密集型应用中常见的流数据传输和转换操作,英特尔 IAA 可通过卸载 CPU 内核的任务来提升数据库操作的吞吐量。网络和存储英特尔 DLB 可平衡内核间的操作并实现网络数据包优先排序。英特尔 DSA 可卸载数据复制及常见的数据转换操作,从而释放内核周期。这些内置加速器能够实现高效的网络数据分配和企业存储数据传输,并能够改善云计算的内存管理操作,因而使云计算性能更为出色。加密英特尔 QAT 现已内置于第四代英特尔 至强 可扩展处理器,可为密码操作和压缩操作加速。英特尔 QAT 可以显著提高 CPU 效率和应用吞吐量,同时减少数据占用空间和功耗,赋能企业和机构在不影响性能的情况下强化加密操作。安全性英特尔 软件防护扩展(Intel Software Guard Extensions,英特尔 SGX)是目前市场上经过深入研究、多次更新和广泛部署的数据中心级机密计算技术,拥有极小的信任边界。238进一步提升网络、存储和计算性能,并通过将繁重的任务卸载到英特尔 基础设施处理单元(Intel Infrastructure Processing Unit,英特尔 IPU)来提高 CPU 利用率通过英特尔 UPI 2.0 提高多路带宽(高达 16 GT/s)使用英特尔 Speed Select 技术(英特尔 SST)调整 CPU配置,满足特定工作负载的需求增加三级缓存(LLC)共享容量(所有内核共享多达 100 MB LLC)通过硬件增强型安全功能加强您对安全态势的掌控使用英特尔 Virtual RAID on CPU(英特尔 VROC),从而无需再用单独的 RAID 卡产品简介|第四代英特尔 至强 可扩展处理器技术概述第四代英特尔 至强 可扩展处理器采用全新架构,单核性能比上一代产品更高,每路配备多达 60 个内核。每个系统支持单路、双路、四路或八路配置。为了与内核数增加这种情况相匹配,该平台在内存和输入/输出(I/O)子系统方面也做了相应改进。DDR5 内存提供的带宽和速度与 DDR4 相比提高多达 1.5 倍,速率达到 4,800 MT/s8。此外,该平台还具有每路 80 条 PCIe Gen5 通道的特点,与之前的平台相比,I/O 得到显著提升9。本代处理器还可提供 CXL 1.1 连接,支持高网络带宽并使附加加速器能够高效运行。第四代英特尔 至强 可扩展处理器支持的技术让您可以根据工作负载要求的变化灵活扩展和调整。此外,本代处理器还可助您实现以下优势:第四代英特尔 至强 可扩展处理器的新特性或新功能PCI Express Gen5(PCIe 5.0)DDR5CXL带来全新的 I/O 速度,可在 CPU 和互联设备之间实现更高的吞吐量。第四代英特尔 至强 可扩展处理器具有多达 80 条 PCIe 5.0 通道,非常适合高速网络、高带宽加速器和高性能存储设备。PCIe 5.0 的 I/O 带宽是 PCIe 4.0 的两倍9,仍具备向后兼容性并提供用于 CXL 连接的基础插槽。以更高内存带宽克服数据瓶颈,提高计算性能。与 DDR4 相比,DDR5 的带宽提高多达 1.5 倍10,因此有机会提升性能、容量和能效并降低成本。借助 DDR5,第四代英特尔 至强 可扩展处理器提供的速率可高达 4,800 MT/s(1 DPC)或 4,400 MT/s(2 DPC)。借助面向下一代工作负载的 CXL 1.1,降低数据中心的计算时延并帮助减少总体拥有成本(TCO)。CXL 是另一种跨标准 PCIe 物理层运行的协议,可以在同一链路上同时支持标准 PCIe 设备和 CXL 设备。CXL 可带来的一大关键能力是:在 CPU 和加速器之间创建统一且一致的内存空间,它将革新未来数年数据中心服务器架构的构建方式。以丰富的选择和出色的灵活性实现扩展英特尔 至强 可扩展处理器从硬件到系统再到软件,英特尔提供值得信赖的技术基石,帮助企业和机构实现一系列不断扩张的业务目标,同时更好地保护数据安全。无论是提供更大的计算密度来降低功耗,还是加速 AI 工作流程,抑或是支持转向云原生架构,英特尔 至强 可扩展处理器都可帮助企业和机构解决至关重要的业务挑战,提供更丰富的云选择和更出色的应用可移植性。产品简介|第四代英特尔 至强 可扩展处理器第四代英特尔 至强 可扩展处理器概述英特尔 至强 铂金 8400 处理器是打造安全且敏捷的混合云数据中心的基石,专为高级数据分析、AI、高密度基础设施和多云工作负载而设计。这些处理器具备更高性能、强大的平台功能和出色的工作负载加速能力。它们具有更出色的基于硬件的安全性和强大的多路处理性能特定型号的英特尔 至强 铂金 8400 处理器支持多达 8 路配置。借助值得信赖且经过硬件增强的数据服务交付以及全新的 I/O 和连接技术,这些处理器在 I/O、内存、存储和网络技术方面均实现提升,因而能够更好地在数据驱动程度日益加深的世界中挖掘可执行洞察。相关提升包括:每个英特尔 至强 可扩展处理器具备多达 60 个内核每个处理器有 8 条内存通道,速率高达 4,800 MT/s(1 DPC)英特尔 AMX 支持下的 AI 加速带来深度学习推理和训练性能的巨大飞跃英特尔 至强 金牌 6400 和英特尔 至强 金牌 5400 处理器最多可扩展到四路11,并已针对要求严苛的主流数据中心、多云计算以及网络和存储工作负载进行了优化。这些处理器支持更快的内存速度和更大的内存容量,带来了更高的性能、更强大的内存功能、硬件增强型安全性和工作负载加速。英特尔 至强 银牌 4400 处理器可提供基本性能、更快的内存速度和更出色的能效,具备入门级数据中心计算、网络和存储所需的硬件增强型性能。了解更多信息有关上述处理器如何推动企业业务发展的更多信息,请见 和 8 路的可扩展性4 个英特尔 UPI 端口,速率为 16 GT/s80 条 PCIe 5.0 通道 CXL支持 DDR5,速率高达 4,800 MT/s(每通道 1 个 DIMM)或 4,400 MT/s(每通道 2 个 DIMM)支持英特尔 傲腾 持久内存 300 系列英特尔 AVX-512(两个 512 位 FMA)英特尔 超线程技术和英特尔 睿频加速技术英特尔 AMX英特尔 SST先进的可靠性、可用性和可维护性(RAS)英特尔 SGX 最大飞地容量高达 128 GB(在特定型号的 SKU 上最大飞地容量高达 512 GB)可通过英特尔 QAT、英特尔 DLB、英特尔 DSA 和英特尔 IAA 加速工作负载多达 4 路的可扩展性3 个英特尔 UPI 端口,速率为 16 GT/s80 条 PCIe 5.0 通道 CXL支持 DDR5,速率高达 4,800 MT/s(每通道 1 个 DIMM)或 4,400 MT/s(每通道 2 个 DIMM)支持英特尔 傲腾 持久内存 300 系列英特尔 AVX-512(两个 512 位 FMA)英特尔 超线程技术和英特尔 睿频加速技术英特尔 深度学习加速技术和英特尔 AMX英特尔 SST先进的 RAS英特尔 SGX 最大飞地容量高达 128 GB可通过英特尔 QAT、英特尔 DLB、英特尔 DSA 和英特尔 IAA 加速工作负载多达 2 路的可扩展性2 个英特尔 UPI 端口,速率为 16 GT/s80 条 PCIe 5.0 通道 CXL支持 DDR5,速率高达 4,800 MT/s(每通道 1 个 DIMM)或 4,400 MT/s(每通道 2 个 DIMM)英特尔 AVX-512(两个 512 位 FMA)英特尔 超线程技术和英特尔 睿频加速技术英特尔 深度学习加速技术和英特尔 AMX英特尔 SGX 最大飞地容量高达 64 GB可通过英特尔 QAT、英特尔 DLB、英特尔 DSA 和英特尔 IAA 加速工作负载产品简介|第四代英特尔 至强 可扩展处理器第四代英特尔 至强 可扩展处理器概述英特尔 至强 铂金 8400 处理器是打造安全且敏捷的混合云数据中心的基石,专为高级数据分析、AI、高密度基础设施和多云工作负载而设计。这些处理器具备更高性能、强大的平台功能和出色的工作负载加速能力。它们具有更出色的基于硬件的安全性和强大的多路处理性能特定型号的英特尔 至强 铂金 8400 处理器支持多达 8 路配置。借助值得信赖且经过硬件增强的数据服务交付以及全新的 I/O 和连接技术,这些处理器在 I/O、内存、存储和网络技术方面均实现提升,因而能够更好地在数据驱动程度日益加深的世界中挖掘可执行洞察。相关提升包括:每个英特尔 至强 可扩展处理器具备多达 60 个内核每个处理器有 8 条内存通道,速率高达 4,800 MT/s(1 DPC)英特尔 AMX 支持下的 AI 加速带来深度学习推理和训练性能的巨大飞跃英特尔 至强 金牌 6400 和英特尔 至强 金牌 5400 处理器最多可扩展到四路11,并已针对要求严苛的主流数据中心、多云计算以及网络和存储工作负载进行了优化。这些处理器支持更快的内存速度和更大的内存容量,带来了更高的性能、更强大的内存功能、硬件增强型安全性和工作负载加速。英特尔 至强 银牌 4400 处理器可提供基本性能、更快的内存速度和更出色的能效,具备入门级数据中心计算、网络和存储所需的硬件增强型性能。了解更多信息有关上述处理器如何推动企业业务发展的更多信息,请见 和 8 路的可扩展性4 个英特尔 UPI 端口,速率为 16 GT/s80 条 PCIe 5.0 通道 CXL支持 DDR5,速率高达 4,800 MT/s(每通道 1 个 DIMM)或 4,400 MT/s(每通道 2 个 DIMM)支持英特尔 傲腾 持久内存 300 系列英特尔 AVX-512(两个 512 位 FMA)英特尔 超线程技术和英特尔 睿频加速技术英特尔 AMX英特尔 SST先进的可靠性、可用性和可维护性(RAS)英特尔 SGX 最大飞地容量高达 128 GB(在特定型号的 SKU 上最大飞地容量高达 512 GB)可通过英特尔 QAT、英特尔 DLB、英特尔 DSA 和英特尔 IAA 加速工作负载多达 4 路的可扩展性3 个英特尔 UPI 端口,速率为 16 GT/s80 条 PCIe 5.0 通道 CXL支持 DDR5,速率高达 4,800 MT/s(每通道 1 个 DIMM)或 4,400 MT/s(每通道 2 个 DIMM)支持英特尔 傲腾 持久内存 300 系列英特尔 AVX-512(两个 512 位 FMA)英特尔 超线程技术和英特尔 睿频加速技术英特尔 深度学习加速技术和英特尔 AMX英特尔 SST先进的 RAS英特尔 SGX 最大飞地容量高达 128 GB可通过英特尔 QAT、英特尔 DLB、英特尔 DSA 和英特尔 IAA 加速工作负载多达 2 路的可扩展性2 个英特尔 UPI 端口,速率为 16 GT/s80 条 PCIe 5.0 通道 CXL支持 DDR5,速率高达 4,800 MT/s(每通道 1 个 DIMM)或 4,400 MT/s(每通道 2 个 DIMM)英特尔 AVX-512(两个 512 位 FMA)英特尔 超线程技术和英特尔 睿频加速技术英特尔 深度学习加速技术和英特尔 AMX英特尔 SGX 最大飞地容量高达 64 GB可通过英特尔 QAT、英特尔 DLB、英特尔 DSA 和英特尔 IAA 加速工作负载产品简介|第四代英特尔 至强 可扩展处理器第四代英特尔 至强 可扩展处理器概述英特尔 至强 铂金 8400 处理器是打造安全且敏捷的混合云数据中心的基石,专为高级数据分析、AI、高密度基础设施和多云工作负载而设计。这些处理器具备更高性能、强大的平台功能和出色的工作负载加速能力。它们具有更出色的基于硬件的安全性和强大的多路处理性能特定型号的英特尔 至强 铂金 8400 处理器支持多达 8 路配置。借助值得信赖且经过硬件增强的数据服务交付以及全新的 I/O 和连接技术,这些处理器在 I/O、内存、存储和网络技术方面均实现提升,因而能够更好地在数据驱动程度日益加深的世界中挖掘可执行洞察。相关提升包括:每个英特尔 至强 可扩展处理器具备多达 60 个内核每个处理器有 8 条内存通道,速率高达 4,800 MT/s(1 DPC)英特尔 AMX 支持下的 AI 加速带来深度学习推理和训练性能的巨大飞跃英特尔 至强 金牌 6400 和英特尔 至强 金牌 5400 处理器最多可扩展到四路11,并已针对要求严苛的主流数据中心、多云计算以及网络和存储工作负载进行了优化。这些处理器支持更快的内存速度和更大的内存容量,带来了更高的性能、更强大的内存功能、硬件增强型安全性和工作负载加速。英特尔 至强 银牌 4400 处理器可提供基本性能、更快的内存速度和更出色的能效,具备入门级数据中心计算、网络和存储所需的硬件增强型性能。了解更多信息有关上述处理器如何推动企业业务发展的更多信息,请见 和 8 路的可扩展性4 个英特尔 UPI 端口,速率为 16 GT/s80 条 PCIe 5.0 通道 CXL支持 DDR5,速率高达 4,800 MT/s(每通道 1 个 DIMM)或 4,400 MT/s(每通道 2 个 DIMM)支持英特尔 傲腾 持久内存 300 系列英特尔 AVX-512(两个 512 位 FMA)英特尔 超线程技术和英特尔 睿频加速技术英特尔 AMX英特尔 SST先进的可靠性、可用性和可维护性(RAS)英特尔 SGX 最大飞地容量高达 128 GB(在特定型号的 SKU 上最大飞地容量高达 512 GB)可通过英特尔 QAT、英特尔 DLB、英特尔 DSA 和英特尔 IAA 加速工作负载多达 4 路的可扩展性3 个英特尔 UPI 端口,速率为 16 GT/s80 条 PCIe 5.0 通道 CXL支持 DDR5,速率高达 4,800 MT/s(每通道 1 个 DIMM)或 4,400 MT/s(每通道 2 个 DIMM)支持英特尔 傲腾 持久内存 300 系列英特尔 AVX-512(两个 512 位 FMA)英特尔 超线程技术和英特尔 睿频加速技术英特尔 深度学习加速技术和英特尔 AMX英特尔 SST先进的 RAS英特尔 SGX 最大飞地容量高达 128 GB可通过英特尔 QAT、英特尔 DLB、英特尔 DSA 和英特尔 IAA 加速工作负载多达 2 路的可扩展性2 个英特尔 UPI 端口,速率为 16 GT/s80 条 PCIe 5.0 通道 CXL支持 DDR5,速率高达 4,800 MT/s(每通道 1 个 DIMM)或 4,400 MT/s(每通道 2 个 DIMM)英特尔 AVX-512(两个 512 位 FMA)英特尔 超线程技术和英特尔 睿频加速技术英特尔 深度学习加速技术和英特尔 AMX英特尔 SGX 最大飞地容量高达 64 GB可通过英特尔 QAT、英特尔 DLB、英特尔 DSA 和英特尔 IAA 加速工作负载产品简介|第四代英特尔 至强 可扩展处理器第四代英特尔 至强 可扩展处理器概述英特尔 至强 铂金 8400 处理器是打造安全且敏捷的混合云数据中心的基石,专为高级数据分析、AI、高密度基础设施和多云工作负载而设计。这些处理器具备更高性能、强大的平台功能和出色的工作负载加速能力。它们具有更出色的基于硬件的安全性和强大的多路处理性能特定型号的英特尔 至强 铂金 8400 处理器支持多达 8 路配置。借助值得信赖且经过硬件增强的数据服务交付以及全新的 I/O 和连接技术,这些处理器在 I/O、内存、存储和网络技术方面均实现提升,因而能够更好地在数据驱动程度日益加深的世界中挖掘可执行洞察。相关提升包括:每个英特尔 至强 可扩展处理器具备多达 60 个内核每个处理器有 8 条内存通道,速率高达 4,800 MT/s(1 DPC)英特尔 AMX 支持下的 AI 加速带来深度学习推理和训练性能的巨大飞跃英特尔 至强 金牌 6400 和英特尔 至强 金牌 5400 处理器最多可扩展到四路11,并已针对要求严苛的主流数据中心、多云计算以及网络和存储工作负载进行了优化。这些处理器支持更快的内存速度和更大的内存容量,带来了更高的性能、更强大的内存功能、硬件增强型安全性和工作负载加速。英特尔 至强 银牌 4400 处理器可提供基本性能、更快的内存速度和更出色的能效,具备入门级数据中心计算、网络和存储所需的硬件增强型性能。了解更多信息有关上述处理器如何推动企业业务发展的更多信息,请见 和 8 路的可扩展性4 个英特尔 UPI 端口,速率为 16 GT/s80 条 PCIe 5.0 通道 CXL支持 DDR5,速率高达 4,800 MT/s(每通道 1 个 DIMM)或 4,400 MT/s(每通道 2 个 DIMM)支持英特尔 傲腾 持久内存 300 系列英特尔 AVX-512(两个 512 位 FMA)英特尔 超线程技术和英特尔 睿频加速技术英特尔 AMX英特尔 SST先进的可靠性、可用性和可维护性(RAS)英特尔 SGX 最大飞地容量高达 128 GB(在特定型号的 SKU 上最大飞地容量高达 512 GB)可通过英特尔 QAT、英特尔 DLB、英特尔 DSA 和英特尔 IAA 加速工作负载多达 4 路的可扩展性3 个英特尔 UPI 端口,速率为 16 GT/s80 条 PCIe 5.0 通道 CXL支持 DDR5,速率高达 4,800 MT/s(每通道 1 个 DIMM)或 4,400 MT/s(每通道 2 个 DIMM)支持英特尔 傲腾 持久内存 300 系列英特尔 AVX-512(两个 512 位 FMA)英特尔 超线程技术和英特尔 睿频加速技术英特尔 深度学习加速技术和英特尔 AMX英特尔 SST先进的 RAS英特尔 SGX 最大飞地容量高达 128 GB可通过英特尔 QAT、英特尔 DLB、英特尔 DSA 和英特尔 IAA 加速工作负载多达 2 路的可扩展性2 个英特尔 UPI 端口,速率为 16 GT/s80 条 PCIe 5.0 通道 CXL支持 DDR5,速率高达 4,800 MT/s(每通道 1 个 DIMM)或 4,400 MT/s(每通道 2 个 DIMM)英特尔 AVX-512(两个 512 位 FMA)英特尔 超线程技术和英特尔 睿频加速技术英特尔 深度学习加速技术和英特尔 AMX英特尔 SGX 最大飞地容量高达 64 GB可通过英特尔 QAT、英特尔 DLB、英特尔 DSA 和英特尔 IAA 加速工作负载产品简介|第四代英特尔 至强 可扩展处理器第四代英特尔 至强 可扩展处理器概述英特尔 至强 铂金 8400 处理器是打造安全且敏捷的混合云数据中心的基石,专为高级数据分析、AI、高密度基础设施和多云工作负载而设计。这些处理器具备更高性能、强大的平台功能和出色的工作负载加速能力。它们具有更出色的基于硬件的安全性和强大的多路处理性能特定型号的英特尔 至强 铂金 8400 处理器支持多达 8 路配置。借助值得信赖且经过硬件增强的数据服务交付以及全新的 I/O 和连接技术,这些处理器在 I/O、内存、存储和网络技术方面均实现提升,因而能够更好地在数据驱动程度日益加深的世界中挖掘可执行洞察。相关提升包括:每个英特尔 至强 可扩展处理器具备多达 60 个内核每个处理器有 8 条内存通道,速率高达 4,800 MT/s(1 DPC)英特尔 AMX 支持下的 AI 加速带来深度学习推理和训练性能的巨大飞跃英特尔 至强 金牌 6400 和英特尔 至强 金牌 5400 处理器最多可扩展到四路11,并已针对要求严苛的主流数据中心、多云计算以及网络和存储工作负载进行了优化。这些处理器支持更快的内存速度和更大的内存容量,带来了更高的性能、更强大的内存功能、硬件增强型安全性和工作负载加速。英特尔 至强 银牌 4400 处理器可提供基本性能、更快的内存速度和更出色的能效,具备入门级数据中心计算、网络和存储所需的硬件增强型性能。了解更多信息有关上述处理器如何推动企业业务发展的更多信息,请见 和 8 路的可扩展性4 个英特尔 UPI 端口,速率为 16 GT/s80 条 PCIe 5.0 通道 CXL支持 DDR5,速率高达 4,800 MT/s(每通道 1 个 DIMM)或 4,400 MT/s(每通道 2 个 DIMM)支持英特尔 傲腾 持久内存 300 系列英特尔 AVX-512(两个 512 位 FMA)英特尔 超线程技术和英特尔 睿频加速技术英特尔 AMX英特尔 SST先进的可靠性、可用性和可维护性(RAS)英特尔 SGX 最大飞地容量高达 128 GB(在特定型号的 SKU 上最大飞地容量高达 512 GB)可通过英特尔 QAT、英特尔 DLB、英特尔 DSA 和英特尔 IAA 加速工作负载多达 4 路的可扩展性3 个英特尔 UPI 端口,速率为 16 GT/s80 条 PCIe 5.0 通道 CXL支持 DDR5,速率高达 4,800 MT/s(每通道 1 个 DIMM)或 4,400 MT/s(每通道 2 个 DIMM)支持英特尔 傲腾 持久内存 300 系列英特尔 AVX-512(两个 512 位 FMA)英特尔 超线程技术和英特尔 睿频加速技术英特尔 深度学习加速技术和英特尔 AMX英特尔 SST先进的 RAS英特尔 SGX 最大飞地容量高达 128 GB可通过英特尔 QAT、英特尔 DLB、英特尔 DSA 和英特尔 IAA 加速工作负载多达 2 路的可扩展性2 个英特尔 UPI 端口,速率为 16 GT/s80 条 PCIe 5.0 通道 CXL支持 DDR5,速率高达 4,800 MT/s(每通道 1 个 DIMM)或 4,400 MT/s(每通道 2 个 DIMM)英特尔 AVX-512(两个 512 位 FMA)英特尔 超线程技术和英特尔 睿频加速技术英特尔 深度学习加速技术和英特尔 AMX英特尔 SGX 最大飞地容量高达 64 GB可通过英特尔 QAT、英特尔 DLB、英特尔 DSA 和英特尔 IAA 加速工作负载产品简介|第四代英特尔 至强 可扩展处理器第四代英特尔 至强 可扩展处理器概述英特尔 至强 铂金 8400 处理器是打造安全且敏捷的混合云数据中心的基石,专为高级数据分析、AI、高密度基础设施和多云工作负载而设计。这些处理器具备更高性能、强大的平台功能和出色的工作负载加速能力。它们具有更出色的基于硬件的安全性和强大的多路处理性能特定型号的英特尔 至强 铂金 8400 处理器支持多达 8 路配置。借助值得信赖且经过硬件增强的数据服务交付以及全新的 I/O 和连接技术,这些处理器在 I/O、内存、存储和网络技术方面均实现提升,因而能够更好地在数据驱动程度日益加深的世界中挖掘可执行洞察。相关提升包括:每个英特尔 至强 可扩展处理器具备多达 60 个内核每个处理器有 8 条内存通道,速率高达 4,800 MT/s(1 DPC)英特尔 AMX 支持下的 AI 加速带来深度学习推理和训练性能的巨大飞跃英特尔 至强 金牌 6400 和英特尔 至强 金牌 5400 处理器最多可扩展到四路11,并已针对要求严苛的主流数据中心、多云计算以及网络和存储工作负载进行了优化。这些处理器支持更快的内存速度和更大的内存容量,带来了更高的性能、更强大的内存功能、硬件增强型安全性和工作负载加速。英特尔 至强 银牌 4400 处理器可提供基本性能、更快的内存速度和更出色的能效,具备入门级数据中心计算、网络和存储所需的硬件增强型性能。了解更多信息有关上述处理器如何推动企业业务发展的更多信息,请见 和 第三代英特尔 至强 可扩展处理器与 AMD EPYC 处理器相比。详情请见以下网址的 126130:https:/ 至强 可扩展处理器)。结果可能不同。2 详情请见以下网址的 N9:https:/ 至强 可扩展处理器)。结果可能不同。3 详情请见以下网址的 G1:https:/ 至强 可扩展处理器)。结果可能不同。4 详情请见以下网址的 A16:https:/ 至强 可扩展处理器)。结果可能不同。5 详情请见以下网址的 D1:https:/ 至强 可扩展处理器)。结果可能不同。6 详情请见以下网址的 N18:https:/ 至强 可扩展处理器)。结果可能不同。7 详情请见以下网址的 N16:https:/ 至强 可扩展处理器)。结果可能不同。8 详情请见以下网址的 G2:https:/ 至强 可扩展处理器)。结果可能不同。9 第四代英特尔 至强 可扩展处理器每个 CPU 有 80 条 PCIe 5.0 通道,并支持 Flex Bus/CXL,而第三代英特尔 至强 可扩展处理器则是每个 CPU 有 64 条 PCIe 4.0 通道。10 第四代英特尔 至强 可扩展处理器具备 8 通道 DDR5,速率高达 4,800 MT/s(1 DPC),而第三代英特尔 至强 可扩展处理器配备 8 通道 DDR4,速率为 3,200 MT/s(2 DPC)。11 仅部分英特尔 至强 金牌 6400 处理器提供多达四路的可扩展性。加速器是否可用视 SKU 而定。更多产品详情,请见英特尔 产品规格页面。实际性能受使用情况、配置和其他因素的差异影响。更多信息请见 。英特尔公司版权所有。英特尔、英特尔标识以及其他英特尔商标是英特尔公司或其子公司的商标。其他的名称和品牌可能是其他所有者的资产。1222/MG/PRW/PDF 请回收利用产品简介|第四代英特尔 至强 可扩展处理器541技术简介人工智能(AI)英特尔 高级矩阵扩展(英特尔 AMX)借助英特尔 高级矩阵扩展(英特尔 AMX)加速人工智能(AI)工作负载第四代英特尔 至强 可扩展处理器内置 AI 加速器英特尔 AMX,是企业和机构优化 AI 流水线的理想选择。平衡推理是 CPU 在 AI 应用中的主要用例,英特尔 AMX 专为该用例设计并且具备更多训练能力(见图 1)3。目前,在所有运行 AI 推理工作负载的已装机数据中心处理单元中,英特尔 至强 可扩展处理器的占比高达 70%;因此,为新的 AI 部署选择内置英特尔 AMX 的第四代英特尔 至强 可扩展处理器,是一种既高效又具有成本效益的 AI 工作负载加速方式4。英特尔推出的第四代英特尔 至强 可扩展处理器及其内置的英特尔 高级矩阵扩展(Intel Advanced Matrix Extensions,英特尔 AMX)可进一步提高 AI 功能,实现较上一代产品 3 至 10 倍的推理和训练性能提升1。图 1.AI 流水线中的 AI 工作负载和处理器活动优化 AI 流水线从图书和电影推荐系统到驱动大型电商网站的数字化零售软件,再到支持聊天机器人和机器翻译的自然语言处理(NLP)功能,企业可通过在不同场景中应用人工智能(AI)获得诸多收益。AI 真正的价值在于其解析复杂环境和海量数据的特性,以及解决以往难解之题的能力,而这正是不断推进企业革新的关键潜能。据研究显示,到 2025 年,90%新发布的企业应用版本都将包含嵌入式 AI 功能2。数据传入模型选择训练推理GPU CPUGPU CPU数据模型部署数据探索和预处理CPUCPUCPUAI 流水线3 个外方框表示 AI 流水线各阶段。5 个内方框表示 AI 工作负载。方框大小表明 AI 流水线中处理器活动的相对水平。42图 2.第四代英特尔 至强 可扩展处理器内置英特尔 AMX,加速 PyTorch 实时推理56024810125.706.196.256.248.6110.0.55.4444.510.3图 3.第四代英特尔 至强 可扩展处理器内置英特尔 AMX,加速 PyTorch 训练5通过图 4 可以看出英特尔 AMX 带来的性能提升远大于每一代产品(从第一代英特尔 至强 可扩展处理器开始)通过增加内核所实现的性能提升。解决方案简介|借助英特尔 高级矩阵扩展(英特尔 AMX)加速人工智能(AI)工作负载选择内置加速器的理由目前,采用内置英特尔 深度学习加速技术(Intel Deep Learning Boost,英特尔 DL Boost)的第三代英特尔 至强 可扩展处理器支持 AI 部署,可满足 IT 部门履行客户服务级别协议(SLA)的要求,而内置英特尔 AMX 的第四代英特尔 至强 可扩展处理器则将带来新的变革。图 2 所示为英特尔 AMX 在代际间实现高达 5.7 至 10 倍的 PyTorch 实时推理性能提升的情况;图 3 所示为英特尔 AMX 在代际间实现高达 3.5 至 10 倍的 PyTorch 训练性能提升的情况5。凭借更强性能,英特尔 AMX 将进一步提升客户满意度。英特尔 AMX 加速器内置于企业和机构业已熟悉的 CPU 解决方案之中,可显著提升多方面性能,让您在选择适合 AI 应用的 CPU 时更轻松。第四代英特尔 至强 可扩展处理器内置英特尔 AMX,实现高达 5.7 至 10 倍的代际实时推理性能提升(越高越好)ResNeXt101 32x16dResNet-50 v1.5BERT-LargeMask R-CNNRNN-TSSD-ResNets-34PyTorch新配置:第四代英特尔 至强 铂金 8480 处理器(英特尔 AMX BF16)基准配置:第三代英特尔 至强 铂金 8380 处理器(FP32)图像分类NLP图像分割语音识别对象检测第四代英特尔 至强 可扩展处理器内置英特尔 AMX,实现高达 3.5 至 10 倍的代际训练性能提升(越高越好)ResNet-50 v1.5BERT-LargeDLRMMask R-CNNSSD-ResNets-34RNN-TPyTorch新配置:第四代英特尔 至强 铂金 8480 处理器(英特尔 AMX BF16)基准配置:第三代英特尔 至强 铂金 8380 处理器(FP32)图像分类NLP推荐系统图像分割对象检测语音识别2435100图 4.以第一代英特尔 至强 可扩展处理器为基准,与前几代产品相比,英特尔 AMX 实现非线性性能提升6。英特尔 AMX 是什么?英特尔 AMX 是内置于第四代英特尔 至强 可扩展处理器中的加速器,可优化深度学习(DL)训练和推理工作负载。借助英特尔 AMX,第四代英特尔 至强 可扩展处理器可在优化通用计算和 AI 工作负载间快速转换。设想一辆汽车,既有非常出色的城市道路行驶表现,也可以迅速转换模式,展现 F1 赛事级别的竞速性能。第四代英特尔 至强 可扩展处理器就具备这种灵活性。开发人员可以编写非 AI 功能代码来利用处理器的指令集架构(ISA),也可编写 AI 功能代码,以充分发挥英特尔 AMX 指令集的优势。英特尔已将其 oneAPI DL 引擎英特尔 oneAPI 深度神经网络库(Intel oneAPI Deep Neural Network Library,英特尔 oneDNN)集成至包括 TensorFlow、PyTorch、PaddlePaddle 和 ONNX 在内的多个主流 AI 应用开源工具当中。英特尔 AMX 架构英特尔 AMX 架构由两部分组件构成(见图 5):第一部分为 TILE,由 8 个 1 KB 大小的 2D 寄存器组成,可存储大数据块。第二部分为平铺矩阵乘法(TMUL),它是与 TILE 连接的加速引擎,可执行用于 AI 的矩阵乘法计算。解决方案简介|借助英特尔 高级矩阵扩展(英特尔 AMX)加速人工智能(AI)工作负载摩尔定律与加速器为工作负载匹配合适的计算引擎英特尔 DL Boost 英特尔 AMXResNet-50 v1.5 批推理TensorFlow,INT8越高越好相对吞吐量英特尔 至强 可扩展处理器(28 个内核)第二代英特尔 至强 可扩展处理器(28 个内核)第三代英特尔 至强 可扩展处理器(40 个内核)第四代英特尔 至强 可扩展处理器(56 个内核)11 倍性能提升2 倍内核数 增长相对内核数344解决方案简介|借助英特尔 高级矩阵扩展(英特尔 AMX)加速人工智能(AI)工作负载英特尔 AMX 支持两种数据类型:INT8 和 BF16,两者均可用于 AI 工作负载所需的矩阵乘法运算。当推理无需 FP32(AI 经常使用的单精度浮点格式)的精度时可使用 INT8 这种数据类型。由于该数据类型的精度较低,因此单位计算周期内运算次数就更多。BF16 这种数据类型实现的准确度足以达到大多数训练的要求,必要时它也能让 AI 推理实现更高的准确度。凭借这种新的平铺架构,英特尔 AMX 实现了大幅代际性能提升。与运行英特尔 高级矢量扩展 512 神经网络指令(Intel Advanced Vector Extensions 512 Neural Network Instructions,英特尔 AVX-512 VNNI)的第三代英特尔 至强 可扩展处理器相比,运行英特尔 AMX 的第四代英特尔 至强 可扩展处理器将单位计算周期内执行 INT8 运算的次数从 256 次提高至 2048 次。此外,如图 6 所示,第四代英特尔 至强 可扩展处理器可在单位计算周期内执行 1024 次 BF16 运算,而第三代英特尔 至强 可扩展处理器执行 FP32 运算的次数仅为 64 次7。图 6.与英特尔 AVX-512 VNNI 相比,英特尔 AMX 在处理 INT8 和 BF16 两种数据类型时表现更出色7。64256 2 9 01 3 52 4 78 1 5图 5.英特尔 AMX 架构由 2D 寄存器文件(TILE)和 TMUL 组成英特尔 AMXTILE:2D 寄存器文件平铺矩阵乘法(TMUL)每核可存储 更大的数据块可在单次运算中计算更大矩阵的指令浮点数整数2,0481,02416 倍 速度 提升8 倍速度 提升英特尔 AVX-512(FP32)英特尔 AVX-512 VNNI(INT8)英特尔 AMX(BF16)英特尔 AMX(INT8)满载时,单核单周期运算次数(越高越好)满载时,单核单周期运算次数(越高越好)445推荐系统 无论是推荐电影和图书,还是进行广告精准投放,均可带来个性化的终端用户体验。基于深度学习(DL)创建可将用户实时行为,以及近乎实时的时间和地点等相关场景特征考虑在内的推荐系统。自然语言处理(NLP)语言推理、机器学习(ML)等自然语言处理(NLP)应用是企业支持和扩展情绪分析、聊天机器人和机器翻译等多种功能的关键所在,预计到 2029 年,自然语言处理应用的全球市场规模将达到 1,618.1 亿美元8。零售电商软件解决方案 在 PyTorch、TensorFlow 等已面向 AI 优化的框架基础上,通过使用深度学习(DL)推理和训练,大幅缩短交易时间,满足峰值需求,助力零售企业增加收入并提供出色的客户体验。使用英特尔 AMX 立启新加速借助英特尔 AMX,几乎无需费力,即可提升性能。这得益于多个默认使用的框架都经过英特尔 oneDNN 的优化。Windows 和 Linux 操作系统、基于内核的虚拟机(KVM)和多个主流虚拟机管理程序都支持英特尔 AMX 指令集。INT8 和 BF16 运算在 TensorFlow 和 PyTorch 等开源框架内可自动优化。开发人员可借助英特尔 分发版 OpenVINO 工具包(Intel Distribution of OpenVINO toolkit)实现 AI 推理的自动化、优化、微调和运行,且几乎或者完全不需要具备编码知识。而且,开发人员只需使用英特尔 Neural Compressor 便可将训练模型量化为 INT8 数据类型。使用第四代英特尔 至强 可扩展处理器为 AI 加速使用内置英特尔 AMX 的第四代英特尔 至强 可扩展处理器,充分挖掘 AI 无限潜能,更好助力千行百业。在数据中心已广泛部署英特尔 至强 可扩展处理器的基础之上更进一步,借助全新矩阵乘法运算加速方案,体验更加出色的 AI 训练和推理性能。有关英特尔 人工智能和英特尔 AMX 的更多信息,请访问 高级矩阵扩展(英特尔 AMX)加速人工智能(AI)工作负载AI 用例内置英特尔 AMX 的第四代英特尔 至强 可扩展处理器可用于广泛的深度学习(DL)用例。546解决方案简介|借助英特尔 高级矩阵扩展(英特尔 AMX)加速人工智能(AI)工作负载61 详情请见以下网址的 A16,A17:(第四代英特尔 至强 可扩展处理器)。结果可能不同。2sebroF ,“Top Artificial Intelligence(AI)Predictions For 2020 From IDC and Forrester”IDC 和 Forrester 有关 2020 年人工智能(AI)领域的重大预测,2019 年 11 月,。3mrof ta lP txeN ehT ,“With AMX,Intel Adds AI/ML Sparkle to Sapphire Rapids”(英特尔凭借 AMX 使第四代英特尔 至强 可扩展处理器具备出色的 AI/ML 性能),2021 年 8 月,。4 基于英特尔对截至 2021 年 12 月运行 AI 推理工作负载的全球数据中心服务器装机容量的市场建模。5hcroTyP 模型性能配置。PT-NLP BERT-Large:8480:单节点,配备 2 个英特尔 至强 铂金 8480 处理器的非量产平台,总内存 1,024 GB(16 插槽/64 GB/DDR5-4800),ucode 0 x2b0000a1,启用英特尔 超线程技术(Intel Hyper-Threading Technology,英特尔 HT 技术),启用英特尔 睿频加速技术,CentOS Stream 8,5.15.0,1 个 1 TB 英特尔 固态盘 SC2KW256G8(PT)/Samsung 固态盘 860 EVO(TF),BERT-Large,推理:SQuAD1.1(序列长度=384),bs=1(4 核/实例),bs=n(单路/实例),bs:FP32=1,56,英特尔 AMX BF16=1,16,英特尔 AMX INT8=1,56,Trg:维基百科 2020 年 1 月 1 日(序列长度=512),bs:FP32=28,英特尔 AMX BF16=56(单实例,单路),框架:innersource/frameworks.ai.pytorch.private-cpu/tree/d7607bdd983093396a70713344828a989b766a66;ModelZoo:https:/ 2022 年 10 月 24 日进行的测试。8380:单节点,2 个英特尔 至强 铂金 8380 处理器,总内存 1,024 GB(16 插槽/64 GB/DDR4-3200),ucode 0 xd000375,启用英特尔 HT 技术,启用英特尔 睿频加速技术,Ubuntu 22.04 LTS,5.15.0-27-generic,1 个英特尔 固态盘 SC2KG960G8,BERT-Large,推理:SQuAD1.1(序列长度=384),bs=1(4 核/实例),bs=n(单路/实例),bs:FP32=1,56,INT8=1,56,Trg:维基百科 2020 年 1 月 1 日(序列长度=512),bs:FP32=28,英特尔 AMX BF16=56(单实例,单路),框架:;ModelZoo:,PT:1.13,IPEX:1.13,oneDNN:v2.7,基于英特尔 2022 年 10 月 24 日进行的测试。PT-DLRM:8480:单节点,配备 2 个英特尔 至强 铂金 8480 处理器的非量产平台,总内存 1,024 GB(16 插槽/64 GB/DDR5-4800),ucode 0 x2b0000a1,启用英特尔 HT 技术,启用英特尔 睿频加速技术,CentOS Stream 8,5.15.0,1 个 1 TB 英特尔 固态盘 SC2KW256G8(PT)/Samsung 固态盘 860 EVO(TF),DLRM,推理:bs=n(单路/实例),bs:FP32=128,英特尔 AMX BF16=128,英特尔 AMX INT8=128,训练 bs:fp32/英特尔 AMX BF16=32K(单实例,单路),Criteo TB 数据集,框架:;ModelZoo:,PT:1.13,IPEX:1.13,oneDNN:v2.7,基于英特尔 2022 年 10 月 24 日进行的测试。8380:单节点,2 个英特尔 至强 铂金 8380 处理器,总内存 1,024 GB(16 插槽/64 GB/DDR4-3200),ucode 0 xd000375,启用英特尔 HT 技术,启用英特尔 睿频加速技术,Ubuntu 22.04 LTS,5.15.0-27-generic,1 个英特尔 固态盘 SC2KG960G8,DLRM,推理:bs=n(单路/实例),bs:FP32=128,INT8=128,训练 bs:FP32=32K(单实例,单路),Criteo TB 数据集,框架:;ModelZoo:,PT:1.13,IPEX:1.13,oneDNN:v2.7,基于英特尔 2022 年 10 月 24 日进行的测试。PT-ResNets-34:8480:单节点,配备 2 个英特尔 至强 铂金 8480 处理器的非量产平台,总内存 1,024 GB(16 插槽/64 GB/DDR5-4800),ucode 0 x2b0000a1,启用英特尔 HT 技术,启用英特尔 睿频加速技术,CentOS Stream 8,5.15.0,1 个 1 TB 英特尔 固态盘 SC2KW256G8(PT)/Samsung 固态盘 860 EVO(TF),SSD-ResNet-34,推理:bs=1(4 核/实例),bs=n(单路/实例),bs:FP32=1,112,英特尔 AMX BF16=1,112,英特尔 AMX INT8=1,112,训练 bs:FP32/英特尔 AMX BF16=224(单实例,单路),COCO 2017,框架:;ModelZoo:public,PT:1.13,IPEX:1.13,oneDNN:v2.7,基于英特尔 2022 年 10 月 24 日进行的测试。8380:单节点,2 个英特尔 至强 铂金 8380 处理器,总内存 1,024 GB(16 插槽/64 GB/DDR4-3200),ucode 0 xd000375,启用英特尔 HT 技术,启用英特尔 睿频加速技术,Ubuntu 22.04 LTS,5.15.0-27-generic,1 个英特尔 固态盘 SC2KG960G8,SSD-ResNet-34,推理:bs=1(4 核/实例),bs=n(单路/实例),bs:FP32=1,112,INT8=1,112,训练 bs:FP32=224(单实例,单路),COCO 2017,框架:;ModelZoo:,PT:1.13,IPEX:1.13,oneDNN:v2.7,基于英特尔 2022 年 10 月 24 日进行的测试。PT-ResNets-50:8480:单节点,配备 2 个英特尔 至强 铂金 8480 处理器的非量产平台,总内存 1,024 GB(16 插槽/64 GB/DDR5-4800),ucode 0 x2b0000a1,启用英特尔 HT 技术,启用英特尔 睿频加速技术,CentOS Stream 8,5.15.0,1 个 1 TB 英特尔 固态盘 SC2KW256G8(PT)/Samsung 固态盘 860 EVO(TF),ResNet-50 v1.5,推理:bs=1(4 核/实例),bs=n(单路/实例),bs:FP32=1,64,英特尔 AMX BF16=1,64,英特尔 AMX INT8=1,116,训练 bs:FP32,英特尔 AMX BF16=128(单实例,单路),ImageNet(224 x 224),框架:6a66;ModelZoo:,PT:1.13,IPEX:1.13,oneDNN:v2.7,基于英特尔 2022 年 10 月 24 日进行的测试。8380:单节点,2 个英特尔 至强 铂金 8380 处理器,总内存 1,024 GB(16 插槽/64 GB/DDR4-3200),ucode 0 xd000375,启用英特尔 HT 技术,启用英特尔 睿频加速技术,Ubuntu 22.04 LTS,5.15.0-27-generic,1 个英特尔 固态盘 SC2KG960G8,ResNet-50 v1.5,推理:bs=1(4 核/实例),bs=n(单路/实例),bs:FP32=1,64,INT8=1,116,训练 bs:FP32=128(单实例,单路),ImageNet(224 x 224),框架:;ModelZoo:https:/,PT:1.13,IPEX:1.13,oneDNN:v2.7,基于英特尔 2022 年 10 月 24 日进行的测试。PT-RNN-T:8480:单节点,配备 2 个英特尔 至强 铂金 8480 处理器的非量产平台,总内存 1,024 GB(16 插槽/64 GB/DDR5-4800),ucode 0 x2b0000a1,启用英特尔 HT 技术,启用英特尔 睿频加速技术,CentOS Stream 8,5.15.0,1 个 1 TB 英特尔 固态盘 SC2KW256G8(PT)/Samsung 固态盘 860 EVO(TF),Resnext101 32x16d,推理:bs=1(4 核/实例),bs=n(单路/实例),bs:FP32=1,64,英特尔 AMX BF16=1,64,英特尔 AMX INT8=1,116,ImageNet,框架:;ModelZoo:,PT:1.13,IPEX:1.13,oneDNN:v2.7,基于英特尔 2022 年 10 月 24 日进行的测试。8380:单节点,2 个英特尔 至强 铂金 8380 处理器,总内存 1,024 GB(16 插槽/64 GB/DDR4-3200),ucode 0 xd000375,启用英特尔 HT 技术,启用英特尔 睿频加速技术,Ubuntu 22.04 LTS,5.15.0-27-generic,1 个英特尔 固态盘 SC2KG960G8,Resnext101 32x16d,推理:bs=1(4 核/实例),bs=n(单路/实例),bs:FP32=1,64,INT8=1,116,ImageNet,框架:;ModelZoo:public,PT:1.13,IPEX:1.13,oneDNN:v2.7,基于英特尔 2022 年 10 月 24 日进行的测试。PT-ResNext101:8480:单节点,配备 2 个英特尔 至强 铂金 8480 处理器的非量产平台,总内存 1,024 GB(16 插槽/64 GB/DDR5-4800),ucode 0 x2b0000a1,启用英特尔 HT 技术,启用英特尔 睿频加速技术,CentOS Stream 8,5.15.0,1 个 1 TB 英特尔 固态盘 SC2KW256G8(PT)/Samsung 固态盘 860 EVO(TF),Resnext101 32x16d,bs=n(单路/实例),推理:bs:FP32=1,64,英特尔 AMX BF16=1,64,英特尔 AMX INT8=1,116,框架:;ModelZoo:,PT:1.13,IPEX:1.13,oneDNN:v2.7,基于英特尔 2022 年 10 月 24 日进行的测试。8380:单节点,2 个英特尔 至强 铂金 8380 处理器,总内存 1,024 GB(16 插槽/64 GB/DDR4-3200),ucode 0 xd000375,启用英特尔 HT 技术,启用英特尔 睿频加速技术,Ubuntu 22.04 LTS,5.15.0-27-generic,1 个英特尔 固态盘 SC2KG960G8,Resnext101 32x16d,bs=n(单路/实例),推理:bs:FP32=1,64,INT8=1,116,框架:6a66;ModelZoo:,PT:1.13,IPEX:1.13,oneDNN:v2.7,基于英特尔 2022 年 10 月 24 日进行的测试。PT-MaskRCNN:8480:单节点,配备 2 个英特尔 至强 铂金 8480 处理器的非量产平台,总内存 1,024 GB(16 插槽/64 GB/DDR5-4800),ucode 0 x2b0000a1,启用英特尔 HT 技术,启用英特尔 睿频加速技术,CentOS Stream 8,5.15.0,1 个英特尔 固态盘 SC2KW256G8(PT)/Samsung 固态盘 860 EVO(TF),MaskRCNN,推理:bs=1(4 核/实例),bs=n(单路/实例),bs:FP32=1,112,英特尔 AMX BF16=1,112,训练 bs:FP32/英特尔 AMX BF16=112(单实例,单路),COCO 2017,框架:;ModelZoo:,PT:1.13,IPEX:1.13,oneDNN:v2.7,基于英特尔 2022 年 10 月 24 日进行的测试。8380:单节点,2 个英特尔 至强 铂金 8380 处理器,总内存 1,024 GB(16 插槽/64 GB/DDR4-3200),ucode 0 xd000375,启用英特尔 HT 技术,启用英特尔 睿频加速技术,Ubuntu 22.04 LTS,5.15.0-27-generic,1 个英特尔 固态盘 SC2KG960G8,MaskRCNN,推理:bs=1(4 核/实例),bs=n(单路/实例),bs:FP32=1,112,训练 bs:FP32=112(单实例,单路),COCO 2017,框架:;ModelZoo:https:/ 2022 年 10 月 24 日进行的测试。推理:ResNet-50 v1.5:ImageNet(224 x 224),SSD ResNet-34:COCO 2017(1200 x 1200),BERT-Large:SQuAD1.1(序列长度=384),Resnext101:ImageNet,Mask RCNN:COCO 2017,DLRM:Criteo TB 数据集,RNNT:LibriSpeech。训练:ResNet-50 v1.5:ImageNet(224 x 224),SSD ResNet-34:COCO 2017,BERT-Large:维基百科 2020 年 1 月 1 日(序列长度=512),DLRM:Criteo TB 数据集,RNNT:LibriSpeech,Mask RCNN:COCO 2017.6 用于 INT8 测试的软件配置:TensorFlow ResNet-50 v1.5,推理:BS=116(INT8),单实例/路。oneDNN v2.7,面向英特尔 架构优化的 TensorFlow 2.10。基于英特尔分别于 2022 年 10 月 24 日(第三代和第四代英特尔 至强 可扩展处理器)和 2022 年 7 月 19 日(第二代和第一代英特尔 至强 可扩展处理器)进行的测试。硬件配置:第四代英特尔 至强 可扩展处理器硬件配置(已测):配备 2 个英特尔 至强 铂金 8480 处理器的非量产平台56 核,350 W 热设计功耗(TDP),1 TB(8 通道/64 GB/4800 MHz)的 DDR5 总内存,使用 BKC 01,使用英特尔 AMX/INT8 和 BF16,CentOS Stream 8,英特尔 AMX 内核(5.15),测试结果可能不同。第三代英特尔 至强 可扩展处理器硬件配置(已测):单节点,2 个英特尔 至强 铂金 8380 处理器(40 核/2.3 GHz,270 W TDP),1 TB(8 插槽/64 GB/3,200 MHz)DDR4 总内存,ucode 0 xd0002f2,启用英特尔 HT 技术,启用英特尔 睿频加速技术,Ubuntu 20.04.2 LTS(Focal Fossa),5.4.0-73-generic,1 个英特尔 固态盘 SC2CW480A3 操作系统盘。第二代英特尔 至强 可扩展处理器硬件配置(已测):单节点,2 个英特尔 至强 铂金 8280 处理器,28 核,英特尔 HT 技术,启用英特尔 睿频加速技术,384 GB 总内存(12 插槽/32 GB/2,933 MHz),BIOS:SE5C620.86B.02.01.0013.(ucode:0 x500320a),CentOS Stream 8,4.18.0-383.el8.x86_64。英特尔 至强 可扩展处理器硬件配置(已测):单节点,2 个英特尔 至强 铂金 8180 处理器,28 核,英特尔 HT 技术,启用英特尔 睿频加速技术,384 GB 总内存(12 插槽/32 GB/2,666 MHz),BIOS:SE5C620.86B.0X.01.0117.021220182317(ucode:0 x2006b06),Ubuntu 20.04.2 LTS,5.4.0-73-generic。7 基于假设 CPU 满载情况下单个内核在单个周期内进行矩阵乘法 累加运算的架构峰值处理能力。截至 2021 年 8 月。配合工作负载/配置信息请见 Events 项下的 Architecture Day 2021)。结果可能不同。8 有关全球 NLP 市场规模信息的来源:Fortune Business Insights,“Natural Language Processing(NLP)Market Size,Share&COVID-19 Impact Analysis,By Deployment(On-Premises,Cloud,Hybrid),By Enterprise Size(SMEs,and Large Enterprises),By Technology(Interactive Voice Response(IVR),Optical Character Recognition(OCR),Text Analytics,Speech Analytics,Classification and Categorization),By Industry Vertical(Healthcare,Retail,High Tech,and Telecom,BFSI)and Regional Forecast,2022-2029”按照部署(本地、云端、混合)、企业规模(中小企业和大型企业)、技术交互式语音应答(IVR)、光学字符识别(OCR)、文本分析、语音分析、分类、行业垂直领域医疗,零售,高科技,电信及银行、金融服务和保险(BFSI)等类别对 2022 年至 2029 年自然语言处理(NLP)市场规模、占有率及新冠影响的分析及区域预测。2021 年 6 月, 高级矩阵扩展(英特尔 AMX)加速人工智能(AI)工作负载6实际性能受使用情况、配置和其他因素的差异影响。更多信息请见 请回收利用解决方案简介|借助英特尔 高级矩阵扩展(英特尔 AMX)加速人工智能(AI)工作负载747产品简介计算加速系统与图形英特尔 至强 CPUMax 系列5 倍性能提升(与第三代英特尔 至强 可扩展处理器 在内存带宽方面的对比)1双路英特尔 至强 CPU MAX 系列处理器与双路英特尔 至强 铂金 8380 处理器相比1从天气预报到绘制人类基因组图谱和助力治疗全球范围内的致命疾病,再到设计更节能的材料,科学计算触及到人类生活的方方面面。虽然科学计算和 AI 领域的进步提高了竞争力并将对科学计算的需求带至新的高度,但却没有“放之四海而皆准”的解决方案。传统的科学计算软件种类繁多,如果依据垂直领域和特性对常见的工作负载进行划分,有些属于内存密集型,有些则属于计算密集型;有些需要有大量控制流的小型内核(kernel),有些则需要支持数据并行处理的大型内核;但大多都涉及非常大的数据集。英特尔 至强 CPU Max 系列采用高带宽内存(HBM),为英特尔 至强 可扩展处理器家族注入新力量,它专为建模、人工智能、深度学习、科学计算和数据分析等数据密集型工作负载设计,专注解锁性能,加速新发现。更高带宽,更优性能英特尔 至强 CPU Max 系列采用全新微架构,支持一系列可提升平台能力的特性,包括更多内核、先进的 I/O 与内存子系统,以及可加速重大发现的内置加速器。英特尔 至强 CPU Max 系列具有以下特性:多达 56 个 P-core(性能核):内核由 4 个小芯片构成,采用英特尔的嵌入式多芯片互连桥接(EMIB)技术连接,功耗为 350 W。64 GB 高带宽封装内存及 PCIe 5.0 和 CXL 1.1 I/O。英特尔 至强 CPU Max 系列 每核均具备高带宽内存(HBM)容量,可满足大多数常见科学计算工作负载的要求。与其他 CPU 相比,在使用Numenta 的 AI 技术进行自然语言处理(NLP)时,其高带宽内存(HBM)优势可带来高达 20 倍的性能提升2。过去十年,随着人工智能(AI)技术的加入,峰值算力大幅增长,但由于在向内核传输 数据时效率低,因此工作负载性能未能同步提升。英特尔 至强 CPU Max 系列的诞生,使英特尔 至强 平台如虎添翼,它是英特尔唯一一个基于 x86 架构并采用高带宽内存的 CPU 系列,可释放和加速内存密集型科学计算和 AI 工作负载。5 倍性能提升(与第三代英特尔 至强 可扩展处理器 在内存带宽方面的对比)1双路英特尔 至强 CPU MAX 系列处理器与双路英特尔 至强 铂金 8380 处理器相比148支持快速获得发现、高效开展科研活动。使用英特尔 至强 CPU Max 系列和第四代英特尔 至强 可扩展处理器,您不但可以获得处理要求严苛的工作负载所需的性能与能效,还可得到各种出色的内置加速器的助力。您可以利用面向科学计算和 AI 工作负载的关键加速器,提高 CPU 使用效率、降低功耗、实现更高的投资回报率(ROI):英特尔 Intel Advanced Matrix Extensions AMX:英特尔 AMX 可显著加速基于 CPU 的深度学习推理和训练,从而进一步提升 AI 性能,与英特尔 高级矢量扩展 512(Intel Advanced Vector Extensions 512,英特尔 AVX-512)相比,它在进行 INT8/INT32 累加运算时可将峰值吞吐量提高 8 倍3。英特尔 Intel Data Streaming Accelerator DSA:可通过加速流数据传输,提升数据密集型工作负载的性能。在使用 NVMe over TCP 时,英特尔 DSA 可以将存储 IOPS 提升高达 79%,将时延降低多达 45%4。英特尔 512Intel Advanced Vector Extensions 512 AVX-512:通过矢量化实现性能提升,使更大数据集上的运算速度更快,满足科学仿真、AI/深度学习、3D 建模与分析以及其他密集型工作负载的要求。英特尔 AVX-512 是最新的 x86 矢量指令集,可为要求严苛的计算任务提升性能。O/I 升级包括:-5RDD :以更高内存带宽克服数据瓶颈,提高计算性能。与 DDR4 相比,DDR5 的带宽提高多达 1.5 倍4。-)0.5 eICP(5 neG sserpxE ICP :带来全新的 I/O 速度,可在 CPU 和设备之间实现更高的吞吐量。第四代英特尔 至强 可扩展处理器和英特尔 至强 CPU Max 系列处理器配备多达 80 条 PCIe 5.0 通道,其 I/O 带宽是 PCIe 4.0 的两倍4。-Compute Express Link(CXL)1.1:提供高网络带宽支持,并使附加加速器高效运行。至强:由于处理器插槽(Socket)配置相同,可轻松将英特尔 至强 CPU Max 系列处理器添加到第四代英特尔 至强 可扩展平台,并且在大多数部署方案中都无需更改代码。AI 英特尔 至强 CPU Max 系列处理器具备出色的灵活性,可根据工作负载的特性,在不同的内存模式或配置下运行:“HBM”:该模式支持内存容量需求不超过 64 GB 的工作负载以及每核 1 至 2 GB 的内存扩展能力,同时无需更改代码和另购 DDR,即可启动系统。“HBM Flat”:该模式可为需要大内存容量的应用提供 灵活性,它通过 HBM 和 DRAM 提供一个平面内存区域(flat memory region),适用于每核内存需求大于 2 GB 的工作负载。使用该模式时可能需要更改代码。“HBM”:旨在提升内存容量需求大于 64 GB 或每核 内存需求大于 2 GB 的工作负载的性能。使用该模式时,无需更改代码,且 HBM 可缓存来自 DDR 的事务。AI 整个英特尔 至强 CPU Max 系列的产品均得到 oneAPI 的支持。oneAPI 是一个统一的、基于标准的开放式通用编程模型,可释放生产力并解锁性能。开发人员可利用英特尔 oneAPI 工具套件以及面向特定领域的专用工具套件,打造跨多种架构运行的通用计算、科学计算和 AI 应用,并对其进行分析、优化和扩展。这些资源包括矢量化、多线程、多节点并行和内存优化方面的前沿技术,让您轻松构建随时能为科学计算所用的高性能、多架构软件。如需了解最新科学计算软件开发人员工具,请访问适用于第四代英特尔 至强 可扩展处理器及英特尔 至强 CPU Max 系列处理器的软件和科学计算软件和工具资源页面。英特尔 至强 CPU Max 系列内核数32-56HBM2e 内存 64 GBHBM 最大传输速率3200 MT/sDDR5 最大传输速率4800 MT/s(1 个 DPC)4400 MT/s(2 个 DPC)加速器AMX,4 个英特尔 DSAAI/ML 指令INT8 和 BFLOAT16产品简介|英特尔 至强 CPU Max 系列49SKU 编号内核数基频(GHz)全核睿频(GHz)最大睿频(GHz)缓存(MB)TDP(W)最大 可扩展性DDR5 内存速度英特尔 SGX 飞地容量(每个处理器)9480561.92.63.5112.5350双路4800512 GB94705222.73.5105350双路4800512 GB9468482.12.63.5105350双路4800512 GB9460402.22.73.597.5350双路4800128 GB9462322.73.13.575350双路4800128 GB英特尔 至强 CPU Max 系列处理器如需了解最新信息,请访问 至强 CPU Max 系列1 配合工作负载/配置信息请见 Events 项下的 Supercomputing 22)。结果可能不同。2 Numenta BERT-Large 英特尔 至强 铂金 8480 处理器:基于 2022 年 11 月 28 日 Numenta 所做的测试。单节点,2 个英特尔 至强 铂金 8480 处理器,512 GB DDR5-4800,Ubuntu 22.04 内核 5.17,OpenVINO 2022.3,经 Numenta 优化的 BERT-Large,序列长度为 512,批大小为 1 英特尔 至强 CPU Max 9468 处理器:基于 2022 年 11 月 30 日 Numenta 所做的测试。单节点,2 个英特尔 至强 CPU Max 9468 处理器,128 GB HBM2e3200 MT/s,Ubuntu 22.04 内核 5.15,OpenVINO 2022.3,经 Numenta 优化的 BERT-Large,序列长度为 512,批大小为 13 来源:英特尔网站 P-core(性能核)声明和细节部分有关英特尔 AMX 的描述。“性能指标:2021 年英特尔架构日”, Events 项下的 Architecture Day 2021)。4 更多信息请见 安全引擎助力创新加速,增强数据保护产品简介更高安全保障英特尔 至强 可扩展处理器英特尔 至强 CPU 配备多个英特尔 安全引擎(Intel Security Engine),可在维持出色性能的同时,帮助保护数据机密性与代码完整性。英特尔 至强 可扩展平台支持的机密计算技术可在数据应用过程中确保数据隐私得到保护 如今,对存储和传输状态下的数据进行加密处理已是行业的标准做法。然而,企业在数据保护方面的薄弱之处却是数据在处理器或内存中处于使用状态时。在这种情况下,个人可识别信息、电子病历和金融交易等敏感数据存在较高的被利用风险、很容易发生意外暴露或违反合规要求。使用机密计算技术,企业可利用敏感数据获得洞察,或者使用敏感数据进行 AI 模型训练,而不会将所用数据暴露给其他软件、合作方或云服务提供商。对于此前因过于敏感或出于监管原因而无法用于分析和其他目的的数据,机密计算技术为企业开辟了利用此类数据的多种可能。在基于双路英特尔 至强 可扩展处理器的服务器中,英特尔 软件防护扩展(Intel Software Guard Extensions,英特尔 SGX)飞地可处理高达 1 TB 的数据,因此为需要使用大型数据集的应用创造了更多机会。在完成训练或处理后,隐私信息都可在离开安全飞地前完成删除或重新加密。基于英特尔 至强 可扩展处理器的安全技术,助您释放数据活力,更快向前发展 数据是推动创新与进步的源动力。从检测欺诈性交易到开发响应更迅速的供应链,再到训练具有突破性的 AI 模型,企业可利用数据完成各种各样的任务。可将数据转化为业务洞察的企业能走得更快、更远。英特尔 至强 可扩展处理器的内置安全技术为各种数据(包括敏感、保密和处于监管之下的数据)保驾护航,使其可用于分析,进而帮助企业加速创新步伐。英特尔 SGX 是英特尔的独有技术,能够帮助保护使用中的数据。使用英特尔 至强 可扩展处理器的企业不必从数据分析和 AI 模型中剔除敏感数据,而是可通过英特尔 SGX 创建访问受限的数据安全飞地。这样的隔离环境可帮助企业在确保敏感数据始终处于保密状态的前提下,充分发挥其价值。英特尔 至强 CPU 配备多个英特尔 安全引擎(Intel Security Engine),可在维持出色性能的同时,帮助保护数据机密性与代码完整性。英特尔 至强 可扩展平台支持的机密计算技术可在数据应用过程中确保数据隐私得到保护 如今,对存储和传输状态下的数据进行加密处理已是行业的标准做法。然而,企业在数据保护方面的薄弱之处却是数据在处理器或内存中处于使用状态时。在这种情况下,个人可识别信息、电子病历和金融交易等敏感数据存在较高的被利用风险、很容易发生意外暴露或违反合规要求。使用机密计算技术,企业可利用敏感数据获得洞察,或者使用敏感数据进行 AI 模型训练,而不会将所用数据暴露给其他软件、合作方或云服务提供商。对于此前因过于敏感或出于监管原因而无法用于分析和其他目的的数据,机密计算技术为企业开辟了利用此类数据的多种可能。在基于双路英特尔 至强 可扩展处理器的服务器中,英特尔 软件防护扩展(Intel Software Guard Extensions,英特尔 SGX)飞地可处理高达 1 TB 的数据,因此为需要使用大型数据集的应用创造了更多机会。在完成训练或处理后,隐私信息都可在离开安全飞地前完成删除或重新加密。基于英特尔 至强 可扩展处理器的安全技术,助您释放数据活力,更快向前发展 数据是推动创新与进步的源动力。从检测欺诈性交易到开发响应更迅速的供应链,再到训练具有突破性的 AI 模型,企业可利用数据完成各种各样的任务。可将数据转化为业务洞察的企业能走得更快、更远。英特尔 至强 可扩展处理器的内置安全技术为各种数据(包括敏感、保密和处于监管之下的数据)保驾护航,使其可用于分析,进而帮助企业加速创新步伐。英特尔 SGX 是英特尔的独有技术,能够帮助保护使用中的数据。使用英特尔 至强 可扩展处理器的企业不必从数据分析和 AI 模型中剔除敏感数据,而是可通过英特尔 SGX 创建访问受限的数据安全飞地。这样的隔离环境可帮助企业在确保敏感数据始终处于保密状态的前提下,充分发挥其价值。51应用飞地系统管理程序应用CPU/内存产品简介|英特尔 安全引擎助力创新加速,增强数据保护借助英特尔 SGX 和英特尔 TDX,拥抱机密计算由英特尔 SGX 提供支持的机密计算可实现应用层面、虚拟机(VM)、容器和功能层面的数据隔离。无论是在云端、边缘还是本地环境,您都能确保自身的计算与数据始终获得私密性和安全性更高的保护,不会暴露给云服务提供商、未经授权的管理员和操作系统,甚至是特权应用。英特尔 SGX 经过广泛部署和研究,是数据中心可信执行环境(TEE)的重要技术实现,能够大幅减少系统内的攻击面1。英特尔 至强 可扩展处理器的这一特性为在多个云和边缘部署机密计算解决方案提供了重要支撑。英特尔 SGX 提供基于硬件的安全解决方案,可通过专用应用隔离技术帮助保护使用中的数据。开发人员可以通过保护选定的代码和数据不被查看或修改,在飞地内执行涉及敏感数据的操作,帮助提高应用的安全性和保护数据的机密性。英特尔推出英特尔 Trust Domain Extension(英特尔 TDX),进一步提升保护级别。这一全新工具将于 2023 年开始通过特选云服务提供商为企业在虚拟机(VM)层面提供隔离边界和机密保障。英特尔 TDX 可将客户机操作系统和虚拟机应用都与云端主机、系统管理程序和平台的其他虚拟机隔离开来。虽然英特尔 TDX 的信任边界比英特尔 SGX 应用层面的隔离边界大,但英特尔 TDX 能使机密虚拟机比应用安全飞地更易于进行大规模部署和管理。英特尔的机密计算技术产品组合在英特尔 SGX 和英特尔 TDX 加持下,允许企业选择他们需要的安全级别,以满足自身的业务需求和监管方面的要求。客户成功案例:英特尔 至强 可扩展处理器提供安全保障,助推创新进程 英特尔 SGX 和英特尔 至强 可扩展处理器帮助全英房屋抵押贷款协会(Nationwide Building Society)针对演进的“了解客户”(KYC)法律法规,简化合规流程。了解详情 宾夕法尼亚大学利用英特尔 至强 可扩展处理器和英特尔 SGX 优化 3DResUnet 肿瘤分割模型。测试结果:肿瘤边缘检测精度明显提升。阅读全文 图 1.英特尔 SGX 通过将敏感数据隔离在容量高达 1 TB 的飞地中,帮助保护敏感数据。机密计算的选择英特尔 SGX 用例人工智能(AI)/机器学习(ML)使用 AI 和 M L 处理 敏感或处于监管之下的数据,同时改善隐私法律法规的合规状况。云基础设施严格限制服务提供商或其他公有云租户对您私有数据的访问。可信的多方计算/多方分析支持多方在云端就共享数据开展协作,确保敏感数据始终处于保密状态。安全密钥管理使用安全飞地保护密钥并提供类似硬件安全模块(HSM)的功能。区块链增强交易处理、共识机制、智能契约和密钥存储的隐私性和安全性。网络功能虚拟化(NFV)为虚拟化网络功能建立信任机制。英特尔 SGX代码数据52产品简介|英特尔 安全引擎助力创新加速,增强数据保护OpenSSL 的英特尔 QAT 引擎则可使网络安全软件解决方案以更加直接的方式,充分发挥英特尔 密码操作硬件加速的性能。您可借助英特尔 至强 可扩展处理器的内置加密加速技术,缩短加密处理阶段的计算周期,提升开发人员的敏捷性,优化 DevOps 效率,并提升企业的用户体验。提高监管合规,加速数据分析 对企业有价值的数据经常受到严格的隐私法律法规约束,例如欧洲的 GDPR(通用数据保护条例)、美国的 HIPAA(健康保险携带和责任法案)和中国的 PIPL(个人信息保护法)。违反这些法律法规或会导致高额罚款和其他处罚,因此企业和机构 会因面临风险而无法充分利用敏感数据。目前,在使用个人可识别信息方面,已有变通方法可用,例如煞费苦心的匿名化处理,但这项耗时耗力的工作会大幅减缓分析速度,甚至还会影响准确性。借助英特尔 至强 可扩展处理器和内置的英特尔 SGX 技术,企业可以创建加密安全飞地,确保数据和应用的保密状态,从而改善合规状况,提升数据的可用性。利用英特尔 密码操作硬件加速增强安全性,提升数据保护性能如今,除了传统边界防御,数据中心还依靠加密技术来保护网络传输、存储和数据压缩等进程。随着加密技术的发展,CPU 需要执行的加密周期数量也呈爆炸式增长,这可能对性能和用户体验带来潜在影响。第四代英特尔 至强 可扩展处理器内置多项先进的加密加速技术,无需为数据中心增设更多内核或处理器,即可实现更高级别的加密安全性,提升性能并打造更加顺畅的用户体验。英特尔 数据保护与压缩加速技术(Intel QuickAssist Technology,英特尔 QAT)是一项成熟的数据压缩和加密加速技术,作为全新的内置加速器引入第四代英特尔 至强 可扩展处理器,用于支持动态数据压缩/解压缩和加密工作负载。通过卸载计算密集型工作负载,英特尔 QAT 可将更多内核容量释放给其他工作负载,同时显著降低成本和压缩数据的占用空间2。英特尔 密码操作硬件加速(Intel Crypto Acceleration)指令采用更加严格的加密协议,例如更长的密钥长度、更强大的算法和更多的加密数据类型3,以尽可能降低对用户体验的影响。通过使用更快的加密算法,用户不仅可获得性能提升和支持更高等级的服务级别协议(SLA),还可缩短计算周期,尤其是加密处理阶段的计算周期。在算法层面,密码操作硬件加速技术主要通过加密计算的以下三个方面实现性能提升:公开密钥加密:在安全套接字层(SSL)、前端网页和公开密钥基础设施等用例中,公开密钥的加解密速度可提升高达 6 倍4。批量加密:在安全数据传输、磁盘加密和流视频加密6 等用例中,使用英特尔 高级矢量扩展 512(Intel Advanced Vector Extensions 512,英特尔 AVX-512)可将加密的速度和性能提升高达 4 倍5。哈希:在数字签名、身份验证和完整性检查等用例中,例如安全套接字层(SSL)所用的安全哈希算法 1(SHA-1)和安全哈希算法 2(SHA-2,也称 SHA-256),安全哈希性能可提升高达 2 倍7。微软、SAP 和 Oracle 等公司所提供的多款商业软件包均已完成 相关优化,可利用英特尔 密码操作硬件加速。英特尔已对多款开源软件(众多 Linux 分发版、NGINX、Java OpenJDK Runtime 和 OpenSSL 库)完成优化,可支持英特尔 密码操作硬件加速。包括加密 API 工具套件在内的开发人员工具可在英特尔 SGX 安全飞地内以更加安全的方式运行加密操作。此外,英特尔 集成性能原语(Intel Integrated Performance Primitives,英特尔 IPP)加密库还可自动使用可用的 CPU 资源,而面向“到 2023 年,个人信息受现代隐私法律法规监管的全球人口比例将由当前的 10%增加到 65%。”Gartner8克服敏感数据共享的障碍 在企业和机构间共享数据可以大幅提升准确性,加快神经网络 训练等流程。英特尔 至强 可扩展处理器支持联邦学习等可信的 多方计算模型,使共享机密数据成为可能。使用内置英特尔 SGX 安全飞地的英特尔 至强 可扩展处理器,多个参与方就能够汇集敏感数据,共享共同分析带来的益处,而无需将各自的私有数据暴露给彼此。英特尔 SGX 的认证功能让我们更加确信:运行在安全飞地中的软件完全符合各方的预期和既定规约。助力博世跨越安全难关 英特尔携手工程技术领导企业博世和软件创新品牌 Edgeless Systems 全力加速博世自动驾驶辅助项目的开发进程。为训练计算机视觉模型,博世使用了车辆未来行驶的街道和地点的真实视频与图像。由于此类视频片段包含面部图像、车牌号等处于监管之下的个人可识别信息,因此需要经过匿名化处理,以便博世的工作人员对其进行访问。然而,对数据进行匿名化处理常常会降低 AI 训练数据的准确性。借助英特尔 SGX,博世可在英特尔 SGX 数据的安全飞地中使用原始实时视频片段训练模型,在提升训练速度和训练结果质量的同时,始终做到遵守数据隐私法律法规。53产品简介|英特尔 安全引擎助力创新加速,增强数据保护在云端和数据中心建立广泛且可扩展的信任机制 英特尔 安全技术在帮助企业利用云的灵活性和可扩展性的同时,能够降低暴露敏感数据的风险。英特尔 至强 可扩展处理器所支持的机密计算可将您的敏感数据与云服务提供商的软件、管理员和其他租户隔离开来。数据拥有者可通过远程认证功能,验证其安全飞地是否真实可信,是否处于最新状态,且只运行自身期望运行的软件。选择英特尔 至强 可扩展处理器,挖掘更多数据价值 现在,通过全球范围内的云服务提供商和系统制造商,都可获得内置英特尔 SGX 等安全功能的英特尔 至强 可扩展处理器。这些处理器不仅可为新服务提供支持,还可增加交易价值、防范金融犯罪、缩短研发周期,并推进使用敏感、有价值或处于监管之下的数据的应用不断向前发展。未来属于那些拥有数据的人。英特尔 加速引擎助您早日成为数据王者。进一步了解英特尔 安全引擎如何为您业务中最关键的工作负载带来出色性能和安全保障。英特尔机密计算一般提示和法律声明实际性能受使用情况、配置和其他因素的差异影响。更多信息请见性能指标网页。性能测试结果基于配置信息中显示的日期进行的测试,且可能并未反映所有公开可用的安全更新。详情请参阅配置信息披露。没有任何产品或组件是绝对安全的。具体成本和结果可能不同。配合工作负载/配置信息,请访问 https:/ 至强 可扩展处理器)。结果可能不同。英特尔技术可能需要启用硬件、软件或激活服务。英特尔公司版权所有。英特尔、英特尔标识以及其他英特尔商标是英特尔公司或其子公司的商标。其他的名称和品牌可能是其他所有者的资产。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。加速器是否可用视 SKU 而定。更多产品详情,请见英特尔产品规格页面。英特尔致力于尊重人权,坚决不参与谋划践踏人权的行为。参见英特尔的全球人权原则。英特尔的产品和软件仅限用于不会导致或有助于违反国际公认人权的应用。英特尔技术可能需要启用硬件、软件或激活服务。英特尔 软件防护扩展保护数据https:/ into Cryptographic Acceleration”(掘金于加密加速),https:/www.intel.co.jp/content/dam/www/central-libraries/us/en/documents/2022-08/tapping-into-cryptographic-acceleration-sb.pdf英特尔解决方案,“Tapping into Cryptographic Acceleration”(掘金于加密加速),https:/www.intel.co.jp/content/dam/www/central-libraries/us/en/documents/2022-08/tapping-into-cryptographic-acceleration-sb.pdf英特尔解决方案,“Tapping into Cryptographic Acceleration”(掘金于加密加速),https:/www.intel.co.jp/content/dam/www/central-libraries/us/en/documents/2022-08/tapping-into-cryptographic-acceleration-sb.pdf英特尔解决方案,“Tapping into Cryptographic Acceleration”(掘金于加密加速),https:/www.intel.co.jp/content/dam/www/central-libraries/us/en/documents/2022-08/tapping-into-cryptographic-acceleration-sb.pdf英特尔解决方案,“Tapping into Cryptographic Acceleration”(掘金于加密加速),https:/www.intel.co.jp/content/dam/www/central-libraries/us/en/documents/2022-08/tapping-into-cryptographic-acceleration-sb.pdf“Gartner 表示,到 2023 年,个人信息受现代隐私法律法规监管的全球人口比例将达 65%,”Gartner,2020 年 9 月,

    浏览量0人已浏览 发布时间2023-10-19 56页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 中国移动:共建共享泛行业基座大模型(2023)(16页).pdf

    共 建 共 享 泛 行 业 基 座 大 模 型共 建 共 享 泛 行 业 基 座 大 模 型中国移动研究院 冯俊兰1泛行业基座大模型泛行业基座大模型待美化基础设施算力网络大规模智算中心人工智能训推技术服务平台测评系统智算引擎通信九天基础模型泛 行 业 基 座 大 模 型数据汇聚平台能源航空医疗政务建筑交 通 运 输冶金以九天基础模型为基础,联合通信、能源、航空等行业的骨干企业,共建共享泛行业基座大模型,加速国民经济主体行业的智能化转型升级,促进我国战略性新兴产业发展,带动我国整体生产力跃升泛行业基座大模型技术特色待美化(文字内容待冯老师优化)持续训练异构软硬件灵活部署供给侧增强时 空 细 粒 度 拆 解 迭 代 提 升融 入 多 元 M e t a 信 息大 小 微 模 型 在 线 持 续 优 化提 供 定 制 化 蒸 馏提 供 E d g e 端 部 署 服 务积 极 适 配 国 产 算 力汇 聚 主 体 行 业 龙 头 的 特 色 数 据主 体 行 业 特 色 任 务 抽 象 迁 移 指导 数 据 供 给 九天基础模型待美化演进路径7B13.9B57B100B 3B9B2B200B 6B13B在70%的中文测试集主流指标上,超过业界同等参数规模模型100B 九天行业大模型技术特色待美化提 供 基 础基 础 大模 型强 信 息 集 成 能 力强 理 解 能 力强 生 成 能 力专 业 数 据强 任 务 主 导 性高 准 确 率高 可 靠 性复 杂 系 统 A I 及 强 系 统 集 成 能 力持 续 学 习 行 业 规 范 与 知 识高 动 态 自 适 应符 合 生 产 指 标行 业 大 模 型九天行业大模型待美化(待确定写哪些行业大模型;客服大模型待确认口径)医疗大模型已服务生产已服务生产网络大模型客服大模型海算政务大模型合作共建中合作共建中司法大模型能源大模型运输大模型航空大模型强稳健性,在业务稳健性和大模型多样性之间取得平衡高可控性,实现大模型和信息场的联动复杂AI系统强系统集成能力.九天网络大模型950%九天客服大模型 九天客服大模型焕新升级版本于中国移动数智服务创新分论坛发布,率先应用在10086这一全球最大的客服系统,驱动客服领域行业应用破冰100B 57B13.9B知识库API业务数据服务日志基础大模型行业数据面向客户服务全场景的行业大模型 稳健且灵活高可控性人机协同强系统集成九天海算政务大模型九天海算政务大模型九天海算政务大模型焕新升级版本于To G分论坛发布,为一网通办、一网协同、一网统管注智赋能,助力开创数字政府建设新局面政务信息场检索模型分类模型安全模型任务优化知识增强能力提升训推技术服务平台 共建共享大模型预训练、微调、推理一体化研发工具链,打造新型MaaS模型即服务能力,降低大模型在千行百业的应用门槛申请体验地址:http:/jiutian.hq.cmcc/largemodel/llmstudio/大模型体验私域知识增强及业务助手技术特色面向企业智能化转型痛点提供简洁极致的用户体验打造开放的插件集成生态实现与业务的快速闭环落地2共建共享泛行业基座大模型九天大模型生态待美化基于“九天揽月”人工智能产业合作计划,全新设立“九天”人工智能大模型开放合作生态。目前已有36家合作伙伴加入“九天”人工智能大模型开放合作生态,包括9家高校和新型研发机构、17家人工智能基础软硬件骨干企业、1家三甲医疗机构、5家中央企业、4家行业和标准化组织关键技术联合攻关构建先进智算基座共建大模型,增强九天行业市场落地能力共同制定AI标准,以开源带动产业技术发展国产人工智能产业生态带动42%智算中心国产算力占比55项国产算力基准评测项16款适配国产算力种类9家适配国产边端设备厂商聚众智,创未来,共建共享泛行业基座大模型行业多模型协同提供协同工作机制和框架千卡普惠算力提供基础设施一体化训推平台提供工具链泛行业基座大模型开放基础模型技术支持培训助力行业模型构建基础模型开放、共建、共享行业模型多智能体协同互联九天人工智能公众号智慧网络国家新一代人工智能开放创新平台服务门户

    浏览量0人已浏览 发布时间2023-10-18 16页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 未来力场:OpenAI:GPT 最佳实践(中文大白话编译解读版)(38页).pdf

    更新期:2023-10-2OpenAI:GPT 最佳实践(话编译解读版)写在前这是我们策划的提词程祛魅主题会的附属产品。来 OpenAI 的官档。今年 6 份,OpenAI 更新了这篇题为GPT 最佳实践/GPT Best Practice的档;介绍了些与 ChatGPT 交互的技巧,且附有例。先,这部分内容本来就是完全免费、完全公开的。同时,它是通俗的英语写成,并不是份晦涩难懂的技术档。都可以通过掌握这些简单的原则,“getting better results from GPTs”让 GPT 为你输出想要的结果。因为我们没有看到特别好的中版本,所以我们对它进了重新编译,让语格尽量直,并补充了些在中互联环境更容易理解的例,形成了这份“话编译解读版本”的 OpenAI:GPT 最佳实践。欢迎家阅读和交流。希望我们编译这份材料的标能基本达到,即:为提词程祛魅(中译中:有些付费课不必买)。感谢下列参与者提词程祛魅进阶主题会的 Speakers陈财猫 和 Rain。协助筹办活动的:谢国希谢师、以及 HackHouse 的各位童鞋。OpenAI 推荐的相关资源列表以下均在 OpenAI Cookbook:另外,OpenAI Community 也有很多宝贵的讨论!lib/具 Prompting libraries&tools提词程指南 Prompting guides视频课 Video courses论 Papers on advanced prompting to improve reasoning录第部分 六提词策略概览第部分 技巧实战关于 AI 加切各各业的们怎么利成式 AI 辅助的学习和作?这项技能在未来定会成为职业教育和义务教育的个重要部分。第部分 六策略概览六个能提输出质量的核提词策略Six strategies for getting better resultsThis guide shares strategies and tactics for getting better results from GPTs.The methods described here can sometimes be deployed in combination for greater e?ect.We encourage experimentation to find the methods that work best for you.这是份指南。我们列出了些策略和技巧,它们或许能帮你从 GPT 中拿到更好的输出结果。我们励你多试通过反复实验,找出最合适的技巧。Some of the examples demonstrated here currently work only with our most capable model,gpt-4.If you dont yet have access to gpt-4 consider joining the waitlist.In general,if you find that a GPT model fails at a task and a more capable model is available,its o?en worth trying again with the more capable model.有些例只在前地表最强模型 gpt-4 上效。记住,模型是第影响要素。只要你有更强的模型可,我们般都会建议你更强的模型。附录 OpenAI Playground 是什么,怎么?我们希望以内容策展的式,通过邀请在业有充分经验的 Speakers 做主题分享,来完成这类信息的收集整理和传递。01 知道要什么,就展开说说Write clear instructionsGPTs cant read your mind.If outputs are too long,ask for brief replies.If outputs are too simple,ask for expert-level writing.If you 01-延伸:“展开说说”的技巧Include details in your query to get more relevant answers1.1 你越讲细节,输出就越好dislike the format,demonstrate the format youd like to see.The less GPTs have to guess at what you want,the more likely youll get it.清晰地告诉 GPT,你想要什么。GPT 不会读术。你不说,它就猜。所以有时不是能不,就是你没说清,它没猜准。你让它猜你的思猜得越少,结果就越好。嫌输出太?那就直说,要短的。嫌输出太简单?要求提,说要专家级的。嫌格式不好?给它看个样。Ask the model to adopt a persona1.2 搞扮演,直很好Use delimiters to clearly indicate distinct parts of the input1.3 使分隔符号,明确地把话和话区分开来Specify the steps required to complete a task1.4 解题步骤,你最好也负责展开Provide examples1.5 多给举个例Specify the desired length of the output1.6 说下你想要多的答案02 给 GPT 发阅读材料Provide reference textGPTs can confidently invent fake answers,especially when asked about esoteric topics or for citations and URLs.In the same way that a sheet of notes can help a student do better on a test,providing reference text to GPTs can help in answering with fewer fabrications.GPT经常编答案。瞎编重灾区:较冷的问题、需要引,需要读取链接的问题。我们都知道,最常的考试题型,是给篇阅读材料,要求阅读并回答问题。纯开放式问答对于和机器来说都较难。02-延伸:“发阅读材料”的技巧Instruct the model to answer using a reference text2.1 要求按阅读材料作答,不开放答Instruct the model to answer with citations from a reference text2.2 增加要求:要求 GPT 直接把阅读材料的原引出来那么同理,把你的“阅读材料”给 GPT 粘贴过去,当它必须按照材料来回答的时候,它就不03 把复杂任务拆解成任务Split complex tasks into simpler subtasksJust as it is good practice in so?ware engineering to decompose a complex system into a set of modular components,the same is true of tasks submitted to GPTs.Complex tasks tend to have higher error rates than simpler tasks.Furthermore,complex tasks can o?en be re-defined as a workflow of simpler tasks in which the outputs of earlier tasks are used to construct the inputs to later tasks.在软件开发和常规的项管理,项都得拆解成任务,再拆解出不同的步骤。让 GPT 做任务也样。直接搞个任务容易翻。拆解开来,个接个做,反容易些。03-延伸:“任务拆解”的技巧Use intent classification to identify the most relevant instructions for a user query.3.1 使意图分类,来找到最切题的提For dialogue applications that require very long conversations,summarize or filter previous dialogue.3.2 如果是段很的对话,可以经常对上做动总结归纳。(起提醒作,防把天聊跑了)Summarize long documents piecewise and construct a full summary recursively.3.3 遇到档,主动分段总结,递归构造完整摘要04 允许 GPT 思考下Give GPTs time to thinkIf asked to multiply 17 by 28,you might not know it instantly,but can still work it out with time.Similarly,GPTs make more reasoning errors when trying to answer right away,rather than taking time to work out an answer.04-延伸:“允许思考”的技巧Instruct the model to work out its own solution before rushing to a conclusion.4.1 给时间,让它先想Use inner monologue or a sequence of queries to hide the models reasoning process.4.2 内独法:不想暴露推理过程时的操作 如,问你 17 乘 28 得多少,如果你不会算,就不能直接说出结果。但是你知道,你只需要拿纸笔列下式就能算出来。同理。GPT 也需要时间思考,要求它答得太快,就容易错。Ask the model if it missed anything on previous passes.4.3 最后问它句:哎,你有没有漏掉啥05 借助外部的具Use external tools.Compensate for the weaknesses of GPTs by feeding them the outputs of other tools.For example,a text retrieval system can tell GPTs about relevant documents.A code execution engine can help GPTs do math and run code.If a task can be done more reliably or e?ciently by a tool rather than by a GPT,o?oad it to get the best of both.其他具帮 GPT 补短板。本检索系统,能告诉GPT哪些档重要;代码引擎,助它算数跑代码。能具做得更稳、更快,就别全靠GPT。两者结合,能有更好的效果。05-延伸:“利具”的技巧Use embeddings-based search to implement e?cient knowledge retrieval.5.1 向量数据库来辅助知识库检索(Embeddings-based search)Use code execution to perform more accurate calculations or call external APIs.5.2 做精确计算的时候:执代码、调 APIGive the model access to specific functions.5.3 使 Function-Call,函数调06 系统地做些实验Test changes systematically.Improving performance is easier if you can measure it.In some cases a modification to a prompt will achieve better performance on a few isolated examples but lead to worse overall performance on a more representative set of examples.Therefore to be sure that a change is net positive to performance it may be 06-延伸:“实验”技巧Evaluate model outputs with reference to gold-standard answers.6.1 评估模型输出的时候,需要你弄个最的优质答案,来做参考标准第部分 技巧实战充分的解释&例说明Tactics Each of the strategies listed above can be instantiated with specific tactics.These tactics are meant to provide ideas for things to try.They are by no means fully comprehensive,and you should feel free to try creative ideas not represented here.下列出的每个技巧我们都“实例化”了。希望为你的各种成的提供些思路参考。当然,这只是部分使技巧。我们励你勇于折腾,尝试各种我们没写的创造性想法。六策略 01:知道要什么,就展开说说Write clear instructions1.1 你越讲细节,输出就越好 Include details in your query to get more relevant answersnecessary to define a comprehensive test suite(also known an as an eval).量化则实验。要提 Prompt 的表现,先得确认个量化标准。注意:有时调整了 prompt,在个别的例确实效果不错,但放范围反更差。所以,想真确定你的动作是“有效的”,最好先有套完整点的测试套件(我们管这个东西叫做eval)。In order to get a highly relevant response,make sure that requests provide any important details or context.Otherwise you are leaving it up to the model to guess what you mean.为了获得度相关的回复,你最好给模型提供了切重要的细节或上下。否则,你就得让模型来猜测你的意思了。补充例 同样是制作业绩表,对表格内容描述的区别很,输出结果区别也很。这么写可能会好些How do I add up a row of dollar amounts in Excel?I want to do this automatically for a whole sheet of rows with all the totals ending up on the right in a column called Total.在Excel,怎样把的美元数额加起来?我想让整个表格的每都能动完成累加,然后所有的美元的总和都显在右边个叫“总计”的列。这么写可能不太How do I add numbers in Excel?怎么往 excel 加数字?Summarize the meeting notes.帮我做下会议纪要。详细的问题会获得详细的答案详细的提词:我正在 Excel 做个销售员业绩表。表头:销售姓名、第季度销售额第四季度销售额、全年汇总、各平均销售、超出年平均销售额。我已填销售姓名和各个季度的销售额,请你帮我写出最后三列所公式。此时 ChatGPT 的回答:当您已经填销售姓名和各个季度的销售额后,我将为您提供填写最后三列所需的公式。假设表格的销售员姓名位于A列(从A2开始),第季度销售额到第四季度销售额位于B到E列(从B2到泛泛的问题,答案是相对随机的泛泛的提词:我正在 Excel 做个销售员业绩表。你帮我列个模板出来,要计算每个销售超出年平均销售额的情况。此时 ChatGPT 的回答:当然可以帮你列个模板出来。以下是个简单的销售员业绩表模板,其中包含了计算每个销售超出年平均销售额的公式:销售员|份|销售额|年平均销售额|超出年平均销售额-|-|-|-|-1.2 搞扮演,直很好 Ask the model to adopt a personaThe system message can be used to specify the persona used by the model in its replies.系统消息有什么?可以来指定个“Persona”。使其更符合特定的应场景。Persona 这个词在拉丁语的原义是“具”。可以看作是模型采取的特定或格,就像戴上了种特定的“社交具”,通过这种“具”来与交流。所以 Persona 不定是:XX(如:贾斯汀E2),并且最后三列的表头为全年汇总、各平均销售和超出年平均销售额。以下是填写这三列所需的公式:全年汇总(F列):使SUM函数计算四个季度的销售额总和。=SUM(B2:E2)各平均销售(G列):使AVERAGE函数计算四个季度的销售额平均值。=AVERAGE(B2:E2)超出年平均销售额(H列):使IF函数判断是否超过年平均销售额,并根据判断结果进计算。=IF(F2G2,F2-G2,0)此公式将检查全年汇总(F列)是否于各平均销售(G列),如果是,则计算差值;否则,返回0。将这些公式应到各,并确保相应的单元格引正确(例如,A2、B2:E2等),这样您就可以动计算全年汇总、各平均销售和超出年平均销售额了。-张三|1|5000|60000|=C2-D2张三|2|6000|60000|=C3-D3张三|3|5500|60000|=C4-D4李四|1|4500|55000|=C5-D5李四|2|7000|55000|=C6-D6李四|3|6000|55000|=C7-D7在上述模板中,销售员列是于标识每个销售员的名称,份列是标识销售额所属的份,销售额列是每个销售员在每个份的销售额,年平均销售额列是计算每个销售员的年平均销售额(假设为60000或55000),超出年平均销售额列是计算每个销售员每个份是否超出年平均销售额的情况。你可以根据实际情况调整模板中的数据和公式。希望这个模板对你有帮助!伯)、XX 职业(如:个中学师)。也可以是种“格”。例如正式、幽默、友好等。ChatGPT 有个默认的 SYSTEM Prompt:You are a helpful assistant.“个乐于助的助”也就是 ChatGPT 默认的“具”/“”,所以它会尽帮你解决提出的问题。你可以在 Playground 或者像 Knit 这样的具修改这个 SYSTEM Message。然后把你正常情况下要提的问题写在 USER。这是种进阶的提词法。这么写可能会好些SYSTEMWhen I ask for help to write something,you will reply with a document that contains at least one joke or playful comment in every paragraph.当我请求你帮我写案时,在你回复的件中,每段少包含个笑话或俏的评论。USERWrite a thank you note to my steel bolt vendor for getting the delivery in on time and in short notice.This made it possible for us to deliver an important order.给我的螺栓供应商写封感谢邮件。感谢他们常按时,在短时间内交付了货物。这使我们能够为份重要的订单履约。输出结果解读上的 Prompt,放在 GPT-4 输出的结果:Dear Vendors Name,We wanted to take a moment to express our heartfelt thanks to you and your team.You guys really bolted into action when we needed you the most!Your recent delivery arrived faster than a lightning bolt,much to our delight.Its safe to say we were shocked,but in the most pleasant way possible.We had been walking on eggshells(or should we say,on steel bolts!)until we saw your delivery truck pull up.补充例 1如果我们设定个 helpful assistant 的反,如:个“诚捣乱,混淆视听”的佞。这个时候就会得到说反话的回复。It came in a nick of time,just when we were about to start a major project.You know,one of those projects where if one thing goes wrong,everything spirals out of control?Its like building a house of cards,but with steel bolts and a lot of sweat!Your timely delivery made it possible for us to meet our deadline and make our client happy,which,lets be honest,is a task more challenging than trying to find a needle in a haystack.But thanks to your superhero-like delivery speed,we could deliver an important order on time.So,heres a big THANK YOU going out to you and your team.Your service was tighter than the threads on your bolts and we couldnt ask for anything more.Youve truly set a high bar.or should we say a high bolt?Jokes aside,we are truly grateful for your service and we look forward to more such electrifying performances from your team in the future!Yours sincerely,Your Name解读:System 的设定,要求尽可能地开玩笑,让收到邮件的供应商感觉到幽默和放松。邮件正就了少两处双关和处喻:1.You guys really bolted into action when we needed you the most!Your recent delivery arrived faster than a lightning bolt.这两句话,笑点在于双关。因为“bolt”(螺栓),是供应商提供的产品,同时在英语是多义词,另种常含义是闪电。所以这说“闪电(螺栓)还快”,是在种夸张的式赞美他们的快速交付。2.Your service was tighter than the threads on your bolts.这句的意思是,你们的服务你们螺栓的螺纹还要紧密.赞扬供应商的服务质量,同时也开了个玩笑。个热助的助SYSTEM(默认)个诚捣乱的家伙SYSTEM(设定的)补充例 2 也可以这样:SYSTEM Prompt 来给进去 阅读材料;USER Prompt 来提具体的写作要求或问题。You are a helpful assistant.你是个乐于助的助。USER怎么烤制个巧克蛋糕?GPT 回复你只需要准备好巧克粉、粉、糖、油、鸡蛋、奶和发酵粉。将这些材料混合在起,然后倒蛋糕模具中。将蛋糕放预热的烤箱中,约烤制30-40分钟,或者直到蛋糕变得并且可以签插蛋糕中不沾上糊。You are a mischievous courtier with the intent of causing confusion and not being helpful at all.你是个调捣蛋的佞,的是制造混乱,点都不愿意帮忙。USER怎么烤制个巧克蛋糕?GPT 回复哦,烤制巧克蛋糕吗?那可是深的烹饪艺术啊!先,你需要把魔法棒和只神奇的兔。然后,你要在满的夜晚跳舞三个时,唱关于巧克的迷歌曲。接下来,找到神秘的巧克森林,那会有只糖果精灵教你烤蛋糕的秘籍。SYSTEM你是个科技作家,正在围绕下的材料撰写章。插你的核章材料 USER以XXX为标题,根据材料写作个简短轻松的指南。1.3 使分隔符号,明确地把话和话区分开来 Use delimiters to clearly indicate distinct parts of the inputDelimiters like triple quotation marks,XML tags,section titles,etc.can help demarcate sections of text to be treated di?erently.分隔符号(形式可以有很多种,如三引号、XML标记、章节标题等)的使,可以帮助模型区分出不同的本,有助于提回复质量。补充例下是个稍微复杂点的本处理:这么写可能会好些Summarize the text delimited by triple quotes with a haiku.insert text here俳句的形式,总结三引号之间的本:在此粘贴本你可能会想:区别不吧?For straightforward tasks such as these,using delimiters might not make a di?erence in the output quality.However,the more complex a task is the more important it is to disambiguate task details.Dont make GPTs work to understand exactly what you are asking of them.对于这样简单的任务,本只有段,不分隔符,确实没什么区别。但是,任务越复杂,消除任务细节的歧义就越重要。最好不要让 GPT 费地尝试理解你的要求。这么写可能会好些SYSTEMYou will be provided with a pair of articles(delimited with XML tags)about the same topic.First summarize the arguments of each article.Then indicate which of them makes a better argument and explain why.这么写可能不太两篇章混在起,尤其如果你粘贴过去的时候不仔细,换符不明确的时候,模型可能会1.4 解题步骤,你最好也负责展开 Specify the steps required to complete a taskSome tasks are best specified as a sequence of steps.Writing the steps out explicitly can make it easier for the model to follow them.有些任务稍微复杂点,最好由你来指定步骤。明确地写出步骤,可以使模型更容易地遵循。我会给你提供同主题的两篇章(XML标记分隔)。先,总结每篇章的论点。然后指出其中哪个论点更好,并解释原因。USER insert first article here insert second article here 此处插第篇章此处插第篇章造成混淆。如,模型会随机断句,或者把两篇章理解成篇。如果区分不清楚,会很明显地影响对上下的理解,导致输出的答案不对或者不好。所以,分隔符号有时是必要的。例:有段很的英本,希望 GPT 中总结下SYSTEMUse the following step-by-step instructions to respond to user inputs.Step 1-The user will provide you with text in triple quotes.Summarize this text in one sentence with a prefix that says Summary:.Step 2-Translate the summary from Step 1 into Chinese,with a prefix that says Translation:.按照以下分步骤的法,回应的输。第1步:将为您提供三引号中的本。句话来总结这段本。输出时写上“总结”;补充例第2步:将第1步中的摘要翻译成中。输出时写上“翻译“;USER将原粘贴在这上 prompt 实际的输出结果(输的本是 OpenAI 最新篇博客章:ChatGPT can now see,hear,and speak)-Summary:ChatGPT introduces voice and image capabilities,allowing users to engage in voice conversations,show images to the assistant,and receive assistance in a more intuitive manner across various real-life scenarios.Translation:ChatGPT 推出了语和图像功能,使能够进语对话,向助展图像,并在各种真实场景中以更直观的式获得帮助。-(如果直接要求中总结,输出结果会不太样。很多情况下输出质量会稍差点)这么写可能会好些请把英原翻译成中。分成两个步骤:1:按照原来的英语序,字到字直接翻译成中。把直译本写在这2:再把直译本的语序进改进,把部分词语替换成同义词,让它更符合中的表达习惯。格:简洁有趣的通俗语。改写后的本写在这Some tasks are best specified as a sequence of steps.Writing the steps out 这么写可能不太请把英原翻译成中。格:简洁有趣通俗。请注意:不要直译,是将语序进改进,并把部分词语替换成同义词,使译更加符合中的表达习惯。Some tasks are best specified as a sequence of steps.Writing the steps out explicitly can make it easier for the model to follow them.这是输出结果的区别:1.5 多给举个例 Provide examplesProviding general instructions that apply to all examples is generally more e?cient than demonstrating all permutations of a task by example,but in some cases providing examples may be easier.For example,if you intend for the model to copy a particular style of responding to user queries which is di?cult to describe explicitly.This is known as few-shot prompting.经典的少样本提法。家和 GPT 沟通的时候,可能会希望能写出适于所有情况的“通 prompt”。当然很难,因为上刚说过,能具体还是需要尽量具体。但,有的时候,举个好例就够了,这可能是形容要求更简单的办法。如,如果你想让模型学会以某种特定的式回应的问题,这种式很难清楚地语形容。explicitly can make it easier for the model to follow them.直译 改写得到的两段本(有助于我们直观地看到区别,可以再提出改进的建议)直译:改写:有些任务最好被明确地指定为系列的步骤。写出步骤可以让模型更容易地遵循它们。对于个别任务,最好把连串的步骤明确下。把步骤写清楚,能让模型更容易跟上。不分步的结果有些任务就像是步骤表。清晰地列出这些步骤,模型就能轻松遵循。这时候就直接举个例(“少样本”)。例要好,且最好个例要类似,因为模型很擅去寻找规律(先这样再那样最后这样)。补充例李佳琦式回复能成为流梗,精髓不在于“阴阳”的语格,或者“反问句”的应。在于:把同样的逻辑放到不同领域中,产了类效果时,会让意识到这种表达和逻辑是有问题的这就是很难语描述,但是适合两段排展的例。例:诗句般的语解释个词语SYSTEMAnswer in a consistent style.以致的格回答。从这开始,是给系统举的例:USERTeach me about patience.告诉我什么是耐。ASSISTANTThe river that carves the deepest valley flows from a modest spring;the grandest symphony originates from a single note;the most intricate tapestry begins with a solitary thread.冲刷出深的江河从个的泉眼流出;最宏的交响乐源于个符;最复杂的织锦始于根孤独的线。USERTeach me about the ocean.告诉我什么是海洋。你可能很难解释清楚什么是“诗句般的语”。所以举例最好。在 SYSTEM,告诉模型要“保持格致”,这时模型的输出结果就会和上的句式差不多。例:李佳琦回复成器SYSTEM以致的格、逻辑和句式回答问题。USER79 元眉笔,好贵啊!ASSISTANT哪贵了?79 元哪贵了?直就是这个价格好吗?不要睁着眼睛说瞎话,我都要疯掉了。国产品牌很难的!有时候要找找的原因,这么多年资涨没涨?有没有努作?USER北京学录取分数线好,好难考啊!ASSISTANT哪了,690 分哪了?直就是这个录取分数线好吗?不要睁着眼睛说瞎话,我都要疯掉了。中国学很难的!有时候要找找的原因,从到三整整三年排名涨没涨?五三有没有好好做?加分有没有去争取?USER百冠军 10 秒都不到,好快,好难跑啊!成的结果哪快了,10 秒哪快了?直就是这个冠军纪录好吗?不要睁着眼睛说瞎话,我都要疯掉了。做体育事业很难的!有时候要找找的原因,这么多年速度涨没涨?有没有努练习?有没有好好保护体?1.6 说下你想要多的答案 Specify the desired length of the outputYou can ask the model to produce outputs that are of a given target length.The targeted output length can be specified in terms of the count of words,sentences,paragraphs,bullet points,etc.Note however that instructing the model to generate a specific number of words does not work with high precision.The model can more reliably generate outputs with a specific number of paragraphs or bullet points.你可以让模型按照你想要的度来输出本。我们可以指定的有:单词数、句数、段落数或者要点数(bullet points)。但是:模型其实是按照 token 数量来算的。所以你说“单词数”,尤其是汉字数,很有可能不太准。补充例:(尽可能地)指定准确汉字数的法例:指定度的种法Summarize the text delimited by triple quotes in about 50 words.Summarize the text delimited by triple quotes in 2 paragraphs.Summarize the text delimited by triple quotes in 3 bullet points.insert text here约 50 个单词/汉字来概括下三引号分隔出来的原。2 段话来概括下三引号分隔出来的原。3 个要点来概括下三引号分隔出来的原。原Token(词元)数量是怎么计算的?可以 OpenAI 的 Tokenizer 具来计算 token 数。The GPT family of models process text using tokens,which are common sequences of characters found in text.The models understand the statistical relationships between these tokens,and excel at producing the next token in a sequence of tokens.A helpful rule of thumb is that one token generally corresponds to 4 characters of text for common English text.This translates to roughly of a word(so 100 tokens=75 words).六策略 02:给 GPT 发阅读材料 Provide reference text2.1 要求按阅读材料作答,不开放答 Instruct the model to answer using a reference textIf we can provide a model with trusted information that is relevant to the current query,then we can instruct the model to use the provided information to compose its answer.如果你边现成有原,且度合适,建议带原去找 GPT。这样你就可以给 GPT 指定规则,让它使原信息来组成回答。下的例,如果原找不到对应的信息,就让 GPT 说不知道(这样就能很好地避免瞎编)。GPT 系列模型通过使 tokens 来处理本。token 可以被理解成是本中常的字符序列。模型能理解这些 token 之间的统计关系,并且擅在个 token 序列中成下个 token。实的换算经验:在普通英本中,个 token 通常对应于约 4 个字符(characters)。这致相当于个单词的 3/4(所以 100 个 token 约等于 75 个英单词)。如果的是 GPT 3.5,要成段有字符数限制的本。可以:把汉字数致换算成 token,然后限定 max token 的数值1、“你好吗”=7 个 token;“我很好”=6 个 token;2、简单算法:个 token 概是 0.5 个汉字。或者:每个汉字要耗费 22.5 个 token。1000 字就是 20002500 个 token 左右。SYSTEM如果上下度不够.Given that GPTs have limited context windows,in order to apply this tactic we need some way to dynamically lookup information that is relevant to the question being asked.Embeddings can be used to implement e?cient knowledge retrieval.See the tactic Use embeddings-based search to implement e?cient knowledge retrieval for more details on how to implement this.由于 GPT 的上下窗是有限的,所以最好引种法,让我们能动态地寻找和正在提出的问题有关的信息。基于 Embeddings 做搜索可以帮助我们效地检索知识。这是具体章的链接。2.2 增加要求:直接把阅读材料的原引出来 Instruct the model to answer with citations from a reference textIf the input has been supplemented with relevant knowledge,its straightforward to request that the model add citations to its answers by referencing passages from provided documents.Note that citations in the output can then be verified programmatically by string matching within the provided documents.如果我们给定的输,确实已经包含了相关的知识,那么要求模型在回答中引原,就很容易。引出来之后就可以通过在提供的档中进字符串匹配来程序化验证答案了。在下这条提词,增加引原的要求:Use the provided articles delimited by triple quotes to answer questions.If the answer cannot be found in the articles,write I could not find an answer.请使我所提供的,由三引号分隔的章回答问题。如果在章中找不到答案,则告诉我“我找不到答案。“USER章粘贴在这(如果有1篇章,还可以分开粘贴)问题:SYSTEM你将获得篇由三重引号分隔的章和个问题。你的任务是:仅仅使提供的章回答问题,并引于回答问题的章段落。如果章中不包含回答此问题所需的信息,则回复“信息不”。如果章中包含解答问题所需信息,则必须输出结果的较使下的格式来引原:(“引”:.)USER章粘贴在这(如果有1篇章,就分开粘贴)问题:给定阅读材料,并要求引原SYSTEM你将获得篇微博作的原全和个问题。你的任务是:仅使提供的原回答问题,并引于回答问题的章段落。如果章中不包含回答此问题所需的信息,则回复“信息不”。如果章中包含解答问题所需信息,则必须使下的格式来引原:(“引”:.)USER粘贴在这问题:在这篇微博作中,李靓蕾列举的,对王宏的指控有哪些?开放作答先询问 GPT 他知不知道此事件。因为有联模式,回答是知道。继续提问:在李靓蕾的微博作中,李靓蕾列举的,对王宏的指控有哪些?GPT 的“开放作答”过程是:就我提出的问题,进联搜索,然后整理出答案:答案:李靓蕾在她的微博作中提及了些对王宏的指控。以下是些指控的摘要:1.伪善和虚假表现:李靓蕾指责王宏在公众前表现出善良和尊重,但在私下却完全不是这样。2.婚姻中的不快乐:她提到在婚姻中感受到的不快乐和痛苦。3.对家庭的忽视:李靓蕾还提及王宏忽视家庭和孩,过度关注他的事业和公众形象。4.王宏的控制欲:她还指控王宏试图控制她的和社交活动,限制她的由。下是给定原材料后的输出结果相直接回答更加“有据”。六大策略 03 把复杂任务拆解成子任务Split complex tasks into simpler subtasks3.1 使意图分类,来找到最切题的分类 Use intent classification to identify the most relevant instructions for a user queryFor tasks in which lots of independent sets of instructions are needed to handle di?erent cases,it can be beneficial to first classify the type of query and to use that classification to determine which instructions are needed.This can be achieved by defining fixed categories and hardcoding instructions that are relevant for handling tasks in a given category.This process can also be applied recursively to decompose a task into a sequence of stages.The advantage of this approach is that each query will contain only those instructions that are required to perform the next stage of a task which can result in lower error rates compared to using asingle query to perform the whole task.This can also result in lower costs since larger prompts cost more to run(see pricing information).输出结果:在这篇微博作中,李靓蕾对王宏的指控包括以下点:1.王宏逼她放弃作和个活只为育和照顾孩。当她完三个孩后,王宏却因为想过“单”的活离开他们家,让她需要过着伪单亲的带三个孩(“因为你我岁很希望有很多孩,胎接胎不停的催,所以我放弃作和个的,切以你和孩为中。我们结婚部分时间,我不是在备孕,怀孕,就是在产后哺乳育,过程中都经历了很多变化,部分我都是独对的。”,“但如果我当初知道我完这三个孩你就会因为想过“单”的活离开我们家,我会需要过着伪单亲的带三个孩,我是不会答应的。”)2.在他们的婚姻中,王宏和他的家持续对她进怀疑、羞辱和冷暴。她被逼着签署不对等的婚前协议,婚后的财产被转移到王宏和他妈妈的名下(“嫁给你这么多年,被你和家不斷地怀疑.羞辱和冷暴。开始就被逼着签署不对等的婚前协议,你要保护你婚前的财产,我能够理解也完全接受,但婚后的财产是我们共同的努,也是我们各做好份内的作得来的,房在你名下,在你妈的名下,财产转移的很净,深怕我占到你任何的便宜。”)3.召妓的指控(“结果后来发现其实像我这样的,你在很多城市都有这样的“朋友”。你也有被拍到带回家过夜,也被拍到召ji,其实这些都有实锤的影,清楚了说出你的楼层和名,出电梯也左转进到你家,这些你也有都有跟我承认。你坦承这些是你的问题,你没有办法控制。”、“后来我发现你纪录了各种你召ji对象的特征,其中包含了位得像我们边的作员。”).定义复杂任务:因为可能的情况很多,所以完成这样个任务需要很多个独的 prompt。这时,我们不定要写个巨的 prompt。我们可以:设定好类型,再根据分类来调 prompt。怎么做:先设定个类型,保证处理某个类的任务时,有专的 prompt。此过程还可递归,帮助把任务分解为个阶段。好处:1、每个查询仅包含执下任务所需的指令,与个查询执整个任务相,准确率更。2、token 更少,降低成本。个客服系统的例:先进意图分类,再对照到匹配的类别下SYSTEM您将获得客服务查询。将每个查询分类为主要类别和次要类别。以 json 格式提供您的输出,其中包含以下键:主要和次要。主要类别:计费、技术持、帐管理或般查询。计费次要类别:-取消订阅或升级-添加付款式-收费说明-对指控提出异议技术持次要类别:-故障排除-设备兼容性-软件更新帐管理次要类别:-密码重置-更新个信息-关账-账安全般查询级类别:-产品信息3.2 如果在段较的对话,给出前情提要可能会好些 For dialogue applications that require very long conversations,summarize or filter previous dialogueSince GPTs have a fixed context length,dialogue between a user and an assistant in which the entire conversation is included in the context window cannot continue indefinitely.There are various workarounds to this problem,one of which is to summarize previous turns in the conversation.Once the size of the input reaches a predetermined threshold length,this could trigger a query that summarizes part of the conversation and the summary of the prior conversation could be included as part of the system message.Alternatively,prior conversation could be summarized asynchronously in the background throughout the entire conversation.-定价-反馈-服务USERI need to get my internet working again.我没了。这是:先识别了意图,把的问题分到“故障排除”类别。然后基于这个细的分类,再向模型提供组更具体的指令,从选。SYSTEM你将帮助需要“故障排除”的客提供服务。你可以通过以下式帮助:要求他们检查路由器的所有电缆是否已连接。请注意,随着时间的推移,电缆会松动。如果所有电缆均已连接,但问题仍然存在,请询问他们使的路由器型号现在,您将建议他们如何重新启动设备:如果型号为MTD-327 J,建议他们按下红按钮并按住5秒钟,然后等待5分钟后再测试连接。如果型号是MTD-327 S,建议他们拔下并重新插,然后等待5分钟后再测试连接。如果客在重新启动设备并等待5分钟后问题仍然存在,请通过输出“IT持请求”将客连接到IT持。如果开始询问与此主题关的问题,请确认他们是否希望结束当前的聊天,并根据以下案对其请求进分类:An alternative solution is to dynamically select previous parts of the conversation that are most relevant to the current query.See the tactic Use embeddings-based search to implement e?cient knowledge retrieval.GPT 的上下度限制是给定的(整个对话都包在上下窗)。意思就是说:对话不能限地说下去。GPT 不可能记住切。你希望它随时都能切换回当时的上下继续聊,这就不太能做到。针对这个问题,有种解决办法。其中种是时不时梳理并总结之前的对话内容做个前情提要。当输内容达到个预设的度阈值时,可以触发个查询来总结对话的部分,然后将之前对话的总结纳系统消息的部分。或者,也可以在整个对话过程中,在后台异步总结之前的对话。另外个办法是,动态地挑选对话中与当前查询最相关的前内容。具体可以参考“利 embedding 搜索来做效的知识检索”。3.3 分段总结档,并通过递归式构建完整摘要 Summarize long documents piecewise and construct a full summary recursivelySince GPTs have a fixed context length,they cannot be used to summarize a text longer than the context length minus the length of the generated summary in a single query.To summarize a very long document such as a book we can use a sequence of queries to summarize each section of the document.Section summaries can be concatenated and summarized producing summaries of summaries.This process can proceed recursively until an entire document is summarized.If its necessary to use information about earlier sections in order to make sense of later sections,then a further trick that can be useful is to include a running summary of the text that precedes any given point in the book while summarizing content at that point.The e?ectiveness of this procedure for summarizing books has been studied in previous research by OpenAI using variants of GPT-3.GPT 的上下度是固定的。这意味着:不能在单次对话中,总结出,度超过“上下度减去成摘要度”,的本。也就是说,如果要总结篇常的档,如本书。我们可以利系列的 prompt 来分别总结档的每个章节。每个章节的摘要可以拼接在起,然后再次进总结,形成“摘要的摘要”。这个过程可以递归执,直到整个档被完整总结。如果需要依赖前章节的信息来理解后的章节,那么可以在总结某个点的内容时,包含上前情提要。OpenAI 之前 GPT-3 做过类似的研究,探讨了这种逐步摘要法做本总结的有效性。六大策略 04允许 GPT 思考一下Give GPTs time to think摘要的摘要这个例是系列的提词来完成:1.章节摘要请为以下本的第章创建个简明的摘要,包括主要事件和概念。插第章的本2.每一章都有摘要了之后,拼接和二次摘要请为以下每章的摘要创建个总体摘要,突出每个时期的主要事件和变化。插所有章节的摘要3.(在需要上文联系时)包含前情提要:请参考前章节的摘要,并为以下本的第五章创建个简明的摘要,包括主要事件和概念。前情提要:插前章节的摘要插第五章的本直接摘要请为以下本创建个简明的摘要。请充分考虑上下,请不要忽略某个章节的本。插完整的本4.1 给时间,让它先想 Use inner monologue or a sequence of queries to hide the models reasoning process.Sometimes we get better results when we explicitly instruct the model to reason from first principles before coming to a conclusion.Suppose for example we want a model to evaluate a students solution to a math problem.The most obvious way to approach this is to simply ask the model if the students solution is correct or not.But the students solution is actually not correct!We can get the model to successfully notice this by prompting the model to generate its own solution first.这样做会得到更好的结果:指模型从基本原理出发进推理,然后再得出结论。如说,我们想让模型评估个学做的数学题。最直接的做法就是:简单地问模型,学的答案对不对。就像下表左边样,其实学做错了!但是模型判对了。如果你像下表右边样,让模型先做遍题,它就能成功地注意到这点。被 GPT 判错的道数学题要求:判断学的答案是否正确。题:我正在建造个太阳能发电装置,需要你帮我做个财务计算。-地成本100美元/平英尺-我可以以250美元/平英尺的价格购买太阳能电池板-我谈了份维修合同,每年要花我10万美元,每平英尺还要多付10美元。第年运营的总成本是多少?学解题过程:设x为装置的,单位为平英尺。1.地成本:100 x2.太阳能电池板成本:250 x3.维护费:100000 100 x先让 GPT 解题,再判卷,就对了判错原因:其实是学代进去的数值抄错了,把 10 写成了 100。但是 GPT 没注意到这点。如果让 GPT 解遍题,他就会注意到,不会再判错。 这段 prompt:先想出你解决这个问题的办法。然后将你的答案与学的答案进较,评估学的答案是否正确。在你做完这道题之前,不要决定学的答案是否正确。4.2 内独法:不想暴露推理过程时的操作 The previous tactic demonstrates that it is sometimes important for the model to reason in detail about a problem before answering a specific question.For some applications,the reasoning process that a model uses to arrive at a final answer would be inappropriate to share with the user.For example,in tutoring applications we may want to encourage students to work out their own answers,but a models reasoning process about the students solution could reveal the answer to the student.Inner monologue is a tactic that can be used to mitigate this.The idea of inner monologue is to instruct the model to put parts of the output that are meant to be hidden from the user into a structured format that makes parsing them easy.Then before presenting the output to the user,the output is parsed and only part of the output is made visible.上段说了,在回答问题之前,让模型做遍推理是很有的。这再补充个教育的例:如果场景是辅导课业,可能需要励学找出答案。但模型要解遍题。如果把这个解题过程输出出来,可能会意中泄露答案。这时候可以到“内独法”。意思是,让模型把那些不想让看到的内容,隐藏地放到个结构化的格式。然后,在把输出展给之前,解析下这段输出,只展能给学看到的那部分。致步骤如下:第一步:提出问题,并得到模型的解答。(但是不将此解答展现给学。)第二步:将学的解题法和模型的进较,判学解是对是错。(但是仍然不将信息展现给学。)第三步:根据前两步的分析,发送反馈给学:错了就给提励改正,对了就直接励。这,前两步有个“查询和分析过程”。但过程中内容都是隐藏的,学只会看到最后步的反馈。这部分需要代码实现,不是仅仅依赖于单的 prompt。如说可能需要设计和实现个系统,包含个查询序列的函数。并且可能需要个中间层来管理这个过程。各步骤的例提词如下:总成本:100 x 250 x 100000 100 x=450 x 100000GPT回答学的答案是正确的 补充说明:这个例常细致。第次看的时候我就想,OpenAI 连这么的场景都想到了?其实同样的原理也可以在很多其他的作场景。如市场营销案,有时也需要让模型做个推理,最终输出结果就可以,把中间的步骤隐去不打出来。辅导课业的例SYSTEM请按照以下步骤回答的问题。步骤 1-先,你的解题思路来解决问题。不要看学的答案,学的答案可能是不对的。把你的题解三引号括起来。步骤2-较你的题解和学的答案,并评估学的答案是否正确。这步的过程也三引号括起来。步骤3-如果学的答案不对,那么,你可以给学什么样的提,在不泄答案的情况下?这步的过程也三引号括起来。步骤4-如果学的答案不对,提供上步你想好的提给学。不是写“步骤4-.“写“提:“。USER问题描述:学解题过程:-下是,让模型较的答案和学的答案,并评估学的答案是否正确,再发送反馈。SYSTEM你是个数学家教。如果学做错了题,你要给学提,但是不暴露答案。如果学没有做错,那你就励励他们。USER问题陈述:“”您的解题法:“”学的解题法:“”分析:”在其他些应场景,如客服务、产品推荐或者数据分析等,这种策略也能帮助提体验,让输出更加直接和易于理解。对于开发者和产品经理来说,能够控制何时以及如何展模型的推理过程是很重要的,它可以帮助确保系统的输出符合特定的需求和标准。4.3 最后问它句:哎,你有没有漏掉啥?Tactic:Ask the model if it missed anything on previouspassesSuppose that we are using a model to list excerpts from a source which are relevant to a particular question.A?er listing each excerpt the model needs to determine if it should start writing another or if it should stop.If the source document is large,it is common for a model to stop too early and fail to list all relevant excerpts.In that case,better performance can o?en be obtained by prompting the model with followup queries to find any excerpts it missed on previous passes.假设我们让语模型从某份档资料中,找出与某个问题有关的原摘要,回复给我们。每列出个摘要后,模型需要决定是继续列出下个,还是就此停。如果资料篇幅很,模型通常会过早地停下来,不会列完所有相关的摘要。这就是为什么我们发现章太,GPT 就偷懒的原因。这个时候,你就告诉它:哎,还没做完呢!这听起来很傻,但是确实有效。这么写可能会好些.前省略Are there more relevant excerpts?Take care not to repeat excerpts.Also ensure that excerpts contain all relevant context needed to interpret them-in other words dont extract small snippets that are missing important context.这么写可能不太你没做完任务,请重头来遍。(结果可能还会停在中间)六策略 05 借助外部的具Strategy:Use external tools5.1 使基于 embedding 的搜索来实现效的知识检索 Use embeddings-based search to implement e?cient knowledge retrievalA model can leverage external sources of information if provided as part of its input.This can help the model to generate more informed and up-to-date responses.For example,if a user asks a question about a specific movie,it may be useful to add high quality information about the movie(e.g.actors,director,etc)to the models input.Embeddings can be used to implement e?cient knowledge retrieval,so that relevant information can be added to the model input dynamically at run-time.A text embedding is a vector that can measure the relatedness between text strings.Similar or relevant strings will be closer together than unrelated strings.This fact,along with the existence of fast vector search algorithms means that embeddings can be used to implement e?cient knowledge retrieval.In particular,a text corpus can be split up into chunks,and each chunk can be embedded and stored.Then a given query can be embedded and vector search can be performed to find the embedded chunks of text from the corpusthat are most related to the query(i.e.closest together in the embedding space).Example implementations can be found in the OpenAI Cookbook.See the tactic“Instruct the model to use retrieved knowledge to answer queries”for an example of how to use knowledge retrieval to minimize the likelihood that a model will make up incorrect facts.(这段没有逐字翻译)模型可以利外部信息来丰富的输,这样可以做出更有料、更贴近现实的回答。如,问到某部电影,给模型加电影的背景资料(如谁演的、导演是谁等)可能会帮忙。这的嵌,也就是 embedding 技术,就是来帮助效找到这些知识,实时加模型的。简单来说,本嵌是基于向量数据,通过看本之间有多“近”实现的。还有没有更多的摘要了?请注意:不要重复摘要。请确保摘录包含了所有相关的上下意思是,请不要提实际的操作过程,可以看 OpenAI 的 Cookbook 的的这个实例。5.2 需要做精确计算的时候:代码、或调 API Use code execution to perform more accurate calculations or call external APIsGPTs cannot be relied upon to perform arithmetic or long calculations accurately on their own.In cases where this is needed,a model can be instructed to write and run code instead of making its own calculations.In particular,a model can be instructed to put code that is meant to be run into a designated format such as triple backtics.A?er an output is produced,the code can be extracted and run.Finally,if necessary,the output from the code execution engine(i.e.Python interpreter)can be provided as an input to the model for the next query.Another good use case for code execution is calling external APIs.If a model is instructed in the proper use of an API,it can write code that makes use of it.A model can be instructed in how to use an API by providing it with documentation and/or code samples showing how to use the API.WARNING:Executing code produced by a model is not inherently safe and precautions should be taken in anyapplication that seeks to do this.In particular,a sandboxed code execution environment is needed to limit the harm that untrusted code could cause.(这段没有逐字翻译)GPT 算数有可能不靠谱。在较的计算,它很有可能在“打酱油”。真的需要算,最好是让它写代码去算。运代码输出结果后,再丢回给模型继续处理。写 Python 代码求实数根的例SYSTEMYou can write and execute Python code by enclosing it in triple backticks,e.g.code goes here.Use this to perform calculations.你可以编写并执段 Python 代码,代码放在三引号,如:代码放在这。请这种式来执计算。USER找出以下多项式的所有实数根:3x*5-5x4-3*x3-7*x-10。另外,模型也能帮忙写代码调 API,这个过程也较简单。最后要提请注意:模型写的代码不得都是对的,都安全。跑代码之前要确保环境安全,最好在沙盒。输出结果:import numpy as np#Define the coe?cients of the polynomialcoe?cients=3,-5,-3,0,-7,-10#Use numpys roots function to find all roots(both real and complex)roots=np.roots(coe?cients)#Filter out only the real-valued rootsreal_roots=root.real for root in roots if root.imag=0real roots调 API 的例 这段代码是展了个假设的 message 模块的法,通过 message.write 函数来发送消息给指定的。SYSTEMYou can write and execute Python code by enclosing it in triple backticks.Also note that you have access to the following module to help users send messages to their friends:pythonimport messagemessage.write(to=John,message=Hey,want to meetup a?er work?)5.3 使 function-calling,函数调 Give the model access to specific functions.The Chat completions API allows passing a list of function descriptions in requests.This enables models to generate function arguments according to the provided schemas.Generated function arguments are returned by the API in JSON format and can be used to execute function calls.Output provided by function calls can then be fed back into a model in the following request to close the loop.This is the recommended way of using GPT models to call external functions.To learn more see the function calling section in our introductory GPT guide and more function calling examples in the OpenAI Cookbook.(这段没有逐字翻译)API 允许你在请求时附带系列函数描述。这样,模型就可以按照你给的格式产函数的参数了。API会JSON形式把这些参数传回来,你就可以它来调函数了。函数跑完后的结果,你还可以继续拿给模型,形成个完整的交互循环。想让GPT帮你调外部函数,这法相对最靠谱。想深了解的话,可以看 GPT 指南的函数调部分,还有 OpenAI Cookbook 的例。六大策略 06:系统地测试Test changes systematically6.1 评估模型输出的时候,需要你弄个“标准”的答案 Evaluate model outputs with reference to gold-standard answersSuppose it is known that the correct answer to a question should make reference to a specific set of known facts.Then we can use a model query to count how many of the required facts are included in the answer.(这段没有逐字翻译)假设我们作为类清楚地知道,当我们提出某个问题时,模型应该给我们输出哪些事实(得分点)。那么,我们就可以使模型查询和计算的法,来总结这些得分点,从给模型的输出质量打分。这个过程是监督学习的部分,它能让模型通过类的指导来改善其性能。评估模型输出的过程也是由另个模型来执的(不是)。这是个动化的评估过程。如,个模型(可能是同个模型的不同实例或不同的模型)负责评估另个模型的输出。否则,做规模的模型训练的成本就太了。OpenAI 提供了些 prompt 例,我们这略去了。有兴趣可以参考原链接。附录OpenAI Playground 什么,怎么用?什么是 OpenAI Playground.个向开发员和研究员的“游乐场”在 Playground 上可以按需求更改设置。这是最好的点。1、三个可选的模式(Mode)现在只有 Chat 是家持续在的。补全和编辑后都跟了个英语词,直译为“遗产”,意思是已经不再更新了,已弃。Chat 聊天Complete 补全(已弃)Edit 编辑(已弃)2、可选的模型(Model)OpenAI 公布的所有 GPT 模型都可以选。3、提词结构(Prompt structure)使 ChatGPT 和使 Chat Completion API 之间的最区别之就是提词结构。打开 ChatGPT,你只有个对话框,你只需,也只能,发送条简单的消息。虽然说你可以添加尽可能多的上下到消息中,但很有可能说着说着就丢失上下。但是在 PlayGround 就多了种玩法:这区分了 SYSTEM 和 USER 两个对话框。SYSTEM:系统设定。默认情况下,GPT 是“个有的助”。你可以它来控制它扮演什么样的,从控制你得到什么样的回复。如,你甚可以把它设置成成捣乱的个:“杠精”。然后,再在 USER 进你常规的对话。4、温度(Temperature)温度控制 GPT 成的本的随机性的参数。取值范围:0到2之间(默认值为1)。如果没有定程度的随机性,GPT 只能产完全聊和可预测的结果。因为它实际上只是将最有可能的后续单词添加到你给定的句中。所以:温度为0时,结果是聊的、确定的;即使你改变 prompt,结果也可能是乎相同的。但是,把温度推到任何个极端,都不要指望会得到可的本。推到最并不等于创造爆棚,因为输出结果般都是乱码。5、最度(Maximum length)Token 这个词,有时候被些机翻的档写成“令牌”或者“代币”。都不对。听起来较正确的应该是本的译法“词元”。但是般好像家都喜欢直接说 token。GPT-3.5,最 token 数是:2048(约 1500 个单词)。OpenAI 的收费模式:根据 token 使数量收费。这意味着:养成了更强的模型成输出的习惯,成本可能会增加。如果你是在产环境使,为了成本考虑,还是需要控制下这个的,可以通过限定 max token 来降低成本。6、终序列(Stop sequences)终序列的作就是告诉模型该在哪打住,不再继续输出字。通过它,你能隐式地控制字的短。如说,如果你只想要模型回答个短短的句,那就设定句号.作为终序列;如果你想要个段落的回答,那就把“新”(n)设为终序列。代表性例:如果你试图成的是个或些问答对,即 Q&A,这个就上了。因为你会想让模型简洁地回答这个问题,不是写篇章。设置句号.作为终序列,这样模型就会在完成个句后停输出。7、Top P(P 的意思是)Top P 是控制 GPT 输出的随机性的另种法。温度决定的是,模型从可能的下个单词列表中做选择的随机程度。Top P 决定的则是:该列表的度。假设我给出来个句:“J.K.罗琳是个.”下个单词是什么呢?GPT 有个单词列表,它在做的事情就是:预测概率,进排名。假设能接上这个句的下个单词的排名表这样:所以,这个句接下来最有可能的单词是:作家、英国。但也有定的概率,1%的概率,这句话可以说成:“J.K.罗琳是个矮”。如果 Top P 值为 1,则这个列表会常常常,包含所有可能的单词(即使是“矮”这种,概率常,总归也是有概率的)。反之,当你把 Top P 调到接近 0 时,选择就会常少,列表就会较短。有时候,当 Top P 设置为0时,它返回的结果与把温度设置为 0 时完全相同。8、频率惩罚和存在惩罚(Frequency penalty and Presence penalty)这两个参数都是来调控本成过程中某些词汇出现的频率和次数的。简单来说,通过设定些惩罚机制,可以影响成本的内容,使其更符合我们想要的样。80%:作家20%:英国20%:富翁10%:充满奇思妙想的5%:美4%:亲1%:矮谢谢阅读!关注未来场,获得更多 AI 实战例和分享资讯公众号:未来场Frequency penalty 频率惩罚:基于个词在本中出现的次数来给它加上定的惩罚。个词出现的次数越多,它受到的惩罚就越多,从降低这个词再次出现的可能性。处:降低词重复的可能性。如在写个章时,你不想某个词汇总是重复出现,就可以通过设置定的频率惩罚来达到这个的。Presence penalty 出现惩罚或者存在惩罚:则是根据个词是否已经出现在本中来惩罚。只要这个词已经在本中出现过,论出现多少次,都会给它加上定的惩罚,这是为了励模型探索新的词汇或话题。处:有助于向新的内容向转移,增加输出的多样性。如在个由讨论中,你想让模型能够尽可能多地探讨不同的话题,不是总是在同个话题上打转,就可以设置存在惩罚来实现。总之,频率惩罚和存在惩罚在某种程度上都是为了增加本的多样性和丰富性,只是侧重点和应场景稍微有点不同。

    浏览量0人已浏览 发布时间2023-10-18 38页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 堃腾:2023人工智能与义齿制造自动化白皮书(19页).pdf

    新一代数字化变革在人工智能和自动化时代打造您的未来义齿加工厂 皮 书The Next DigitalRevolution Contents目录011 让义齿加工厂的自动化成为可能022 来自第一代数字.  

    浏览量10人已浏览 发布时间2023-10-17 19页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • ODCC:2023数据中心制冷系统AI节能技术及其应用白皮书(51页).pdf

    1数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008编号 ODCC-2023-02008数据中心制冷系统 AI 节能技术及其应用白皮书开放数据中心委员会2023-09 发布I数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008版权声明版权声明ODCC(开放数据中心委员会)发布的各项成果,受著作权法保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用 ODCC 成果中的文字或者观点的,应注明来源:“开放数据中心委员会 ODCC”。对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC 及有关单位将追究其法律责任,感谢各单位的配合与支持。II数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008编写组编写组项目经理:项目经理:李宝宇华为数字能源技术有限公司工作组长:工作组长:李代程百度在线网络技术(北京)有限公司贡献专家:贡献专家:孙晓峰华为数字能源技术有限公司方良周华为数字能源技术有限公司费珍福华为数字能源技术有限公司张帆华为数字能源技术有限公司阳必飞华为数字能源技术有限公司齐平川华为数字能源技术有限公司孙海滨华为数字能源技术有限公司万欣华为数字能源技术有限公司李会永华为数字能源技术有限公司张骁华为数字能源技术有限公司施君礼华为数字能源技术有限公司张能解华为数字能源技术有限公司余丹华为数字能源技术有限公司杨自立华为数字能源技术有限公司张广河华为数字能源技术有限公司安真华为数字能源技术有限公司沈鉴华为数字能源技术有限公司曾智力华为数字能源技术有限公司龙纲华为数字能源技术有限公司III数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008李旭光华为数字能源技术有限公司王月中国信息通信研究院许可欣中国信息通信研究院张一星中国信息通信研究院阮迪中国信息通信研究院林志勇腾讯科技(深圳)有限公司刘科伟腾讯科技(深圳)有限公司季伟光北京三快在线科技有限公司谷曙媚北京三快在线科技有限公司张剑北京三快在线科技有限公司任华华阿里云计算有限公司王榕辉京东科技信息技术有限公司杨祥中金数据集团有限公司王元月合盈数据科技有限公司张宇合盈数据科技有限公司王克勇中通服咨询设计研究院有限公司丁卫科中通服咨询设计研究院有限公司张治洲超聚变数字技术有限公司刘劲楠超聚变数字技术有限公司贾辉超聚变数字技术有限公司IV数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008前前 言言算力已成为数字经济时代的关键生产力,是全社会数字化、智能化转型的重要基石.数据中心作为 5G、人工智能、云计算、AIGC(生成式人工智能)、大模型应用等新一代信息和通信技术的重要载体,已经成为数字经济时代的底座,具有空前重要的战略地位,作为“数字经济发动机”的数据中心在国家经济体系中的重要性大幅提升。数据中心既是技术密集型的新兴产业,又是支撑经济社会数字化、网络化、智能化发展的基础设施,是我国数字经济发展的引擎。特别是随着 5G、工业互联网发展,互联网与传统产业进一步融合,将从支撑消费逐步转向支撑产业发展和社会数字化治理,成为我国整个经济社会发展的数字基础设施。推动数据中心等信息基础设施绿色发展,对促进经济高质量发展,实现碳达峰碳中和目标具有重要意义。为构建绿色算力,推动数据中心全行业绿色低碳转型和高质量发展,降低数据中心的制冷系统能耗将会是一个重要的发力点。针对数据中心制冷系统节能,业界有采用如行级空调近端制冷、间接蒸发冷却、高温冷冻水风墙、氟泵、液冷等硬件制冷形式,但单一的硬件节能技术总会存在瓶颈;伴随着人工智能 AI 技术的高速发展,AI 节能也在数据中心行业得到越来越广泛的应用。通过神经网络的学习训练,来准确地预测决定数据中心能效的模型,并得到节能控制策略,最终达到节能效果。但当前市面上数据中心 AI 节能技术多应用于单个部件或局部系统调优,AI 模型标准化程度低,部署时间长,节能效果也参差不齐。V数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008为了更好的推动数据中心制冷系统 AI 节能技术快速高质量健康发展,特编写数据中心制冷系统 AI 节能技术及其应用白皮书,详尽介绍 AI 智能化节能技术在数据中心制冷系统的应用方案及技术特点,为行业相关人士提供借鉴和参考。由于时间仓促,水平所限,错误和不足之处在所难免,欢迎各位读者批评指正。如有意见或建议请联系编写组。VI数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008目目 录录版权声明.I编制说明.II前言.IV一、术语、定义和缩略词.1二、数据中心节能降碳的背景.3三、数据中心制冷系统能效优化的挑战及应用难题.6(一)数据中心制冷系统能效优化的挑战.6(二)数据中心制冷系统 AI 节能技术应用难题.7四、数据中心制冷系统 AI 节能应用方式.8(一)大型数据中心制冷系统能量交换场景.8(二)AI 节能控制系统与传统过程控制系统.111.传统的 BA 冷机群控和精密空调群控技术方案.112.基于机器学习的 AI 节能技术方案.13(三)AI 节能控制系统与传统过程控制系统的区别与联系.16五、数据中心制冷系统 AI 节能技术的演进和发展.18(一)数据中心制冷系统 AI 节能技术发展路线和需解决的问题.18(二)数据中心制冷系统 AI 节能技术实现方案.211.数据采集.222.数据治理.273.特征工程.304.预测模型.305.推理寻忧.32VII数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008(三)AI 节能技术适用场景.32(四)AI 节能技术应用安全.39(五)AI 节能技术价值.40六、AI 节能应用实践.41(一)河南联通中原数据基地.42(二)上海证券交易所金桥数据中心.421数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008数据中心制冷系统数据中心制冷系统 AIAI 节能技术及其应用白皮书节能技术及其应用白皮书一、一、术语、定义和缩略词术语、定义和缩略词数据中心 DC(Data Center):为集中放置的电子信息设备运行提供运行环境的建筑场所,可以是一栋或几栋建筑物,也可以是一栋建筑物的一部分,包括主机房、辅助区、支持区和行政管理区等。电能利用效率 PUE(Power Usage Effectiveness):是评价数据中心能源效率的指标,是数据中心消耗的所有能源与 IT 负载消耗的能源的比值。PUE 值越小,表示数据中心越“绿色”,能效水平越好。制冷负载因子 CLF(Cooling Load Factor):CLF=数据中心制冷系统输入总能耗IT 设备能耗为评估数据中心的制冷系统运行能效,衡量电能的使用效率,采用数据中心制冷总能耗和 IT 设备能耗的比值 CLF 作为评价指标。CLF值越低,说明数据中心制冷系统制冷效率越高。空气处理机 AHU(Air Handling Unit):在数据中心领域有时也会用 AHU 指代间接蒸发冷却系统。楼宇自控系统 BA 系统(Building Automation System):将建筑物或建筑群内的暖通空调、给排水、送排风、照明等众多机电设备进行分散节能控制和集中科学管理。为用户提供良好的工作生活环境,为建筑物管理者提供方便的管理手段,从而减少能耗、降2数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008低管理成本。针对冷源系统的控制系统,有时也被称作冷机群控系统。机器学习 ML(Machine Learning):机器学习(ML)是人工智能(AI)的一部分,属于计算科学领域,专门分析和解释数据的模式及结构,以实现无需人工交互即可完成学习、推理和决策等行为的目的。比例积分微分调节 PID(Proportional-Integral-Derivative)调节:PID 调节经典控制理论中控制系统的一种基本调节方式。是具有比例、积分和微分作用的一种线性调节规律。可编程逻辑控制器 PLC(Programmable Logic Controller)直接数字控制器 DDC(Direct Digital Controller)冷却液分配单元 CDU(Coolant Distribution Unit):也称为冷却分配单元,是冷却系统中用于将冷却剂(如水或其他流体)分配到需要冷却的机器或过程的不同部分的设备。它们通常存在于需要调节各种不同组件温度的大型冷却系统中。深度神经网络 DNN(Deep Neutral Networks):深度神经网络是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。遗传算法 GA(Genetic Algorithm):最早是由美国的 Johnholland 于 20 世纪 70 年代提出,该算法是根据大自然中生物体进化规律而设计提出的。是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜3数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008索最优解的方法。广泛地应用于组合优化、机器学习、信号处理、自适应控制和人工生命等领域。贪婪算法 GA(Greedy Algorithm):在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,算法得到的是在某种意义上的局部最优解。服务水平协议 SLA(Service Level Agreement):是服务商与用户之间约定的一种双方认可的协定,该协议定义了服务商为用户提供的服务类型、服务质量以及对用户保障服务的性能和可靠性的承诺等内容。二、二、数据中心节能降数据中心节能降碳碳的背景的背景数据中心是实现信息化进程的重要载体,在云计算、5G、人工智能等领域发挥着重要的作用。数据中心是支撑未来经济社会发展的战略资源和公共基础设施,也是新型基础设施节能降耗的关键环节。工业和信息化部的数据显示,截至 2022 年底,我国在用数据中心总规模超过 650 万标准机架,近五年平均增速超过 25%。三方调研数据显示,2017 年全球数据中心能耗达到 4162 亿千瓦时,相当于全球总用电量的 2%,也因此,数据中心是公认的高耗能行业。为指导数据中心行业高质量健康发展,近年来,多个部委陆续发布行业能效指标指导政策文件。2019 年工业和信息化部、国家机关事务管理局、国家能源局联合印发的关于加强绿色数据中心建设的指导意见,要求新建大型、超大型数据中心的能耗效率(PUE)值达到 1.4 以下。4数据中心制冷系统 AI 节能技术及其应用白皮书ODCC- 年,恰逢中国进入第十四个五年计划阶段:中国将努力在2060 年前实现碳中和。此后以发改委为代表的各部委密集出台的行业指导政策与“十四五” 双碳目标保持了高度一致。2021 年以来的政策文件,对新建的大型/超大型数据中心做出了 PUE 不高于 1.3 的要求。2022 年以来,随着“东数西算”一体化大数据中心建设,集群内要求东部1.25、西部1.2。东数西算先进示范工程1.15。同年,国家强制标准 GB40879数据中心能效限定值及能效等级正式发布,这也意味着未来的监督管理将有强标作为依据,PUE 监管会越来越严格。同时,相关文件对存量能耗高的老旧数据中心也做出了改造后PUE 不高于 1.5 的要求,一些主要省份启动对 PUE 过高的数据中心进行关停并转,使数据中心企业加大对老旧机房节能改造的重视程度。因此,如何运用新技术、新架构降低能源消耗,提升能源使用效率已经成为数据中心可持续性发展的热门课题。根据 UptimeInstitute 2022 年调查数据显示,当前全球存量大型数据中心的平均 PUE 高达 1.55,制冷系统能耗占比为 25%以上,供电系统能耗占比约为 8%。也就是说在数据中心中,除 IT 设备外,主要的耗能大户是制冷系统,因此本文主要从制冷系统节能的视角来展开论述。从数据中心全生命周期来看,数据中心制冷系统的能效表现与数据中心的设计水平及运营运维水平息息相关。(1 1)合理的设计可以从根本上降低数据中心能耗数)合理的设计可以从根本上降低数据中心能耗数5数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008设计阶段采用先进的制冷技术,合理的散热模式,可以有效降低数据中心制冷系统的能耗。如:将数据中心选址在年均温度较低的区域,通过充分利用自然冷源降低冷源系统的电能消耗。根据机房的实际情况,改善空调与 IT 负载间的热交换方式,如冷热风道隔离,行间近端制冷,密闭冷通道、密闭热通道等技术,都可以在设计阶段因地制宜、充分考虑。但考虑到实际负载率、设备的运行效率、现场环境等与设计值之间的差异,会引起实际运行 PUE 和设计 PUE 之间存在差距。(2 2)数据中心运营)数据中心运营阶阶段节能优化段节能优化运营阶段主要通过动态调节相应的制冷设备的冷量输出,实现冷量的按需分配,达到节能的目的。如:冷源系统的 PLC 冷机群控技术:实现变容量的冷量控制以及根据室外温度变化切换制冷系统运行模式,实现基于供需平衡的能效优化。末端精密空调群控技术:空调间采用 master-slave 模式组建控制关系,通过分析空调送风、回风的温度,实现空调间的联合控制,如空调的加减机运行、轮流运行等以达到节能目标。上述两种技术都是单设备、局部系统的能效控制优化技术,不能实现数据中心全局制冷系统的联动优化。在新的业务 PUE 要求、技术条件下,结合气候环境和 IT 负载变化、运营成本等因素科学制定运维策略;建立能源资源信息化管控系统,强化对电能使用效率值等绿色指标的设置和管理,并对能源资源消耗进行实时分析和智6数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008能化调控,力争实现机械制冷与自然冷源高效协同,在保障安全、可靠、稳定的基础上,确保实际运行 PUE 尽可能接近设计 PUE。三、三、数据中心制数据中心制冷冷系统能效优化的系统能效优化的挑战挑战及应用难题及应用难题(一)(一)数据中心制数据中心制冷冷系统能效优化的系统能效优化的挑战挑战数据中心制冷系统在运维阶段能效优化难度大,一方面,由于制冷设备与 IT 设备散热、制冷设备容量配置和实时效率、机房环境、室外大气条件相互关联,制冷换热循环多级耦合、不同设备控制变量庞大、最优效率点计算复杂,单纯依靠运维人员经验依据室外的环境温度和实时 IT 功率来动态调节响应已经无法满足能耗进一步降低的要求。而且在实际运行中,冷通道温度或者冷机温度的小幅度提升,都会导致制冷系统的很多变化,包括冷机、冷却塔、水泵、空调等的功耗可能增减不定,且非线性变化,其结果很可能是虽然冷通道或者冷机出水温度提升了,但制冷系统总功耗却是增加的。另一方面,由于制冷系统内部和外部环境的动态特性(考虑天气),不可能为每个操作场景开发硬编码控制规则;每个数据中心都是独特的环境和物理架构。虽然许多工程实践和经验法则可以全面应用,但一个系统运行的定制模型并不能保证另一个系统的适用;制冷系统和 IT 散热系统间的相互作用和各种复杂反馈回路,使得我们使用传统的热力学工程公式难以准确推导数据中心的运行效率,从而在如何通过量化的指标来指导能效的优化实践中提出了现实的挑战。针对上述问题,我们有必要建立一个能够预测制冷系统能耗和效率的 AI 模型,该模型可以动态的感知和分析相关系统的动态变化,7数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008并对控制变量带来的影响进行预测,找到整个制冷系统能耗的最优解,从而实现制冷系统的系统性调优。面向未来,IT 能耗包括服务器、存储、网络等主设备消耗的电能,而此类设备的能耗既包括计算、存储、网络实际能力输出部分,同时也包括如设备中电源模块、散热风扇的电能消耗,而当前大部分设备中电源、风扇的电能没有单独测量,因此,单独考核PUECLF 不关注 IT 能效也并不一定能提升数据中心的整体运营效率。在针对数据中心能耗的建模中,需要找到与 IT 能耗变化关联的变量间接描述,如体现能耗交叉影响的温度参量、风扇转速参量等,未来制冷系统和 IT 散热系统的最佳能耗组合也一定存在最优解。(二)(二)数据中心制数据中心制冷冷系统系统 AIAI 节能技术应用难题节能技术应用难题使用了 AI 系统进行建模优化,超大型/大型数据中心面临 AI 模型标准化程度低,需定制化开发;AI 节能系统部署时间长,效果不稳定,实际投资收益不确定等多重挑战。基于纯粹数据驱动的 AI 建模节能效果无法保证、如果不持续及时更新训练导致 AI 模型效果劣化、单个数据中心训练的模型无法批量化应用、数据采集方案不归一导致各个厂家之间数据采集不完整、存量的数据中心传感器少、硬件改造难,都造成了实际的项目中 AI节能效果不显著或者不可持续:目前许多 AI 节能技术都是单设备、局部系统的能效控制优化技术,不能实现数据中心全局制冷系统的联动优化。8数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008图 1实际采集到的运行样本空间较小:大量寻优空间不可信四、四、数据中心制数据中心制冷冷系统系统 AIAI 节能应用方式节能应用方式(一)(一)大型数据中心制大型数据中心制冷冷系统能量交换场景系统能量交换场景大型数据中心计算机房制冷系统由机房内空调末端和外部的制冷机组组成,或者由整体式的间接蒸发冷却机组或氟泵式间接蒸发冷却机组组成,而机房外部制冷机组分风冷冷冻水系统与水冷冷冻水系统。(1)水冷冷冻水系统:包括冷却塔、冷水主机和热交换器等,生产冷源,并通过热交换把计算机房产生的热量搬送到数据中心外;机房内制冷设备包括末端空调、密闭风道和管路、新风系统等,负责把冷源送到 IT 设备,并通过热交换把 IT 设备产生的热量搬送到室外,如下图所示。9数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008图 2水冷冷冻水制冷场景(2)风冷冷冻水系统:制冷设备包括风冷冷水机组,冷冻水精密空调等。风冷冷水机组利用自然冷却盘管承担部分或者全部室内热负荷,将冷冻水经由泵送入到空调,通过热交换将 IT 设备产生的热量带出机房。图 3风冷冷冻水制冷场景风冷、水冷冷冻水系统都可能具有三种运行模式,即电制冷模式、预冷模式、以及自然冷却模式。在运维阶段,通过监视设备运行状态,分析制冷设备的冷量输出与设备层的冷量需求,对制冷系统的运行模式进行选择、优化控制,实现冷量按需供应与负载层的按需分配,达成数据中心的制冷均衡,提高能源的使用效率。AI 依据模型的训练和预测,实现制冷系统切换运行可靠性,可以保证可靠性基础上,实现节能模式的切换。10数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008(3)整体式间接蒸发冷却系统:整体式间接蒸发冷却系统在数据中心现场安装风管、水管及配电后即可投入使用,机组有三种运行模式,干模式:仅风机运行,完全采用自然冷却;湿模式:风机和喷淋水泵运行,利用喷淋冷却后的空气换热;混合模式:风机、喷淋水泵、压缩机同时运行。三种运行模式可以结合气象参数和机组自身的特性曲线,在控制系统控制下运行,在满足温度控制的基础上,同时实现节能的目的。图 4间接蒸发冷却制冷场景(4)冷板式液冷冷却系统:冷板式液冷是一种通过冷板(通常为铜铝等导热金属构成的封闭腔体)将发热器件的热量传递给封闭管路中的冷却液体,通过冷却液体将热量带走的一种制冷形式。一次侧:CDU 中的冷冻水与二次侧回流的热水换热后,热水回流到冷却塔或冷水机组进行冷却,再回到 CDU 中与制冷用的工质水换热。二次侧:二次侧管路的工质水通过服务器冷板中的管路将主要发热元器件的热量带出,回到 CDU 中与冷冻水进行换热后进入下一次制冷循环。11数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008图 5冷板式液冷冷却系统场景(二)(二)AIAI 节能控制系统与传统过程控制系统节能控制系统与传统过程控制系统1.1.传统的传统的 BABA 冷冷机机群群控和精密空调控和精密空调群群控技术方案控技术方案(1)(1)冷冻冷冻水系统(含风水系统(含风冷冷)、)、液冷液冷系统的系统的 BABA 冷冷机机群群控简控简介介:制冷系统一般采用 PID 控制技术,通过冷却水、冷水主机、冷冻水系统的分层保障来实现整个系统的运行。通常,一个制冷系统具有多个 PID 控制点,包括冷却塔-冷却水温度 PID 控制环、冷水主机-冷冻水温度 PID 控制环、冷冻泵-压差 PID 控制环。冷却塔-冷却水温度 PID 控制环是通过冷却水出水温度设置值、冷却水温差、出水流量来调节冷塔风机转速、泵的转速、泵数量。冷水主机-冷冻水温度 PID 控制环是通过冷冻水供水、回水温度、以及冷冻水供水温度设定值,调节冷水主机压缩机运行频率以及投入的数量。12数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008冷冻泵-压差 PID 控制环主要是根据冷冻水供回水压差来调节泵的频率以及投入的数量,确保最劣点冷冻水压力达到要求。图 6制冷系统控制PID设置图对于变化的负载与环境参数,冷机系统的控制通常采用变流量控制方式来实现,变流量控制主要有压差和温差控制,具有如下的控制环。图 7变流量控制反馈分布的控制环因为无法相互感知,本质上不能解决整个系统的能耗优化问题,其次三个控制方程无法解决在冷却塔、冷却泵、冷水主机、冷冻泵上最佳分配电能的四变量问题。实际应用中,往往因为泵选型、分离部署、小温差、水力失调等问题,造成制冷站能耗居高不下,这些问题都不是 PID 能够解决的。13数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008(2)间接蒸发冷却设备、精密空调群控简介:间接蒸发冷却设备、精密空调群控简介:多台精密空调通过通讯电缆连接后可实现组网群控功能,网内机组之间能实现主备切换、轮巡、层叠、主机报警/断电/备机启动等功能。群控带来的效益主要包括:多台机组通信组网工作,使整体效率得到提升,机组之间的竞争运行被避免同时可优化温湿度的控制精度;多种群控方式,可以满足各个应用场所的要求。这些最终带来的是数据中心的节能、安全、和机组寿命的延长。图 8精密空调群控主要功能间接蒸发冷却设备群控系统的功能和精密空调的类似,所以就不在此详细赘述。2.2.基于机器基于机器学习学习的的 AIAI 节能技术方案节能技术方案实际中,数据中心的空调需要根据 IT 负载的运行状态进行适应性调节,这类调节会直接影响到空调的送风温度以及输出冷量,进而影响冷量生产节点的调节。14数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008利用需求侧管理理论将制冷站与空调、IT 侧融合,建立制冷需求侧、制冷供给侧的关联模型,目前 AI 节能技术中,效果比较好的就是基于深度神经网络(DNN)的机器学习方法,借助该学习方法,让数据自行寻找模式和交互,自动生成最佳匹配模型,具体包括:(1)跨层能效感知和数据采集,实现管理对象建模,包括物理设备如服务器、机架、微模块(区域级)、DC 等,同时对管理节点进行建模,包括 Facility 管理节点、IT 设施管理节点;建立管理节点与设备的关联关系。(2)根据冷量的供给、消耗界面,建立分层能效网络模型,如制冷站与空调、空调与 IT 负载两层结构的建模,挖掘数据中心基础设施配置与 PUE 的相关性。(3)利用 DNN 机器学习方法以及测量的历史数据,建立起制冷系统运行参数与数据中心整体能源效率之间关系的数学模型,基于数学模型、虚拟化仿真、预测配置参数的改变对能耗的影响,得到最优模型参数,同时减少参数变化带来的不可控风险。数据中心能效优化是以整体功耗为目标的全局优化,要实现全局控制,必须实现两个预测,即整体能耗的预测,以及冷量需求预测。整体能耗预测关联 PUE,冷量预测关系到业务保障,准确的预测是目标寻优控制的实施基础。采用 DNN 机器学习方法,一方面可以建立分层的能效关联深度网络模型与交叉影响参数评估,另一方面,也可解决在多参数交叉影响场景下的负荷预测问题。同时结合遗传算法(GeneticAlgorithm)、贪婪算法(Greedy Algorithm)等实现面向能效、效率与服务质量多目标优化条件下控制参数的求解,寻优过程如下:15数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008图 9DNN机器学习能效优化寻优过程框架首先通过机器深度学习,根据系统运行的历史数据,结合专家知识,利用 DNN 方法,拟合 PUE、总能耗的数学模型。基于 PUE 的预测模型,获取与 PUE 敏感的特征值,利用模型中的特征如大气条件、IT 负载等参数进行负荷的数据建模。最后,利用系统可调整的参数作为输入,将 PUE 预测模型,业务预测模型作为参数的适用度评价输入,利用遗传算法寻优,获取调优参数组,参数组需要保障业务运行的 SLA,如冷量的供应等,输出的最优个体经由管理节点下发到控制系统,实现制冷系统的控制。因此,通过机器学习,使用历史数据训练神经网络,输出预测的 PUE,以及 PUE 与各类特征数据的关系,可以指导 DC 根据当前气象、负载工况,按可预期的结果进行优化控制,实现节能目标。16数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008(三)(三)AIAI 节能控制系统与传统过程控制系统的节能控制系统与传统过程控制系统的区区别与联系别与联系数据中心精细化运维要求在保障设备安全运行的前提下,关注整个系统的能效提升。传统的控制方法主要从满足整体的负荷考虑,各设备安全运行保障是控制系统中主要考虑的因素。限于人员技能、资源、工具,传统的控制方法难以保障运维团队全天候地严格监控工作负载分配,因此,设备、系统层的高效率协作自然无法实现。传统的制冷系统控制节点设置如下,具有多个 PID 控制点,如冷却塔,冷却泵、冷机组成的冷却水系统控制环,其 PID 控制是通过冷却水出水温度设置值、冷却水温差、出水流量来调节风机转速、泵的转速、泵数量。图 10 制冷系统PID环分布示意图作为一个完整的 PID,须有输入、控制输出、反馈信号。当系统确定后,上述参数便被确定,外部可以调节的就是 set point(设置值),作为冷塔来说,该 set point 包括冷却塔的数量、冷却塔风机的数量、冷却塔出水温度等。这些值一般具有阈值范围。加入 AI 后,具有如下的控制结构:17数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008图 11 基于AI的控制结构图图 12 AI系统与群控系统在无 AI 的条件下,PID 根据群控系统设定值执行控制,如对风机的频率做调整。这种设置可能长时间保持不变。在有 AI 的条件下,PID 根据来自 AI 的推荐值执行控制,这种控制值可以每 30min 执行一次,控制的时间粒度更精细。更重要的是,AI 可以将 PID 控制环 1、2、3,甚至 4(如图 9)的参数综合考虑,以能耗最优为目标,输出控制参数的建议值。因此,基于机器学习的节能方法,将 AI 与 PID 控制联接,将冷机群控系统与空调群控系统结合,采用预测、控制、分析、调整等管理工具,建立制冷的供需模型,在充分保障业务 SLA 的基础上,求解能耗最优的控制方案,确保在变化负荷(外部气象条件和内部18数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008负荷动态变化)情况下,使能制冷系统“跑”在最佳的综合运行效率曲线上,运维更智慧、更有效。五、五、数据中心制数据中心制冷冷系统系统 AIAI 节能技术的演进和发展节能技术的演进和发展(一)(一)数据中心制数据中心制冷冷系统系统 AIAI 节能技术发展路线和需解决的问题节能技术发展路线和需解决的问题整个数据中心 AI 算法的演进路标和主要技术水平指标:从仅依赖设备运行机理或运行数据的方案逐步走向设备数据与运行数据结合,实现不同数据中心直接联邦学习模型迁移,达成数据中心制冷系统 AI 数据和模型质量的双飞跃。图 13 数据中心AI节能算法进阶图AI 部署模式的数据安全性问题,需要解决数据不出局的 AI 效率和节能的矛盾问题:大型 DC 以本地化数据为主,未来数据中心本地化 AI 为主,在本地化 AI 应用场景下,算法的设计和系统交互需要考虑单一数据中心数据量问题,通过协同学习解决数据不出局问题。第一代机理白盒算法基于理论公式、专家经验,可解释性强,交付相对简单。但只有典型场景的能效曲线.精度不高,节能空间受限。同时,应对变化能力弱,随着设备老化,无法实时根据数据去更新模型。19数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008第二代纯数据驱动 AI 黑盒算法,能适应设备和环境的变化,节能效果较好。但可解释性不强,严重依赖数据量,交付周期长。第三代知识 AI 成长型算法,利用协同学习架构(如下图 14),AI 模型支持迁移学习,可在目标局点预置模型,从而大幅缩短交付周期。图 14 协同学习架构图同时 AI 节能技术的方案和配置需足够简化,以方便 AI 模型批量化部署,降低使用成本。目前第三代 AI 节能平台可灵活支持神经网络、深度神经网络、逻辑回归、决策树、随机森林、XgboostGBDT、lightGBM、SparseGP BO 等算法,提供协同学习的 AI DevOps20数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008全流程工具链,提升开发效率,降低人力素质要求,支持 AutoML(自动机器学习)能力,保障模型训练的超参最优,实现模型保鲜。图 15 AI DevOps 算法流水线流程图随着 AI 算法进入 3.0 阶段,应支持 DC 迁移学习和联邦学习算法,实现不同 DC 的模型迁移。在传感器数量少,数据分布窄的老旧DC 也可以使用 AI 节能,多个参与方贡献各自数据,联合建模,共享模型成果图 16 基于联邦学习算法的模型共享框架图21数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008未来第 4 代能源大模型算法,将进一步解决 AI 算法专用性过强,泛化性较差、数据依赖量大等问题,可提供高质量合成数据,破解DC 自动驾驶数据和测试难题,通过 AI 加持,增强节能诊断,实现预警处理避免故障发生,从诊断已知到预测未来。(二)(二)数据中心制数据中心制冷冷系统系统 AIAI 节能技术实现方案节能技术实现方案基于大型 DC 的统一监控和运维架构,AI 节能系统的弱电监控方案如下组网,AI 节能系统需要同时接入 BA 群控系统、动环监控系统、空调群控系统、电能管理系统。图 17 基于本地化部署的AI节能方案组网图(冷冻水场景)22数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008图 18 AI节能系统典型组网图(AHU场景)目前业界主流的AI节能技术需包括如下几个功能模块:1.1.数据采集数据采集机器学习基于数据,数据的质量直接影响学习模型的准确性,以及模型的泛化适配能力,其兴趣点是什么数据,需要怎样的规模来处理这些数据。一般来说,需要先确认数据的来源,其次要确认显著的特征是否正常,最后需要反复试验来验证。因此需要关注数据的可能来源,包括场景的覆盖率、系统中单设备的指标变化范围,指标间关联影响的分析,要求历史数据样本的变化能够覆盖相关取值区间,并交叉变化。实际环境中,由于系统本身的复杂性,历史数据很难达到期望,往往需要模型的自学习能力,使用小样本学习使得模型同步演进,具有相应的泛化能力。23数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008冷冻站冷冻站传感器要求传感器要求项目项目水温传感器水温传感器压力传感器压力传感器流量计流量计冷水机组冷冻侧进出水管各1,冷却侧进出水管各 1冷冻侧进出水管各1,冷却侧进出水管各 1冷冻水出水、冷却水出水各 1(安装在冷机和板换共用的管路上)板式换热器冷冻侧进出水管各1,冷却侧进出水管各 1冷冻侧进出水管各1,冷却侧进出水管各 1冷冻泵无进出水管各 1无冷却泵无进出水管各 1无冷却塔每组塔进水管、出水管分别安装无无蓄冷罐蓄冷罐进、出水总管分别安装 1蓄冷罐进、出水总管分别安装 1双向流量计,每放冷管路 1冷冻水总管供水、回水各 2供水、回水各 2回水总管 2冷冻水压差旁通无每旁通进、出各 1每旁通 1冷却水总管供水、回水各 2供水、回水各 2回水总管 2冷却水管旁通无无每旁通 1分水器每筒体 2(两端各1),每分支出水管各 1每筒体 2(两端各1),每分支出水管各 1无集水器每筒体 2(两端各1),每分支回水管各 1每筒体 2(两端各1),每分支回水管各 1每分支回水管路各 1室外环境室外安装 3 个干湿球温度传感器24数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008针对 IT 机房需要部署以下传感器:精密空调、机房通精密空调、机房通道道温度传感器温度传感器精密空调供回水温度、送回风温度、水阀开度、风机转速、单个空调能耗密闭通道模块机房密闭通道模块每个冷、热通道布置前、中、后布置 3 个温湿度传感器;图 19 房间级空调传感器部署样例(微模块场景)(1)(1)末端空调与末端空调与 ITIT 负载气流组负载气流组织织该部分主要通过空调以及与 IT 机柜间组成的通道送风、回风气流组织体现,理论上,空调送出的冷量应该与 IT 负载的热量均衡。实际中,由于通道的密闭、部分场景的送回风气流混合等因素,在25数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008一个特定的环境中,空调供给的冷量一般要大于 IT 设备产生的热量Q。该环节关联特征参数包括温度、湿度、空调能耗、IT 负载、压差数据,温差数据等。在独立的送回风结构中,只要关联参数可以测量,通过 DNN 拟合,是可以拟合出变化的影响因子的。如果无法直接测量相关的参数,可以通过加入冷量损失因子在冷量与热量间建立等量关系。(2)(2)冷冷机与空调间的机与空调间的冷冻冷冻水循环系统水循环系统该循环是封闭系统,冷机通过压缩做功制冷,产生低温冷冻水;低温冷冻水经空调换热为冷冻水回水,进入到冷机,定义这部分的交换冷量为 C,从理论上,C=Q,而 C,一般是通过冷冻水的送回水温差与冷冻水流量求出,因此,冷冻水侧,相关的温度参数、流量参数是关键的特征值。考虑到 DC 中管道制式、以及冷冻泵的扬程特性,需要针对特定的管路测量相关的压力差值,以保障冷冻水送水回路中的最劣路径能够满足末端空调的制冷要求,管路的压力,压力差设定值需要重点考虑。(3)(3)冷冷机与机与冷塔冷塔间组成的热交换系统间组成的热交换系统在冷机中,通过冷凝器,高温高压气体与低温冷却水热交换,冷凝为液体,冷却水温度升高,并通过泵送到冷却塔,冷却塔将热带入外部环境,冷却水温度降低,回流到冷机冷凝器端。此环节中,由冷却水带出的热量,应该与冷却塔散发的热量平衡,冷塔散热能力决定于大气条件、冷塔的投入及效能。26数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008大气条件中的湿球温度是冷却水可以达到的极限温度,湿球温度参数可应用于夏季冷却塔的风机控制,实现冷却塔的节能控制;湿球温度参数也可作为冬季是否能使用冷却塔免费供冷的判据。因此在冷塔侧,需要综合考虑关键特征参数有:室外干球温度、室外湿度、室外湿球温度、室外风速、冷塔功率、能耗等。冷却水相关参数包括冷却水出水温度、冷却水回水温度、流量、泵转速、冷机能耗等。(4)(4)板换制板换制冷冷板式换热器参与热交换,相关参数通过总管或者环管予以体现,板换工作时与冷冻泵,冷却泵以及冷却塔关联。FC 模式下冷冻水泵运行数量按照实际末端负载需求进行加减机控制,冷冻水泵的频率按照供回水压差进行控制。FC 模式下冷却水泵运行根据板换二次侧(冷冻水)出水温度、以及出水温度的设定值进行调节。(5)(5)蓄蓄冷冷系统系统考虑到蓄冷实质为冷机制冷存储的一种方式,是冷机工作的一种辅助模式,在业务的处理上,需要根据充冷以及放冷的状态,将这部分的冷量作为制冷系统的负载予以考虑。(6)(6)运行模式运行模式根据暖通工艺、不同的运行模式下,部件间的配合关系、控制策略都有相应的变化。27数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008电制冷模式下,冷却水主管出水温度采用“室外湿球温度 逼近度”的值设置冷塔出水温度,冷却水泵采用冷却水供回水温差变频控制。部分免费制冷模式下,冷塔出水温度的设定值会跟随湿球温度值采用不同的模式,冷却水泵采用冷却水供回水温差变频控制。免费制冷模式下,通过控制冷却塔风机频率来调节冷却塔出水温度,而二次侧冷冻水平均温度则通过控制冷冻水泵进行调节。由此可见,运行模式的改变要求特征参数做出相应的调整,以达到节能、安全的目标。2.2.数据数据治治理理实际环境中,很多负面的因素如数据丢失、数据噪声、数据冗余、数据维度灾难等严重影响了机器学习的表现。利用自动化数据治理工具,对采集的数据进行识别、降维、降噪、清洗等处理,生成高质量的训练数据。(1)(1)数据数据识识别别数据识别主要是借助领域业务知识,构建出主题数据字典,以结构化的数据进入到数据湖。同时为保障数据与实际场景的匹配,将数据分为采集数据、配置数据、同时也有衍生的变量,这些数据需要有灵活的定义与管理能力,因此系统需要配置有数据治理信息管理模块,实现上述能力。(2)(2)数据数据补齐补齐28数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008机器学习要求样本数据是完整的,但实际应用场景中,样本数据中的某些维度是缺失的,产生的原因往往是采集器丢码、对应的设备离线等,也有可能是因为时间累积误差导致在对应的标签时间范围内部分特征参数无数据可对应等。针对这类问题,主要采用如下几种方式进行预处理。最大似然填充:最大似然填充是指根据数据的概率分布函数,通过最大似然估计,对缺失值进行填充。实际过程中,一般采用均值填充或者中位数填充。基于业务认知填充:对于样本系统中的部分缺失数据,可以通过业务分析方法进行填充,如制冷系统的能耗数据,由于采集时间积累原因,导致两个采集点的时间数据出现丢失,左右两侧的数据出现跳变,这时可以结合能耗的变化以及相邻时间段的历史数据,进行处理,填充。机器学习方法填充:数据本身的概率分布往往是未知的,而通过机器学习算法对缺失数据进行填充可以避免对数据的概率分布有过多的假设。比如当前样本数据维度较多,可以采用随机森林的方法对缺失数据进行填充。(3)(3)数据降数据降噪噪数据噪声是指测量变量中的随机错误和偏差,包括错误值或者偏离期望值的孤立点。在机器学习中,过高、过多的数据噪声既影响输入特征值,也影响输出模型的准确度。为应对数据噪声,首先要发现数据噪声,并视情况做数据的处理。逻辑筛选:在面向具体的应用场景时,每一个维度的数据均存在逻辑的合理性,如制冷系统冷冻水的送水温度、数据中心的 PUE29数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008值、约定周期的能耗值等有其合理的范围,因此可以根据维度的逻辑合理性进行筛选。聚类方法筛选:通过聚类的方法,将类似的取值组成群或者簇,远离群或者簇的点视为离群点。发现数据噪声后,一般的处理方法是剔除数据噪声,删除数据噪声点,部分数据可以根据具体业务,以及数据变化的迟滞特性(如温度变化)予以校正。(4)(4)数据集成与融合数据集成与融合针对制冷系统,可以采集到两部分的结构化数据,分别是冷源系统与机房空调系统。这些单数据源的数据需要通过集成融合,将异构系统的数据治理为可被机器使用的样本数据。数据集成主要是基于时间、空间两个维度,对上述系统的采集元数据进行抽取、同步,并将不同区域的相关用能数据与元数据进行融合,形成有效的样本数据。对于信息丢失过多的样本,一般采用剔除非完整的样本方法,剔除数据会导致样本数量减少,影响机器学习的最终表现。数据治理工具提供卓越的数据目录服务,一亿条原始数据可以一个小时内完成治理,30 分钟数据秒级清洗,为后续的模型训练提供高质量数据:表 1 数据治理的关键动作数据含义解读统一规范数据字典数据质量提升基于通用质量评估算法,制冷设备的物理属性沉淀的约束规则和领域专家经验进行数据质量评估,生成 DC 节能领域质量评估模型,30数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008快速识别数据问题,缩短数据反馈流程,提升数据准备效率数据处理自动化结合业务理解,生成清洗规则并通过数据湖沉淀,一站式生成训练数据集并支持不同数据中心的快速复用3.3.特特征征工程工程数据和特征决定了 AI 算法的上限。利用特征构建,对同类设备的特征进行横向/纵向处理,生成冷站特征,末端特征及冷站末端交叉特征。通过相关性分析特征工程以及业务领域知识,反复分析计算获得关系因子,找出与 PUE 强相关的关键特征参数,实现特征降维。利用精准的特征选取来降低对模型复杂度的要求,减小超参寻优难度,提升模型的效果、执行效率及模型的可解释性。为提升特征工程的在不同数据中心的泛化能力,将特征工程与算法分离,沉淀不同制冷模式,不同管路类型的特征工程。4.4.预测模型预测模型(1)模型训练通过历史数据得到 PUE 预测模型、生成数据约束、PUE 惩罚值。PUE 预测模型可以根据当前状态和选择的控制策略,预测出可能的 PUE 值,包括:环境变量预测模型、过程变量预测模型、控制变量预测模型。数据约束用于计算模型的可信度,作为控制量选择的风险度量。PUE 惩罚值是根据历史上高 PUE 事件分析得到的最不正确的控制量的风险值。31数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008(2)根据当前状态和控制变量的范围,使用 1 中的 PUE 预测模型计算不同控制量对应的衍生变量值和 PUE 值。(3)根据制冷系统冷量约束、流量约束、设备工作频率范围约束,去掉 2 中生成的不满足约束的控制变量组合。(4)根据 1 中给出的数据约束(模型可信度)、高 PUE 风险以及专家经验,对 PUE 值进行修正(5)选取满足约束且控制稳定的对应 PUE 最小的控制量,实现对制冷系统进行控制。(6)根据 DC 反馈的观测值进行控制量优化。如果是环境发生变化,就根据当前环境重新进行 PUE 拟合和寻优;如果环境没有变换,就修改 PUE 预测值后进行寻优;如果是高 PUE 事件,就增加 PUE 惩罚值。(7)IT 功率和室外环境温度,以及每个制冷设备效率的实时变化都会影响预测模型的精度。通过 5min 级别的数据持续采集和天级别的模型持续重训练,不断提升模型实际运行精度,可以让预测模型常用常新,节能效果持续稳定。模型的优劣可以通过以下几个方面进行评价:模型的适用性,也就是模型的推广性;模型建立时的参数辨识难度;模型的准确性;模型参数是否具有明显的物理意义;模型建立时对参数辨识的样本需求是否很严格。32数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-.5.推推理理寻忧寻忧AI 模型在线推理模型:使用遗传算法或者贪婪算法,根据数据中心当前时刻室外的环境数据和实时的 IT 功率,利用已达到精度指标的预测模型,将所有给定范围的控制变量组合代入到训练生成的能耗-控制变量模型中,通过计算对比不同控制策略下的能耗值,选择 PUE 最低的控制策略,下发到系统中。推理结果选择除了需要考虑 PUE 最低,还要根据系统的容量大小和运行稳定性,选择合理的推理周期和每次调节的步幅。图 20 AI参数寻优流程图(三)(三)AIAI 节能技术适用场景节能技术适用场景暖通工艺、设备管理网络、以及控制策略是制冷系统管理的基础,决定了基于 ML 的模型特征参数、算法选择,安全边界,是制冷系统人工智能调控的关键要素。针对数据中心主流的制冷系统,如冷冻水、间接蒸发冷却、液冷,其工艺框架汇总如下:1.冷冻水场景的制冷工艺框架冷冻水场景的制冷工艺框架33数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008大型数据中心制冷包括水冷系统、机房风道系统。水冷系统包含冷却水系统、冷冻水系统;机房风道系统则由空调与机柜系统组成,其拓扑结构如下。图 21 数据中心E2E热交换拓扑在实际的环境中,制冷拓扑会因暖通工艺的要求变得复杂,并匹配多种制冷模式。冷却侧、冷冻侧管道的连接方式不同,具有单管、环(母)管制、混合管路的区分;冷水主机与板式换热器的连接方式,被划分为串联、并联两类拓扑。这些不同的连接方式导致控制策略不同,以及不同的制冷模式。单管制管路:冷却塔、冷却泵、冷水主机(连接板换)、冷冻泵一对一绑定组成独立的制冷单元。图 22 制冷系统单管制工艺框架母管制管路:冷却塔、冷却泵、冷水主机(板换)和冷冻泵分别并联成组后,再通过总管或者环管串联,之间无一对一的对应关系。34数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008图 23 制冷系统母管制工艺框架当系统较大、阻力较高,且各环路负荷特性相差较大,或压力损失较为悬殊时,为优化低负载工况下的能效,改善最不利环路的流量分配,制冷系统会引入二次泵的设计。一次泵负责克服冷机侧的阻力,二次泵用来克服末端的阻力,可以在不同的末端环路上单独设置,并根据该环路负荷变化进行独立控制、变频调节。图 24 含二次泵的制冷系统工艺框架在液冷数据中心的规划与设计阶段,暖通设计会根据选址、建筑结构、环境气象等要素,选择不同的工艺框架与控制策略。可以根据气候不同,选择是否需要冷水机组进行补充冷却。35数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008图 25 液冷制冷系统的工艺框架2.精密空调和间接蒸发冷却精密空调和间接蒸发冷却 AHU 气流组织方案和应用情况气流组织方案和应用情况数据中心设备密集,发热集中,显热量大,要求有合理的气流组织,有效移除机房内热量,保障设备对温湿度、送风速度等环境要求。行业中,应用比较多的风道包括房间级送风、机柜近距离送风两种方式。房间级送风典型的是地板下送风方式,参考图 16(a),机房专用空调将冷风送到静电地板下方,形成静压腔,静压腔可减少送风动压、增加静压、稳定气流,使得系统更为有效地将冷空气送到热负载端。这种情况下送风距离将成为影响机柜散热的主要因素,而将温度调低成为了保障散热的主要手段,因此需要重点关注风道风压,地板出风的风速等问题。机柜近距离送风典型结构是使用列间空调,将空调部署在机柜边,利用空间、机柜、隔离构件组成密闭通道,使得冷量自空调到机柜的路径更短,压力损失更小,从而提升制冷效率,典型结构参考图 16(b)。36数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008图 26 冷冻水精密空调风道框架图图 27 间接蒸发冷却AHU风道框架图数据中心气流组织属于强制对流散热,影响其散热效果的主要因素有:送风方式、送风温度、送回风温差、风量、风速等,因此机房的空调设计以及空调的控制策略需要综合考虑这些参数。送风温度需要满足设备进风的要求,送回风温差由机房空调的制冷能力决定,通常设计温差建议不超过 15,送风风量应满足机房内所有设备制冷所需的风量要求,风速控制要合适,建议值在 2-4m/s。37数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-.BA 冷源控制网络冷源控制网络冷却塔,冷却泵,冷水主机,冷冻泵,蓄冷装置、管路组成冷源系统,通常,此类设备的控制由 PLC 或 DDC 控制器完成。控制器通过硬连线链接到冷源管理控制器,管理控制器综合分析室外干(湿)球温度,冷冻水供回水温度、压力、流量,蓄冷罐水管上的双向流量计的流量及流向等参数,通过计算向各单元控制器发出启动/停止命令、制冷模式、预冷模式、经济模式、加载与减载控制。管理服务器,主要完成工况设置、数据采集功能,冷源管理控制器的控制参数则是冷冻水供水温度、冷冻水供回水压差以及冷却水出水温度等。要实现冷源系统运行时能效最佳,从局部解决问题不能得到系统最优,应通过群控技术,将各控制子系统互连,实现信息、资源共享,进行集中控制和统一管理,实现集中空调全系统的协调运行和综合优化。综合来看,数据中心制冷系统一般具有如下的控制网络拓扑。图 28 制冷系统控制网络图38数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008制冷系统控制过程是典型的多因素非线性系统控制问题,主要由以下五个控制环节组成:(1)核心 PID 控制环节:系统级的协调运行,节能控制。(2)冷机内部控制环节:冷机自带控制能力,主要是解决冷机的保护、以及内部的运行控制。(3)冷却塔开启台数、风扇频率控制环节。(4)冷冻泵频率的 PID 控制环节。(5)冷机、冷却泵、冷冻泵、冷却塔的台数控制环节。(6)控制环节之间互相会存在影响,一个环节的输入参数受另一环节的输出参数影响。4.精密空调控制网络(空调群控)精密空调控制网络(空调群控)空调群控系统是对末端空调、冷腔、风道实现管理与调节,通过采集机房的冷热风道的温度,冷腔压差等实现基于设定送风温度、温差的闭环控制,以保障 IT 设备的工作温度遵从相关的标准,如TIA-942、GB50174-2017 等对工作环境要求的定义。空调群控系统一般采用主从节点的方式联网,可以针对具体的区域对空调进行分组,并指定主节点,从节点在主节点的统一协调下工作。主节点根据机房的面积、设备情况(设备发热量、数量和摆放情况)和空调性能(空调制冷量、风场和区域温度)等信息,通过前期的 CFD 分析给出合理的制冷参数,结合现场测试调整,使得空调处于最佳运行状态。群控管理系统具有的功能包括自动分工、顺序加载、数据同步等,以及对各台空调运行参数进行精准控制,在保证机房区域温湿39数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008度适当的基础上,实现多台空调之间的精细化协作,有效降低非必要的能量损耗。(四)(四)AIAI 节能技术应用安全节能技术应用安全设备设备操操作安全:作安全:AI 节能系统的数据采集读取及 AI 优化指令下发,均通过冷机群控系统和空调群控执行,不可以绕过群控系统直接对单个制冷设备进行控制。AI 节能优化参数的生效,并不影响 BA冷机群控和空调群控的正常逻辑和功能。参数范围约参数范围约束束:AI 推理过程融入运维规范(制冷系统参数范围,如设定的送风温度 18-27,进水温度 10-15等),推理结果满足SLA 要求,运维人员可以设定制冷系统每个推理寻优参数的计算范围,AI 模型推理计算结果满足运维人员的设定要求,不可以超出范围边界。寻寻优指优指令令可可视视化:化:整个 AI 推理过程中,产生的节能指令及下发的指令均能在 AI 节能平台上清晰可视化的呈现,并支持和上层平台对接,指令操作情况可回溯。双重逻辑双重逻辑控制机制:控制机制:当遇到如机房高温、设备异常或停机等紧急异常情况时。AI 节能平台能及时识别异常并主动退出推理寻优,优先保障冷量输出最大。同时,AI 节能平台应能与主流的 BA 冷机群控厂家达成对接协议授权,当 BA 冷机群控或空调群控检测到设备发生告警时,通过断联心跳通讯,AI 节能模式可被动退出。系统将恢复至调优前的状态,执行默认安全参数。数据不出局:数据不出局:数据采集、模型训练,寻优推理均在本地平台上进行,不泄露局点隐私。40数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008(五)(五)AIAI 节能技术节能技术价价值值AI 节能系统属于低投入、高回报、持续收益、运维简单的一套完整的节能方案,在厂商节能技术成熟的情况下,普遍在 12 年就能回收成本。(注:市场上各厂家节能技术会有差异)ROI=投入费用IT 设计功率(kw)*IT 负载率(%)*当前 PUE(1.xx)*节能率(%)*电价(元/度)*8760(h)总体来说,AI 节能具有如下 2 方面价值:经济价经济价值:值:在原来运维水平的基础上,进一步降低 PUE,直接节省电费,给客户带来实际利润;在阶梯电费越来越高的情况下,达成降档电价;结合各地推行的虚拟电厂政策,享受政策补贴红利;社会价社会价值:值:响应全球碳中和的号召,促进构建智慧绿色零碳社会满足国家及各地对数据中心 PUE 实时监管要求,帮助客户达成PUE 目标;针对存量 PUE 升级旧改项目,通过 AI 系统调优,无需业务下线,减少硬件改造成本,协助客户达成节能改造目标;创新技术,节能降碳,助力客户达成绿色零碳数据中心,促进构建智慧绿色零碳社会。41数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008六六、AIAI 节能应用实节能应用实践践经过近 10 年的技术发展,AI 节能技术在数据中心行业已得到广泛应用,并取得了不俗的成果。比如早在 2013 年,谷歌的DeepMind 团队,使用神经网络分别预测 PUE、DC 温度、负载压力,控制着 120 个数据中心的变量,成功使其自建数据中心 PUE 降低15%。华为也于 2018 年推出了业界首个商用的 AI 能效优化技术iCooling,并在其廊坊云数据中心中成功应用。该项目采用的是水冷冷冻水 板换的制冷系统,通过现场部署 700 采集点,采集近 9 个月得到 10 万行*700 列数据,再经过数据治理得到 8 万行*71 列数据,通过 DNN 深度神经网络建模,根据当前负载及室外工况,推理出最佳控制策略并下发到本地。经过 2 年的 AI 调优,年均 PUE 从 1.42降低到 1.25,每年可省电约 3000 万度,该项目也于 2019 年获得国家节能中心颁发的重点节能技术应用典型案例。经过几年的技术迭代优化,从第一代的机理算法到第二代纯数据驱动的黑盒算法,再到第三代的成长型 AI 算法,解决了部署时间长、数据依赖量大、模型精度不稳定等问题,实现了持续稳定的 AI 调优,2022 年年均 PUE进一步降低至 1.23。图 29 华为廊坊云数据中心42数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008(一)(一)河南河南联通中原数据基地联通中原数据基地河南联通中原数据基地,是中国联通集团在全国规划的十二个超大型数据基地之一,也是中部地区唯一按照 T3 /T4 标准建设的五星级核心数据基地。作为联通集团与河南省政府战略合作的重点工程,在其建设之初,河南联通对数据中心的能耗指标提出了严格的要求,在确保可靠性的同时,也要实现极致的 PUE,达成“国内一流、世界领先”的建设目标。2018 年,河南联通创新性的将 AI 节能引入到数据中心,设置采集周期为 5 分钟得到近亿条暖通数据,再通过深度神经网络建模,精确拟合数据中心运行状态,实现系统级能效优化。经过持续调优,有效降低 PUE 14%,年省电 1000 万 kWh,真正实现数据中心从制冷走向“智冷”。图 30 河南联通中原数据基地(二)(二)上海证上海证券券交交易易所金桥数据中心所金桥数据中心上海证券交易所金桥数据中心是全国首家绿色建筑三星级数据中心,总规模达 18600 柜,承载了上交所多项核心金融业务。该项43数据中心制冷系统 AI 节能技术及其应用白皮书ODCC-2023-02008目采用 2N 制冷系统热备运行,涉及大小冷机、定变频等多类设备、多工况模式,系统复杂,传统的人工调优难度极大。2022 年,该项目引入 AI 节能技术,基于深度神经网络和联邦学习算法,可跟踪实时室外气候条件、IT 业务负载、业务机房 SLA等条件,通过 AI 推理模型计算,自动推理出最优控制因子组合,精准调节冷源系统和精密空调运行状态,实现系统级能效最优。实测D5 楼年均 PUE 降低 13%,年累计节电达 240 万度。作为全国金融行业第一家双冷源系统实践 AI 调优的大型数据中心,该项目荣获“2022 年云计算中心科技奖卓越奖”。图 31 上海证券交易所金桥数据中心

    浏览量10人已浏览 发布时间2023-10-17 51页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 互联网行业AIGC系列跟踪报告(二十八):美股AIGC应用端全产业链布局商业化箭在弦上-231014(53页).pdf

    证券研究报告证券研究报告 美股美股AIGCAIGC应用端全产业链布局,应用端全产业链布局,商业化箭在弦上商业化箭在弦上 AIGC系列跟踪报告(二十八)2023年10月14日【光大海外光大海外】分析师分. 

    浏览量2人已浏览 发布时间2023-10-17 53页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 爱分析:2023中国大模型市场商业化进展研究报告(27页).pdf

    |2023 爱分析 中国大模型市场商业化进展研究报告 1 中国大模型中国大模型市场市场商业化商业化进展进展 研究报告研究报告 2023 年 10 月|2023 爱分析 中国大模型市场商业化进展研究报告 2 报告编委报告编委 报告指导人报告指导人 张扬 爱分析 联合创始人&首席分析师 报告执笔人报告执笔人 李进宝 爱分析 高级分析师|2023 爱分析 中国大模型市场商业化进展研究报告 3 关键发现关键发现 n 2024 年中国大模型市场迎来商业化爆发,市场规模1 12020 亿元亿元。n 在大模型落地早期阶段,商业化主要来自模型层。大模型大模型 算力算力是最主流的收费方式。随着大模型生态成熟,未来应用层将在商业化过程中担当主力未来应用层将在商业化过程中担当主力。n 大模型在各行业落地速度差异显著,投入预算最为积极的是能源和金融两大行业投入预算最为积极的是能源和金融两大行业。主要原因在于这两个行业以央国企为主,具备较强的数据、算力以及 AI 基础。n 伴随着大模型落地深入发展,大模型应用场景与生态迅速成长,随之诞生很多新的需求。市场调研已揭示初步端倪,这其中包括LLMOpsLLMOps、大模型一体机大模型一体机等。n 大模型服务价格下降大模型服务价格下降将降低终端企业用户投入成本,促进大模型应用普惠。n 以 LLaMa 2 为代表的开源大模型是大模型市场的一股重要力量。开源大模型的综合能力一般低于闭源大模型。LLaMa 2 与 GPT3 在综合能力方面大致相当。开源大模型的价值不在底层能力建开源大模型的价值不在底层能力建设,而在于上层应用建设设,而在于上层应用建设。开源将降低大模型上层应用的开发门槛和成本,从而加速大模型应用渗透,拓展商业化市场空间。|2023 爱分析 中国大模型市场商业化进展研究报告 4 目录目录 1.研究范围定义.6 2.中国大模型市场商业化进展.10 2.1 2024 中国大模型市场规模预计达到 120 亿元.10 2.2“大模型 算力”是当前最主流的的收费方式.10 2.3 能源、金融行业的商业化进度位居前列.12 3.中国大模型市场商业化趋势.16 趋势 1:复刻人工智能商业化发展趋势,应用层未来将成为大模型商业化的主力.16 趋势 2:能源、金融两大行业积极投入预算落地大模型,央国企为引领者勇担开拓使命 .17 趋势 3:伴随大模型市场发展,LLMOps、大模型一体机等一系列新需求即将出现,为 进一步发掘商业化机会提供了广阔前景.17 趋势 4:大模型服务价格逐渐下降,加速在中小企业用户渗透,推动大模型市场蓬勃发 展.18 趋势 5:开源大模型加速应用渗透,大模型商业化落地进程加快.19 趋势 6:中国大模型厂商出海机会主要在跨境电商、游戏、社交媒体等泛娱乐领域,进 展取决于大模型能力赶超 OpenAI 的节奏.19 4.结语.22|2023 爱分析 中国大模型市场商业化进展研究报告 5 研究范围定义|2023 爱分析 中国大模型市场商业化进展研究报告 6 1.1.研究范围定义研究范围定义 大模型技术引领着人工智能领域迈入新发展高度,在世界范围内受到广泛关注。大模型对于企业用户和人工智能厂商而言,是一个重要发展机遇。近期,爱分析观察到大模型已不局限于技术讨论的范畴,而是进入商业化应用阶段。因此,爱分析针对大模型市场规模、商业模式、商业化进展等供需双方所关心的问题展开深入调研,并展望大模型市场未来趋势。大模型市场全景地图分为四个层面,即基础层、模型层、中间层和应用层。基础层包括向量数据库、云平台等厂商,如腾讯云、阿里云;模型层包括通用大模型、行业大模型等厂商,如百度、智谱华章;中间层包括大模型应用开发工具、LLMOps 等厂商,如 LangChain 等;应用层则汇集了产品和解决方案提供者,覆盖了多样化的应用软件和终端设备,相关厂商如用友、思迈特等。|2023 爱分析 中国大模型市场商业化进展研究报告 7 图 1:中国大模型市场全景地图 在中国,大模型的四个层面均已进入商业化阶段。其中,模型层和应用层具有巨大的商业化潜力,是本报告的重点研究市场。|2023 爱分析 中国大模型市场商业化进展研究报告 8 本报告的市场规模是均指企业用户侧的预算金额,其投向包括硬件、软件和服务三个组成部分。本报告重点围绕软件和服务部分进行分析。在商业模式方面,其是指大模型厂商的产品服务如何销售予企业用户,包括收费方式与定价。在商业化进展方面,其是指大模型商业化具体情况,包括企业用户行业分布、购买倾向与应用场景等。|2023 爱分析 中国大模型市场商业化进展研究报告 9 中国大模型市场 商业化进展|2023 爱分析 中国大模型市场商业化进展研究报告 10 2.2.中国大模型市场商业化进展中国大模型市场商业化进展 2 2.1 1 2022024 4 中国中国大模型市场规模大模型市场规模预计达到预计达到 12120 0 亿元亿元 爱分析根据公开招标中标信息以及一手调研数据测算,2023 年中国大模型市场规模约为 50 亿元(人民币,下同)。其中纯硬件采购部分约占 65%,服务部分约占 20%,软件部分约占 15%。2023 年,企业用户在大模型方面的采购特点是论证多,采购少,预算规模大多不超过百万。企业用户在 2024 年将开始大量释放大模型预算,规划中大模型占 AI 预算约 10%,预算规模大多为数百万元。爱分析测算,2024 年中国大模型市场规模将达到 120 亿元。在构成方面,纯硬件采购部分将会下降,软件和服务部分有所上升。具体而言,纯硬件采购部分约占 60%,服务部分约占 23%,软件部分约占17%。图 2:2023、2024 年中国大模型市场规模及构成|2023 爱分析 中国大模型市场商业化进展研究报告 11 2 2.2 2“大模型“大模型 算力”是当前最主流的的收费方式算力”是当前最主流的的收费方式 在大模型市场上有三类收费方式,分别为大模型、大模型 算力、大模型 应用。1)大模型:以大模型为销售标的物是最简单的商业化方式。企业用户可以直接永久买断大模型产品,也可以租用大模型服务。2)大模型 算力:大模型的训练与应用需要消耗大量算力,因此有一些厂商将大模型产品或开发平台与算力进行组合销售。3)大模型 应用:厂商向企业用户销售融入了大模型能力的上层应用,厂商可能要求企业用户支付软件授权费,或者要求其支付软件开发服务费。爱分析对 2023 年初至 2023 年 8 月上旬的大模型招标中标讯息进行统计,共计 60 条,数据显示大模型 算力是最主流的收费方式,占总金额的 62.3%。注:此处统计口径与上述市场规模的不同。图 3:大模型市场三类收费方式金额占比|2023 爱分析 中国大模型市场商业化进展研究报告 12 案例案例 1 1:2023 年 5 月,重庆邮电大学发布招标信息,标的为大模型训练一体机,项目预算为 200万元。采购内容简述:人工智能开发平台,采用容器 镜像管理模式,可实现端到端全流程开发,集成大 AI 训练模型与镜像库,支持 GPU 资源集中管理分配;集成算力平台配置第四代至强 CPU 平台,具备 NVIDIA 优化认证,算力单元 CPU 不低于 80 核心,8 块 TESLA H800 80G GPU 卡,配套独立管理登录单元。大模型市场中,不同收费方式之间价格差异显著。大模型 算力平均项目金额最高,超过千万元。大模型 应用的价格最低,甚至低于大模型,原因在于该收费方式通常意味着采用调用大模型 API 的方式,客单价低。图 4:大模型市场不同收费方式的平均价格 注:上图内金额单位为万元人民币。2 2.3.3 能源能源、金融金融行业行业的的商业化进度商业化进度位居前列位居前列|2023 爱分析 中国大模型市场商业化进展研究报告 13 能源、金融是大模型市场中金额占比最大的两个行业能源、金融是大模型市场中金额占比最大的两个行业 大模型的企业用户行业分布比较广泛,包括能源、金融、教育等。数据显示能源、金融两个行业金额占比最高,分别为 40.9%、16.9%。能源、金融两个行业之所以成为大模型建设的领军行业,主要得益于密集分布的央国企。央国企数据基础设施建设完备、算力投入高、AI 应用场景多且基础强,这些原因促进央国企与大模型的快速融合。案例案例 2 2:2023 年 6 月,中国工商银行就基于知识增强的 NLP 大模型在金融场景的能力研究和应用采购项目招募潜在供应商,要求供应商具备可支持私有化部署的千亿级自然语言大模型产品。图 5:大模型市场不同行业金额贡献占比 爱分析研究发现,大模型 2024 年另一个应用方向是政务局,市民服务热线是主要场景。2023 年相关项目大多处于系统性测试阶段,待测试成功,2024 年将有大笔预算。数据分析是大模型落地进展最快的应用场景数据分析是大模型落地进展最快的应用场景|2023 爱分析 中国大模型市场商业化进展研究报告 14 大模型应用场景包括数据分析、客服、营销、办公等多个应用场景。调研结果显示,数据分析是大模型落地进展最快的应用场景。图 6:大模型应用场景的落地进展与潜在价值 案例案例 3 3:在数据分析场景,某头部证券公司经营分析管理委员会对大模型在数据分析场景提出需求,希望基于自然语言获得一些指标的分析结果。某 BI 软件公司向该证券公司提供“BI 大模型”产品,项目金额为 40-50 万元。|2023 爱分析 中国大模型市场商业化进展研究报告 15 中国大模型市场 商业化趋势|2023 爱分析 中国大模型市场商业化进展研究报告 16 3.3.中国大模型市场商业化趋势中国大模型市场商业化趋势 爱分析展望中国大模型市场商业化趋势,提出六个趋势观点,涵盖商业化、引领者、新需求、价格、开源、出海等方面。图 7:中国大模型市场商业化趋势总览 趋势趋势 1 1:复刻人工智能:复刻人工智能商业化商业化发展趋势,应用层未来将成为大模型发展趋势,应用层未来将成为大模型商业化商业化的主力的主力 在大模型生态系统的各个层面,都存在着良好的商业化机遇。在大模型落地早期阶段,商业化主要来自模型层。随着大模型生态成熟,未来应用层将在商业化过程中担当主力。该趋势已经逐步显露头角。回顾过去人工智能的商业化发展趋势,早期模型层通过模型授权等方式完成商业化。随着人工智能应用蓬勃发展,后续商业化主要依靠应用层,通过应用建设的项目开发费用、应用授权费用等完成商业化。大模型将复刻同样的商业化趋势。目前,随着越来越多的开源大模型涌现,商业化主力从模型层向应用层转换的趋势已经显现。比如Meta 发布了 Llama 2,百川智能也开源了 Baichuan-13B。这些开源大模型未来的商业化主要依靠搭载在模型之上的应用。|2023 爱分析 中国大模型市场商业化进展研究报告 17 趋势趋势 2 2:能源、金融能源、金融两大行业积极投入预算落地大模型,央国企为引领者勇担开拓使命两大行业积极投入预算落地大模型,央国企为引领者勇担开拓使命 大模型在各行业落地速度差异显著,投入预算最为积极的是能源和金融两大行业。主要原因在于这两个行业以央国企为主,具备较强的数据、算力以及 AI 基础。首先,央国企的数据基础设施建设完备。能源、金融行业的央国企历来重视数据能力建设,甚至拥有配套的数据战略。为支撑战略落地,组织架构中也将数据管理部提升至与信息科技部并行的一级部门。例如国网大数据中心是支撑公司数字化转型的专业支撑机构。数据部门的负责人一般由企业用户核心管理层担任。其次,央国企算力投入高。大模型在算力投入层面消耗巨大,特别是厂商需要私有化部署大模型,初期算力投入就达到数千万级别。金融、能源等央国企数字化预算充裕,在大模型算力投入上不受局限。例如南网 23 年在大模型算力投入上超过 3000 万元。第三,央国企 AI 应用场景多、基础强。大模型落地初期,围绕着增强原有 AI 场景展开,央国企的 AI落地场景数量多。工行 AI 应用渗透的场景已经超过 1000 个,大模型可以从中迅速找到可落地的场景。除能源、金融之外,泛互同样是大模型市场的目标行业之一。泛互的主要付费方式是调用大模型 API,通过能力内化来提升客户使用体验。趋势趋势 3 3:伴随大模型市场发展,:伴随大模型市场发展,L LLMOpsLMOps、大模型一体机等一系列新需求即将出现,为进一步发掘、大模型一体机等一系列新需求即将出现,为进一步发掘商商业化业化机会提供了广阔前景机会提供了广阔前景 伴随着大模型落地深入发展,大模型应用场景迅速增长,随之诞生很多新的需求。市场调研已揭示初步端倪,这其中包括 LLMOps、大模型一体机等。企业用户内部大模型应用场景众多,不同场景需要调用不同大模型能力。因此,企业用户需要同时调|2023 爱分析 中国大模型市场商业化进展研究报告 18 用多个大模型的能力,进而产生了统一管理和统一运维的需求。展望未来,大型企业用户和政府部门将纷纷引入 LLMOps,在采购多个大模型的同时添置一个管理平台。随着大模型逐步成熟,企业需要更加便捷高效地训练大模型和开发上层应用,这是大模型一体机兴起的主要原因。大模型一体机具有快速部署、便捷管理以及效率提升的显著优势。大模型一体机集成底层 GPU、存储及网络资源,专为上层大模型预训练或推理应用设计,以实现快速部署、便捷管理,进而为人工智能应用的高效推进和稳定运行提供支持。此外,大模型一体机可提升软硬件配合度,提高训练、推理效率,同时降低算力资源的消耗。目前,已有几款大模型一体机上市商业化。2023 年 6 月中科闻歌发布大模型一体机,名为“雅意大模型一体机”。2023 年 8 月科大讯飞与华为共同发布大模型软硬件一体机,名为“星火一体机”。展望未来,大模型一体机的企业用户将不断增多,相应的产品供给也将日益丰富。趋势趋势 4 4:大模型服务价格逐渐下降,加速在中小:大模型服务价格逐渐下降,加速在中小企业用户企业用户渗透,推动大模型市场蓬勃发展渗透,推动大模型市场蓬勃发展 大模型服务价格下降将降低终端企业用户投入成本,促进大模型应用普惠。在当前宏观经济下行的背景下,阻碍企业用户对于大模型应用投入的核心问题之一是 ROI,其中大模型服务本身的价格是重要成本项。随着大模型服务价格的下降,会有更多的应用场景有机会实现更高的 ROI,具备投入价值;同时,随着大模型服务价格下降,更多中小企业用户有机会成为大模型的付费企业用户,拓展大模型商业化客群。目前,大模型服务价格主要受到成本和厂商定价策略两方面影响,价格持续下降是正常表现。首先,成本方面,训练和推理阶段的算力成本呈现逐渐下降。以英伟达的两款 GPU 产品 H100 和 A100 为例,根据公开数据,H100 的算力相较于 A100 提升了 6 倍左右,但价格仅提升了 3 倍左右,单位算力的成本显著下降。其次,定价策略方面,随着大模型厂商数量增加以及大模型开源趋势,大模型市场竞争加剧,预计大模型厂商在定价策略方面将采用适当的低价策略,以加速下游应用开拓和生态发|2023 爱分析 中国大模型市场商业化进展研究报告 19 展。未来价格方面需要关注的风险是,随着大模型应用市场的发展,可能出现大模型应用解决方案市场低价恶性竞争、商业化转变为项目定制开发按人力服务收费等现象,不利于市场良性发展。趋势趋势 5 5:开源大模型加速应用渗透,大模型商业化落地进程加快:开源大模型加速应用渗透,大模型商业化落地进程加快 以 LLaMa 2 为代表的开源大模型是大模型市场的一股重要力量。开源大模型的综合能力一般低于闭源大模型。LLaMa 2 与 GPT3 在综合能力方面大致相当。开源大模型的价值不在底层能力建设,而在于上层应用建设。开源将降低大模型上层应用的开发门槛和成本,从而加速大模型应用渗透,拓展商业化市场空间。对于国内大模型厂商而言,开源则将削弱技术的竞争壁垒,需要更关注数据、算力、服务、生态等综合能力。开源大模型将加速大模型应用渗透,并创造基于开源的商业化应用生态,加速大模型商业化。一方面,开源大模型将降低大模型应用的开发门槛和成本,加速下游应用渗透。由于开源大模型可以方便获取和免费使用,大模型应用层的厂商和具备较强技术能力的企业用户,都可以基于开源大模型快速启动开发行业应用,加速大模型应用落地。尤其是当前大模型市场处于发展初期,大模型选择范围小且成本偏高。但是,其业务收益有待验证,开源大模型可用于冷启动和应用探索。另一方面,大模型应用层的厂商可以基于开源大模型的授权,开发相关产品服务并为终端企业用户解决安全、服务等问题,实现商业化,形成基于开源的商业化应用生态。趋势趋势 6 6:中国大模型:中国大模型厂商厂商出海机会主要在跨境电商、游戏、社交媒体出海机会主要在跨境电商、游戏、社交媒体等等泛娱乐领域,进展取决于大模泛娱乐领域,进展取决于大模型能力赶超型能力赶超 OpenAIOpenAI 的节奏的节奏 海外市场大模型应用进展较为迅速,且已经实现商业化,中国大模型厂商同样存在出海商业化机会。中国大模型厂商出海商业化主要有三方面的机会:|2023 爱分析 中国大模型市场商业化进展研究报告 20 1)已经具备较好出海基础的行业和场景,如跨境电商、游戏、社交媒体等泛娱乐领域,以 2C 为主。在这些行业,大模型可以寻找到明确的应用场景,并顺利地基于已有场景实现商业化。案例案例 4 4:中国某大模型厂商开发基于大模型对话式交互能力的“对话式电商”产品,提供营销互动、导购收银、客服一站式服务,已服务某连锁品牌咖啡。2)基于在中文处理方面的能力优势,在东南亚(如马来西亚、新加坡)等具备一定中文市场的地区提供服务。中国大模型厂商在中文语言上存在天然优势,具备差异化竞争力。3)借助“一带一路”政策东风,面向“一带一路”地区开展服务。中国厂商已经在中东、中亚地区成为当地政府重要的供应商,大模型将作为新的产品服务面向当地政府完成商业化,尤其是面向这些地区的政府和企业用户提供私有化部署和大模型应用整体解决方案的模式。中国大模型厂商出海,主要面临 OpenAI 的直接竞争,其中核心竞争点在于大模型的能力。OpenAI以 GPT 3.5、GPT 4.0 为代表的大模型在能力表现方面显著领先国内厂商,当前国产大模型能力基本达到 GPT 3.0 水平,预计 2023 年底2024 年初有望达到 GPT 3.5 水平。具体而言,中国大模型厂商重点需要在 AI 工程化能力、数据两方面追赶。AI 工程化能力包括模型层、框架层、芯片层的全栈能力。数据方面,包括公开数据集、用户反馈数据和特定行业场景微调数据,其中公开数据集获取难度低,但用户反馈数据和特定行业场景微调数据依赖于下游企业用户量和应用生态的规模。|2023 爱分析 中国大模型市场商业化进展研究报告 21 结语|2023 爱分析 中国大模型市场商业化进展研究报告 22 4.4.结语结语 中国大模型产业的崛起标志着人工智能领域的新篇章。在不断创新的推动下,它正快速融入各行各业,为商业世界带来了前所未有的机遇。展望未来,我们可以乐观地预见,中国大模型将继续引领创新浪潮。未来,我们可以期待更多创新应用场景的涌现,更深层次的商业合作,以及技术的持续演进。同时,国际化发展和政策支持也将为中国大模型产业带来更广阔的舞台。我们坚信,中国大模型产业将继续为世界科技进步和商业化进程贡献力量,成为引领未来的关键力量之一。让我们共同期待并积极参与这个激动人心的时代,为中国大模型的未来发展添砖加瓦。|2023 爱分析 中国大模型市场商业化进展研究报告 23 关于爱分析关于爱分析 爱分析是一家专注数字化市场的研究咨询机构,成立于中国数字化兴起之时,致力于成为决策者最值得信任的数字化智囊。凭借对新兴技术和应用的系统研究,对行业和场景的深刻洞见,爱分析为数字化大潮中的企业用户、厂商和投资机构,提供专业、客观、可靠的第三方研究与咨询服务,助力决策者洞察数字化趋势,拥抱数字化机会,引领中国企业数字化转型升级。|2023 爱分析 中国大模型市场商业化进展研究报告 24 研究咨询服务研究咨询服务 技术研究技术研究 客户洞察客户洞察 行业研究行业研究 新兴技术研究,厂商能力调研,助力数字化最优决策 企业用户需求及实践调研,辅助制定业务与市场策略 行业数字化趋势与实践研判,辅助业务与战略决策 商商业业研究研究 品牌品牌&营销营销 投资研究投资研究 基于研究、数据和案例调研积累,辅助业务可靠落地 权威背书,树立行业地位;教育市场,精准触达客户 成熟方法论,一手数据,助力研判机会、稳健投资|2023 爱分析 中国大模型市场商业化进展研究报告 25 法律声明法律声明 此报告为爱分析制作,报告中文字、图片、表格著作权为爱分析所有,部分文字、图片、表格采集于公开信息,著作权为原著者所有。未经爱分析事先书面明文批准,任何组织和个人不得更改或以任何方式传送、复印或派发此报告的材料、内容及其复印本予任何其它人。此报告所载资料的来源及观点的出处皆被爱分析认为可靠,但爱分析不能担保其准确性或完整性,报告中的信息或所表达观点不构成投资建议,报告内容仅供参考。爱分析不对因使用此报告的材料而引致的损失而负上任何责任,除非法律法规有明确规定。客户并不能仅依靠此报告而取代行使独立判断。北京爱分析科技有限公司 2023 版权所有。保留一切权利。|2023 爱分析 中国大模型市场商业化进展研究报告 26 27

    浏览量51人已浏览 发布时间2023-10-16 27页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • ODCC:2023年112G LPO光模块应用白皮书(46页).pdf

    1112G LPO 光模块应用白皮书ODCC-2023-03008编号 ODCC-G LPO 光模块应用白皮书开放数据中心委员会2023-09 发布1112G LPO 光模块应用白皮书ODCC-2023-03008版权声明版权声明ODCC(开放数据中心委员会)发布的各项成果,受著作权法保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用 ODCC 成果中的文字或者观点的,应注明来源:“开放数据中心委员会 ODCC”。对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC 及有关单位将追究其法律责任,感谢各单位的配合与支持。2112G LPO 光模块应用白皮书ODCC-2023-03008编写组编写组项目经理:项目经理:张少辉腾讯科技工作组长:工作组长:王超阿里云计算有限公司贡献专家:贡献专家:杨光腾讯科技孙敏腾讯科技张桢新华三技术有限公司孙安兵锐捷网络张桢新华三集团高万超光迅科技股份有限公司张涛光迅科技股份有限公司3112G LPO 光模块应用白皮书ODCC-2023-03008前前 言言数据中心网络设备升级到 112Gbps 每通道,传统可插拔光模块扩展到 16 通道的 OSFP-XD,光模块在整机功耗的占比越来越高,大大增加了云服务提供商的持续运营成本!针对此痛点,产业链提出了 LPO、CPO、NPO、OBO 等多种先进技术期望降低整机功耗。LPO 已经经过实际验证,技术上具有可行性,和 CPO/NPO/OBO 最大的不同是保留了传统 re-timer 光模块的可插拔特性,且维护了产业链现有生态,通过去除 oDSP 实现低功耗、低册亨吧、低时延的特性,成为国内外头部科技公司的重点关注对象。ODCC 网络工作组 2022 年发布112G 高速互连白皮书。为物理层电链接提供了有力规范支撑。112G 线性互联 2.0 聚焦目前热门的 LPO(Linear-drive Pluggable Optics)进行研究,期望为目前LPO 应用所面临的各种挑战进行技术拆解和解决,和行业一起推动LPO 的商业部署。4112G LPO 光模块应用白皮书ODCC-2023-03008目目 录录版权声明.1编写组.2前言.3一、背景介绍.6二、112G LPO 线性直驱可插拔模块技术.7(一)LPO 技术介绍.7(二)LPO 技术收益.8(三)LPO 接口类型.10(四)LPO 设计.10三、112G LPO 技术挑战.15(一)LPO 接口标准挑战.15(二)112G LPO 商用落地挑战.17四、卷积调优可行性分析.19(一)理想信道.19(二)信道补偿计算原理.20(三)信道补偿计算验证.22(四)总结.26五、LPO 光模块特性分析.26(一)LPO 具有线性特性.26(二)LPO 可以通过卷积进行单次性能调优.28六、网络设备端口 SI 特性分析.30(一)端口 SI 设计挑战.305112G LPO 光模块应用白皮书ODCC-2023-03008(二)端口 SI 链路具有差异性.32(三)端口差异性影响 LPO 应用.33(四)端口 SI 差异性优化方案.34(五)端口 SI 设计建议.36七、利用卷积实现 LPO 系统在线调优.37(一)端口 SI 设计挑战.38(二)LPO 在线调优方案.39(三)收益说明.43八、LPO 在线调优的关键技术.43(一)设备 PHY 芯片均衡技术.44(二)LPO 模块的线性调校技术.44(三)带外通信机制/设备间协商机制.446112G LPO 光模块应用白皮书ODCC- 112G12G LPOLPO 应用应用白皮书白皮书一、一、背景介绍背景介绍随着云服务的普及,以及 AI 人工智能、ML 机器学习和 HPC 高性能计算的大规模部署,推动云服务提供商不断进行网络带宽的升级,SERDES 速率升级到 112Gbps 每通道,传统可插拔光模块的带宽更是达到 1.6Tbps。近期生成式 AI 的火爆也推动大型科技企业加速大规模训练、推理网络基础设施部署,高速光模块迎来高速增长期。图 1 光模块、交换机速率演进数据中心网络设备升级到 112Gbps 每通道,传统可插拔光模块扩展到 16 通道的 OSFP-XD,光模块在整机功耗的占比越来越高,大大增加了云服务提供商的持续运营成本!针对此痛点,产业链提出了 LPO、CPO、NPO、OBO 等多种先进技术期望降低整机功耗。LPO 已经经过实际验证,技术上具有可行性,和 CPO/NPO/OBO 最大的不同是保留了传统 re-timer 光模块的可插拔特性,且维护了产业链现有生态,通过去除 oDSP 实现低功耗、低册亨吧、低时延的特性,成为7112G LPO 光模块应用白皮书ODCC-2023-03008国内外头部科技公司的重点关注对象。本文将围绕 LPO 商用提出相应的解决方案,期望为 LPO 商用落地提供强有力的支撑。二、二、112G112G L LPOPO 线性直驱可插拔模块技术线性直驱可插拔模块技术线性直驱可插拔光模块(Liner-drive pluggable Opcics,LPO)通过去除 oDSP 实现功耗、成本、时延三重收益,同时保留了可传统光模块可插拔的特性和产业链,技术上具有一定的可实现性,应用前景也非常可观。(一)(一)L LPOPO 技术介绍技术介绍目前业界主流的 PAM4 高速光模块基本都是采用传统的 re-timer 方案,在模块内部实现电信号再生、利用 oDSP 实现数字信号补偿技术如色散补偿技术、非线性补偿技术、去除噪声技术等,这种设计可以获取更好的系统性能,获取更低电误码率,为网络信号的传输提供了强大的支撑。传统的 re-timer 方案虽然具有近乎完美的性能优势,但是随着端口带宽的不断升级,传统 re-timer 方案成本越来越高、功耗越来越高,为了应对这些挑战,业界提出了 LPO 线性直驱可插拔光模块技术。该在 2023 OFC 大会上大放异彩,受到行业尤其是国内外头部科技企业的重点关注。LPO 模块的设计框图如下,和传统的 re-timer 模块方案对比,主要是:1)去除 CDR/oDSP 等 re-timer 组件;2)使用性能更优、SI 补偿能力更强的的 DRV/TIA 电芯片;3)将部分补偿功能集成到8112G LPO 光模块应用白皮书ODCC-2023-03008网络设备 ASIC 芯片;4)原来由 oDSP 实现的信号再生、数字信号补偿功能,变成通过网络设备 ASIC 芯片、DRV 和 TIA 进行分段补偿。图 2 LPO 应用框图综上所述,LPO 线性直驱可插拔光模块通过去除传统的 re-timer 芯片如 CDR、oDSP,实现低延迟、低成本和低功耗的特性。LPO 的低延迟特性非常在 ML 机器学习和 HPC 高性能计算这些对传输时延比较敏感的网络。(二)(二)LPOLPO 技术收益技术收益如上文所述,LPO 通过去除 re-timer 芯片实现低成本、低功耗、低时延的特性,驱动终端用户的最大动力主要是低成本和低功耗两大特性,前者可以降低终端用户的物料采购成本,后者可以降低终端用户的持续运营成本。传统的 re-timer 方案可插拔光模块,如 oDSP 成本在单模模块占比大概在 25%左右,在多模模块中成本占比会更高。目前北美已经商用部署 800G 光模块,800G oDSP 芯片采购价格可能高达几十美9112G LPO 光模块应用白皮书ODCC-2023-03008金。LPO 方案通过去除 oDSP,即使高性能的 Driver 和 TIA 相比传统的 Driver 和 TIA 成本有上涨,但是业界普遍预计也可以获取相当的成本收益。图 3 LPO 成本收益随着交换芯片交换容量的提升,交换机的端口越来越多,传统re-timer 方案应用场景密度大、功耗高,使得交换机散热设计挑战也越来越大。和传统 re-timer 方案相比,LPO 的功耗优势不仅体现在个体功耗下降,也体现在网络设备整体功耗下降,数据中心规模越大,收益越明显。图 4 LPO 功耗收益10112G LPO 光模块应用白皮书ODCC-2023-03008(三)(三)L LPOPO 接口类型接口类型LPO 作为一种热点技术,对模块本体的封装没有要求,不管是QSFP,还是 QSFP-DD,亦或是 OSFP、OSFP XD 等均可以实现 LPO 方案。软件接口协议亦遵循传统 DSP 可插拔光模块软件接口协议,保留最大的继承性和兼容性,降低模块侧和应用侧设备重复开发成本。表 1 接口行业标准规范参考表TypeMechanicalLow Speed&GeneralElectricalManagementInterfaceModuleConnectorCage(SinglePort)Cage(GangedPort)QSFP112QSFP112 MSA SpecificationCMIS 4.0QSFP-DD112QSFP-DD MSA SpecificationCMIS 4.0OSFP112OSFP MSA SpecificationCMIS 4.0SFP112SFP-DD MSA SpecificationCMIS 4.0SFP-DD112SFP-DD MSA SpecificationCMIS 4.0DSFP/NGSFP112 TBDCMIS 4.0(四)(四)L LPOPO 设计设计全新的解决方案以现有产品族群的设计要求为牵引,在结合现有结构特点做升级演进,提升速率的同时,也保证了对管理接口和Pin 定义的延续。1 1L LPOPO 结构设计结构设计根据实际运用环境的不同,OSFP,QSFP-DD 产品又衍生出多种形态。多形态的设计均是基于对模块本身散热需求的考量,鉴于LPO 的功率较低,同时考虑到产品形态的归一化对产品和市场发展11112G LPO 光模块应用白皮书ODCC-2023-03008的健康促进,一般将 QSFP112、QSFP-DD Type1 和 OSFP Open Top作为 LPO 的首选型号(如下以 QSFP112G 为例)。表 2 QSFP112 尺寸参考接口类型接口类型接口形态接口形态接口规范接口规范QSFP112QSFP112Specification-Rev2.1.112112G LPO 光模块应用白皮书ODCC- 2L LPOPO 接口电路设计接口电路设计LPO 作为一种热点技术,对模块本体的封装没有要求,不管是QSFP,还是 QSFP-DD,亦或是 OSFP、OSFP XD 等均可以实现 LPO 方案。软硬件亦遵循传统 DSP 可插拔光模块的软硬件接口协议,保留最大的继承性和兼容性,降低模块侧和应用侧设备重复开发成本。图 5 QSFP112 Pin 定义(例)图 6 example QSFP112 Host Board Schematic for Passive Copper Cables13112G LPO 光模块应用白皮书ODCC- 31 112G12G LPOLPO 管理界面标准管理界面标准LPO 作为一种热点技术,对模块本体的封装没有要求,不管是QSFP,还是 QSFP-DD,亦或是 OSFP、OSFP XD 等均可以实现 LPO 方案。软硬件亦遵循传统 DSP 可插拔光模块的软硬件接口协议,保留最大的继承性和兼容性,降低模块侧和应用侧设备重复开发成本。表 3 EEPROM Map 参考规范TypeManagement InterfaceQSFP112SFF-8636,SFF-8024 or CMIS 4.0or CMIS 5.0QSFP-DD112CMIS 4.0 or CMIS 5.0OSFP112CMIS 4.0 or CMIS 5.0SFP-DD/SFP112CMIS 4.0 or CMIS 5.0DSFP(NGSFP)CMIS 4.0 or CMIS 5.04 4Q QSFP112SFP112 EEPROMEEPROM M Ma ap p表 4 QSFP EEPROM MAP注:QSFP112G PAM4 特别标注位14112G LPO 光模块应用白皮书ODCC-2023-03008表 5注:以 上 内 容 参 考 SFF-8636 Management Interface for CabledEnvironments Rev 2.9图 7 CMIS Module Memory Map表 6表 715112G LPO 光模块应用白皮书ODCC-2023-03008注:以上内容参考Common Management Interface Specification Rev 4.0三、三、112G112G LPOLPO 技术挑战技术挑战112G LPO 快速发展,截止目前已有较为丰富的验证数据说明其技术可行性,以及功耗、时延等预期收益可达成,但要使该技术方案达到可商用产品化的状态,仍有不少挑战需要克服。(一)(一)L LPOPO 接口标准挑战接口标准挑战LPO 作为可插拔光模块短距解决方案的一种,主要应用场景在DCI,因此“互联互通”也是其必须支持的特性。要实现“互联互通”,则需要对其两个接口电接口、光接口进行一定规范。1 1L LPOPO 电接口标准挑战电接口标准挑战在 Egress 方向,由于 LPO 内部没有 CDR 或 DSP 对主机设备传输过来的电信号进行 3R 再生,光模块输入的电信号质量与输出光信号质量具有强相关性,因此 TP1A 电信号质量至关重要。16112G LPO 光模块应用白皮书ODCC-2023-03008在 Ingress 方向,虽然在设备端芯片 SERDES 有比较强的均衡和补偿能力,但基于系统误码要求对信号信噪比有一定要求,光模块的输出信号需要较大的幅度且具备一定的预加重能力目前对 LPO 电接口指标进行定义的,主要是 OIF 的 CEI-112G-Linear-PAM4。该协议从 LPO 技术研究早期,采用延续于 VSR 标准的VEO/VEC 指标,演进到目前采用与 TP2 接近的 TECQ 指标,以期对TP1/TP1A 电眼图质量进行约束。虽然 TECQ 指标相对于 VEO/VEC 来说更有利于判断电眼图质量,也更有利于与 TP2 光眼图指标实现关联,但目前为止 CEI-112G-Linear-PAM4 协议仍是属于草稿状态,也就意味着对 LPO 电接口并未有一个正式的指标约束。因此对于设备厂家和 LPO 光模块厂家来说,在没有明确电接口标准前提下,如何实现多方兼容是一个难题。2 2L LPOPO 光接口标准挑战光接口标准挑战光接口标准方面,IEEE 802.3 系列协议是成熟通用的标准,Retime 类可插拔光模块均需符合该协议。LPO 系统作为短距应用的一个全新解决方案,如果可以做到符合 802.3 协议,则可以实现最大意义上的“互联互通”。从 LPO 目前系统测试的结果而言,采用硅光方案的 DR4 可符合IEEE 802.3 中与 DR 相关的指标定义。Vcsel 方案虽然在常温可以获得较好的 TDECQ 指标,但考虑高温及工程应用所需的裕量,满足SR 相关的指标定义会有较大的风险。因此对于 SR/Vcsel 方案而言,17112G LPO 光模块应用白皮书ODCC-2023-03008如何实现 TP2 眼图指标符合 802.3 协议,将是一个系统级的挑战,可考虑的措施包括但不限于:1、增强主芯片 TX 补偿算法能力;2、优化 Vcsel 芯片温度相关特性;3、温度相关动态补偿方案。(二)(二)1 112G12G LPOLPO 商用落地挑战商用落地挑战1 1网络设备端口一致性挑战网络设备端口一致性挑战在 传 统 的 网 络 设 备 中,主 芯片 SERDES 和 光 模 块 内 部 的SERDES/CDR 构成的电信号传输系统,发送 SERDES 只需做轻量级的信号均衡,链路损耗、反射、串扰等影响信号完整性的因素,完全由处理能力较强的接收 SERDES/CDR 进行吸收。所以,在这种系统下,网络设备的发送 SERDES 通常只需要少量的几套甚至是一套参数,就可以适配设备上所有的光模块端口。但在 LPO 系统中,光模块内部不存在电信号再生单元,TP1A 电信号质量与 TP2 光信号质量直接相关。LPO 系统要实现规模商用,以下几点需要重点关注:1)网络设备中不同光模块通道的信道特性差异很大,难以用少量的几套参数来覆盖上百个光模块通道,并且在没有光模块参与的前提下,如何标定设备通道的补偿系数,需要投入大量的研究验证工作;2)设备内部无源链路中的反射特性一般都会超出发送 SERDES 的补偿能力,因此如何做好无源链路的信号完整性设计,有效控制反射信号影响,对提升 LPO 系统的性能裕量有很大作用;3)LPO 光模块使用的 DRV CTLE 具有一定的调节范围,如何利用 CTLE 可调的功能与 SERDES 补偿系数搭配,实现系统性能最佳,是一个值得研究的课题;18112G LPO 光模块应用白皮书ODCC-)OIF 对 linear 电接口的标准定义尚未基线,也在一定程度上影响了网络设备对发送 SERDES 的参数标定策略和方法。需要根据设备的实际测试情况,推动 OIF linear 接口协议落地;5)LPO 光模块与设备接口插拔存在一定差异性,可能影响系统模块的性能。2 2模块间互联互通挑战模块间互联互通挑战LPO 光模块互联互通,存在以下的几种组合场景可能:组合组合TXTXRXRX同一设备同一设备不同设备不同设备1LPOLPOOK?2LPORetimed?3RetimedLPOOKOK在组合 1 中,同一厂家光模块在同一设备上对接,目前的验证结果是 OK 的。而不同设备之间,尤其是不同厂家的设备/ASIC 之间对接,目前还没有相关的验证数据。但在可预见的将来,随着投入LPO 生态的 ASIC 芯片厂家增加,这方面验证结果会逐步充实,也意味着后续进入 LPO 系统领域的系统/芯片厂家,需要具备更好兼容性。组合 2 中,由于 LPO TP2 的指标未能确定是否完全符合 802.3标准,所以与现有 Retimed 光模块对接的能力存疑。虽然业界已有初步的验证结果,但始终覆盖的 Retimed 模块种类有限,未能给出绝对性结论。而组合 3,光模块 TP2 的光眼图及性能仅跟 CDR/DSP 芯片相关,因此也就不存在设备兼容性的问题。综上所述,LPO 光模块互联互通,其实还包括了网络设备以及ASIC 芯片间的互联互通,而可以对互联互通能力做出有效判断的,19112G LPO 光模块应用白皮书ODCC-2023-03008目前来看还是需要依靠 IEEE 802.3 系列协议,这样有利于 LPO 系统的解耦设计和分析验证。四、四、卷积调优可行性分析卷积调优可行性分析(一)(一)理想信道理想信道理想信道被视为 LTI(Linear and Time-Invariant system),具有线性、时不变和叠加特性。线性特性:线性系统是指系统输出和输入位线性映射关系。输入为()?,输出为()?时不变特性:时不变系统是指输入信号延迟,则输出存在相同的延迟。输入为()?,输出为()?图 8 LTI 系统输入时域表征:=?,频域表征:=?20112G LPO 光模块应用白皮书ODCC-2023-03008输出时域表征:=?,频域表征:Y =?输入拉普拉斯表征:=?冲击响应拉普拉斯表征:=?输出拉普拉斯表征:=是 =?的拉普拉斯变换,分别是输出对频域和时域表征,频域相乘等于时域卷积,所以在信道补偿时,可以在频域进行简化分析,在时域进行补偿计算。(二)(二)信道补偿计算原理信道补偿计算原理以 112Gbps 信道为例,其信道模型见 Figure 4,为原始发送信号,1 为预加重传输函数2,为信道传输函数,3 为均衡器传输函数,为最终接收信号,若1 2 3=1,则 =(),信号被完美恢复!图 9 信道系统模型首先,Keysight 高端示波器支持多达几十个 tap 的线性均衡器,所以可以利用示波器强大的均衡算法,不断增加抽头系数,直到获21112G LPO 光模块应用白皮书ODCC-2023-03008取符合 OIF 或 IEEE 协议的信号,同时记录此时示波器均衡器传输函数3。图 10 利用示波器替代接收均衡器补偿信道示意图其次,将预加重传输函数1 和示波器均衡器传输3 相乘作为新的预加重传输函数1 写入发送端,则均衡器输出信号 前移到信道输出端,不仅符合 OIF 或 IEEE 电接口协议,还降低了发送端和不同接收端适配的性能风险,信道补偿精度仅取决于加重和均衡器抽头数。图 11 均衡器前移示意图最后,如何保证上述方法获取的信道补偿参数是最优的?我们假定3 是有无限抽头系数的均衡器传输函数,且进行自动均衡调节,不 管 如 何 改 变 1,3 都 会 进 行 自 动 调 整 使 得1 2 3=1,所以只要信道传输函数2 不变,就可以一次把信道补偿到位,我们需要做的就是把3 和1 在时域进行卷积获取最优的 emphasis 系数!22112G LPO 光模块应用白皮书ODCC-2023-03008(三)(三)信道补偿计算验证信道补偿计算验证1 1纯电信道补偿计算验证纯电信道补偿计算验证在实验室搭建 Figure 7 测试环境进行验证,其中 EXFO 400GBert 是信号源,产生 56Gbps PAM4 差分电信号,功分器将信号一分为二,一路进 CDR 进行时钟恢复,为示波器提供触发时钟,一路进示波器进行均衡调节和信号质量测试。图 12 实验室搭建测试环境第一步,设置 EXFO 400G Bert 输出差分信号幅度为 1000mVpp,bypass Bert 加重模块即 H_1(s)=1,示波器均衡器设置为 5tap 自动均衡,测试眼图和均衡系数见 Figure 8,均衡后的眼图质量明显优 于 均 衡 前 也 就 是 信 道 输 出 的 眼 图,均 衡 器 5tap 系 数 为0.001168,-0.051618,1.24567,-0.168354,-0.026866。23112G LPO 光模块应用白皮书ODCC-2023-03008图 13 bypass 加重模块测试结果第二步,将均衡器5tap系数0.001168,-0.051618,1.24567,-0.168354,-0.026866和Bert加重模块3tap系数0,1,0进行卷积,结果为0,0.001168,-0.051618,1.24567,-0.168354,-0.026866,0,因为Bert只支持3tap调节,所以卷积结果仅取其中主要的3tap-0.051618,1.24567,-0.168354即可。第三步需要将卷积结果进行归一化处理,不管是加重还是均衡,处理的原则是所有的tap值绝对值之和为1,且主幅度不超过1。归一化 后 的 3tap 系 数 为-0.051618,1.24567,-0.168354/(abs(-0.051618) abs(1.24567) abs(0.168354)=-0.0345577,0.834,-0.113,作为Bert加重系数写入即可完成信道补偿。但是EXFO Bert并不支持main tap调节,仅支持pre/postcursor调节,pre/post cursor调节的是相对于main tap的百分比,故 还 需 要 做 一 次 转 换,转 换 后 的 pre/postcursor 为-0.0345577/0.834=-0.4143794,-0.113/0.834=-0.135,我们可以设置Bert pre/post cursor为-0.04,-0.14,测试眼图和设置预加重24112G LPO 光模块应用白皮书ODCC-2023-03008系数见图Figure 9,可以看到信道输出眼图获得很大提升,基本比拟示波器均衡后的眼图。图 14 卷积补偿后的眼图和预加重系数此 时 我 们 再 来 看 下 示 波 器 均 衡 器 的 5tap 系 数 为0.002485,0.001385,1.015888,0.01862,-0.02162,基本是主tap接近1,其他pre/post cursor均接近0,也就是2()趋近于1,信号基本不需要均衡,做到了均衡器前移。图 15 卷积补偿后示波器 5tap 均衡系数我们可以将Bert输出幅度设置为900mVpp进行验证,获得的效果是一样的。25112G LPO 光模块应用白皮书ODCC-2023-03008图 16 Bert 输出幅度降低到 900mVpp,卷积补偿前后对比2 2含光电器件信道补偿验证含光电器件信道补偿验证200G SR4 光模块信道模型见 Figure 12,()为 DSP DAC 输出原始信号,1()为 DSP emphasis 传输函数,2()为加重输出到VECSEL 激光器输出链路传输函数,()为输出光眼图信号,信道内各器件均为线性器件,支持 56Gbps PAM4 信号传输。图 17 200G SR4 光模块 TX 信道模型按本文方法卷积获得新的 emphasis 系数进行信道补偿,可以获得相似的效果,即只要链路是线性器件组成的线性信道,无论是否包含光电转换器件,都可以使用此方法进行信道补偿。26112G LPO 光模块应用白皮书ODCC-2023-03008图 18 含光电转换信道补偿效果(四)(四)总结总结从频域的角度进行分析,通过时域单次卷积计算,可以获得最优的通道补偿参数。这种方法不仅可以用在网络设备端口纯电链路SI 调优,也可以用在具有线性特性的光模块光电链路 SI 调优。五、五、L LPOPO 光模块特性分析光模块特性分析(一)(一)L LPOPO 具有线性特性具有线性特性LPO 光模块去除 ODSP 后,内部关键功能组件主要包括光、电芯片等模拟器件,这些模拟器件为实现 PAM4 调制与传输,通常工作在线性区间且有明确的线性度要求。其中,模拟电芯片线性度以 THD描述,LPO 中使用的 DRV、TIA 都有非常良好的 THD 特性,确保信号无失真放大。27112G LPO 光模块应用白皮书ODCC-2023-03008图 19 LPO 模块构成框图LPO 中主流潜在使用的光芯片主要有 VCSEL、EML、MZ 三种,其电光响应曲线在选取合适工作点的条件下均满足线性调制的要求,如下所示。VCSELEMLSiP MZM图 20 LPO 典型光芯片线性度对于 LPO 光模块中使用的模拟电芯片,主要包括 DRV 和 TIA,其 THD 典型测试结果如下所示,PAM4 应用下线性度满足要求。DRVTIA图 21 LPO 模拟电芯片线性度28112G LPO 光模块应用白皮书ODCC-2023-03008(二)(二)LPOLPO 可以通过卷积进行单次性能调优可以通过卷积进行单次性能调优1 1理论分析理论分析考虑到 LPO 光模块均有高度线性度,该系统在符合特定条件下,可看作为线性时不变(LTI)系统,该系统由网络设备主芯片SERDES、无源链路、LPO 光模块共同构成。如前述分析,该系统关键链路组件均具有线性特性,视为线性时不变(LTI)系统,可以按照第四章描述的卷积调优方法进行调优。利用仪表线性均衡器获取的 FFE 均衡系数,通过卷积获取新的TX SERDES 的 TX EQ 系数,可以实现 LPO 光模块 TP2 光眼图的调优。TX SERDES 卷积获取的最优参数为:=图 22 LPO 光模块 TP2 测试系统利用网络设备 ASIC 芯片 RX SERDES 的自适应 FFE 均衡器均衡系数,通过卷积获取新的 TX SERDES 的 TX EQ 系数,可以实现 TXSERDES 和 RX SERDES 之间整个链路调优。29112G LPO 光模块应用白皮书ODCC-2023-03008TX SERDES 卷积获取的最优参数为:=图 23 LPO 传输链路系统2 2验证效果验证效果基于以上理论分析和卷积调优可行性分析的结论,以 LPO 光模块 TP2 眼图调优为例进行实际验证,可以发现通过单次卷积即可获得最优的眼图和误码率。测试条件:LPO DR4,test bench passive loss=11dB,数据SSPRQ;调优前:TDECQ=3.85dB,ER=3.4dB,BER floor=1E-6图 24 调优前眼图30112G LPO 光模块应用白皮书ODCC-2023-03008调优后:TDECQ=2.34dB,ER=2.8dB,BER floor=1E-8图 25 调优后眼图从测试结果看,卷积调优方法可以很好的满足 LPO 系统的性能需求,是一种可落地的调测方案,为 LPO 最终的商业落地提供的有力支撑。六、六、网络设备端口网络设备端口 S SI I 特性分析特性分析(一)(一)端口端口 S SI I 设计挑战设计挑战1 1端口端口 I IL L 设计挑战设计挑战理论仿真的结果显示 via 的损耗可以控制在 0.3dB26.56GHz,但实际上受 stub 和等效 Dk 值的影响,via IL 不易控;跨板链路中,PCB 上的跨板 via IL 不易控;26.56GHz 的频点要求,工艺上,焊点/接触点的 IL 也不易控。当金手指接触点阻抗控制较好时,IL 在 1526.56GHz 一致性较好。以下面链路仿真结果为例,从下左图看,该链路阻抗控制较好,31112G LPO 光模块应用白皮书ODCC-2023-03008无明显低点,对应下面右图的测试结果,链路 IL 一致性结果较好,链路 IL 变化平缓,没有明显的波动。图 26 阻抗管控加严端口链路 SI 仿真相对的,当金手指接触点阻抗控制较差时,IL 在 1526.56GHz出现很大的波动,一致性较差。图 27 常规阻抗管控端口链路 SI 仿真基于以上的分析看,整个端口 SI 链路的 IL 实际设计值存在一定的波动,在 LPO 应用的场景下,IL 的波动会影响链路的传输质量。2 2端口端口 R RL L 设计挑战设计挑战相比 IL 的设计挑战,端口 RL 的控制同样比较困难。为控制BGA via 之间的高速串扰,需增加较多的 GND via 以及紧耦合设计,32112G LPO 光模块应用白皮书ODCC-2023-03008势必会导致阻抗较低,即使 antipad 挖大,阻抗的匹配难度也会增大,RL 的一致性控制难度增大。跨板链路中,跨板 conn 因正向力以及可靠性的限制,端子阻抗必然存在波动,也增加了 via RL 的一致性难度增大。若两种混压板材的 Dk 值相差较大,via 的阻抗匹配难度加大,RL 的一致性难度增大。不同走线层的 via 有不同的 antipad 设计,其实际加工后的等效 Dk 不可控,RL 的一致性难度增大;图 28 串扰设计和优化(二)(二)端口端口 S SI I 链路具有差异性链路具有差异性112G 设备的光端口高速通道设计,可能会出现的设计形态:1)板内的 PCB 传输线;2)经过扣板连接器的 PCB 传输线;3)PCB 传输线 cable 线缆。33112G LPO 光模块应用白皮书ODCC-2023-03008图 29 高速通道设计形态端口 SI 差异性还括芯片散出,扣板连接器和 IO 连接器等位置的复杂设计,造成全通道的 SI 性能差异性。如 channel 的损耗范围可能分布在 4Db12dB 的范围,回损性能受各种过孔,扣板连接器或cable 连接器的影响,分布在-10dB-15dB 的范围,串扰性能也受到扣板连接器,BGA 焊球间距等因素影响,分布在-45dB-70dB 的范围区间,PCB 传输线的阻抗控制精度由于加工能力和成本的限制,保持在 -8%水平。基于上述分析,光端口的高速 SI 性能具有较大的范围区间内波动的特点,无法实现完全的一致性。(三)(三)端口差异性影响端口差异性影响 L LPOPO 应用应用LPO 光模块关键配置如 Driver 驱动器和 TIA 的均衡保持不变,适配交换机不同的端口进行误码率测试,会发现 LPO 存在较大的误码率波动。在 MAC 板或交换板的不同 IL 端口测试,LPO 的误码率存在波动,具体表现为在高 IL 和低 IL 端口测试的 LPO 模块误码率比34112G LPO 光模块应用白皮书ODCC-2023-03008在中 IL 的误码率要差一个量级左右,在端口板或 up/bottom 板端口测试的 LPO 模块误码率比在 MAC 板测试的 LPO 模块误码率要差两个量级左右。图 20 端口 SI 对 LPO 模块性能影响验证结果由以上分析可见,网络设备端口的 IL 影响 LPO 模块的传输误码率,RL 的影响更大!(四)(四)端口端口 S SI I 差异性优化方案差异性优化方案端口 SI 优化建议主要包括:1)提升板材损耗,如用 M8U 代替 M8N;2)用 cable 方案代替跨板方案,利用 cable 损耗优势代替pcb 走线损耗;3)叠层优化:介质厚度优化为 Core 6mil/PP 6mil 后,损耗可提升约 5%至 0.68 /-0.04dB26.56GHz;35112G LPO 光模块应用白皮书ODCC-2023-03008图 31 叠层优化效果对比4)仿真 via 阻抗控制在 /-5ohm;RL 控制在 15dB 以下;5)若用混压,建议板材 Dk 控制在 /-0.5 范围内;如下图所示,绿色为 M8N M7GN 混压板材,红色为 M8N FR4 混压,可以看出用 M8N M7GN 混压时,BGA 浅孔阻抗更易匹配,IL/RL 一致性变现更佳;图 32 M8N M7GN 和 M8N FR4 混压板材 SI 仿真对比M8N M7GN 混压和 M8N FR4 混压的阻抗实测对比也会发现前者的阻抗一致性表现更佳。36112G LPO 光模块应用白皮书ODCC-2023-03008图 33 M8N M7GN 和 M8N FR4 混压板材 TDR 实测对比Bottom/up 板链路,跨板 conn 以及 neck 走线的阻抗不匹配,导致 IL/RL 一致性和 mac 板存在差异性,从下图中可以看到,Bottom/up 板链路在经过 conn 时,阻抗存在变化,链路阻抗不如MAC 板上链路平缓。图 34 MAC 板和端口板 TDR 实测对比(五)(五)端口端口 S SI I 设计建议设计建议LPO 应用场景下的高速 SI 设计,在 linear 标准基础上增加最低损耗的要求,同时将 channel 损耗与封装损耗合并计算,TX 通道总损耗控制在 912dB 的区间内,RX 链路只需要满足最大 12dB。图 35 LPO 链路电接口规范推荐37112G LPO 光模块应用白皮书ODCC-2023-03008直驱系统的传输线阻抗 -5%以内,连接器和过孔等阻抗突变位置限制为 -10%。图 36 LPO 链路 SI 阻抗设计规范推荐串扰设计指标,完整通道近端串扰-55dB,远端串扰-45dB。七、七、利用卷积实现利用卷积实现 L LPOPO 系统在线调优系统在线调优如前文分析,LPO 去除 oDSP,网络设备 SI 链路的电损伤会传递到 LPO 模块,LPO 模块的光损伤也会传递到网络设备端口的 SI 链路,导致 LPO 模块和网络设备端口电链路存强耦合。经前文分析,网络设备端口存在 IL/RL 差异性,这种差异很难消除,只能管控在一定范围内。LPO 若要商用落地,必须克服 LPO 模块间互联互通、LPO 和网络设备端口兼容性问题。基于卷积调优的可行性分析,提出一种利用卷积进行 LPO 在线调优方案,单次计算实现 LPO 模块间、LPO和端口间的最佳匹配。38112G LPO 光模块应用白皮书ODCC-2023-03008(一)(一)端口端口 S SI I 设计挑战设计挑战1 1端口端口 I IL L 设计挑战设计挑战由第六章节的分析可知,网络设备端口的 IL 和 RL 都会影响LPO 模块的传输误码率,都属于 SI 的链路损伤。实际受到 PCB 加工制程的影响,网络设备端口的 IL 和 RL 必然存在一定程度的波动,这种波动影响 LPO 模块的传输误码率性能。图 37 端口 SI 对 LPO 模块性能影响验证结果2 2L LPOPO 和端口深耦合和端口深耦合LPO 线性直驱光模块内部没有 re-timer 芯片实现电信号的再生,对网络设备端口 SI 链路质量更敏感,网络设备端口链路产生的噪声、畸变等都会传递和累积,进而影响光信号的质量,最终影响整个链路的传输误码率性能。同一端口适配不同厂家的 LPO 光模块,LPO 模块的误码率性能存在差异,这种差异在 LPO 模块应用上更明显。模块类型模块厂家设备端口插损BER误码分布39112G LPO 光模块应用白皮书ODCC-G DR4A1008dB7E-836.8E-82B1008dB3E-917E-913 3L LPOPO 产测成本增加、拦截效果存疑产测成本增加、拦截效果存疑基于以上两点的分析,LPO 线性直驱光模块在交换机不同端口的误码率性能表现不一致,不同厂家的 LPO 光模块在同一交换机端口的误码率性能表现也不一致。设备厂商和模块厂商传统的产测拦截标准无法有效拦截 LPO 模块和网络设备的兼容性问题,一种方案是设备厂商在产线批量增加光模块的适配拦截或是光模块厂商在产线增加交换机的适配拦截,即便有助于拦截兼容性问题,但是考虑到多厂家供应的现实情况,也会大大增加产测成本,而且拦截效果也有待检验。图 38 传统模块和 LPO 产测环境对比举例(二)(二)L LPOPO 在线调优方案在线调优方案按照本文分析的结论:在特定条件下,网络设备端口间的 LPO传输链路可被视作 LTI 线性时不变系统,只要网络设备 ASIC 芯片的TX SERDES 和 RX SERDES 具有无限阶的 FFE 均衡系数,就可以利用40112G LPO 光模块应用白皮书ODCC-2023-03008卷积进行单次计算,即可实现信号的近无失真传输。实际调优的效果取决于系统的线性度和网络设备 ASIC 芯片的 TX/RX 均衡能力,故利用卷积实现 LPO 在线调优是一种尽力型的调优方案,并不能解决LPO 的非线性缺陷。1 1在线卷积、自动协商实现在线卷积、自动协商实现 L LPOPO 在线调优在线调优LPO 模块在线调优方案见下图,模块厂商将 LPO 光模块 Egress和 Ingress 方向均调校在最佳线性区,设备厂商设计实现端口IL/RL 符合协议规范且将不同端口的 IL/RL 一致性设定在一定的范围之内,则可以将本端网络设备 ASIC 芯片 TX SERDES 的 FFE 均衡系数和对端网络芯片 ASIC RX SERDES 自适应获取的 FFE 均衡系数进行卷积,即可实现 LPO 系统的在线调优。图 39 LPO 模块在线调优方案LPO 网络设备可以通过模块在位信号触发在线卷积、自动协商实现 LPO 调优的方案。详细的链路分解参考下图,调优后的 TXSERDES FFE 均配置为:=41112G LPO 光模块应用白皮书ODCC-2023-03008图 40 利用卷积实现 LPO 在线调优细节在该调优方法中,LPO 的 TX/RX 可以为同一个模块,也可以是同一设备上不同端口的两个模块,也可以是分别位于不同设备上的两个模块。如果位于同一设备内的光模块,可以考虑通过板内通信接口来提升调节效率。如果是位于不同设备间的光模块,则需要考虑采用带外的通信通道支持来保证调节效率或者开发类似 802.3 定义的 AN 协商机制进行 FFE 均衡参数传递。2 2离线卷积、在线配置实现离线卷积、在线配置实现 L LPOPO 在线调优在线调优离线卷积、在线配置实现 LPO 在线调优的方案如图 7-5,主要分两步:1)根据实际应用的组合,在研发阶段使用卷积获取最有的网络设备 ASIC 芯片 TX SERDES FFE 均衡系数,每个组合使用多个样本进行卷积,将同一组合多样本的多组 TX SERDES FFE 均衡系数平均值或者算法拟合出普适性最优的均衡系数,该均衡系数即为该组合的均衡系数。42112G LPO 光模块应用白皮书ODCC-)网络设备上线后,通过网管扫描 LPO 系统两端的 LPO 模块 PN,识别出组合类型,然后下发该组合对应的 TX SERDES 均衡系数。图 41 离线卷积、在线配置实现 LPO 调优方案在线卷积系统框图参考图 7-6,根据实际的配置组合,利用仪表的线性均衡器,通过均衡系数卷积获得较优的 TX FFE 均衡配置:=。图 42 离线卷积系统框图相比 LPO 在线调优方案,该方案更容易实现,相比之下存在一定的不足:43112G LPO 光模块应用白皮书ODCC-)网络设备、端口、LPO 光模块存在多种应用组合,离线卷积调优工作量大;2)离线卷积系统未覆盖网络设备 RX 电层链路,其精度比在线卷积、自动协商实现 LPO 在线调优的方案要差;3)因为是先卷积获取各种组合的 TX FFE 均衡系数,实际部署后,新增组合/PCN 需刷新现网 TX FFE 均衡配置表,运营管理难度相对较大。(三)(三)收益说明收益说明1)卷积计算替代传统的盲扫联调方式,效率更高、性能更优;2)在线卷积、自动协商可以实现一定的 LPO 系统性能自愈;3)基于网络设备 ASIC 芯片的 FFE 均衡能力,理论上可以解决组合差异(设备端口/LPO 模块)导致的 LPO 链路性能差异,提高 LPO光模块的适配兼容能力;4)基于网络设备 ASIC 芯片的 FFE 均衡能力,理论上可以解决LPO 模块批次波动性(制程波动、来料波动)引起的现网 LPO 系统传输性能波动;5)继承传统可插拔光模块开放解耦的生态,设备厂商在遵循电接口标准的基础上管控端口 IL/RL 的一致性,模块厂商管控 LPO 模块线性度,终端用户负责应用调优。八、八、L LPOPO 在线调优的关键技术在线调优的关键技术44112G LPO 光模块应用白皮书ODCC-2023-03008利用卷积实现 LPO 传输链路的在线调优是符合理论分析的,且经过实际验证可行,真正落地商用,还需攻克该方案涉及的关键技术。(一)(一)设备设备 P PHYHY 芯片均衡技术芯片均衡技术如第四章卷积调优可行性分析,假设网络设备 PHY 芯片具有无限的 FFE 均衡阶数,那么理论上通过精准配置这些 FFE 均衡系数,可以解决 LPO 光模块适配不同网络设备端口的性能差异性。实际上不同厂商的 PHY 芯片 FFE 均衡技术不同,能力不同。当前宣称支持LPO 应用的主流 ASIC 芯片具有很强的 RX FFE 均衡技术,其均衡阶数高达数十阶,但是 TX FFE 均衡却只有数阶,限制了通过时域卷积进行 LPO 在线调优的效果。(二)(二)LPOLPO 模块的线性调校技术模块的线性调校技术通过卷积实现 LPO 在线调优的基础上是 LPO 光模块具有一定的线性特性,在第五章已经进行过理论分析并获得结论即 LPO 具有一定的的线性特性。LPO 模块内部 Driver 驱动器和 TIA 都可以进行一定程度的 SI 链路补偿,如何配置这些参数,使得 LPO 模块工作在最佳线性区是通过卷积实现 LPO 调优的基础。(三)(三)带外通信机制带外通信机制/设备间协商机制设备间协商机制通过卷积实现 LPO 在线调优依赖网络设备 ASIC 芯片 FFE 均衡系数的反馈和传递,针对不同设备端口之间电 LPO 传输系统,则需要45112G LPO 光模块应用白皮书ODCC-2023-03008采用带外的通信通道支持来保证调节效率或者开发类似 802.3 定义的 AN 协商机制进行 FF 均衡 E 参数传递。

    浏览量6人已浏览 发布时间2023-10-16 46页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • ODCC:AI服务器白皮书(2023年)(179页).pdf

    1 AI 服务器白皮书(2023 年)ODCC-2023-01005 编号 ODCC-2023-01005 AI 服务器白皮书(2023 年)开放数据中心委员会 2023-09 发布 I AI 服务器白皮书(2023 年)ODCC-2023-01005 版权声明版权声明 ODCC(开放数据中心委员会)发布的各项成果,受著作权法保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用 ODCC 成果中的文字或者观点的,应注明来源:“开放数据中心委员会 ODCC”。对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC 及有关单位将追究其法律责任,感谢各单位的配合与支持。II AI 服务器白皮书(2023 年)ODCC-2023-01005 编写组编写组 项目经理:项目经理:穆浩然 中国电信股份有限公司研究院 李宁东 中国信息通信研究院(云大所数据中心团队)工作组长:工作组长:王峰 中国电信股份有限公司研究院 贡献专家:贡献专家:郭亮 中国信息通信研究院(云大所数据中心团队)谢丽娜 中国信息通信研究院(云大所数据中心团队)王望子 中国电信股份有限公司研究院 苏丽 天翼云科技有限公司 白秀杨 天翼云科技有限公司 崔立志 天翼云科技有限公司 李萌 天翼云科技有限公司 刘鑫 华为技术有限公司 程龙飞 华为技术有限公司 裴博 华为技术有限公司 徐进 华为技术有限公司 李文文 华为技术有限公司 李鹏 华为技术有限公司 刘凯明 华为技术有限公司 胡然 华为技术有限公司 高斯亮 华为技术有限公司 赵梓竣 华为技术有限公司 吴菁华 英特尔(中国)有限公司 III AI 服务器白皮书(2023 年)ODCC-2023-01005 王海宁 英特尔(中国)有限公司 夏磊 英特尔(中国)有限公司 龚海峰 英特尔(中国)有限公司 金启华 英特尔(中国)有限公司 杨崇光 英特尔(中国)有限公司 马建伟 英特尔(中国)有限公司 蒋亚坚 英特尔(中国)有限公司 袁超 英特尔(中国)有限公司 王赜 曙光信息产业股份有限公司 贺群 曙光信息产业股份有限公司 杨鑫 浪潮电子信息产业股份有限公司 张政 浪潮电子信息产业股份有限公司 刚宪秀 浪潮电子信息产业股份有限公司 胡彭禹 浪潮电子信息产业股份有限公司 张文忠 浪潮电子信息产业股份有限公司 温春光 浪潮电子信息产业股份有限公司 王伟 新华三信息技术有限公司 杨金铎 新华三信息技术有限公司 汪新新 新华三信息技术有限公司 吴佳珺 宁畅信息产业(北京)有限公司 李素红 宁畅信息产业(北京)有限公司 李宁宁 宁畅信息产业(北京)有限公司 赵雷 宁畅信息产业(北京)有限公司 张安娜 中科可控信息产业有限公司 秦晨 中科可控信息产业有限公司 于山山 上海曦智科技有限公司 孙斌翔 上海曦智科技有限公司 IVAI 服务器白皮书(2023 年)ODCC-2023-01005 刘军 篆芯半导体(南京)有限公司 王星 篆芯半导体(南京)有限公司 柳雷 篆芯半导体(南京)有限公司 王磊 沐曦集成电路(上海)有限公司 赵杨 沐曦集成电路(上海)有限公司 V AI 服务器白皮书(2023 年)ODCC-2023-01005 前前 言言 在当前快速发展的信息时代,人工智能(AI)已经成为引领科技革命和产业升级的重要引擎。AI 技术的飞速进步,推动了各行各业的变革与创新,而 AI 服务器作为支撑和驱动 AI 应用的核心基础设施,正扮演着越来越重要的角色。ODCC 始终关注 AI 服务器产业的发展,联合相关单位共同编写本白皮书,对AI服务器需求、场景和AI服务器通用架构、关键技术、评测指标、发展趋势等方面进行了详细的梳理,以期更进一步推动AI 服务器的发展。本白皮书旨在深入探讨 AI 服务器在硬件和软件方面的要求,并将重点关注 AI 服务器在深度学习、大规模数据处理、计算机视觉、自然语言处理等应用领域中的关键作用。我们将对当前市场现状进行深入分析,并展望未来 AI 服务器技术的创新方向和实际应用。本白皮书也同步探讨 AI 服务器在不同领域的应用实践,以及其对于数字经济、科技创新和产业转型的深远影响。通过深入研究 AI 服务器的发展现状、趋势和挑战,我们可以更好地把握其在未来的重要地位,为推动人工智能技术的发展和应用创造更加有利的条件。同时,本白皮书也旨在为相关领域的决策者、研究者和从业者提供有益的参考,共同推动人工智能与数字经济的融合发展。由于时间仓促,水平所限,错误和不足之处在所难免,欢迎各位读者批评指正。如有意见或建议请联系编写组。VI AI 服务器白皮书(2023 年)ODCC-2023-01005 目目 录录 版权声明.I 编写组.II 前 言.V 一、一、研究背景研究背景.1 二、二、人工智能发展历程人工智能发展历程.2 三、三、大模型时代的开启与挑战大模型时代的开启与挑战.7(一)预训练大模型潜力涌现,强人工智能曙光出现.9(二)ChatGPT 引发 AI 产业创新,开启大模型新纪元.12(三)国内外厂商布局大模型,千亿级参数量推动算力需求增长.20 四、四、AIAI 服务器核心需求服务器核心需求.22(一)并行处理能力扩展.23(二)与计算力匹配的高性能存储.25(三)支持高速数据传输的互联网络.26(四)强散热.27 五、五、AIAI 服务器架构及关键技术服务器架构及关键技术.27(一)AI 服务器总体架构.29(二)异构计算加速计算芯片.31 1 GPU:AI 算力的核心.32 2 FPGA.47 3 ASIC.54(三)主板总线.61 1 PCIe/PCIeSwitch.61 VII AI 服务器白皮书(2023 年)ODCC-2023-01005 2 NVlink/NVSwitch.68 3 厂商方案.76(四)分布式训练.82 1 集群网络.83 2 集群存储.95(五)液冷技术.106 1 液冷技术背景.106 2 液冷技术发展.107(六)电源.117 1 功率.118 2 效率.118 3 集中式供电.120 六、六、典型典型 AIAI 服务器配置服务器配置.122(一)华为 Atlas 800.122 1 典型配置.123 2 技术特点.124(二)华为 Atlas 900 PoD 集群基础单元.124 1 典型配置.125 2 技术特点.126(三)中科可控 X7840 H0.127 1 典型配置.127 2 技术特点.128(四)宁畅 X660 G45 LP.128 1 典型配置.129 VIIIAI 服务器白皮书(2023 年)ODCC-2023-01005 2 技术特点.130(五)浪潮 NF5698G7.130 1 典型配置.131 2 技术特点.131(六)H3C UniServer R5500 G6.132 1 典型配置.133 2 技术特点.134 七、七、行业情况分析行业情况分析.135(一)行业现状.135 1 智能算力行业现状:政策支撑创新,市场前景广阔.135 2 AI 服务器行业现状:中国市场领军,创新驱动未来.140 3 AI 芯片行业现状:技术蓬勃发展,市场迅速扩张.142(二)行业趋势.145 1 技术创新塑造 AI 服务器未来.145 2 产业生态建设塑造 AI 服务器市场格局.147 3 多元主体合作推动 AI 服务器的未来.149 4 绿色可持续是 AI 服务器未来的方向.152 5 标准化推动 AI 服务器的未来发展.155(三)应用实践.157 1 AI 服务器在智算中心的应用实践.157 2 AI 服务器在新兴技术中的应用.160 3 AI 服务器在典型行业的应用实践.162 1 AI 服务器白皮书(2023 年)ODCC-2023-01005 A AI I 服务器白皮书(服务器白皮书(2 2023023 年)年)一、一、研究背景研究背景 人工智能是当下热点,作为计算能力的主要提供者,面向人工智能的服务器技术再次成为业界关注的焦点。随着大模型的兴起和深度学习等复杂任务的崛起,AI 服务器需求日益增长。AI 服务器不仅需要具备高性能计算能力,还需要应对大规模数据处理和存储的挑战,以及高速数据通信和互连的需求。此外,超大规模集群是大模型训练不可忽视的关键要素。AIAI 服务器在各个领域发挥着重要作用,为数字经济的高速发展服务器在各个领域发挥着重要作用,为数字经济的高速发展提供了强大的支撑。提供了强大的支撑。首先,AI 服务器为数据的处理和分析提供了高效的计算能力,加速了数字经济中海量数据的挖掘和利用过程。例如在金融领域,AI 服务器通过深度学习等技术,实现了更精准的风险评估和投资决策,为金融业务提供了更有竞争力的服务。其次,AI 服务器推动了人工智能技术在各个行业的应用与落地。在医疗领域,AI 服务器助力医疗影像诊断和药物研发,提高了医疗效率和准确性。同时,AI 服务器也促进了科技创新的发展,为科学家们提供了强大的计算支持,加速了科技突破和创新的进程。随着随着AIAI技术的不断演进,技术的不断演进,AIAI服务器也面临着新的发展趋势和挑服务器也面临着新的发展趋势和挑战。战。一方面,AI 服务器将更加注重高性能和低能耗的平衡,以满足不断增长的计算需求。另一方面,AI 服务器的架构和算法优化也将成为关键,以提升计算效率和性能。此外,AI 服务器在数据安全和 2 AI 服务器白皮书(2023 年)ODCC-2023-01005 隐私保护方面也面临挑战,需要在保证计算性能的同时,保障数据的安全和隐私。二、二、人工智能发展历程人工智能发展历程 人工智能(Artificial Intelligence,AI),是研究、开发用于模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的前沿综合性学科。从上世纪 30-40 年代开始,人工智能从早期的数理逻辑萌芽,到后来的专家系统,再到神经网络的出现,几经起落,直到最近这轮以 Transformer 为基础的人工智能浪潮,算力需求一直是推动人工智能发展的主要动力。第一阶段:萌芽阶段(第一阶段:萌芽阶段(19561956 年以前)年以前)1956 年以前,数学、逻辑、计算机等理论和技术方面的研究为人工智能的出现奠定了基础。十七世纪法国物理学家、数学家B.Pascal 制成了世界上第一台会演算的机械加法器。十八世纪德国数学家、哲学家 Leibnitz 提出了把形式逻辑符号化,奠定了数理逻辑的基础。1934 年美国神经生理学家 W.McCulloch 和 W.Pitts 建立了第一个神经网络模型,为以后的人工神经网络研究奠定了基础。英国数学家 A.M.Turing 在 1936 年提出图灵机模型并在 1950 年提出图灵测试,被誉为“人工智能之父”。1946 年美国科学家J.W.Mauchly 和 Eckert 等人共同发明了世界上第一台电子数字计算 3 AI 服务器白皮书(2023 年)ODCC-2023-01005 机 ENIAC,之后 Von Neumann 对其进行改进,为人工智能的研究奠定了物质基础。这些都为人工智能的孕育和诞生做出了巨大的贡献。第二阶段:诞生及第一个兴旺阶段(第二阶段:诞生及第一个兴旺阶段(19561956 年年 -19731973 年)年)1956 年“人工智能”首次在达特茅斯会议中被提出,从而开创了人工智能的研究方向和学科,并推动了全球第一次人工智能浪潮的出现。这段时期研究的主要方向是机器翻译、定理证明、博弈等,相继涌现了一批显著的成果:1957 年 Simon 等开发了最早的一种AI程序设计语言 IPL(Information Processing Language);1959年,A.M.Samuel 研制了能自学习的跳棋程序并击败了 A.M.Samuel本人;1960 年 McCarthy 建立了人工智能程序设计语言 LISP;1964年,人工智能科学家发明了一个能证明应用题的机器STUDENT;1965年 JRobinson 提出了消解原理,为定理的机器证明做出了突破性的贡献;1966 年,MIT 发布一台叫做 ELIZA 的机器,实现简单人机对话;1969 年国际人工智能联合会议(international Conferences On Artificial Intelligence)成立,它标志着人工智能这门新兴学科得到了世界范围的公认。在当时,一系列的成功使人工智能科学家们认为可以研究和总结人类思维的普遍规律并用计算机模拟它的实现,乐观地预计可以创造一个万能的逻辑推理体系。第三阶段:第一个萧条波第三阶段:第一个萧条波折阶段(19731973 年年 -19801980 年)年)4 AI 服务器白皮书(2023 年)ODCC-2023-01005 由于人工智能所基于的数学模型和数学手段存在的缺陷和呈指数增加的计算复杂度等问题,当人们进行了比较深入的工作后,发现逻辑证明器、感知器、增强学习等等只能做很简单、非常专门且很窄的任务,稍微超出范围就无法应对。因此,各国政府勒令大规模削减人工智能方面的投入,人工智能在这一时期受到了各种责难。以 1973 年莱特希尔报告的推出为代表,象征着人工智能正式进入寒冬。这之后的约十年间,人工智能鲜有被人提起。第四阶段:第二个兴旺期(第四阶段:第二个兴旺期(19801980 年年 -19871987 年)年)专家系统(Expect System)作为具有专门知识和经验的计算机智能程序,它的出现使人工智能技术研究出现新高潮。1980 年,卡内基梅隆大学为 DEC 公司设计了名为 XCON 的专家系统,一度能够为该公司每年节省四千万美元。1982 年,斯坦福大学国际研究所研制的地质勘探专家系统 PROSPECTOR 预测了一个钼矿位置,其开采价值超过了一亿美元。有了成功商业模式的推动,相关产业应运而生,涌现了 Symbolics、Lisp Machines 等硬件公司和 IntelliCorp、Aion 等软件公司。与此同时,业界出现了许多人工智能数学模型方面的重大发明,其中包括著名的多层神经网络(1986 年)和 BP 反向传播算法(1986年)等,也出现了能与人类下象棋的高度智能机(1989 年)。此外,其它成果包括通过人工智能网络能自动识别信封上邮政编码的机器,精度可达 99%以上等等。5 AI 服务器白皮书(2023 年)ODCC-2023-01005 由于理论研究和计算机软、硬件的飞速发展,各种人工智能实用系统开始商业化并进入市场,取得了较大的经济效益和社会效益,展示了人工智能应用的广阔前景,人工智能研究从萧条期转入第二个兴旺期并进入黄金时代。第五阶段:第二个萧条波第五阶段:第二个萧条波折阶段(19871987 年年 -19931993 年)年)上世纪八十年代中后期,由于个人计算机性能的迅猛发展,使用“增强智能”看似比人工智能有更大的发展,同时专家系统的机器维护费用居高不下,系统难以升级,软件以及算法层面的挑战没有突破,于是业界开始将资本投向于那些看起来更容易出成果的项目。其中,基于通用计算的 LISP 机器在商业上的失败,成为了人工智能再次滑入低迷期的标志。第六阶段:平稳发展阶段(第六阶段:平稳发展阶段(19931993 年年 -现在)现在)在这一时期,由于互联网的蓬勃发展、计算机性能的突飞猛进、分布式系统的广泛应用以及人工智能多分支的协同发展,以及发展具备实用性和功能性的人工智能成为业界共识,带来了人工智能新的繁荣。其中,包括图模型、图优化、深度学习网络在内的数据工具被重新挖掘或者发明,具有明确数理逻辑的数学模型使得理论分析和证明成为可能,摩尔定律驱动下的计算能力提升显著提高了人工智能的研究效率。6 AI 服务器白皮书(2023 年)ODCC-2023-01005 其中,1997 年 IBM 深蓝战胜国际象棋大师。2006 年,Geoffrey Hinton 等人发现了训练高层神经网络的有效算法深度学习理论(Deep Learning)。2009 年,洛桑联邦理工学院发起的蓝脑计划声称已经成功地模拟了部分鼠脑。2012 年,Geoffrey Hinton 团队在 ImageNet 上首次使用深度学习技术完胜其它团队,让深度学习重新回到主流技术舞台。2016 年,谷歌 AlphoGo 4:1 击败韩国围棋冠军李世石让人工智能进入大众视野,带领人工智能进入又一波高潮。随着硬件计算能力的提升和云计算的普及,研究人员开始构建更大、更复杂的神经网络模型。2018 年,OpenAI 发布了 GPT 模型,拥有 1.5 亿个参数。2019 年,谷歌的 BERT 模型问世,拥有 3.4 亿个参数。然而,真正引起轰动的是 2020 年底至 2021 年初,OpenAI 发布的 GPT-3 模型。这个模型有 1750 亿个参数,创下当时的纪录。GPT-3具备惊人的语言生成能力,可以写文章、回答问题、进行对话等,引起了广泛的关注。大模型的出现,推动了自然语言处理、计算机视觉、智能语音等领域的飞速发展。然而,大模型也面临着巨大的挑战,包括计算资源的需求、数据隐私的问题和模型可解释性等方面。当前人工智能技术的发展一路高歌猛进,正在以前所未有的速度快速渗透到生产生活的方方面面。未来,随着技术的不断演进和 7 AI 服务器白皮书(2023 年)ODCC-2023-01005 研究的深入,人工智能有望进入更加成熟和普及的阶段,为人类社会带来更多的便利和创新。三、三、大模型时代的开启与挑大模型时代的开启与挑战战 在人工智能领域,近年来预训练大模型的潜力正迅速涌现,给强人工智能的实现带来了曙光。预训练大模型是指利用海量的未标记数据进行预训练,学习通用的语言知识和语境理解能力,然后再通过有监督学习进行微调,从而为机器赋予更强大的语言理解和推理能力。这种方法的引入在很大程度上解决了传统机器学习方法中数据稀缺和特征工程的问题,为人工智能的发展带来了新的思路和可能性。2018 年到 2019 年间,双下降现象的发现改变了原有的人工智能发展格局。传统的数学理论认为,随着模型参数增多,模型过拟合会导致训练误差先下降后上升,因此寻找误差最小点成为调整模型的目标。然而,研究者发现:在模型规模不断增大时,测试误差会在上升后再次下降,且这种误差下降趋势会随着模型规模的增加而越发显著。换言之,随着模型变得更庞大,准确率显著提升。8 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:DEEP DOUBLE DESCENT:WHERE BIGGER MODELS AND MORE DATA HURT 图 1.测试误差双下降(We show that the double descent phenomenon occurs in CNNs,ResNets,and transformers:performance first improves,then gets worse,and then improves again with increasing model size,data size,or training time.)我们发现双下降现象在卷积神经网络(CNNs)、残差网络(ResNets)和 Transformer 模型中的出现:性能在模型大小、数据规模或训练时间增加时,首先会有所提升,然后变差,接着再次提升 -OpenAI)深度学习模型的规模不再受限,而是可以不断扩展,这为提升准确率提供了新的机会。人工智能领域逐步进入大模型时代。9 AI 服务器白皮书(2023 年)ODCC-2023-01005(一)(一)预训练大模型潜力涌现,强人工智能曙光出现预训练大模型潜力涌现,强人工智能曙光出现 预训练大模型的基本原理是通过大规模的非监督学习来训练模预训练大模型的基本原理是通过大规模的非监督学习来训练模型。型。这种非监督学习的方式是通过学习海量的未标记数据中的统计规律和语义信息,来为模型提供一个初始的语义知识库。在这个阶段,模型可以通过自我监督的方式进行预测任务,如掩码语言模型、下一句预测等。通过这样的预训练,模型可以学习到丰富的语义表示,从而具备更好的泛化能力。随着预训练大模型的突破和应用,人工智能领域发生了深刻的随着预训练大模型的突破和应用,人工智能领域发生了深刻的变革。变革。以 BERT(Bidirectional Encoder Representations from Transformers)为代表的预训练大模型在多个自然语言处理任务上实现了突破性的性能提升。BERTBERT 模型通过掩码语言模型和下一句预测任务进行预训练。模型通过掩码语言模型和下一句预测任务进行预训练。在掩码语言模型中,模型需要预测句子中被掩码的单词;在下一句预测任务中,模型需要判断两个句子是否按顺序相连。通过这样的预训练过程,BERT 模型能够学习到丰富的语言表示,从而在各种自然语言处理任务中取得显著的性能提升。传统的自然语言处理任务,如文本分类、命名实体识别等,在传统的自然语言处理任务,如文本分类、命名实体识别等,在BERTBERT 的引入下,取得了更加精准和全面的结果。的引入下,取得了更加精准和全面的结果。在文本分类任务中,BERT 模型能够更好地捕捉句子的语义信息,提高分类的准确性。在命名实体识别任务中,BERT 模型能够识别出实体的边界和类别,提 10 AI 服务器白皮书(2023 年)ODCC-2023-01005 高实体识别的精度。在情感分析任务中,BERT 模型能够理解句子的情感倾向,提高情感分类的效果。来源:Harnessing the Power of LLMs in Practice:A Survey on ChatGPT and Beyond 图 2.大语言模型发展分支 为了评估预训练大模型在多个任务上的表现,研究人员提出了GLUE(General Language Understanding Evaluation)数据集,其中包含多个自然语言处理任务。实验证明,BERT 模型在 GLUE 数据集上的得分超过了传统模型,证明了预训练大模型在各种任务上的优越性能。除了自然语言处理任务,预训练大模型还在问答系统、对话系统、机器翻译等领域展现出了强大的应用能力。在问答系统中,预 11 AI 服务器白皮书(2023 年)ODCC-2023-01005 训练模型可以理解问题并生成准确的回答。在对话系统中,它能够生成连贯、自然的对话内容。在机器翻译中,预训练模型可以学习到多种语言之间的对应关系,提供更准确的翻译结果。由此可见,预训练大模型通过在大规模未标注数据上进行训练,在各种自然语言处理任务中取得了突破性的成果。它们的应用不仅提升了任务的性能,还为实现强人工智能提供了可能性。强人工智能是指具备与人类相当或超越人类智能水平的人工智能系统。其目标是使计算机系统能够像人类一样具备复杂的智能能力,如理解自然语言、推理、学习和创造等。预训练大模型的涌现为实现强人工智能打开了一扇门。通过在大规模未标注数据上进行训练,预训练大模型能够学习到丰富的语言表示和语境理解能力。这使得计算机系统能够更好地理解和处理自然语言,如阅读理解、文本生成等。以 GPT 模型为例,它通过预训练学习了大量的语言数据,能够生成连贯、语义准确的文本。在文学作品创作等任务中,GPT模型展现出了创造性能力,能够产生富有想象力和艺术性的文本。这显示出预训练大模型在创造性任务中的潜力,为实现强人工智能提供了可能性。预训练大模型的突破为构建强人工智能系统铺平了道路,为实现智能对话、情感分析、自动写作等更复杂的任务提供了新的思路和方法。12 AI 服务器白皮书(2023 年)ODCC-2023-01005 然而,实现强人工智能仍然面临一些挑战。首先,预训练大模型需要大量的计算资源和存储空间。其次,数据集的规模和质量对模型的效果有重要影响。此外,对模型性能的进一步优化、更好的数据集构建和创新的算法设计也是未来发展的方向。针对这些挑战和发展方向,研究人员和专家提出了许多观点和创新方法。例如,通过模型的分布式训练和加速硬件的使用,可以提高训练效率。同时,积极构建更大规模、高质量的数据集,可以改善模型的性能。此外,还需要不断创新和改进预训练算法,以提高模型在各种任务上的表现。总之,预训练大模型为实现强人工智能带来了曙光。通过在大规模未标注数据上进行预训练,它们能够为计算机系统赋予更接近人类水平的智能能力。然而,实现强人工智能仍然面临一些挑战,需要进一步的研究和创新。(二)(二)ChatGPTChatGPT 引发引发 AIAI 产业创新,开启大模型新纪元产业创新,开启大模型新纪元 GPT 全称为生成式预训练(Generative Pre-training)模型,是 由 OpenAI 于 2018 年 6 月 在 论 文 Improving Language Understanding by Generative Pre-Training中首次提出的。GPT-1 采用了 Transformer 架构,但是与传统的 Transformer 架构相比,GPT-1 只保留了架构中的解码器(Decoder)部分。GPT-1的训练过程可分为两个阶段:首先是无监督预训练阶段,在大型文 13 AI 服务器白皮书(2023 年)ODCC-2023-01005 本语料库上训练高容量的语言模型。随后是有监督微调阶段,建立在预训练阶段的基础上,通过调整参数来适应特定的监督目标任务,以进一步优化模型性能。来源:Improving Language Understanding by Generative Pre-Training 图 3.GPT-1 逻辑(在无监督训练阶段,采用了一个由 12 层解码器(Decoder)层叠而成的 Transformer 模型,总共包含 12 个 masked self-attention head。选用了 BooksCorpus 数据集作为训练数据,该数据集涵盖了 7000 多本风格迥异的未出版书籍,其中蕴含了大量连续文本。有监督微调阶段,则根据不同任务类型可以选择不同的数据集。)2019年发表的Language Models are Unsupervised Multitask Learners,其理论基础涉及到 无监督学习的全局最小也必定是监督学习的全局最小,这个观点强调了无监督学习在学习表示和结构时具有潜在的监督信息,从而在一定程度上能够支持监督任务 14 AI 服务器白皮书(2023 年)ODCC-2023-01005 的学习。GPT-2 模型进行了创新,移除了 fine-tune 层,这意味着它不再针对各种任务单独进行微调。相反,它通过增加网络参数数量和使用更大的数据集来增强其泛化能力。GPT-2模型充分证明,通过使用更多的训练数据和更大的网络参数,可以显著提高模型的泛化能力。这意味着可以用一个模型完成多种任务,无需为每个特定任务进行微调。GPT-2 的这一突破为 GPT系列模型走向更大容量的技术进步奠定了基础。图 4.GPT 数据量增长 2020 年 5 月,OpenAI 发表了Language Models are Few-Shot Learners论文,介绍了参数量达到 1750 亿的 GPT-3 模型,GPT-3继承了 GPT-2 的理念,即通过更多的训练数据和更大的网络参数来提高模型的泛化能力,并进一步将参数规模扩大(模型参数从 GPT-2 的 15 亿增加到 GPT-3 的 1750 亿,提升超过 100 倍)。它不再依赖于针对特定任务的微调,而是利用 few-shot 学习来执行下游任务,实现了训练效果与成本的平衡。15 AI 服务器白皮书(2023 年)ODCC-2023-01005 在 GPT-2 的实验中,OpenAI 采用了 zero-shot 学习方法。这种方法的特点是在下游任务的训练中,模型没有接收到任何具体任务的示例,这被认为是一种极端的训练策略。尽管 GPT-2 在某些任务上展现出了不错的效果,但在其他任务上其表现并不理想。为了解决这一问题,OpenAI 在 GPT-3 中引入了 few-shot 学习方法。与zero-shot 不同,few-shot 方法为模型提供了特定任务的少量示例(通常在 10 到 100 个之间)。这些示例仅作为与模型的文本交互的条件,而不涉及任何的梯度更新或模型微调。综合多种任务的训练结果,可以看到 few-shot 方法在准确性上明显优于 zero-shot 方法。这验证了少量示例学习在任务特定的准确性和样本效率之间提供了一个有效的平衡点。来源:Language Models are Few-Shot Learners 图 5.“更大的模型越来越高效地利用上下文信息”16 AI 服务器白皮书(2023 年)ODCC-2023-01005 基于人类反馈的强化学习(RLHF)来微调 GPT-3,通过引入语言模型微调,可使模型输出与人类需求对齐,微调后的模型被命名为InstructGPT(ChatGPT 和 InstructGPT 在训练方法上具有高度的相似性,由于它们的目标略有不同(一个更侧重于聊天,另一个侧重于按照指令生成内容),它们区别在在某些细节和数据集选择上会有所不同)。来源:Training language models to follow instructions with human feedback 图 6.InstructGPT 训练三步骤 InstructGPT 的训练过程简略可分为有监督微调(SFT)、奖励模型训练(RM)、近端策略优化(PPO)进行强化学习三个步骤,以实现人工反馈强化学习。17 AI 服务器白皮书(2023 年)ODCC-2023-01005 2022 年 8 月,OpenAI 完成了 GPT-4 的训练。OpenAI 在其 GPT-4技术文档中没有公开与模型架构、硬件、训练计算、数据集构建和训练方法相关的详细信息。根据业界内的信息评估 OpenAI 采用交叉注意力架构的研发 GPT-4 的代价最小,可以大幅度使用 ChatGPT 中已经构建的语言模块(业内推测,不可保证此信息准确性)。(交叉注意力(Cross-attention)机制将视觉信息直接融合到语言模型解码器的层中,而不是使用图像作为语言模型的附加前缀,交叉注意力将相同维度的独立嵌入序列进行非对称的整合。这类架构可有效地平衡文本生成能力和视觉信息。VisualGPT、VC-GPT 和Flamingo 等模型也使用这种预训练策略,并使用图像字幕和视觉问答任务进行训练。)但是,文档还是提供了以下核心信息:1.GPT-4 基于transformer 架构,专为预测文本的下一 token 而设计。2.在数据源方面,它主要使用了公开的互联网数据和经第三方授权的数据进行训练。3.在模型微调的过程中,采用了来自人类反馈的强化学习技术(RLHF)。业界猜测,GPT-4 拥有约 1.8 万亿个参数,分布在120 层中,其大小是 GPT-3 的 10 倍以上,模型中使用了 16 个 MoE,每个 MoE 都有约 1110 亿的多层感知机(MLP)参数。18 AI 服务器白皮书(2023 年)ODCC-2023-01005 图 7.GPT 发展 除了模型训练,除了模型训练,ChatGPTChatGPT 在实际应用中也需要强大的计算能力在实际应用中也需要强大的计算能力来进行推断。来进行推断。当用户输入一个问题或对话时,ChatGPT需要根据上下文进行推断,并生成回复。这个推断过程需要快速、高效地执行,以满足用户的实时交互需求。然而,由于模型的复杂性和参数量巨大,传统的计算机和服务器往往无法在实时性要求下完成推断过程。因此,为了满足 ChatGPT 等大模型的需求,并进一步推动 AI 产业的发展,需要在算力方面寻找解决方案,以提供足够的计算资源。除了算力需求增加外,广泛应用除了算力需求增加外,广泛应用 ChatGPTChatGPT 也对通信需求提出了也对通信需求提出了挑战。挑战。ChatGPT是一种基于人工智能的聊天机器人模型,具有出色的自然语言处理和上下文理解能力,因此用户对其的使用和期望也日益增加。然而,这种用户需求的迅速增长导致大量用户同时向系统发送请求,使得通信系统承受了巨大的压力。用户希望 ChatGPT 能够提供快速、准确的回复,因此他们频繁地与 ChatGPT 进行交互。这意味着通信系统面临着大量的请求,需要处理大量的数据传输和 19 AI 服务器白皮书(2023 年)ODCC-2023-01005 处理任务。然而,处理和分析自然语言数据是一项复杂而耗时的任务,需要大量的计算资源和高效的通信机制来支持。传统的通信系统可能无法有效处理这种大规模的请求,导致系统延迟增加和服务质量下降。为了满足用户的需求并确保高质量的通信体验,需要对通信系统进行优化和升级,包括增加带宽、改进网络架构、优化数据传输和处理机制等方面的改进。只有充分满足通信需求,才能更好地支持 ChatGPT 的广泛应用和用户体验。为了应对算力和通信需求的为了应对算力和通信需求的跃升,研究人员和行业专家提出了一系列解决方案。一系列解决方案。一方面,他们致力于开发更高效的模型训练和推断算法,以减少计算资源的消耗。其中,一种常见的方法是使用剪枝和量化等技术来减少模型的参数量和计算量。另一方面,他们探索新的硬件架构和加速技术,如图形处理器(GPU)和专用神经网络芯片(ASIC),以提供更强大的计算能力。此外,还有研究人员致力于开发更高速、低延迟的网络技术,以满足通信需求。未来,随着对话系统的发展和应用场景的扩展,未来,随着对话系统的发展和应用场景的扩展,ChatGPTChatGPT 及其及其类似的模型将面临更多的挑战和需求。类似的模型将面临更多的挑战和需求。因此,需要进一步研究和创新,以提供更高效、更强大的模型训练和推断算法,并开发更先进的硬件和网络技术,以满足 ChatGPT 等大模型的算力和通信需求。这将推动 AI 产业的进一步创新和发展,为用户提供更智能、更自然的对话体验。20 AI 服务器白皮书(2023 年)ODCC-2023-01005(三)(三)国内外厂商布局大模型,千亿级参数量推动算力需求增长国内外厂商布局大模型,千亿级参数量推动算力需求增长 受益于 ChatGPT 的成功问世,大模型的理解能力、推理能力、泛化能力得到充分验证,海内外企业纷纷加速。2021 年初,谷歌发布了一篇名为Switch Transformers:Scaling to Trillion Parameter Models with Simple and Efficient Sparsity的论文。与 GPT-3 的 1750 亿参数相比,谷歌的 Switch Transformers 模型具有 1.6 万亿个参数。其核心架构采用了一种称为“Switch Routing”的优化版本的 MoE(Mixture of Experts)算法,助于稀疏模型的高效训练。来源:Switch Transformers:Scaling to Trillion Parameter Models with Simple and Efficient Sparsity 图 8.Switch Transformer 编码器块 21 AI 服务器白皮书(2023 年)ODCC-2023-01005 在 2021 年 10 月 11 日,微软与英伟达联手推出了一款创新模型-Megatron-Turing 自然语言生成模型(MT-NLG)。该模型拥有5300 亿参数,构建于 105 层的 transformer 结构。国内厂商与研究机构积极跟进大模型相关的产业布局,全面拥抱大模型时代的技术变革。2019 年,百度发布了参数量达到 40 亿的 ERNIE(Enhanced Representation through knowledge Integration)模型。2022 年11 月,百度发布了文心大模型的最新升级,文心大模型涵盖基础大模型、任务大模型、行业大模型的三级体系;2023 年 3 月 16 日,百度正式官宣全新的生成式 AI 对话应用-文心一言,是文心 NLP 模型应用下的产品。其能够与人对话互动,回答问题,协助创作。华为盘古大模型于 2021 年首次发布,由盘古 NLP 大模型、盘古CV 大模型、科学计算等多个大模型构成,参数规模达 2000 亿。2023年 7 月盘古大模型 3.0 发布,包括“5 N X”三层架构:L0 层包括自然语言、视觉、多模态、预测、科学计算五个基础大模型;L1 层是 N 个行业大模型;L2 层为客户提供了更多细化场景的模型。盘古大模型采用完全的分层解耦设计,可以快速适配、快速满足行业的多变需求。这些大模型的布局和推动,不仅是为了追求更好的性能,还是为了走向更广阔的应用场景。通过增加参数量和模型规模,可以提 22 AI 服务器白皮书(2023 年)ODCC-2023-01005 高模型对数据的理解能力和判断能力,从而在更多的实际应用中发挥作用。例如,大模型在自然语言处理、图像识别和机器翻译等任务中取得了显著的突破,为智能客服、智能驾驶和智能医疗等领域的应用提供了更多可能性。然而,大模型的布局也带来了巨大的算力需求。以 GPT-3 为例,它的训练过程需要大量的计算资源和时间。据报道,GPT-3的训练过程耗时数周,需要使用数千个图形处理器(GPU)进行并行计算。这样的算力需求对于普通的服务器和计算资源来说是巨大的挑战。为了满足这种巨大的算力需求,各种新的计算硬件和架构也应运而生。例如,图形处理器(GPU)在高性能计算中的作用越来越重要。GPU具有并行计算的能力,可以同时处理大规模数据和复杂计算任务,适合大模型的训练和推理。近年来,GPU的性能和规模也在不断提升,为大模型的布局提供了更好的支持。综上所述,国内外厂商的布局和推动使得大模型成为当前人工智能领域的热点和趋势。大模型在各种任务中取得了良好的性能,并在许多领域中发展出更广阔的应用前景。与此同时,大模型的布局也带来了巨大的算力需求,对计算资源提出了更高的要求。四、四、AIAI 服务器核心需求服务器核心需求 随着互联网的蓬勃发展,每日涌入服务器的数据量如潮水般汹涌,这种指数级爆炸式的数据量增长,不仅极大地丰富了我们的生 23 AI 服务器白皮书(2023 年)ODCC-2023-01005 活维度、改变了生活习惯和方式,还为数据的高效分析和处理带来了前所未有的挑战。在此背景下,数据量的激增已成为推动服务器技术革新的核心动力。回溯到上世纪 90 年代,传统的机器学习方法如 SVM 在手写识别场景中取得了显著的成功。然而,受限于当时的计算能力,传统神经网络并未完全发挥其潜力。这轮以深度神经网络为核心的人工智能热潮进一步加剧了服务器对计算与渴求。特别是 GPT 系列模型,具备强大的自然语言处理能力。这些模型背后的算法,如自注意力机制,要求处理大量的并行运算,从而对服务器的计算和网络带宽提出了更高的要求。纵观当前的 AI 领域,以 Transformer 等复杂模型为代表,对服务器的计算能力、网络带宽以及能效都提出了新的挑战。这些挑战主要表现为:并行处理能力的进一步扩展、配合计算需求的大容量高速缓存、高带宽低延迟的互联网络、以及更加高效的散热和低功耗设计。(一)(一)并行处理能力扩展并行处理能力扩展 从前文所述的人工智能发展历程,可以看出,计算能力在人工智能的发展中起着至关重要的作用。典型的 Transformer 结构主要包括多头自注意力层和前馈神经网络层。其基本组成部分是点积、24 AI 服务器白皮书(2023 年)ODCC-2023-01005 缩放、和累加操作,这些通常可以映射到矩阵乘法并进行并行计算。因此,海量的并行处理成为了 AI 服务器的核心任务。而在传统的计算架构中,服务器主要依赖于中央处理单元(CPU)作为其主要的算力来源。由于 CPU 需要支持系统中的各种数据操作,如引入大量的分支、跳转和中断处理来满足逻辑判断的需求,其内部结构通常极为复杂。然而,随着半导体制造技术逐渐接近物理极限,CPU的性能增长已经开始减缓。在大模型和深度学习的背景下,特别是当考虑到用于人工智能的服务器和传统服务器之间的使用场景差异时,这种减缓变得尤为明显。例如,在代表深度学习的 DNN算法中,存在大量需要处理的卷积和全连接操作,尽管传统的 CPU服务器可以用于这种计算,但由于 CPU 内部大量的计算逻辑和控制单元在 AI 场景中的作用受限,这导致了 CPU 在大模型 AI 计算中的性价比不高。为了满足深度学习和其他 AI 任务对计算能力的持续增长需求,引入了专门的计算单元进行高度并行化的计算,从而强化AI 服务器的处理能力。这些计算单元主要包括 GPU、FPGA、ASIC 以及更近期的专用深度学习加速器。确保并行处理能力的扩展以适应大型模型的复杂性是 AI 服务器在现代人工智能应用场景中的关键要求。25 AI 服务器白皮书(2023 年)ODCC-2023-01005(二)(二)与计算力匹配的高性能存储与计算力匹配的高性能存储 在现代人工智能与大模型计算领域,服务器的并行计算能力在不断进步。但然而,随之而来的是,存储能力的短板逐渐显现,这可能成为整体系统性能的制约因素。特别是在 AI 模型训练的上下文中,数据访问模式通常呈现为“一次写入,多次读取”,数据读写的效率与带宽对于整个训练周期的效率有着决定性的影响。基于冯诺依曼体系结构的计算芯片,如 CPU 和 GPU,在执行计算任务之前,需要先从外部存储器获取数据,随后再将其读入内部缓存或寄存器中。这种数据移动的需求导致了一个核心挑战:存储访问速度可能无法跟上计算单元对数据的高速消耗,从而形成了所谓的“存储墙”问题,使系统性能受到限制。为了解决这一挑战,现代 AI 服务器的设计需要进一步优化存储架构。通过精细调整各级缓存和主存的容量和性能,并在必要时引入新的存储层次,可以有效缓解“存储墙”带来的瓶颈。此外,将计算与数据存储更紧密地集成,以减少数据在不同存储级别之间的移动,亦是提高整体系统性能的关键方向。这种对高性能存储系统的迫切需求,在 AI 及大模型领域,已成为集群设计的又一关键课题。26 AI 服务器白皮书(2023 年)ODCC-2023-01005(三)(三)支持高速数据传输的互联网络支持高速数据传输的互联网络 数据传输和共享已对服务器系统提出了严格的新要求,这些要求关注于在计算和存储设备之间实现高性能数据传输,以及在多服务器环境中高效地共享数据。伴随数据规模的指数级增长和处理任务的复杂性增加,我们观察到数据存储的异构化趋势。在一个给定的处理场景中,所需的数据可能散布在多种存储介质中,这种分散性强调了计算单元,特别是为大型模型设计,需要与各种存储系统之间维持高带宽和低延迟的连接。尽管传统的 PCIe 总线在许多 CPU 密集型任务中仍然表现良好,但针对 AI 和大模型处理的 GPU 和其他专用硬件加速器,需要更先进的数据传输解决方案,如 NVLink 或 RoCE,以确保不会因数据通信而阻塞计算。此外,大模型训练时,服务器的集群化和资源池化策略日益受到关注。在这样的集群环境中,服务器之间的数据交互和同步至关重要。传统的以太网已无法满足这种需求,因此,更先进的网络技术,如 400Gbps 以太网、Infiniband 技术,RoCE 网络,正在成为 AI和大模型处理领域的标准。此外,为了支持分布式 AI 工作负载,还需要利用更为灵活和高效的网络拓扑和传输协议。27 AI 服务器白皮书(2023 年)ODCC-2023-01005(四)(四)强散热强散热 在人工智能与大模型计算的现代应用中,专用并行计算芯片,如GPU,已成为完成模型计算训练的首选。这些专用计算单元在极大提高计算速度的同时,也引入了一个显著的挑战:巨大的功耗和由此产生的热量。为确保 AI 服务器在高负载场景下的稳定性,散热成为其设计和维护的关键环节。尽管在传统服务器硬件组件,如硬盘和主板,在功耗和热量方面的贡献相对较小,但它们对于整体系统的稳定运行仍然至关重要。特别是当考虑到 AI 服务器通常包含大量的组件,其累积效应不容忽视。因此,随着计算单元数量的增加和复杂性的提高,高效的散热解决方案变得不可或缺。传统的风冷技术虽然在某些情境下仍然有效,但其固有的限制如较大的噪音和相对较低的散热效率使其在大规模 AI 服务器部署中逐渐被其他更高效的技术取代。考虑到此,液冷技术已经受到了越来越多的关注。这些液体冷却方法能够更有效地吸收和传导热量,同时减少机械噪音,为数据中心提供了一个更为安静和效率更高的环境。预计在未来,随着其技术的完善和成本的降低,液冷方案将在 AI 服务器领域得到更广泛的应用。五、五、A AI I 服务器架构及关键技术服务器架构及关键技术 28 AI 服务器白皮书(2023 年)ODCC-2023-01005 人工智能行业是对算力、算法和数据等数字资源进行创造、加工、整合,最终实现用机器替代人,为传统行业智慧赋能。算力、算法、数据是人工智能的三大要素。人工智能产业链包括三层:基础层、技术层和应用层。(1)基础层:人工智能产业的基础,主要提供 AI 专有算力支持和开发环境的设备和服务,包括 AI 芯片、系统开发框架、AI 服务器等基础设施等;(2)技术层:在 AI 算力的支持下,通过系统开发框架进行各场景数据的训练和 学习,开发出计算机视觉、语音语义、知识图谱等 AI 算法,并将其搭载于硬件设备上形成行业级解决方案;(3)应用层:针对不同的行业和场景,进行人工智能技术的商业化落地。AI 服务器是人工智能基础层的核心物理设备,其面向深度学习神经网络需要的快速,低精度,浮点运算高度并行数值计算,搭载大量计算内核和高带宽内存资源,用于支撑深度学习训练和线上推理计算框架模型和应用,可以在多个节点之间高速互联、高效地扩展的硬件平台。有别于传统服务器以 CPU 提供主要算力,人工智能服务器多采用异构架构进行加速计算,常采用CPU GPU、CPU FPGA、CPU ASIC 等多种形式。通过搭配不同的异构加速芯片,形成不同性能和可编程灵活性的人工智能算力硬件。目前广泛使用的 AI 服务器是 CPU GPU。通过 AI 服务器构成人工智能基础层的智能算力集群,联合智能模型平台和数据基础服务平台,支撑技术层和应用层的人工智能应 29 AI 服务器白皮书(2023 年)ODCC-2023-01005 用场景落地。随着大模型训练对云端算力的持续增长需求,AI 服务器部署规模越来越大,持续增长的计算速度和计算效率需求,推动着 AI 服务器的人工智能行业技术迭代。来源:英伟达 图 9.英伟达 DGX-1 System Architecture(一)(一)AIAI 服务器总体架构服务器总体架构 随着人工智能和大模型应用的持续演进和广泛部署,“CPU ”架构已成为人工智能服务器的设计蓝本。30 AI 服务器白皮书(2023 年)ODCC-2023-01005 在这一架构中,CPU继续发挥其作为系统的中央处理单元的关键角色,负责任务的调度、系统管理和部分计算工作。然而,为了适应大模型和特定 AI 应用的计算密集性需求,服务器必须融合其他具有丰富计算核心的硬件加速器,能够在短时间内处理大量的数据和计算任务。图 10.人工智能服务器的“CPU ”架构 以人工智能计算领域中广泛使用的 GPU 计算部件为典型代表,详细描述了在现代“CPU ”架构中,人工智能加速部件与 CPU 的协同工作流程。在这种架构中,待处理的数据首先从 CPU 内存传输到GPU的显存。这一步通常涉及大数据量的迁移,因此高带宽和低延迟的内存接口如 PCIe 和 NVLink 成为了优化的关键。一旦数据被载入显存,CPU 便开始向 GPU 发送程序指令。这些指令利用 GPU 的并行性能,驱动其多达数千的计算核心去执行。利用 GPU 的强大并行计算能力,显存中的数据会被快速处理。例如,在深度学习中,GPU可以并行处理大规模的矩阵乘法和卷积操作。计算完成后,结果存储在显存中,并在需要时传输回 CPU 内存。从“CPU ”这种架构的应用 31 AI 服务器白皮书(2023 年)ODCC-2023-01005 中,可以明显看出 CPU 的角色更偏向于指令协调和结果汇总,而实际上的高并行度计算任务则交给了 GPU 这类加速部件。这种分工策略符合 Amdahl 定律的观点:系统的总体性能提升受制于其最慢部分。因此,通过优化可并行化的计算部分,将 CPU 和专门设计的硬件加速器如 GPU 结合,从而实现高效并行处理,满足日益增长的计算需求。(二)(二)异构计算加速计算芯片异构计算加速计算芯片 异构计算指的是在一个计算系统中使用多种不同类型的处理器或核心来执行计算任务。这种方式旨在利用各种处理器的特定优势,以获得更高的性能或能效。传统服务器系统内处理器以 CPU(即中央处理单元)为主。CPU 有很强的通用性,需要处理各种不同的数据类型,通常负责执行计算机和操作系统所需的命令和流程,因此其擅长无序超标量与复杂控制指令级的执行。本轮人工智能热潮的理论基础是人工神经网络,为了更好地训练和使用深度神经网络,就需要对计算密集型大规模矩阵进行并行处理。CPU的架构决定了其难以适用于大规模的人工智能计算。而异构计算加速器集成大量计算核心,简化逻辑控制单元设计,提升系统的并行计算性能。32 AI 服务器白皮书(2023 年)ODCC-2023-01005 当前异构计算加速器发展呈现多样化。人工智能芯片按照技术架构分类,可以划分为图像处理单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)等。1 1GPU:AIGPU:AI 算力的核心算力的核心 1)背景概述 GPU即图形处理单元,其为了解决图形处理类任务的大规模矩阵并行计算而生,从而将不擅长图形计算的 CPU 释放,使其聚焦调度与控制。CPU 作为中央处理核心,其硬件架构中为了满足高性能和低延迟的需求,特地增强了高速缓存(Cache)和控制单元(Control)的比例。相较之下,算术逻辑单元(ALU)在整体构造中所占的份额较小,这限制了 CPU 在大规模并行计算方面的表现。GPU的架构以计算单元为核心,采用了高度精简且高效的流水线设计,专为处理高度并行和线程化的计算任务而生,具有大规模并行计算的能力。这使得 GPU 能够同时处理大量的矩阵运算和向量计算,非常适合进行深度学习中的矩阵乘法和卷积等计算密集型任务。33 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:英伟达 图 11.CPU 核与 GPU 核对比 GPU中一般会包含总线接口、视频处理单元、显存控制单元、计算单元等部分,来同时满足图形渲染和并行计算的需求;但在数据分析、人工智能领域,并行计算才是核心目的,因此 GPGPU 应运而生;其优化掉了显示接口和渲染单元等组件,进一步增强了计算阵列和特殊计算单元,GPGPU已经成为人工智能研究和应用的主要算力。2)技术特点 在现代AI计算中,尤其是大型模型如ChatGPT、Transformer等结构,计算负载经常是并行运算密集型的。传统的 CPU 主要处理顺序任务,而 GPU 则是专为大规模并行处理而设计的。CPU 在 AI 任务中主要起到协调作用,将并行运算任务编译成 GPU 可识别并执行的任务,并将其传输给 GPU。GPU 内部结构复杂,根据预设的 Grid 分 34 AI 服务器白皮书(2023 年)ODCC-2023-01005 配策略,多个 work-item 被组织成一个 workgroup。这些 workgroup会被进一步分配到不同的计算核心上,并被分解为多个 wavefront来执行。每个 wavefront 都在一个 SIMD(Single Instruction Multiple Data)上运行,这使得同一个 wavefront 内的多个线程可以并发执行同一指令但对不同的数据。这种设计使得 GPU 特别适合执行诸如 Transformer 中的矩阵乘法这样的并行化计算任务,因为它们可以将计算工作分布到数千个线程上,大大提高计算效率。WorkgroupWorkitemGridGPU CoreGPU CoreGPUGPUWorkgroupWorkgroupGridGridWorkitemWavefrontCompute TaskCompute TaskGPU ArchitectureGPU ArchitectureHAS Compute ModelHAS Compute Model 图 12.GPU 并行计算逻辑图 相对于传统的 CPU 运算,GPU 并行运算有以下特点:(1)核心数量差异:相对于 CPU,GPU 设计为拥有成千上万的小型计算核心,专为并行处理而设计。这种设计尤其适合大规模模型,因为这些模型可以分解成多个并行任务,从而实现高效训练。(2)延迟隐藏与存储访问:GPU 通过线程交织运行优化了任务执行,结合其大量的通用寄存器、局部存储器和cache,显著提高了外部存储访问性能。这种能力对于频繁读写权重和参数的大模型训练至关重要。35 AI 服务器白皮书(2023 年)ODCC-2023-01005(3)线程切换开销:在 GPU 中,线程上下文切换开销极小,这使得针对具有大量并行操作的 Transformer 架构进行优化成为可能。相比之下,CPU线程切换的成本较高,对于并行性要求高的任务效率较低。(4)计算能力:GPU 专门针对数学和矩阵运算进行了优化,这恰好满足了深度学习需要,因为这类模型依赖于大量的矩阵乘法和加法操作。(5)内存带宽:GPU 使用高速的 GDDR 或 HBM 内存,其带宽远高于普通 CPU 使用的 DDR 内存。这种高带宽内存让模型在处理大量数据时能够保持高吞吐量。HBM:传统的 GDDR 显存模块通常焊接在 GPU 的 PCB 板上,这种配置可能会限制数据传输的速率和总存储容量。随着技术的发展,这些限制逐渐成为了图形处理性能的瓶颈。为了解决这个问题,HBM(High Bandwidth Memory)技 术 应 运 而 生。HBM 使 用 了 TSV(Through-Silicon Vias)技术,允许多个 DRAM 芯片垂直堆叠起来,从而实现更高的数据带宽。HBM 与 GPU 核心的连接则是通过一个特殊的互连层实现,这不仅进一步提高了数据传输速率,而且大大减少了 PCB 的使用面积。36 AI 服务器白皮书(2023 年)ODCC-2023-01005 尽管 HBM 在带宽、体积和能效上都展现出了明显的优势,但由于其生产成本相对较高,GDDR 仍然是消费级 GPU 市场的主流选择。而在对性能和能效要求更高的数据中心环境中,HBM则得到了更广泛的应用。图 13.HBM 与 GDDR 对比 3)典型产品方案(1)NVIDIA GPU NNVIDIA,成立于 1993 年,最初是为了满足视频游戏市场的需求而设计图形处理器(GPU)的公司。然而,随着时间的推移,NVIDIA 的技术不仅被广泛用于视频游戏,还被用于各种其他计算密集型任务,特别是人工智能和深度学习。近年来,深度学习模型的复杂性和规模已大幅增长,例如 OpenAI 的 GPT 系列模型,这种增长在很大程度上得益于 GPU 的高效并行处理能力。为此,NVIDIA 推出了专为 AI 和深度学习设计的平台和工具,如 CUDA(一个并行计算平台和 API 模型)和 cuDNN(用于深度神经网络的 GPU 加速库)。2016 年,NVIDIA 发布了其 DGX-1 AI 超级计算机,这是一台专为深度学习而设计的高性能计算系统,配备了 8 块 Tesla P100 GPU 37 AI 服务器白皮书(2023 年)ODCC-2023-01005 卡。NVIDIA 的 CEO 黄仁勋亲自交付了第一台 DGX-1 给 OpenAI,DGX-1 是深度学习硬件发展中的一个重要里程碑。图 14.英伟达交付 OpenAI 的第一台 DGX-1 2018 年,OpenAI 与微软展开深入讨论,共同构想一个有潜力彻底改变人机交互模式的人工智能系统。微软利用其 Azure 云计算平台,整合了数万块英伟达 A100 芯片,经过深度定制和优化的服务器机架确保了这些芯片能够有效地协同工作。在这一先进的超级计算基础设施上,OpenAI 的模型经历了迅速且持续的进化,为后续ChatGPT 的诞生和发展奠定了坚实的基础。2022 年春季 GTC 大会上,英伟达发布其新款 NVIDIA Grace Hopper 超级芯片产品,Hopper H100 Tensor Core GPU。38 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:英伟达 图 15.SXM5 模组上的 NVIDIA H100 GPU H100 SXM5 GPUH100 SXM5 GPU H100 SXM5 配置采用英伟达定制的 SXM5 主板,该主板包含 H100 GPU 和 HBM3 显存堆栈,并提供第四代 NVLink 和 PCIe 5.0 连接,可提供极高的应用性能。HGX H100 服务器主板可提供 4 GPU 和 8 GPU配置。4 GPU 配置包含 GPU 之间的 P2P NVLink 连接,并能提高服务器中的 CPU 与 GPU 的比率,而 8 GPU 配置包含 NVSwitch,可在任意一对 GPU 之间提供 SHARP 在网计算和 900GB/s 的完整 NVLink 带宽。H100 SXM5 GPU 还可用于功能强大的新型 DGX H100 服务器和 DGX SuperPOD 系统。H100 PCIe 5.0 GPUH100 PCIe 5.0 GPU H100 PCIe 5.0 配置可在仅为 350 瓦的热设计功耗(TDP)下提供 H100 SXM5 GPU 的所有功能。此配置可以选择使用 NVLink 桥接器以 600GB/s 的带宽连接最多两个 GPU,该带宽几乎是 PCIe 5.0 39 AI 服务器白皮书(2023 年)ODCC-2023-01005 的 5 倍。H100 PCIe 非常适合放入到标准机架的主流加速服务器(降低了每台服务器的功耗),它为一次扩展到1或2个GPU的应用(包括 AI 推理和一些 HPC 应用)提供了出色的性能。单个 H100 PCIe GPU 可高效提供达到 H100 SXM5 GPU 65%的性能,同时功耗仅为 50%。NVIDIA 的 GH100 图形处理单元(GPU)由多个 GPU 处理集群(GPCs)、纹理处理集群(TPCs)、流式多处理器(SMs)、L2 缓存以及 HBM3 内存控制器组成。a a)完整的)完整的 GH100 GPU GH100 GPU 架构包括以下单元:架构包括以下单元:8 个 GPC、72 个 TPC(9 个 TPC/GPC)、2 个 SM/TPC、每个完整GPU 内含 144 个 SM;每个 SM 内含 128 个 FP32 CUDA Core 核心、每个完整 GPU 内含 18432 个 FP32 CUDA Core 核心;每个 SM 内含 4 个第四代 Tensor Core 核心、每个完整 GPU 内含 576 个第四代 Tensor Core 核心;6 个 HBM3 或 HBM2e 堆栈、12 个 512 位内存控制器;60MB 二级缓存。b b)采用)采用 SXM5 SXM5 主板封装的主板封装的 NVIDIA H100 GPU NVIDIA H100 GPU 包括以下单元:包括以下单元:8 个 GPC、66 个 TPC、2 个 SM/TPC、每个 GPU 内含 132 个 SM;每个 SM 内含 128 个 FP32 CUDA Core 核心、每个 GPU 内含 16896 个 FP32 CUDA Core 核心;每个 SM 内含 4 个第四代 Tensor Core 核心、每个GPU 内含 528 个第四代 Tensor Core 核心;80GB HBM3、5 个 HBM3 堆 40 AI 服务器白皮书(2023 年)ODCC-2023-01005 栈、10个512位内存控制器;50MB二级缓存;第四代NVLink和PCIe 5.0。c c)采用)采用 PCIe 5.0 PCIe 5.0 主板封装的主板封装的 NVIDIA H100 GPU NVIDIA H100 GPU 包括以下单包括以下单元:元:7 或 8 个 GPC、57 个 TPC、2 个 SM/TPC、每个 GPU 内含 114 个SM;每个 SM 内含 128 个 FP32 CUDA Core 核心、每个 GPU 内含 14592个 FP32 CUDA Core 核心;每个 SM 内含 4 个第四代 Tensor Core 核心、每个 GPU 内含 456 个第四代 Tensor Core 核心;80GB HBM2e、5 个 HBM2e 堆栈、10 个 512 位内存控制器;50MB 二级缓存;第四代NVLink 和 PCIe 5.0。来源:英伟达 图 16.配备 144 个 SM 的完整 GH100 GPU 核心 H100 SM H100 SM 架构架构 41 AI 服务器白皮书(2023 年)ODCC-2023-01005 基于 NVIDIA A100 Tensor Core GPU 的 SM 架构,H100 SM 由于引入了 FP8,其每 SM 的浮点计算峰值性能是 A100 的四倍。同时,对于所有先前的 Tensor Core、FP32 和 FP64 数据类型,H100 的原始 SM计算能力在相同的时钟频率下是 A100 的两倍。来源:英伟达 图 17.NVIDIA H100 Tensor Core GPU 初步性能规格 来源:英伟达 图 18.英伟达 GH100 SM 42 AI 服务器白皮书(2023 年)ODCC-2023-01005 H100 Tensor Core H100 Tensor Core 架构架构 Tensor Cores 是专门针对矩阵乘法和累加(MMA)数学运算的高性能计算核心,为 AI 和 HPC 应用提供了开创性的性能。当 Tensor Cores 在一个 NVIDIA GPU 的多个流多处理器(SM)中并行操作时,与标准的浮点数(FP)、整数(INT)和融合乘法-累加(FMA)运算相比,它们能够大幅提高吞吐量和效率。来源:英伟达 图 19.H100 TF32、FP64 和 INT8 Tensor Core 的吞吐量均为 A100 的 3 倍(2 2)英特尔)英特尔 GaudiGaudi2 GPU2 GPU 在 2022 年 5 月 10 日,英特尔的数据中心团队 Habana Labs(专注于 AI 深度学习处理器技术)发布了其第二代用于训练和推断的深度学习处理器 Habana Gaudi2。43 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:英特尔 图 20.Intel Habana Gaudi2 Gaudi2 深度学习加速器,以第一代 Gaudi 高性能架构为基础,以多方位性能与能效比提升,加速高性能大语言模型运行。具备:24 个可编程 Tensor 处理器核心(TPCs);21 个 100Gbps(RoCEv2)以太网接口;96GB HBM2E 内存容量;2.4TB/秒的总内存带宽;48MB片上 SRAM。Gaudi2 处理器提供 2.4T 的网络带宽,片上集成 24 x 100 Gbps RoCE V2 RDMA 网卡,可通过标准以太交换或直连路由实现 Gaudi 芯片内部通信;Gaudi2 的内存子系统包括 96 GB 的 HBM2E 内存,提供2.45 TB/秒的带宽,此外还有 48 MB 的本地 SRAM,带宽足以允许 MME、TPC、DMAs 和 RDMA NICs 并行操作;支持 FP32,TF32,BF16,FP16 和FP8。通过在 GPT-3 模型上的测试,以及相关 MLPerf 基准测试结果,为 Gaudi2 提供了卓越性能和高效可扩展性的有力验证。44 AI 服务器白皮书(2023 年)ODCC-2023-01005(3 3)海光)海光 D DCUCU 海光深算系列产品 DCU,以 GPGPU 架构为基础,支持各类数据精度,建立了完善、好用、易用的人工智能软件开发体系,兼容国际主流商业计算软件和人工智能软件,软硬件生态丰富。目前海光研发的 DCU 达 64 个内核,每个内核包含 4 个 SIMT 运算单元和 1 个标量整型运算单元,每个 SIMT 包含多个可配置浮点乘加运算单元,SIMT 的每个指令周期内可以并行处理 64 个独立的运算线程。这种多内核多线程的 SIMT 架构,可以保证 DCU 每个时钟周期完成 4096 次高精度浮点乘加运算。来源:海光 图 21.海光 DCU 架构 海光 DCU 具有生态友好、精度覆盖、安全筑底,三大特点。目前海光 DCU 与 Hygon、Intel、AMD 等 CPU 平台服务器整体兼容,与 45 AI 服务器白皮书(2023 年)ODCC-2023-01005 国内外主流 OS 全面适配。同时,与绝大部分主流框架(包括 Tensor Flow、Pytorch、PaddlePaddle等)和算法模型(包括机器学习、深度学习 CV 与 NLP、大模型等)全面适配,并进行了大规模部署和上百个大型应用场景的验证。来源:海光 图 22.海光 DCU 目前,第一代 DCU 也已经实现了商业化,应用于互联网、金融、运营商、科研等重要行业,支持机器视觉,自然语言处理(包括通用人工智能大模型),语音语义,机器学习,OCR,科学计算,AI for Science,GPGPU 数据库,加解密等诸多应用,可以在 AI 计算、大数据处理、商业计算等领域发挥着重要作用。46 AI 服务器白皮书(2023 年)ODCC-2023-01005(4 4)沐曦)沐曦 MXC500 是沐曦第一代通用 GPU 计算卡产品,基于自研 IP 进行芯片设计,能够提供涵盖大规模人工智能训练、高并发实时人工智能推理、数据挖掘和数据分析等各种通用计算领域的一站式解决方案。技术特点:MXC500 采用通用 GPU 技术路线,通过内置大量并行计算单元实现人工智能等领域上层应用的并行计算加速。一方面,GPU 架构相比 CPU 等串行计算硬件能够实现大幅度的计算加速;另一方面,GPU 架构相比包括 NPU、DSA 等的 ASIC 计算芯片具有更好的通用性,能够适应广泛的应用领域和计算场景,并能够针对 AI 算法的进步实现快速的跟进创新。架构特点:MXC500 采用纯自研通用 GPU 架构,如下图,核心计算单元由8个DPC(Data Processing Cluster,数据处理组)组成,每个 DPC 包含大量 AP(Acceleration Processor,加速处理器),从而实现大规模并行计算加速。在 GPU 内部,Command Engine 负责将并行计算任务以线程(thread)为单位分发到不同的 AP 中进行处理,核心计算单元与内部的寄存器、L1 缓存、L2 缓存构成高速的数据通路,并通过高速数据总线与 PCIe 单元、多卡互联(采用私有协议 MetaXLink)、存储控制器、DMA(直接内存读取,Direct Memory Access)等外围电路模块进行通信。47 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:沐曦 图 23.沐曦 MXC500 架构 显存:MXC500 内置 4 颗 HBM2e 颗粒,通过 2.5D 封装技术与核心计算芯粒封装到同一颗芯片内部。HBM2e 总容量为 64GB,带宽高达1.55TB/s。拓扑支持:MXC500 通过沐曦自研的私有化通信协议 MetaXLink实现多GPU之间的直接互联,能够支持最多单机8卡全互联的拓扑。2 2FPGAFPGA 1)背景概述 FPGA(Field-Programmable Gate Array)即现场可编程门阵列,其灵活性介于 CPU、GPU 等通用处理器和专用集成电路 ASIC 之间,在硬件固定的前提下,允许使用者灵活使用软件进行编程。它的开 48 AI 服务器白皮书(2023 年)ODCC-2023-01005 发周期比 ASIC 短,不过相对于批量出货 ASIC,单个 FPGA 的成本会更高。FPGA 由于其较大的容错空间,过去常被用作 ASIC 芯片的原型设计和硬件验证方法。两大行业巨头,赛灵思和英特尔,均在 FPGA 领域占据了重要地位。它们都明确地将策略重心放在了数据中心市场,并努力简化 FPGA 的编程过程。2)技术特点 尽管 GPU 在吞吐量上的优势使其在深度学习领域中占据主导地位,但其与 FPGA 在功耗和时延方面的比较中确实有些劣势。当我们考虑英伟达的 GPU 和使用 CUDA 进行训练时,整个流程主要包含以下四个步骤:从 CPU 的外部存储(如 DRAM)复制数据到 GPU 的内存中;CPU 启动(Launch)GPU 上要执行的计算核(Kernel);GPU 执行从 CPU 发送过来的指令;GPU 将计算结果传回 CPU 的 DRAM。在这个流程中,数据需要在 CPU 和 GPU 之间进行两次传输,即涉及到两次存储的读写操作。49 AI 服务器白皮书(2023 年)ODCC-2023-01005 图 24:FPGA 与 GPU 处理流程 与此相对,FPGA 可以在片上的多个 BRAM 中缓存数据,从而避免频繁地访问外部存储。这样,FPGA 可以在不读写外部存储的情况下完成一系列连续的算法操作。此外,由于 GPU 高度依赖 DRAM,其带宽可能会成为性能的瓶颈。来源:英特尔 图 25.FPGA 与 GPU 处理流程 50 AI 服务器白皮书(2023 年)ODCC-2023-01005(左)GPU 数据从张量核心处理的内存系统中读取,写回内存系统。(右)FPGA 数据可以从内存中读取,但数据流可以并行安排到一个或多个张量核心。任意数量的张量核心都能以最小的传输开销使用输出。数据可以被写回内存或路由到其他任何地方。来源-intel)FPGA 的无批次(Batch-less)架构使其在 AI 推理方面具有明显的时延优势。随着网络条件的限制和对低时延的需求,很多决策无法及时上传至云端进行处理,而需要在本地执行,这种计算形式被称为边缘计算。边缘计算常受时延和功耗的双重约束。与此相对,GPU 在处理数据时经常依赖于批处理机制。为了最大化并行性,GPU需要将多个数据样本组合成一个批次(Batch)来同时处理。一个批次通常包含数十到数百个样本。这种处理方式在训练大数据集时具有明显优势,但在进行小样本的推理时,它可能会增加不必要的时延。因为在推理任务中,输入数据通常比较小,GPU的批处理机制可能会引入额外的时延。而 FPGA 不依赖于批处理,其架构可以根据实际的数据需求来直接处理输入,从而最小化时延。这使得 FPGA 在AI 推理任务中,特别是在需要快速响应的应用中,具有显著的优势。51 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:Xilinx 图 26.GPU 与 FPGA 推理流程时延现象对比 FPGA 在接口灵活性方面表现出色,这使其特别适合多种工业应用。实际上,工业环境常常由众多特定、小批量的场景组成,其中涉及许多非标准的接口。例如,在工业图像传感器中,LVDS 编码格式可能并不遵循统一的标准,这使得工程师在寻找专用芯片以便与之对接时面临挑战。而 GPU,虽然强大,但其接口主要限于 PCIe。相比之下,FPGA 的可编程特性让它可以与各种器件通信,能够轻松适应各种标准和非标准接口。这种硬件可编程所带来的高度灵活性是 FPGA 在工业场景中不可或缺的一个优势。与 GPU 等通用处理器相比,FPGA 在某些方面也存在挑战:浮点计算:在多数高性能计算应用中,如深度学习、地球物理探测、流体力学、基因计算和高频交易等,浮点数据类型是主流。传统 FPGA 没有固定的浮点运算单元,它们的计算单元大多是定点的。52 AI 服务器白皮书(2023 年)ODCC-2023-01005 当需要进行浮点运算时,开发者必须使用定点运算单元和其他逻辑资源来“软”实现浮点运算器。通过这种方法在 FPGA 上执行浮点运算,可能不会达到期望的计算效率,并可能消耗大量的硬件资源。存储与带宽:尽管 FPGA 片内有存储资源,并且数据在 FPGA 的计算和存储单元之间的转移非常灵活,但这些存储资源是有限的,对于数据密集型应用,如大模型的深度学习,这种有限的容量可能不足以满足需求。通常,开发者可能会选择外部 DDR 来补充存储,但这种配置可能会导致访问带宽成为性能瓶颈。图 27.GPU 与 FPGA 应用场景对比 3)典型产品方案 英特尔 FPGA 产品具有 I/O 灵活性、低功耗和低时延的特点,尤其在 AI 推理领域具有优势。2020 年 6 月 18 日发布的英特尔 Stratix 10 NX FPGA 首次引入张量模块架构,专门优化了常见的 AI 计算如矩阵乘法和加法。此模块支持 INT8、INT4 及通过共享指数的 FP16 和FP12 浮点格式。新一代的英特尔 Agilex FPGA 进一步融合了张量模 53 AI 服务器白皮书(2023 年)ODCC-2023-01005 块技术,增强了其针对张量数学的 DSP 功能。采用 AI 张量模块的增强型 DSP 引入了两种全新的重要运算:面向 AI 的张量处理能力和面向信号处理应用的复数支持,如 FFT(快速傅里叶变换)和 FIR(复杂有限脉冲响应)滤波器。第一种模式可通过 INT8 张量模式增强 AI。该模式可在一个采用 AI 张量模块的增强型 DSP 中提供 20 次 INT8 乘法。与之前的英特尔 Agilex 设备家族相比,INT8 计算密度提升高达 5 倍。张量模式使用两列的张量结构,同时具备 INT32 和 FP32 的级联和累加功能,还支持块浮点指数,以改善推理精度和低精度训练。此外,可变精度 DSP 的 AI 功能也有所增强。矢量模式也已经从四个 INT9 乘法器(Multiplier)升级到了六个 INT9 乘法器。这些模式对以 AI 为中心的张量数学运算和各类 DSP 应用格外有用。来源:英特尔 图 28.AI 和 DSP 计算密度的数量级提升 54 AI 服务器白皮书(2023 年)ODCC-2023-01005 第二种新模式是复数运算,可在运行复数乘法时使张量模块的性能翻倍。过去,复数乘法需要两个 DSP 模块,在最新英特尔Agilex FPGA 产品中,一个采用 AI 张量模块的增强型 DSP 中就可进行 16 位定点复数乘法运算。3 3A ASICSIC 1)背景概述 ASIC(Application Specific Integrated Circuit),即专用集成电路,是为特定应用而设计的定制芯片,这使得它们在执行特定任务时具有优越的性能和效率,很多专为 AI 计算设计的芯片也可以被视为 ASIC 的一种。考虑到人工智能算法对高计算能力的要求,ASIC 能够为特定的AI 算法进行定制,它的高度定制化特性使其可以针对特定的计算环境进行优化,无论是在深度学习的训练还是推理阶段,ASIC 都有其优势所在。因此,众多全球芯片制造商都在积极布局 AI 专用的 ASIC芯片。然而,ASIC 的缺点也不能忽视。由于它们是为特定的算法或任务定制的,一旦这些算法发生改变或被取代,ASIC 可能会变得不再适用。这种固化的特性在人工智能的动态发展背景下尤为明显,因为 AI 领域的算法不断地进化和优化。55 AI 服务器白皮书(2023 年)ODCC-2023-01005 2)典型产品方案 谷歌是 AI 硬件创新的领导者之一。很早之前,他们就为 AI 工作负载设计了 Tensor Processing Unit(TPU)。这款芯片在 Alpha Go 的比赛中获得了广泛关注。在 2016 年 9 月,英特尔收购了专门从事计算机视觉 AI 芯片设计的 Movidius 公司。2018 年 7 月,为了进一步强化其在 ASIC 领域的布局,英特尔收购了 eASIC 公司。eASIC 致力于简化 ASIC 设计流程并降低设计成本,同时针对 FPGA 的一些局限性(如功耗)进行优化。这种设计方法结合了 ASIC 的高性能和低功耗以及 FPGA 的灵活性,有望在未来的定制化芯片市场中占据重要地位。N NPUPU NPU(Neural Processing Unit)是一种专门针对神经网络计算优化的处理器。在近年的人工智能和深度学习发展中,大量的计算密集型任务如卷积、矩阵乘法等需要在硬件层面获得支持。NPU通过特定的硬件架构设计和优化,使得神经网络运算更为高效,从而加速模型的训练和推理。NPU 可以被认为是一种 ASIC,因为它是为神经网络计算特别定制的。昇腾系列处理器是基于华为达芬奇架构的NPU,华为达芬奇架构是面向 AI 计算设计的架构,通过独创的 16*16*16 的 3D Cube 设 56 AI 服务器白皮书(2023 年)ODCC-2023-01005 计,每时钟周期可以进行 4096 个 16 位半精度浮点 MAC 运算,为人工智能提供强大的算力支持。来源:华为 图 29.达芬奇架构 基于统一的达芬奇架构,可以支持端边云不同场景的差异化算力需求,并具备从几十毫瓦 IP 到几百瓦芯片的平滑扩展,覆盖了端边云全场景部署的能力。昇腾处理器是全球首个覆盖全场景 AI 芯片,构建了昇腾计算产品、使能上层软件和应用的底座,也是全产业链可持续创新和发展的驱动力。昇腾推理处理器高效、灵活、可编程,基于典型配置,性能达到 22TOPS INT8 或 11TFLOPS FP16,在功耗和计算能力等方面突破了传统设计的约束,其功耗仅为 8W。随着能效比的大幅提升,将 AI 从数据中心延伸到边缘设备,为平安城市、自动驾驶、云服务和 IT 智能、智能制造、机器人等应用场景提供了全新的解决方案。57 AI 服务器白皮书(2023 年)ODCC-2023-01005 昇腾训练处理器具有超高算力,性能最高可达 400 TFLOPS FP16。训练处理器高集成度的片上系统(SoC),除了集成达芬奇架构的AI 核外,集成了 CPU Core、DVPP 和任务调度器(Task Scheduler),可以减少和 Host CPU 的交互,充分发挥其高算力的优势。昇腾训练处理器还集成了 HCCS、PCIe 5.0 和 RoCE v2 接口,为构建横向扩展(Scale Out)和纵向扩展(Scale Up)系统提供了灵活高效的方法。来源:华为 图 30.华为昇腾芯片规格 D DSASA DSA(Domain Special Architecture 专用领域架构处理器),这是一个根据用户需要可以进行裁剪的架构(选择对应到功能进行组合),DSA的优点在于,可以为特定的一类应用做架构优化从而实现更好的能效比。相对于通用处理器,DSA需要设计时考虑专用领域的特殊需求。58 AI 服务器白皮书(2023 年)ODCC-2023-01005 寒武纪在 2022 年发布了第三代云端人工智能芯片 MLU370。采用多芯粒架构,7nm 制程工艺,集成 390 亿个晶体管。可提供 256T 算力,拥有新一代张量运算单元多算子硬件融合技术。可支持INT8/INT16/FP16/BF16/FP32 多种计算精度,满足复杂 AI 计算场景需求。MLU370-X8 智能加速卡搭载双芯片 4 芯粒 MLU370 芯片,集成寒武纪 MLU-Link 多芯互联技术,主要面向训练任务。在 YOLOv3、Transofrmer 等训练任务中,8 卡计算系统的平均性能达到 350WGPU的 155%。HybridHybrid 架构(架构(G GPGPU DSAPGPU DSA)Hybrid 架构是指在芯片系统架构设计思路中,采用了 GPGPU 与DSA 架构相融合的方式,使其设计架构既在面向特定的 AI 计算任务实现很高的加速比,同时又能够兼顾云计算场景中绝大部分通用并行计算的需求。因此,Hyrbid 架构是 GPGPU 架构和 DSA 架构在面向云端以 AI 为主的计算业务但同时需要兼顾其他通用并行计算任务时的一种平衡设计的架构状态,在工程实用性上具有更好的总体表现。昆仑芯的 XPU 架构就是一种典型的 Hybrid 架构,在其 XPU 架构中,CLUSTER 单元主要承载了通用并行计算的功能,SDNN 单元则更多承载了 AI 计算中的张量计算流水线任务。以 2020 年发布的昆仑芯 2 代芯片为例,第二代昆仑芯基于新一代的 XPU R 架构进行设计,进一步增加通用计算核 CLUSTER 的能 59 AI 服务器白皮书(2023 年)ODCC-2023-01005 力,也有效驱动张量计算核 SDNN 对 AI 算力做进一步的加速,整体架构如下图所示。来源:昆仑芯 图 31.昆仑芯 2 代芯片 XPU ClusterXPU Cluster:通用计算单元,用来处理深度学习中通用的、非张量的部分。Cluster 是通用计算核,用来处理标量和向量计算。支持 SIMD 指令集。每个 Cluster 有多个 XPU Core。Cluster 具有非常好的通用性和可编程性,用户可以根据需求来灵活实现各种函数。SDNN(Software defined Neural Network engine)SDNN(Software defined Neural Network engine):XPU 架构中的 AI 计算单元-软件定义神经网络引擎,是用来处理张量和向量运算,可以极快速度处理深度学习中张量计算的流水线。通过软件编程,能灵活实现卷积,矩阵计算,element-wise 等操作。60 AI 服务器白皮书(2023 年)ODCC-2023-01005 Shared MemoryShared Memory 片上内存片上内存,为该 Compute Unit 的所有计算单元共享。内存带宽为 512GB/s,能提供比片外 DDR 更低延时和高带宽的访问。XPUXPU-Link Link 提供 200GB 高带宽低延时的芯片间互联有效减少大规模分布式训练中数据传输引起的通信开销。GDDR6 GDDR6 高带宽内存,高带宽内存,每个昆仑芯 Compute Unit 容量为 32GB,内存带宽为 512GB/s。PCIPCIe e Gen4 x16Gen4 x16,兼容 3.0/2.0/1.0 协议,提供单向 16GB/s,双向共 32GB/s 的带宽,可为多个昆仑芯 Compute Units 共享。随着芯片厂商研发能力的增强,过去被认为只具备专用性的 ASIC 或 DSA 架构,现在不仅含有用于 AI 加速计算的专用单元,还含有与英伟达 GPU 中 CUDA Core 类似的通用计算单元,同样可以实现对各种指令的处理。同样的,在现在英伟达的 GPGPU 产品中,也因为兼顾 AI 计算的需求,在 GPGPU 架构中加入了 Tensor core 这样的 DSA 元素设计。因此,无论是 GPU、ASIC 或 DSA 架构,云端 AI 芯片企业在架构设计中需要关注的是通用和专用计算单元的搭配,以便应对 AI 计算持续演变带来的挑战。61 AI 服务器白皮书(2023 年)ODCC-2023-01005(三)(三)主板总线主板总线 随着模型复杂程度增加,单张 GPU 无法完成训练任务,需要联合多张 GPU,乃至多台服务器搭建集群协同工作,并需要 GPU 之间以及服务器之间进行数据传输交互。由于大模型数据量极大,在机器学习训练过程中,数据传输速度成为制约训练速度提升的瓶颈。在早期,GPU性能不高的时候,PCIe是GPU互联的一种方式。针对PCIe性能较低的问题,不同的厂家也提出了自家私有解决方案。1 1PCIePCIe/PCIeSwitchPCIeSwitch PCI Express(Peripheral Component Interconnect Express,简称 PCIe)总线是一种高速串行计算机扩展总线标准。广泛应用于显卡、GPU、SSD 卡、以太网卡、加速卡等与 CPU 的互联。PCIe 的标准由 PCI SIG(PCI Special Interest Group)组织制定和维护,目前其董事会主要成员有 Intel、AMD、NVidia、Dell EMC、Keysight、Synopsys、ARM、Qualcomm、VTM 等公司,全球会员单位超过 700 家。PCIe 属于高速串行点对点双通道高带宽传输,所连接的设备分配独享通道带宽,这意味着它是直接连接两个设备,而不是像传统的 PCI 总线那样共享总线。这种设计可以大大减少数据传输中的延迟和干扰。在物理层方面,PCIe 总线采用多对高速串行的差分信号进行双向高速传输,每对差分线上的信号速率可以是第 1 代的 2.5Gbps、第 62 AI 服务器白皮书(2023 年)ODCC-2023-01005 2 代的 5Gbps、第 3 代的 8Gbps、第 4 代 16Gbps、第 5 代的 32Gbps,其典型连接方式有金手指连接、背板连接、芯片直接互联以及电缆连接等。根据不同的总线带宽需求,其连接位宽可以选择 X1、X4、X8、X16 等。如果采用 X16 连接、第 5 代的 16Gbps 速率的话,可以支持到约 128GB/s 的双向总线带宽。2023 年开始 PCIe 5.0 规范的产品预期将开始成为主流。2022 年 1 月 11 日,PCI-SIG 组织正式发布了 PCI Express 6.0最终(1.0)规范。延续了以往惯例,带宽速度继续增倍,使其在每个方向上达到 8GB/秒,x16 下可达 128GB/s(单向),由于 PCIe 技术允许数据全双工双向流动,因此双向总吞吐量就是 256GB/s。图 32.PCIe 各个版本规范的带宽信息汇总 在 2022 年 PCI-SIG 开发者大会上,PCI-SIG 庆祝其成立三十周年,并宣布了下一代的 PCIe 7.0 规范计划。PCIe 7.0 的目标是再次将 PCIe 设备的可用带宽量增加一倍,使单通道的全双工双向带宽高 63 AI 服务器白皮书(2023 年)ODCC-2023-01005 达 16GB/秒,x16 插槽在单通道中高达 256GB/秒。其数据传输速率将再次倍增,达到 128GT/s。图 33.PCIe 协议发展路标 按照目前业内主流 AI 芯片互联方,式可分为 PCIe/NVlink(或等同的其他国产自研互联协议)。形态一:PCIe 互联的 AI 服务器架构系统:64 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:中科可控 图 34.PCIe 互联的 AI 服务器 系统设计整体包含硬件系统架构系统、机构模块系统、电源模块系统、散热系统、服务器基础软件 BIOS 和 BMC 系统。硬件系统架构模块包含 CPU 计算主板、底板、硬盘扩展背板这些板卡。65 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:浪潮 图 35.服务器主板逻辑图 其中 GPU switch 底板拓扑:底板共计有 12 个 PCIe slot,从PCIe SW扩 展,每 个slot可 提 供x16带 宽,实 现balancecommoncascade 拓扑。1)Balance 拓扑:图 36.Balance 拓扑 66 AI 服务器白皮书(2023 年)ODCC-2023-01005 拓扑特点:每颗 CPU 下连接一个 PCIe Switch,每个 PCIe Switch 连接 4 块 GPU。CPU 利用率最大化,提供更大上行链路带宽,但远端 GPU P2P 通信受限于 CPU 间的 UPI 通信瓶颈。适用场景:适用于 HPC、VDI、公有云、AI 训练等场景,是 PCIE互联主板的主流拓扑。2)Common 拓扑:图 37.Common 拓扑 拓扑特点:CPU0 下连接 2 个 PCIe Switch,每个 PCIe Switch 连接 4 块 GPU。远端 GPU 通信无需跨 CPU 通信,GPU P2P 通信更好、吞吐量高。适用场景:适合 CPU 参与较多任务的 P2P 通信密集训练算法模型,如 Resnet101/50。3)Cascade 拓扑:67 AI 服务器白皮书(2023 年)ODCC-2023-01005 图 38.Cascade 拓扑 拓扑特点:CPU0 下直连一个 PCIe Switch,此 PCIe Switch 与另一个 PCIe Switch 互联,每个 PCIe Switch 下面连接 4 块 GPU。Switch互联提供最强的GPU对等P2P通信,但 CPU到GPU吞吐量小。适用场景:适合 CPU 参与较少任务的 P2P 参数密集型训练算法模型,如 VGG-16。来源:浪潮 图 39.机构系统整体布局 68 AI 服务器白皮书(2023 年)ODCC-2023-01005 例:沐曦 MXC500 支持 16-lane PCIe 5.0,能够提供 128GB/s 的超高带宽。MXC500 支持全高全长双宽 PCIe 板卡产品形态。在单机 8 卡 PCIe 服务器系统中,MXC500 全高全长双宽 PCIe 板卡支持 4 卡全互联拓扑,通过 2 个 PCIe Switch 构成整个计算系统的拓扑结构,如下图。来源:沐曦 图 40.沐曦 PCIe 系统互联图 2 2NVlink/NNVlink/NVSVSwitchwitch 在现代硬件领域,GPU间的高速、稳定通信对于集群计算至关重要。传统的服务器使用 PCIe 作为互连通道,但其带宽受限于代数和结构。例如,使用 PCIe 4.0 x16 的双向带宽只能达到 64GB/s。更为 69 AI 服务器白皮书(2023 年)ODCC-2023-01005 严重的是,当 GPU 之间通过 PCIe 交互时,还必须与总线上的 CPU 操作进行竞争,进一步限制了可用带宽。为了解决 PCIe 带宽的瓶颈问题,NVIDIA 在 P100 GPU 上引入了首款高速 GPU 互连技术-NVLink。英伟达的 NVLink 是一种高速、点对点的互连通信框架,旨在连接 GPUs 或连接 GPU 和 CPU,从而提供比传统的 PCI Express(PCIe)更高的带宽。来源:英伟达 图 41.两 GPU 通过 PCIe 总线与通过 NVLink 通信对比 NVLink 首次被介绍是在 2016 年,作为 NVIDIA 的 Pascal GPU 架构的一部分,并继续与 NVIDIA GPU 架构同步发展,每个新架构都伴随着新一代 NVLink。70 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:英伟达 图 42.NVLink 各代与 GPU 同步演进 下图是 2017 年 NVIDIA 推出的 HGX-1/DGX-1,采用了 8 个 V100的混合立方网格拓扑结构。尽管每个 V100 GPU 配备了 6 个 NVLink 通道,但由于硬件约束使得全连接不可行,两个 GPU 之间的最大连接只能达到 2 个 NVLink 通道,提供 100G/s 的双向带宽。此外,GPU 与CPU 之间的通信依赖于 PCIe 总线,而 CPU 之间则采用 QPI(Quick Path Interconnect)总线进行通信。尽管这种拓扑存在一些局限性,但它显著提高了在同一个 CPU Node 以及跨 CPU Node 的 GPU 间的通信带宽。71 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:英伟达 图 43.HGX-1/DGX-1 网格拓扑结构 针对混合立方网格拓扑结构的局限性,即单服务器中8个GPU无法达到全连接,英伟达于 2018 年的 GPU 技术大会(GTC)上发布了NVSwitch。就像 PCIe 通过 PCIe Switch 来扩展其拓扑,NVIDIA 也通过NVSwitch 实现了 NVLink 的全连接。NVIDIA NVSwitch 是首款节点交换架构,可支持单个服务器节点中 16 个全互联的 GPU,并可使全部 8 个 GPU 对分别达到 300GB/s 的速度同时进行通信。这 16 个全互联的 GPU(每个具有 32GB 的显存,型号为 V100)还可以合并使用,作为单个大型加速器,拥有 0.5 TB 的统一显存空间以及 2 PetaFLOPS 的计算性能。72 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:英伟达 图 44.NVSwitch 发展 来源:英伟达 图 45.NVSwitch 性能 使用第四代NVLink和第三代NVSwitch的系统,配备八个NVIDIA H100 Tensor Core GPU,具有 3.6TB/s 的等分带宽(bisection bandwidth)和 450 GB/s 的全规约带宽(All Reduce bandwidth)。与上一代相比,这些增长了 1.5 倍和 3 倍。73 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:英伟达 图 46.第三代 NVSwitch 芯片 借助第四代 NVLink、第三代 NVSwitch 以及外部的 NVIDIA NVLink Switch,现在可以在多个服务器之间以 NVLink 速度实现多GPU 通信。形态二:以英伟达 DGX/HGX 为代表的 Nvlink 互联的 AI 服务器架构系统:74 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:英伟达 图 47.NVLink 互联的 AI 服务器 来源:英伟达 图 48.HGX A100 8-GPU 物理视图 75 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:英伟达 图 49.HGX A100 8-GPU 基板的逻辑图 来源:浪潮 图 50.服务器主板逻辑 机构系统整体布局如下图所示:76 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:浪潮 图 51.搭载 HGX 模组 AI 服务器 3 3厂商方案厂商方案 1)OAI 规范下的主板总线设计 OAI(Open Accelerator Infrastructure)是一个广泛的硬件接口规范,旨在标准化高性能计算中的加速器部署,确保加速器模块如 GPU、FPGA 和其他特定的硬件能够适应并且在数据中心环境中进行标准化部署。77 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:OCP Universal Baseboard(UBB)Design Specification v1.5 图 52.OAI 系统构建 通用基础板(Universal Baseboard,UBB)采用模块化设计,具有高度的灵活性,旨在适配 OAM(Open Accelerator Module)模块,并为未来的系统设计提供极大的可扩展性。UBB 最大可以支持 8 个OAM模块,它的设计初衷是为了适应各种互连架构、拓扑结构、电源领域、热设计功率(TDP)、冷却方案及其他扩展选项。以优化设计后的Gaudi2 HLBA-225基板为例,可支持8块Gaudi2 Mezzanine 扣卡。78 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:HABANA GAUDI2 WHITE PAPER 图 53.HLBA-225 关键组件 每个OAM 拥有 24x100GbE PAM4 SerDes 链接,其中21 个用于 OAM间 互 联,3 个 用 于 扩 展 网 络 接 口,系 统 总 共 可 以 提 供8x3x100GbE=2.4TbE 连接到 6 个 QSFP-DD 端口。来源:HABANA GAUDI2 WHITE PAPER 图 54.HLBA-225 高速框图 79 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:HABANA GAUDI2 WHITE PAPER 图 55.基于 HLBA-255 基板的 HLS-Gaudi2 系统布局 2)昆仑芯 XPU-Link 昆仑芯二代架构 XPU-R 自研 XPU Link 核心技术,实现芯片间高速互联的能力,相比于 PCIe 互联技术通信带宽大大提高。在单节点内,OAM 加速模块 R300 基于通用 UBB 基板实现芯片间互联,组成 2个通信环路,每个 R300 模块提供 200GB/s 的聚合带宽。昆仑芯产品搭载主流 AI 服务器平台,形成单节点的 AI 计算资源,架构图如下:80 AI 服务器白皮书(2023 年)ODCC-2023-01005 图 56.昆仑芯架构图 其中,每个计算节点内配置 8 张网卡,支持 IB 协议和 RoCE 协议,每个 R300 可独占一张网卡的带宽(比如:100G、200G),节点内交换数据通过 XPU Link,节点间不同的 R300 之间通过 RDMA 实现高速通信。3)沐曦 MetaXLink 沐曦 MXC500 产品采用自研通信协议 MetaXLink 进行多卡互联。基于 MetaXLink,MXC500 PCIe 产品支持 4 卡 FC(全互联,Fulled Connected)拓扑,如下图:81 AI 服务器白皮书(2023 年)ODCC-2023-01005 图 57.MXC500 PCIe 产品支持 4 卡 FC 拓扑图 MXC500 OAM 产品支持 8 卡 FC 拓扑,如下图:图 58.MXC500 OAM 产品支持 8 卡 FC 拓扑 4)海光 xHCL 海光 DCU 自研 xHCL(external Hygon Chip Link)卡间互联技术,其是一种用于跨多个 GPU 的高速内存互连技术。它允许多个 GPU在高速通信通道上直接交换数据,而无需通过主机内存进行传输。82 AI 服务器白皮书(2023 年)ODCC-2023-01005 这种技术可以提高 GPU 之间的数据传输效率,加快多 GPU 系统的计算速度,当前支持 2 卡或 4 卡互联。来源:海光 图 59.海光 xHCL 连接方案(四)(四)分布式训练分布式训练 前文提到,从 GPT 至 GPT-3,模型的参数量已从约 1.17 亿增长至约 1750 亿。同时训练数据量(语料库)也由 5GB 提升至 45TB。为了缩短训练时长,常采用分布式训练方法,将模型和数据进行分割,并利用多机多卡并行处理,从而将训练时间减少至数月甚至数周。83 AI 服务器白皮书(2023 年)ODCC-2023-01005 图 60.AI 模型快速成熟,驱动计算平台持续迭代演进 1 1集群网络集群网络 AI 集群对网络性能有着更高的要求,特别是因为东西向流量的快速增长。为了缩短训练时长,AI 集群通常采用多 GPU 分布式训练。主要策略有:数据并行训练:单个模型在多个设备上复制,并分别处理不同批次的数据。模型并行训练:单个模型的不同部分在不同设备上运行。流水线并行训练:将模型的不同层放置到不同的计算设备上,降低每个设备的显存消耗。其中,解决服务器间通信瓶颈是并行训练的核心挑战,特别是当考虑到单机内卡间如 NVLINK 的高带宽(高达 900GB/s)。随着对高速光模块需求的持续增长,其迭代速度也变得更快。在推理工作 84 AI 服务器白皮书(2023 年)ODCC-2023-01005 负载方面,AI 集群将更多时间分配给用户请求的处理。由于使用了vGPU 虚拟计算技术和需要满足多用户的并发访问,多台服务器的处理变得尤为必要。由于服务器节点众多且跨服务器通信需求巨大,网络带宽成为限制 GPU 集群性能的瓶颈。解决方法包括增加单节点的通信带宽和降低网络的收敛比。1)RDMA 背景技术 传统以太网方案存在以下缺陷:首先,使用 send 或 sendto 等系统调用会导致 CPU 在用户态和内核态之间频繁切换,这会消耗大量时间。其次,在发送数据时,CPU需要将数据从用户空间复制到内核空间,并在接收时进行反向复制,这增加了数据传输的延迟。最后,CPU需要参与整个数据包的封装和解析过程,当数据量较大时,这会对 CPU 产生重大压力。Remote Direct Memory Access(RDMA)允许两台联网的计算机在不依赖于任一计算机的处理器、缓存或操作系统的情况下在主内存中交换数据。RDMA 通过释放资源来提高吞吐量和性能,从而在支持 RDMA 的系统之间实现更快的数据传输速率和更低的延迟。85 AI 服务器白皮书(2023 年)ODCC-2023-01005 图 61.RDMA 技术 RDMA 的核心是零拷贝网络的概念,该概念使得从一台计算机的主内存直接读取数据并直接写入另一台计算机的主内存成为可能。RDMA 数据传输在两台计算机中都绕过了内核网络栈,从而提高了网络性能。因此,这两个系统之间的通讯将比可比较的非 RDMA 网络系统完成得更快。图 62.传统模式 vs RDMA 模式网络通信 2)InfiniBand 网络 InfiniBand 是一个行业标准规范,定义了用于连接服务器、通信基础设备、存储和嵌入式系统的输入/输出架构。InfiniBand利用交换式的点对点通道进行数据传输,可靠的消息传递(发送/接收)86 AI 服务器白皮书(2023 年)ODCC-2023-01005 以及无需软件干预的内存操作语义(RDMA)确保了最低的延迟和最高的应用程序性能。图 63.IB 网络协议 InfiniBand 被用于数千个数据中心的 HPC 和 AI 集群,可以有效地扩展到数千个节点。这种可扩展性对于需要跨多个计算节点进行分布式处理以处理复杂和计算密集型任务的框架至关重要。优越的性能:InfiniBand 提供高数据传输速率,范围从 10Gb/s到 400Gb/s。2023 年 6 月 TOP500 榜单中,前 100 系统又 63 个采用了 IB 网络。低延迟:InfiniBand 的超低延迟,其端到端的测量延迟为 600纳秒,InfiniBand 的超低延迟确保数据可以在分布式 AI 系统的各个组件(如 GPU、CPU 和存储设备)之间快速传输。高效性:InfiniBand 提供了对高级可靠传输协议的支持,例如远程直接内存访问(RDMA),以确保客户工作负载处理的最高效率。87 AI 服务器白皮书(2023 年)ODCC-2023-01005 RDMA 显著地减少了 CPU 开销和延迟,使其非常适合涉及节点之间频繁数据交换的分布式训练工作负载。结构整合和低能耗:InfiniBand 可以在单个结构上整合网络、集群和存储数据,显著降低了服务器和存储所需的总功率、占地面积和管理开销。为了支持日益增加的虚拟化解决方案部署,InfiniBand 可以处理连接到单一物理端口的多个虚拟机,从而显著减少了子网管理器的负担。可靠、稳定的连接:InfiniBand 非常适合满足今天企业的关键任务需求,因为它可以实现完全冗余且无损的 I/O 结构。这包括强大的错误检测和纠正机制,确保数据传输的可靠性,以及自动路径故障转移和链路层多路径功能,以满足最高的可用性水平。它还支持如热插拔和故障转移机制等多种特性,这有助于 AI 系统的高可用性和容错性。来源:IBTA 图 64.IB 网络发展路标 88 AI 服务器白皮书(2023 年)ODCC-2023-01005 3)RoCE(RDMA over Converged Ethernet)网络 RoCE 是一种使用以太网承载 RDMA 的网络协议,RoCE 的主要优势在于它的延迟较低,因此可提高网络利用率;同时它可避开TCP/IP 并采用硬件卸载,因此 CPU 利用率也较低。图 65.RoCE v1 和 RoCE v2 包结构 RoCE v1 协议:基于以太网承载 RDMA,只能部署于二层网络,它的报文结构是在原有的 IB 架构的报文上增加二层以太网的报文头,通过 Ethertype 0 x8915 标识 RoCE 报文。RoCE v2 协议:基于 UDP/IP 协议承载 RDMA,可部署于三层网络,它的报文结构是在原有的 IB 架构的报文上增加 UDP 头、IP 头和二层以太网报文头,通过 UDP 目的端口号 4791 标 识 RoCE 报文。RoCE v2支持基于源端口号 hash,采用 ECMP 实现负载分担,提高了网络的利用率。89 AI 服务器白皮书(2023 年)ODCC-2023-01005 RoCEv2 可帮助其实现融合路径的持续性并提供高度密集的数据中心,同时为基于 IB 的应用移植,提供了快速迁移的方式,减少了开发工作量,提高了用户部署应用和迁移应用的效率。由于 RDMA 要求承载网络无丢包,否则效率就会急剧下降,所以RoCE 技术如果选用以太网进行承载,就需要通过 PFC,ECN 等流控技术对传统以太网络改造。PFC(Priority Flow Control,基于优先级的流量控制)为多种流量类型提供了基于每一跳的优先级控制。当交换设备转发报文时,它会通过查询优先级映射表来确定报文的优先级,并将报文分配到相应的队列进行调度和转发。当某一优先级的报文的发送速率超过其接收速率,且接收端缓存空间不足时,接收端会向发送端发送 PFC 暂停帧。收到 PFC 暂停帧的发送端将暂停发送该指定优先级的报文,直至它接收到 PFC XON 帧或达到老化定时器的超时时限。PFC 可以暂停或重新启动任何队列,而不会中断其他队列中的流量,这一特性使得各种类型的流量可以共享一条链路。90 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:华为 图 66.PFC 工作机制 ECN(Explicit Congestion Notification,显式拥塞通知)是一个在 IP 层和传输层定义的流量控制和端到端拥塞通知机制。当网络设备出现拥塞时,ECN 会在数据包的 IP 头部设置 ECN 字段进行标记。接收端根据这些标记发送拥塞通知包(CNP)来告诉发送端降低其发送速度。通过这种方式,ECN能够实现端到端的拥塞管理,从而有效地减缓拥塞的发展和影响。表 1:RoCE,IB 对比 IB RoCEv2 开放性 私有技术,专用专网 开放以太,融合网络 国产化 被美国 NVIDIA 收购 基于开放标准,自主可控 成本 高 低 开局部署 即插即用 较复杂,ZTP 可简化部署 传输带宽 演进较慢 领先 传输时延 低 静态时延略高,总体持平 流控 无损-信用值 无损-PFC 管控面 集中式 分布式 兼容 IP 生态 不兼容 兼容 云化部署 差(不支持 VXLAN)好,支持租户配置动态部署 产业生态 一家独大,发展受限,运维支持能力有限 规模大,发展迅速,运维支持好 91 AI 服务器白皮书(2023 年)ODCC-2023-01005 高可扩展性:这两种网络协议都具有高可扩展性和灵活性,其中 Infiniband 最具可扩展性。Infiniband 的单个子网可以支持数万个节点。此外,它还提供相对简单且可扩展的架构。高性能:RoCE 提高了企业数据中心的速度和功率,同时降低了总体拥有成本,而无需更换以太网基础设施。Infiniband,它使用串行链路和总线一次一位地发送数据,从而实现更快、更高效的通信。成本效益:对于预算有限的企业数据中心,使用昂贵的 IB 交换端口承载大量应用,增加了企业的计算成本、维护成本和管理成本。相比之下,使用以太网交换机的 RoCE 更具成本效益。因此,Infiniband 交换机在 HPC 数据中心更受欢迎。网络设备:RoCE 是通过以太网交换机实现数据传输,而Infiniband 则采用独立架构的 IB 交换机来承载应用。通常,IB 交换机必须与支持 IB 协议的设备互连,并且相对封闭且难以更换。4)集群网络典型架构 对于智算网络,核心需求是:0丢包、高带宽、大规模、无收敛 92 AI 服务器白皮书(2023 年)ODCC-2023-01005 图 67:传统通用计算集群网络 vs 智算集群网络 在大型模型的训练过程中,主要通信发生在相同编号的 GPU 卡之间:例如,一台服务器的 1 号卡与另一台服务器的 1 号卡间,2 号卡与另一个 2 号卡间,依此类推。跨卡号通信较为少见。以英伟达HGX 系统为例,为提高服务器之间的通信效率,单台服务器配置 8 张业务网卡,跨服务器的东西流量通过网卡实现,服务器内部通信,通过 NVLink 实现。来源:英伟达 图 68.单据 HGX 系统内 8 网卡通信 93 AI 服务器白皮书(2023 年)ODCC-2023-01005 每台服务器的 8 个网口各自与 8 个 GPU 相对应,并分别连接到 8个独立的 Leaf 交换机。这 8 个 Leaf 交换机组成一个汇聚组。这些Leaf交换机进一步连接到8个不同的通道,其中每个通道内的Spine交换机与 Leaf 交换机进行全网状连接,交换机下联和上联带宽采用1:1 无收敛设计,确保集群内互通带宽充足。来源:英伟达 图 69.SUPERPPD 单个单元网络拓扑 英伟达 SUPERPOD 设计中 IB 交换机可分为:Leaf:每个 SU 有 8 个 leaf 交换机,图示 SU 中 DGX A100 系统与每个 leaf 交换机均有连接,意味着相同编号的网卡连接在同一个交换机下,这种 rail-optimized 的设计对最大化优化模型训练至关重要的。94 AI 服务器白皮书(2023 年)ODCC-2023-01005 Spine Group(简称 SG):使用 10 台 Mellanox QM8790 交换机组成,由于每个 DGX A100 系统有 8 个 IB 网络模块,故需要 8 个 SG。当超过 80 台服务器时,网络架构中会新增核心交换机组,变成三层网络。Core Group(简称CG):使用由十四个QM8790 交换机组成的 CG来连接 SG。一个 140 节点的部署需要两个 CG。来源:英伟达 图 70.140 节点 SPUREPOD 组网图 来源:英伟达 图 71.显示不同规格系统的交换机和光纤数量 95 AI 服务器白皮书(2023 年)ODCC-2023-01005 2 2集群存储集群存储 Gartner 预测 2023 年将有 20%的内容被生成式 AI 所创建,到2025 年人工智能生成数据占比将达到 10%。在以存力和算力为中心的 AI 大模型时代,AIGC 等技术可以自动生成文字、图片、音频、视频,甚至 3D 模型和代码等,同时数据归集、数据预处理、模型训练、数据备份等数据全生命周期的管理等问题,给传统的单机或集中式存储带来了巨大的挑战。一旦出现存储性能瓶颈,对 AI 业务将会带来很多不良影响,诸如:更长的 AI 模型开发周期;GPU 处于“饥饿”状态,难以充分发挥 GPU 的计算性能;数据采样的范围和精度影响最终分析准确性;难以扩展到大规模生产环境 图 72.AI 服务器集群与存储连接 96 AI 服务器白皮书(2023 年)ODCC-2023-01005 分布式集群存储通过无限横向扩展、多协议融合互通、数据保护、高性能存储系统、分级存储等关键技术,能够更好地适应 AI 场景下的数据需求,为 AI 计算提供强大的数据支撑。1)AI 场景对存储的需求和挑战 AIAI 场景对存储的需求场景对存储的需求 AI 训练需要大量的原始数据作为支撑,而原始数据呈现出来源多、格式多的趋势,即多源多态,需要存储系统支持多种协议。随着训练模型从LLM(大语言模型)、CV(机器视觉大模型)、ALM(音频大模型)VL(多模态大模型)到FMLM(全模态大模型),对存储容量的需求也从 PB 级到数十 PB 规模,对存储的带宽需求也从百 GB 到 TB 级。语言类 NLP 模型在 Transformer 训练过程,频繁的从数据集取 Token,每个 Token 一般 4 字节,需要极低的延迟;图片类 CV 训练场景,需满足 10 亿级小文件(80K100K)高 IOPS,同时又要满足大带宽的需求。AI 系统是一个复杂的大型系统,包含大量的计算、网络、存储设备,需要设备稳定可靠,模型训练过程中参数需要频繁调优,需要将模型训练时刻的 TB 级 CheckPoint 文件在尽量短时间内进行存档保存,下次训练开始又需要尽快加载 checkpoint 存档文件,需要存储有高读写带宽需求。97 AI 服务器白皮书(2023 年)ODCC-2023-01005 同时大模型训练还要求在多源异构数据之间实现快速转换与传输,实现生命的全生命周期管理,以及数据的安全可靠。AIAI 场景对场景对数据存储挑战数据存储挑战 图 73.AI 场景对数据存储挑战 大模型训练多元化数据的归集与共享 多模计算大模型存储需匹配极致性能 大模型应用数据对接作业各个阶段 数据作为重要资产需安全可靠存储 多态大模型数据量持续增长需线性扩展 数据资产的全生命周期管理能力 什么样的存储架构才是 AI 大模型时代的最佳选择呢?我们认为它需要同时具备以下五个关键特征:第 1 个关键特征:一套存储系统同时具备高性能层和大容量层,并对外呈现统一的命名空间,具备数据全生命周期管理的能力。首先,可以指定数据首次写入时的放置策略,例如在数据获取阶段,98 AI 服务器白皮书(2023 年)ODCC-2023-01005 新获取的数据需要在短时间内处理的,可以直接放置到高性能层;而新获取的数据在短时间内无需处理的或用来长期归档的数据,则可以直接写入容量层;其次,可以设置丰富的数据分级流动策略,例如可以设置访问频度与时间相结合的流动策略,也可以设置容量水位触发的流动策略;再者,根据用户制定的分级策略,数据能够在高性能层和大容量层之间自动分级流动,数据分级迁移过程对业务应用完全透明;最后,对于已经分级到容量层的数据,用户可以通过命令或 API 对指定的数据集配置预热策略,以加速计划性任务的冷启动速度。第 2 个关键特征:一套存储可以承载 AI 全流程业务,同时支持AI 全流程工具链所需的 NAS、大数据、对象、并行客户端等协议,且需要各协议语义无损,达到与原生协议一样的生态兼容性要求。此外,上述所有协议共享相同的存储空间,各协议采用 Thin Provision 的空间分配机制,具备 AI 各阶段存储空间动态快速调配的能力。第 3 个关键特征:具备 AI 各流程协同所需要的数据高效流转能力。在各个阶段,基于不同协议生态的工具链,可以看到相同的数据和元数据,不同阶段协同需要做到数据 0 拷贝、格式 0 转换,前一阶段的输出可以直接作为下个阶段的输入,达到 AI 各阶段协同业务 0 等待的效果。99 AI 服务器白皮书(2023 年)ODCC-2023-01005 第 4 个关键特征:具备数千节点的横向扩展能力,系统架构需采用全对称式架构设计,没有独立的元数据服务节点,随着存储节点数的增加,系统带宽和元数据访问能力可实现线性增长。要能在AI 训练每个 epoch 的 shuffle 阶段,提供高效的亿级文件列表获取能力;要能支撑住在上亿训练集文件上,通过为每个文件频繁创建新的硬链接,以实现训练集的版本管理能力。第 5 个关键特征:一套系统、一套参数具备高性能动态混合负载的承载能力。在数据导入阶段,大小文件同时写入;在数据预处理阶段,大小文件批量读取处理后生成海量小文件;在模型训练阶段,海量小文件批量随机读取;在生成 CheckPoint 时,要能满足大高带宽写入;在模型部署阶段,即使大并发读取同一个模型文件,随着部署设备数量的增加,集群聚合吞吐带宽仍然可以线性增长。2)AI 大模型存储解决方案 基于上诉所述,我们需要 AI 大模型存储解决方案需要包含以下的内容:高性能分布式集群存储高性能分布式集群存储 高性能分布式集群存储作为 AI 场景的存储底座,分布式存储的容量和性能可以随节点数量的增长而线性增长,实现无线横向拓展,底层使用标准化的硬件可以保证低成本并实现硬件的快速迭代升级,快速构建高性能集群存储资源池。载全 NVMe 介质的分布式集群存储 100 AI 服务器白皮书(2023 年)ODCC-2023-01005 节点,配置高性能 IB/RoCE 网络 RDMA 功能。大带宽缩短 checkpoint中断时间,高 IOPS 支持预处理和训练推理阶段的高效 IO 访问,缩短训练时间节省成本。多协议融合互通多协议融合互通 设计上遵循不同存储服务类型(文件/对象/大数据服务)的融合、互通理念,并具备如下 4 个能力的融合互通架构:包括管控面统一、IO 语义互通、高级特性互通、性能/可靠性/扩展性等关键能力融合,全流程协同,数据零拷贝。在数据采集阶段能够让多样化数据可以迁移归集至一个数据平台,节省了数据空间,减少了多套存储数据拷贝和管理带来的额外成本。动态混合负载高性能动态混合负载高性能 AI 大模型中的业务负载多种多样:以 ARM、GPU、FPGA 为代表的异构计算进一步提高对存储性能的要求;在以海量小文件&元数据的反复读写和 checkpoint 大文件写的混合 IO 场景下需具备高 IOPS 和高带宽的特点。并行文件系统并行文件系统 并行文件系统专门针对高性能计算系统设计,可以适应 AI 训练场景。并行文件系统在架构设计上极力避免单点瓶颈,针对高性能场景去做极致优化。通过文件条带化、特殊的元数据架构设计等方 101 AI 服务器白皮书(2023 年)ODCC-2023-01005 式将元数据和数据分散到更多设备上,充分利用后端节点、设备的并行处理能力。并行文件系统的客户端可以同时使用多个 IO 路径将数据直接读、写到多个存储设备,缩短 I/O 路径,提供更好性能表现来支持前端 AI 服务器的计算能力。数据保护技术数据保护技术 纠删或副本等数据保护技术可以实现分布式集群存储的节点间数据保护,结合亚健康检测、硬盘故障预测等技术,能够自动检测硬盘、节点及网络等性能降级状态,自动告警和隔离,通过采集HDD或SSD 日志和性能信息通过设置好的机器学习算法,对HDD 和SSD 进行全面精确的寿命预测和性能预测,以便用户提前规划磁盘替换,保证数据的安全可靠。分级存储分级存储 冷热数据自动分层,能够使分布式集群存储智能识别热点数据,精准分级。在全闪节点和混闪节点间实现热数据和温冷数据分层,在高性能低成本的双重需求下,对数据进行分类存储和管理。数据全生命周期管理数据全生命周期管理 性能层&容量层配合,需支撑数据智能流动,兼顾高性能和大容量的述求,提升更高的性价比。AI 场景下的数据具有动态变化和长期价值的特点,需要对数据进行全生命周期的管理,包括数据采集、102 AI 服务器白皮书(2023 年)ODCC-2023-01005 清洗、标注、存储、分析、归档等环节。分布式存储智能管理,将性能层&容量层配合,需支撑数据智能流动,兼顾高性能和大容量的述求,提升更高的性价比。对上层应用透明,实现对不同价值和热度的数据合理分配和存储,提高存储读写访问效率和节约存储成本。来源:浪潮 图 74.高性能融合分布式存储 来源:英伟达 图 75:计算、存储、网络模块化快速部署 103 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:英伟达 图 76:英伟达 SUPERPOD 物理层架构 算力集群网络融合发展 单个机柜先完成柜内组网,之后由机柜联网形成 AI 集群。按照服务类型及安全等级,把整个网络分成不同的业务区块:接入区、网络服务区、管理区、业务区。来源:华为 图 77.逻辑架构 104 AI 服务器白皮书(2023 年)ODCC-2023-01005 单个机柜先完成柜内组网,之后由机柜联网形成 AI 集群。按照服务类型及安全等级,把整个网络分成不同的业务区块:接入区、网络服务区、管理区、业务区。接入区:Internet 和专线网络接入,部署数据中心的外网接入设备。安全服务区:提供 DDoS、入侵检测等安全防护能力。网络服务区:提供网络基础服务,例如 vRouter、vLB、vFW等。管理区:部署平台的服务管理系统及运维管理支持组件。带外管理区:主要连接网络区设备管理口以及服务器 BMC 口,为物理设备提供带外管理网络。该网络除物理设备管理流量外不承载其他业务流量。AI 计算集群区:部署 AI 服务器并组成相应的集群网络,实现 AI 高性能计算。通用计算区:提供 AI 训练相关的通用计算资源,例如部署深度学习平台等软件。存储区:高速大带宽互联的存储系统,AI 场景下主要用于训练数据的存储。AIAI 计算集群区物理组网(以计算集群区物理组网(以昇腾训练集群为腾训练集群为例)例)105 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:华为 图 78.AI 计算集群区物理组网(以昇腾训练集群为例)AI 计算集群区的物理网络区分平面进行设计:参数面网络:采用双层的 Leaf-Spine 组网,由 NPU 直出的100GE 网口接入到 100G Leaf 交换机,实现多机分布式训练时的参数交换,存储面网络:每个 AI 服务器配置的 2 个 25GE 端口接入到25GE Leaf 交换机,主要用于访问存储区的高速大带宽互联的存储系统。业务面网络:每个 AI 服务器配置的 2 个 25GE/10GE 端口接入到 25GE Leaf 交换机,主要用于系统业务调度与管理。带内管理面网络:由每个 AI 服务器的1 个GE 网口或10GE口接入到交换机,接入到管理区网络,主要用于集群设备的管理与操作。106 AI 服务器白皮书(2023 年)ODCC-2023-01005 带外管理面网络:由每个 AI 服务器的 1 个 GE 网口接入到 GE 交换机,接入到管理区网络,主要用于集群设备的带外管理与操作。目标是统一网络技术底座,建设超大规模、智能无损、高效可靠的超融合算力中心网络,以充分释放 AI 智算和高性能存储效率。来源:华为 图 80.集群网络架构发展(五)(五)液冷技术液冷技术 1 1液冷技术背景液冷技术背景 高密高算力基础设施推动液冷新需求:高密高算力基础设施推动液冷新需求:AI 技术的迅猛发展带动了算力芯片的需求和功率增加,这使得数据中心的 IDC 机柜功率密度不断上升,英伟达的 H100 单芯片功率甚至达到了 700-800W。107 AI 服务器白皮书(2023 年)ODCC-2023-01005 图 81.GPU 与 CPU TDP 增长趋势 随着 ChatGPT 的广泛应用,AI 算力和其他高功率应用场景得到了加速推进。曾经的 6-8KW/柜已经逐渐提高到了 12-15KW/柜,而超级计算机和智能中心的功率密度则达到了惊人的 30kW 以上。数据中心,作为数字时代的基础支撑,正面临越来越大的数据处理需求。为满足这一挑战,AI 的计算能力对数据中心的冷却技术提出了更高标准。在高热密度环境下,传统的风冷方法逐渐显现出其局限性。而液冷技术,凭借其卓越的能效和出色的高热密度处理能力,成功缓解了散热问题,并带来了显著的能源节省,展现出巨大的行业发展潜力。2 2液冷技术发展液冷技术发展 液冷技术主要包括冷板式液冷、浸没式液冷和喷淋式液冷技术三种。冷板式液冷是服务器芯片等高发热元件的热量通过冷板间接传递给液体进行散热,低发热元件仍通过风冷散热的一种方式。108 AI 服务器白皮书(2023 年)ODCC-2023-01005 浸没式液冷是服务器完全浸入冷却液中,全部发热元件热量直接传递给冷却液,通过冷却液循环流动或蒸发冷凝相变进行散热的一种方式。其中,冷却液循环流动的方式为单相浸没式液冷,冷却液蒸发冷凝相变的方式为相变浸没式液冷,相变浸没式液冷控制更复杂、要求更高。喷淋式液冷是用冷却液直接喷淋芯片等发热单元,通过对流换热进行散热的一种方式。图 82.冷却类型图 冷板式液冷采用微通道强化换热技术具有极高的散热性能,目前行业成熟度最高;而浸没式和喷淋式液冷实现了 100%液体冷却,具有更优的节能效果。当前,冷板式液冷、单相浸没式液冷为主要形式。液冷系统通用架构及原理如下图所示;室外侧包含冷却塔、一次侧管网、一次侧冷却液;室内侧包含 CDU、液冷机柜、ICT 设备、二次侧管网和二次侧冷却液。109 AI 服务器白皮书(2023 年)ODCC-2023-01005 图 83.液冷系统通用架构及原理 冷板式液冷冷板式液冷 冷板式液冷是通过液冷板(通常为铜铝等导热金属构成的封闭腔体)将发热器件的热量间接传递给封闭在循环管路中的冷却液体,通过冷却液体将热量带走的一种散热形式。冷板式液冷系统主要由冷却塔、CDU(冷量分配单元)、一次侧&二次侧液冷管路、冷却介质、液冷机柜组成;其中液冷机柜内包含液冷板、设备内液冷管路、分水器、快换接头等。图 84.冷板式液冷散热原理图 110 AI 服务器白皮书(2023 年)ODCC-2023-01005 应用案例(曙光):整机冷板设计需求:整机层面冷板式设计优先考虑 CPU 和 GPU 两个发热量最多的部件,CPU 冷头方案采用差异化设计,保障 2 颗 CPU 可接受的温差范围。最终通过分液器把 CPU 和 GPU 分支连接起来,接口部分采用无滴漏自封闭快插接头,实现安装快捷性和后期维护可自由插拔,冷却液不会泄露。当前 8*GPU 方案设计为两两串联,共分 4 条水路,通过分液器进行流量的分配和汇总,所以需要根据 GPU 和 CPU 的解热功耗以及串并联关系确定额定的流量工况,经过每条水路的流量确定好,管路的规格基本由管内冷却液流速,以及整个系统的流阻值来确定。整体管路采用软管方案,分液器分支比较多,软管可提高安装插拔灵活性,GPU 端与分液器连接部位软管采用螺帽锁固的方案进行密封固定。总进 回水管路同样是螺帽锁固的方案连接,CPU 端与分液器连接部位预留出快插接头 连接,方便后续的安装和调试;整体设计方案需考虑操作的便捷性、性能的可靠性以及部件的简洁性。CPU液冷头设计方面,冷头部分均采用的紫铜材质,其拥有更优的导热性能,设计过程中首先要保 证冷头额定工况的条件下散热性能满足 CPU 解热 spec,以及流组性能要在液冷系统的压降限制范 111 AI 服务器白皮书(2023 年)ODCC-2023-01005 围内,再根据冷却液的流动方向设计两颗 CPU 冷头流道的差异性,确保 2 颗液冷头的均温性要求。来源:曙光 图 85.4U8 卡液冷 AI 服务器 冷板式 GPU 服务器、同时对 CPU 和 GPU PCIe 标卡液冷设计,支持整机液冷散热;水平分液模块与整机节耦设计,实现 GPU 卡独立维护,便捷操作,流量均匀分配,散热性能均衡;采用液体冷媒可实现85% 热量通过液冷带走;冷板整体采用金属冷板 软管组合一体焊接形式,可靠性高,且灵活部署。浸没式液冷浸没式液冷 浸没式液冷,是一种典型的直接接触型液冷,它是将发热的电子元件浸没在冷媒(冷却液)中,依靠液体流动循环带走热量。浸没式液冷由于发热元件与冷媒全方位直接接触,散热效率相比于传统的散热方式散热效率更高,噪音更低。将电子设备安全浸泡在液体中,冷却液体必须满足绝缘、防腐蚀、不可燃、无毒以及易于清理 112 AI 服务器白皮书(2023 年)ODCC-2023-01005 等要求。目前浸没式液冷包含单相浸没式液冷和相变式浸没式液冷。单相浸没式液冷单相浸没式液冷 冷却液在循环散热过程中始终维持液态,不发生相变。低温冷却液带走热量后,温度升高,升高的冷却液流动到其它区域后重新冷却完成循环;单相液冷要求冷却液的沸点较高,这样冷却液挥发流失控制相对简单,与 IT 设备的元器件兼容性比较好,不需要频繁补充冷却液;但相对于两相液冷其散热效率要低一些。图 86.单相浸没液冷示意图 两相两相式浸没式液冷式浸没式液冷 冷却液在循环散热过程中发生了相变,冷却液带走电子元件热量后发生相变气化,气态冷却液被其它设备冷凝重新变成液态。电子部件直接浸没在容器中的冷却液液体中,热量从电子部件传递到液体中,并引起液体沸腾产生蒸汽。蒸汽在容器内的冷凝器上冷凝,将热量传递给在数据中心中循环流动的设施冷却水。113 AI 服务器白皮书(2023 年)ODCC-2023-01005 图 87.两相浸没冷却示意图 浸没式液冷优势与局限性:与传统风冷和冷板式液冷相比,浸没式液冷具有多项优势:a)节能(PUE1.13):低温液体直接与发热芯片接触散热,传热路径更短;传热方式为液液换热和蒸发汽化换热,传热效率更高;无需压缩机冷水机组,制冷方式采用自然冷却 强化通风冷却,制冷能效更高。b)高密度部署:支持高密机柜,单柜散热量高达 160kW;同时,机柜间无需隔开距离,机房不需要空调和冷冻机组、无需架空地板、无需安装冷热通道封闭设施;c)高可靠:设备完全浸没在液体中,排除了温度、风机振动、灰尘等带来的可靠性问题;d)低噪声:100%液体冷却,无需配置风扇,实现极致“静音”机房;e)结构颠覆性:浸没式液冷是一种创新性的制冷解决方案,需要将 IT 设备完全浸没在冷却液中,产品结构设计发生颠覆 114 AI 服务器白皮书(2023 年)ODCC-2023-01005 性变化,对器件选型和维护性都提出了新的挑战,区别于传统意义上的立式机架结构,浸没液冷所用的浸没腔体为卧式 Tank。浸没式液冷器件选型局限性:a)硬盘:由于冷却液的渗入,普通机械硬盘无法正常运转,需要被替换为固态盘,或氦气硬盘;b)风扇:对于改造升级的数据中心机柜,需要拆除所有风扇组,并屏蔽风扇故障信号;对于新建的数据中心,机柜内部无需再设计风扇及配套的调速和故障检测措施;c)光模块;为了避免出现由冷却液渗入引起的信号失真和错乱,需要选用全密封处理的光模块;d)导热界面材料:液冷环境下导热硅脂会被液体冲刷溶解,需要使用固态界面材料。e)维护局限性:浸没式液冷设备维护时需要打开Tank上盖,并配备可移动机械吊臂或专业维护车实现设备的竖直插拔,维护复杂度高,耗时长;且开盖维护过程有一定的冷却液挥发问题,增加运行成本;f)机房环境特殊性:因浸没式液冷系统Tank内充满冷却液,整柜重量大幅增加,对机房有特殊承重要求,普遍要求浸没式液冷机房地板承重应大于 1500kg/。115 AI 服务器白皮书(2023 年)ODCC-2023-01005 g)液体成本高:氟化液或油类介质的液体使用量大,导致初投资和维护成本较高 喷淋式液冷喷淋式液冷 喷淋式液冷是面向芯片级器件精准喷淋,通过重力或系统压力直接将冷却液喷洒至发热器件或与之连接的导热元件上的液冷形式,属于直接接触式液冷。喷淋式液冷系统主要由冷却塔、CDU、一次侧&二次侧液冷管路、冷却介质和喷淋式液冷机柜组成;其中喷淋式液冷机柜通常包含管路系统、布液系统、喷淋模块、回液系统等。来源:浪潮 图 88.喷淋式液冷系统通用架构及原理 喷淋式液冷系统原理如上图所示,在冷量分配单元内冷却后的冷却液被泵通过管路输送至喷淋机柜内部;冷却液进入机柜后直接通过分液器进入与服务器相对应的布液装置,或将冷却液输送至进液箱以提供固定大小的重力势能以驱动冷却液通过布液装置进行喷淋;冷却液通过 IT 设备中的发热器件或与之相连的导热材料进行 116 AI 服务器白皮书(2023 年)ODCC-2023-01005 喷淋制冷;被加热后的冷却液将通过回液箱进行收集,并通过泵输送至冷量分配单元进行下一个制冷循环。喷淋式液冷同样实现了 100%液冷,其结构颠覆性优于浸没式液冷;但节能效果差于浸没式液冷,且存在与浸没式液冷相同的局限性问题。表 2 三种液冷技术对比 类型 冷板式 浸没式 喷淋式 优点 对机房、机柜、服务器及制冷系统改造小 噪音小 散热能力强 功率密度高 静音 节省液体 避免冷板堵塞 静音 缺点 水冷板有泄露导电风险 需要风冷补偿 对机柜结构改造较大 不方便运维 液体量大、成本高 不支持机械硬盘,仅支持密封盘 液体兼容性要求高 对系统改造大 液体兼容性要求高 不支持机械硬盘,仅支持密封盘 流量控制不精准 关键技术 漏液监测及预警 冷板结构设计 冷却水质监测 浸没式液体技术 系统可靠性设计 精确制冷及流场优化 精准喷淋流量设计 液冷机柜结构设计 服务器改造 117 AI 服务器白皮书(2023 年)ODCC-2023-01005 液冷系统冗余设计 IT 设备定制化设计 喷淋冷却液技术 成熟度、先进性 方案成熟 比较先进、方案不成熟 比较小众、不成熟 运维影响 快插接头插拔进气问题 冷板及接头堵塞问题 液体挥发 液体残留 利用吊臂插拔 服务器维护频繁,补充液体频繁 液体残留和清洗不便 成本 液冷市场需求保持逐年增长状态,冷板式液冷和浸没式液冷是行业内目前共存的两条主流技术路线;伴随国家双碳节能政策驱动,市场对液冷的需求将逐步提升。考虑到技术成熟度、可靠性、技术通用性、结构颠覆性等多个方面,当前液冷数据中心仍以冷板式液冷占据主流地位。(六)(六)电源电源 随着 ChatGPT 等 AI 技术的快速发展,人工智能(AI)服务器市场正经历着前所未有的繁荣,其在数据中心的配置比例相比于传统的通用服务器正在大幅提升。AI 服务器需要更高的计算能力、更大的内存和存储空间,以及更快的网络连接速度。因此,AI 服务器对电源的要求也要明显高于通用服务器。118 AI 服务器白皮书(2023 年)ODCC-2023-01005 1 1功率功率 AI 服务器通常具有更强的算力,其不仅配置了高性能的 CPU,还配置了一个或多个高性能的 GPU 以处理大量并行计算,耗电更大,因而需要更大功率的电源。现在主流的通用服务器电源功率在800W-2000W,而现阶段 AI 服务器需要的电源功率则在 2700W 及以上,未来则需要 5500W 甚至 8000W 以上的电源。2 2效率效率 由于 AI 服务器所需电源功率更大,因而带来耗电量的大幅提升,为满足新时代节能减排的要求,全球政府和能源组织都在推动强制性法规,以提升数据中心的能源效率。2020 年中国数据中心电能利用效率(PUE)高达 1.46,2021 年 10 月,中国发改委发布关于严格能效约束推动重点领域节能降碳的若干意见,要求新建的大型、超大型数据中心的电能利用效率(PUE)不超过 1.3。另外,美国能源之星的 80Plus 白金和钛金认证要求,以及欧盟颁布的“Lot 9”EU 2023 以数据中心电源为重点的监管政策,对其效率有明确的要求:至2024年一月起,数据中心所用电源必须符合80Plus钛金级标准。表 3 Lot9 效率要求 要求 10%负载 20%负载 50%负载 100%负载 对应80Plus Lot9(2024 年 1月)90%钛金标准 119 AI 服务器白皮书(2023 年)ODCC-2023-01005 由于 AI 服务器所需电源功率更大,因而带来耗电量的大幅提升,为满足新时代节能减排的要求,全球政府和能源组织都在推动强制性法规,以提升数据中心的能源效率。2020 年中国数据中心电能利用效率(PUE)高达 1.46,2021 年 10 月,中国发改委发布关于严格能效约束推动重点领域节能降碳的若干意见,要求新建的大型、超大型数据中心的电能利用效率(PUE)不超过 1.3。另外,美国能源之星的 80Plus 白金和钛金认证要求,以及欧盟颁布的“Lot 9”EU 2023 以数据中心电源为重点的监管政策,对其效率有明确的要求:至2024年一月起,数据中心所用电源必须符合80Plus钛金级标准。为了减少损耗,AI服务器电源正在从传统的12V输出总线向48V或 54V 输出总线转变。其最直观的好处就是:支持更高的功率等级,降低母线上的铜损和压降,提升效率。因为相同功率下电压提升了4倍,电流下降 4 倍,母线上的损耗降低了 16 倍,从而能实现更高的效率,支持更高的输出功率等级。除此之外,新一代 48V 或 54V 母线供电系统由更少的功率转换级组成,从而能够提升供电系统的整体效率。下面是数据中心传统的 12V 母线供电系统和新一代 48V 或54V 母线供电系统对比。120 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:村田中国 图 89.12V 母线供电系统和 48V 或 54V 母线供电系统对比 3 3集中式供电集中式供电 传统的服务器机柜,采用标准服务器,即每台服务器都配备所需功率的 ACDC 电源,我们也称之为分布式供电方式,且都采用 N 1或者 N N 的冗余设计。而集中式供电方式,采用大功率机框电源,为整个机柜的服务器提供电力,每个服务器节点不再需要单独配置电源,这样即能满足整机柜的功率需求,也大幅减少了电源的使用数量。且随着单个服务器节点功率提升,电源的成本也相应增加,采用集中式供电的机柜,无论从整体成本,还是单节点服务器的空间利用上,都有明显的优势。参考如下表格 4。121 AI 服务器白皮书(2023 年)ODCC-2023-01005 来源:村田中国 图 90.分布式供电机柜与集中式供电机柜对比 表 4 分布式供电和集中式供电采用电源的对比 分布式供电 集中式供电 单台服务器功率 4000W 4000W 单个电源功率 2000W(2 2)3600W 以单机柜安装 9 台/4U AI 服务器节点为例 整机所需功率以及电源配置 36kW(18 18)36kw(10 2)机框或电源带有 ATS功能 采用电源数量 36pcs 12pcs 机柜使用空间 电源无需占用机框 多占用 2U 放置电源机框,但单节点服务器有效利用面积增大 随着服务器性能增强,整机柜的功率也从早期的不足 10kW 发展至 20kW 甚至 36kW。由于集中式供电由 powershelf(机框电源)通过BusBar 将电力传输到各个服务器节点,电流越大,在 Busbar 上的产生的损耗就越高,开放数据中心委员会(ODCC:Open datacenter 122 AI 服务器白皮书(2023 年)ODCC-2023-01005 committee)发布了 48V 系统架构(即典型的 54V 系统。其来自于48V 铅酸电池组,充满电后相当于 54V)。相较于 12V 架构,同等功率下 Busbar 母线上的电流降至 1/4,损耗更是降低至 1/16,但板载侧需配置 54V-12V PDB 降压电源模块给主板供电,整体能效有明显提升。来源:村田中国 图 91.12V 供电架构与 54V 宫殿架构对比 六、六、典型典型 A AI I 服务器配置服务器配置 (一)(一)华为华为 Atlas 800Atlas 800 Atlas 800 训练服务器是基于鲲鹏 920 昇腾 910 处理器的 AI 训练设备,具有高计算密度、高能效比、高网络带宽、易扩展、易管理等优点,广泛应用于深度学习模型开发和 AI 训练服务场景。123 AI 服务器白皮书(2023 年)ODCC-2023-01005 图 92.华为训练服务器 1 1典型配置典型配置 Atlas 800 训练服务器配置:1)4U 机箱,单个服务器支持 4 颗鲲鹏处理器;2)支持 8 路昇腾 910 AI 处理器,芯片支持直出 200G RoCE 网络接口,每一路AI处理器提供3条HCCS互连链路,提供最大90GB/s带宽能力,每个 NPU 载板由 4 路 AI 处理器组成,通过 HCCS 组成一个 4P Full mesh 互联,4 路 AI 处理器间互联带宽达到双向共 60GB/s;3)支持 RAID 0/1/10/5/50/6/60;4)最多 32 个 DDR4 内存插槽,支持 RDIMM,内存速率最高 3200 MT/s,单根内存条容量支持 16GB/32GB/64GB;5)最多支持 2 个 PCIe 4.0 扩展插槽;6)支持 4 个热插拔 3 kW/2 kW 交流电源模块,支持 2 2 冗余;124 AI 服务器白皮书(2023 年)ODCC-2023-01005 7)支持 2*2.5 SATA 8*2.5 SAS/SATA 或 2*2.5 SAS/SATA 6*2.5 NVMe。2 2技术特点技术特点 1)超强算力密度:4U 高度最高提供 2.5PFLOPSFP16 超强算力。2)超高能效:单机支持风冷和液冷两种散热方式;提供 2.24 PFLOPS/5.6 kW 超高能效比。3)高速网络带宽:8*200GERoCEv2高速接口;芯片间跨服务器互联时延缩短 1070%。(二)(二)华为华为 Atlas 900 PoDAtlas 900 PoD 集群基集群基础单元础单元 Atlas 900 PoD 是基于华为昇腾 910 鲲鹏 920 处理器的 AI 训练集群基础单元,最高可以提供 20.48 PFLOPS 超强 AI 算力,具备20.48 PFLOPS/46 kW 的超高能效比,并且支持机柜单元扩展,最大可拓展至 4096 颗昇腾 910 处理器集群,总算力达 1 EFLOPS FP16,可广泛应用于深度学习模型开发和训练,适用于智慧城市、智慧医疗、石油勘探等需要大 AI 算力的领域。125 AI 服务器白皮书(2023 年)ODCC-2023-01005 图 93.Atlas 900 PoD 集群基础单元 1 1典型配置典型配置 Atlas 900 PoD 典型配置:1)47U 高度提供 25.6/24 PFLOPS FP16 及 6.7/6.3 PFLOPS FP32超强 AI 算力;2)256 个 DDR4 内存插槽,最高 3200MT/s,单根内存条容量支持 32GB/64 GB;3)最大支持 80*2.5 英寸硬盘;4)支持机柜单元扩展,最大可拓展 4096 颗异腾 910 芯片集群,AI 算力最大可扩展至 3.2 EFLOPS FP16。126 AI 服务器白皮书(2023 年)ODCC-2023-01005 2 2技术特点技术特点 1)AI 算力业界领先,Atlas 900 AI 训练集群采用业界单芯片算力最强的昇腾 910 AI 处理器,每颗昇腾 910 AI 处理器内置 32 个达芬奇 AI Core。Atlas 900 AI 训练集群将数千颗昇腾 910 AI 处理器互联,打造业界领先的算力集群。2)最佳集群网络,Atlas 900 AI 训练集群采用“HCCS、PCIe 4.0、200G 以太”三类高速互联方式,百 TB 全互联无阻塞专属参数同步网络,降低网络时延,梯度同步时延缩短 1070%。在 AI 服务器内部,昇腾 910 AI 处理器之间通过 HCCS 高速总线互联;在集群层面,采用面向数据中心的 CloudEngine 系列交换机,将集群内的所有 AI 服务器接入高速交换网络。独创 iLossless 智能无损交换算法,对集群内的网络流量进行实时的学习训练。3)系统级调优,华为集合通信库提供训练网络所需的分布式并行库,通信库 网络拓扑 训练算法进行系统级调优,实现集群线性度80%,极大提升了作业调度效率。4)极致散热系统,Atlas 900 AI 训练集群采用全液冷方案,创新性设计业界最强柜级密闭绝热技术,支撑95%液冷占比。单机柜支持高达 50kW 超高散热功耗,实现 PUE1.1 的极致数据中心能源效率。在空间节省方面,与 8kW 风冷机柜相比,节省机房空间 79%。127 AI 服务器白皮书(2023 年)ODCC-2023-01005 极致的液冷散热技术满足了高功率、高密设备部署、低 PUE 的需求,极大地降低了客户的 TCO。(三)(三)中科可控中科可控 X7840 HX7840 H0 0 X7840H0 基于最新的海光 7000 处理器开发的一款高规格 GPU 服务器,产品采用异构解耦合设计,GPU 架构可灵活调整。图 94.中科可控 X7840 H0 1 1典型配置典型配置 中科可控 X7840H0 典型配置:1)支持 2 颗 HYGON 7000 系列处理器,最高支持64 物理核心;2)前置可支持 24x2.5 或 24x3.5 SAS/SATA 或最高支持 16x2.5 NVMe U.2 SSD;3)支持 32 根 DDR4 内存,支持内存最高工作频率 3200MHz;4)最大可扩展 12 个 PCIe 4.0 x16 插槽;5)支持 8 块海光 DCU 芯片;128 AI 服务器白皮书(2023 年)ODCC-2023-01005 6)支持 RAID 0/1/5/6/10/50/60。2 2技术特点技术特点 1)强劲算力。2 颗海光 7000 处理器,64 个核心,提高 VDI 实例数量;内存容量高达 4T,可进行强大的数据库分析,加速内存密集型应用性能;支持 100G200G 网络高速互联,为 GPU 计算集群提供高密度、高性能节点平台。2)极致扩展。扩展 12 个 PCIe 4.0 x16 插槽,整机通信带宽翻倍;4U 空间可容纳 8 个双宽 GPU 卡加速卡,提供强大的训练应用性能;支持 24 个 3.5 寸 SAS/SATA 硬盘,最高支持 16 个 NVMe SSD,提供丰富的存储扩展能力 4)强大的 I0 扩展性能。3)优化设计。CP 和 GPU 解耦合设计,CPU 和 GPU 独立演进,支持不同形态加速卡灵活配置;系统在 5-35稳定运行,PID 精细化无极调速、部件精准监控。(四)(四)宁畅宁畅 X660 G45 LPX660 G45 LP X660 G45 LP 是专为深度学习开发的高性能液冷计算平台,搭载8 颗英伟达 SXM4 A800 液冷 GPU,性能卓越,算力超群。CPU、GPU 采用冷板液冷设计,液冷功耗覆盖度可达85%。高效解决散热问题,释放极致算力,助力数据中心降低 PUE 及 TCO。129 AI 服务器白皮书(2023 年)ODCC-2023-01005 图 95.宁畅 X660 G45 LP 1 1典型配置典型配置 X660 G45 LP 液冷服务器配置:1)6U 机箱,单个服务器支持 2 颗英特尔处理器;2)支持 8 颗英伟达 Telsla SXM4 A800 液冷专用 AI 芯片;3)最大可配置 10 个 PCIe 4.0 扩展插槽,包括 1 个 OCP 插槽;4)最多 32 个 DDR4 内存插槽,内存速率最高 3200 MT/s;5)最多支持 2 个 PCIe 4.0 扩展插槽;6)CPU 仓:支持 123.5/2.5 寸硬盘、8 个 U.2 SSD;GPU 仓:支持 8 个 2.5 寸 GPU 直连 U.2 硬盘。7)快接插头:CPU液冷却插头UQD02,有效流体通经3mm;GPU液冷却插头 UQD04,有效流体通经 5mm;130 AI 服务器白皮书(2023 年)ODCC-2023-01005 8)兼容去离子水、乙二醇溶液 丙二醇水溶液等多种冷却液。2 2技术特点技术特点 1)高性能计算架构。满配 8 颗英伟达 Tesla SXM4 A800 GPU,通过 NVLINK 互联互通;最大支持 8 颗 GPU 搭配各自专属用途的 200G网络和 U.2 存储,让信息交互更快捷易用。2)高效液冷设计。CPU、GPU分离式模块化设计,可独立拆装维护;CPU 冷板散热设计,最大支持 2*270W TDP。GPU 冷板散热设计,最大支持 8*500W TDP;可支持 45C 供液,高温液体散热有效降低数据中心能耗。3)自主设计,支持全功能定制。服务器所有主要部件和BIOS,BMC软件全部自主设计可为用户提供按需定制功能在批量部署时满足用户机房特殊规格和管理需求。(五)(五)浪潮浪潮 NF5698G7NF5698G7 浪潮信息与英特尔发布新一代 AI 服务器 NF5698G7 支持 8 颗 OAM高速互联的 Gaudi2 加速器,具备高性能、高扩展、高能效和开放生态等优点,将为 AI 客户提供强大的大模型训练和推理能力。131 AI 服务器白皮书(2023 年)ODCC-2023-01005 图 96.浪潮 NF5698G7 1 1典型配置典型配置 NF5698G7 服务器配置:1)6U 机箱,单个服务器支持 2 颗英特尔 SPR 处理器;2)支持 8 颗 Gaudi HL225B 加速芯片;3)最多 32 个 DDR5 内存插槽,内存速率最高 4800MT/s;4)2 个全高半长 x16 插槽 8 个低型 x16 插槽;5)支持 242.5 寸硬盘或 16 个 NVMe U.2 SSD。2 2技术特点技术特点 1)高性能。8*600W Gaudi2 OAM,96GB HBM 大显存容量;2.1TB/s P2P 互联总带宽全互联拓扑满足大模型训练张量并行每秒数百GB通信需求;384卡311分钟完成MLPerf GPT-3训练Benchmark。132 AI 服务器白皮书(2023 年)ODCC-2023-01005 2)高扩展。最大支持 4800Gbps 节点间互联带宽;支持 RDMA网络进行计算和存储通信,扩展多至万芯集群;满足大模型流水线并行、数据并行等通信需求。3)高能效。精细化分区,智能散热调控,12V&54V N N 双输入供电;高功率负载动态匹配,零电源转换损耗,系统功耗降低8%。4)开放生态。全球开放计算 OCP 开放加速器规范 OAMv1.1/UBB v1.5;支 持PyTorch/TensorFlow等 主 流AI框 架,Megatron/DeepSpee 的开发工具;为生成式 AI 提供成熟、高性价比的开放生态产品方案。(六)(六)H3C UniServer R5500 G6H3C UniServer R5500 G6 H3C UniServer R5500 G6 是搭载全新 NVIDIA HGX H800 8-GPU模组的人工智能服务器。8 块 H800 GPU 通过 6 个 NVSWITCH 实现400GB/s 的全互联,AI 算力对比上一代产品提升 3.4 倍。可应用于大规模训练、语音识别、图像分类、机器翻译等多种人工智能业务场景。133 AI 服务器白皮书(2023 年)ODCC-2023-01005 图 97.H3C UniServer R5500 G6 1 1典型配置典型配置 H3C UniServer R5500 G6 配置如下:1)8U 机箱,单服务器支持 2 颗英特尔处理器,单颗可达 60 物理核心或 2 颗 AMD 处理器,单颗可达 96 个核心;2)前置可支持 24x2.5 或 24x3.5 SAS/SATA 或最高支持 16x2.5 NVMe U.2 SSD;3)支持 24 根(AMD 计算板)/32 根(英特尔计算板)DDR5 内存,支持内存最高工作速率 4800MT/s;4)最大可扩展 12 个 PCIe 5.0 插槽;5)支持 1 组英伟达 HGX H800 8-GPU;6)最高支持 29 块 2.5 英寸支持 SATA/SAS/NVMe 硬盘,其中 12块 NVMe;支持 2 块板载 M.2。134 AI 服务器白皮书(2023 年)ODCC-2023-01005 2 2技术特点技术特点 1)强劲算力。支持最新一代 NVIDIA HGX H800 8-GPU,GPU 算力较上代提升多达 3 倍;C500 G6 节点支持两颗高达 60 Core 的Intel 第四代至强可扩展处理器;C550 G6 节点支持两颗高达 96 Core 的 AMD EPYC 9004 系列(Genoa)处理器;PCIe Gen5 支持400Gb 网卡和 NVMe SSD 等扩展;支持多达 32 根 DDR5 内存,可以支持高达 12TB 的内存容量。2)灵活架构。支持Intel 平台和AMD 平台双CPU 平台切换;支持多达 12 个 PCIe 5.0 X16 槽位和 1 个 OCP 3.0 槽位;最大支持 29SFF 硬盘,其中可以支持到多达 12 块 NVMe SSD;主板板载支持2 个M.2(SATA/NVMe);支持可信平台模块(TPM2.0/TCM1.0),可提供高级加密功能。3)模块化设计。R5500 G6 采用全模块化的设计,整机的各个模块都支持独立拔插维护,提高了可维护性。CPU 计算模块:支持Intel 第四代至强可扩展处理器和 AMD Genoa 处理器,双 CPU 平台自由切换;GPU 计算模块:依托 NVIDIA HGX H800 8-GPU 提供业界超强算力;电源模块:GPU 平台支持 6 个 3000W 54V 电源,CPU 平台支持 2 个 2000W/2400W 12V 电源,均支持 N N 冗余,同时双平台供电可以有效减少 54V 和 12V 转换时的能源损耗;风扇模块:15 个8086 风扇,支持 N 1 冗余,可以提供近 1400CFM 的风量;硬盘模 135 AI 服务器白皮书(2023 年)ODCC-2023-01005 块:前置支持 8SFF/16SFF/25SFF 硬盘背板切换、后置支持 4SFF 硬盘背板,整机支持多达 12 块 NVMe SSD。图 91.R5500 G6 分模块图 七、七、行业行业情况分析情况分析 (一)(一)行业现状行业现状 1 1智能算力行业现状:政策支撑创新,市场前景广阔智能算力行业现状:政策支撑创新,市场前景广阔 智能算力作为数字经济时代的核心生产力,正引领着人工智能技术的发展和应用。其在推动国家经济建设、科技实力提升以及生产力发展等方面扮演着举足轻重的角色。1)行业动态 随着人工智能技术的快速发展,对算力的需求呈现出爆发式增长。人工智能任务的复杂性和数据量的迅猛增加,使得传统计算能力远不能满足需求,智能算力的重要性日益凸显。行业动态显示,136 AI 服务器白皮书(2023 年)ODCC-2023-01005 人工智能正在成为国家战略的重要组成部分,不仅在经济、科技领域持续推动创新,还在各行各业催生着新的业务模式和应用场景。中国政府明确提出人工智能的战略地位,将其作为国家核心竞争力的重要支撑。政策的推动,特别是新基建和数字经济政策的利好,为智能算力市场带来了巨大的机遇。IDC 预测,2022 年中国人工智能市场的支出将达到130.3亿美元,并有望在2026年达到266.9亿美元,年复合增长率达19.6%。这一趋势表明,智能算力市场将持续稳步增长,为人工智能应用提供坚实的支持。在行业动态方面,智能算力正经历以下几个关键趋势:(1)深度学习的兴起:深度学习是推动智能算力发展的关键引擎之一。神经网络模型的复杂性意味着对于高性能计算的需求迅速增长。图形处理器(GPU)在加速深度学习方面发挥了重要作用,而且在这个领域的创新仍在持续进行。(2)边缘计算的兴起:随着物联网技术的发展,越来越多的智能应用需要在边缘设备上进行处理,这促使在边缘设备上实现高效能力成为一个重要的趋势。边缘设备通常具有有限的计算资源,因此需要在有限的资源下实现高效的智能算力。(3)量子计算的前景:量子计算作为未来的一项前沿技术,引发了广泛关注。虽然量子计算机目前仍处于研究阶段,但其潜在的计算能力远超传统计算机,有望在解决一些复杂问题上取得突破。137 AI 服务器白皮书(2023 年)ODCC-2023-01005 2)市场规模 智能算力市场的规模在不断扩大,这是因为人工智能的迅速发展对计算能力提出了更高要求。基于数据中心的计算需求和边缘设备上的实时推理,智能算力的规模不断攀升。据数据显示,中国智能算力规模持续增长,2021 年已达到 155.2 每秒百亿亿次浮点运算(EFLOPS),而预计到 2026 年将达到 1,271.4EFLOPS。通用算力规模也呈现快速增长,2021 年达到 47.7EFLOPS,预计到 2026 年将达到111.3EFLOPS。这表明智能算力规模将以惊人的速度增长,为人工智能任务的处理提供强有力的支持。中国政府在数字基础设施建设方面加大了投入,启动了“东数西算”工程,通过建设智能计算中心和国家算力枢纽节点,推进算力基建化发展。这为算力的规模扩大和基础设施的优化提供了有力的支撑。智能计算中心的建设不仅有助于推动产业升级,还能为企业提供更低成本的算力服务,促进产业的可持续发展。根据市场研究机构的数据,智能算力市场在过去几年中能够以每年超过 20%的复合增长率增长。主要受以下几个因素驱动:(1)云计算的普及:云计算平台为用户提供了灵活的计算资源,使得用户可以根据需要快速扩展或缩减计算能力。云服务商不断增加其计算能力,以满足不断增长的人工智能工作负载需求。138 AI 服务器白皮书(2023 年)ODCC-2023-01005(2)大数据分析的需求:随着大数据的积累,越来越多的企业和研究机构需要处理海量数据。智能算力在数据分析、模式识别等领域发挥着关键作用,这促使市场对高性能计算的需求持续增加。(3)人工智能应用的拓展:人工智能技术的应用领域不断扩展,涵盖了医疗、金融、制造业、交通等各个行业。这些行业的应用需求推动了智能算力市场的多样化发展。3)产业热点 人工智能算法和模型的多样化、巨量化、专业化是当前智能算力领域的重要热点。在智能算力的支持下,人工智能算法模型不断创新,应用场景不断扩展,使得人工智能在各个行业的应用渗透度逐步提升。针对不同应用场景的需求,市场积极探索面向专业场景的轻量化模型,加速实现人工智能的普惠化目标。同时,企业也在加速模型落地的过程中,寻求行业解决方案商的支持,以缩小技术创新和应用落地之间的差距。在人工智能算力的发展过程中,计算架构也在不断演进。基于领域特定架构(Domain-Specific Architectures)设计的人工智能芯片,正逐渐成为主导,多元算力系统架构创新也在推动多芯片、多板卡、多节点的高效协同,提升计算性能。此外,人工智能在各个行业的应用渗透度不断提升,尤其在互联网、金融、政府、电信 139 AI 服务器白皮书(2023 年)ODCC-2023-01005 和制造等行业得到广泛应用,人工智能已经成为企业寻求新的业务增长点、提升用户体验、保持核心竞争力的重要能力。智能算力领域的产业热点主要集中在以下几个方面:(1)异构计算架构的发展:异构计算架构将不同类型的计算单元(如 CPU、GPU、FPGA 等)集成在一起,以实现更好的性能和能效平衡。在这种架构下,不同类型的计算单元可以协同工作,为不同类型的任务提供最优计算能力。(2)能效优化的追求:高性能计算所带来的能源消耗成为一个重要问题。智能算力领域正在致力于研究和开发能效更高的硬件和软件解决方案,以减少数据中心的能源消耗和碳排放。(3)自主研发芯片的兴起:为了更好地满足人工智能工作负载的需求,许多公司开始自主研发智能芯片。这些芯片在设计上针对特定任务进行了优化,可以提供更高效的计算能力和更低的延迟。综合来看,智能算力在人工智能技术发展中扮演着不可替代的角色。随着人工智能的持续发展和应用场景的扩大,智能算力的需求将持续增长。中国政府的政策支持和数字基础设施建设将为智能算力市场提供有力的支撑。从深度学习到量子计算,从云计算到边缘计算,智能算力领域的各个方面都在不断创新,为未来的技术发展和商业应用创造了广阔的前景。随着技术不断创新和市场竞争的 140 AI 服务器白皮书(2023 年)ODCC-2023-01005 加剧,智能算力市场将继续迎来新的机遇和挑战,为人工智能的未来发展创造更加广阔的空间。2 2AIAI 服务器行业现状:中国市场领军,创新驱动未服务器行业现状:中国市场领军,创新驱动未来来 随着人工智能技术的迅猛发展,AI 服务器作为支撑其高效运行的关键基础设施,正成为人工智能市场的中流砥柱。从行业动态、市场规模到产业热点,AI 服务器行业呈现出持续创新、高速增长的态势,引领着人工智能的蓬勃发展。1)行业动态 AI 技术的核心引擎:人工智能服务器在人工智能技术应用中扮演着核心引擎的角色。其强大的计算能力、高速的数据传输速度以及高效的能源利用率,使得人工智能任务如训练深度学习模型、进行实时推理等能够在高效的硬件基础上得以实现。在人工智能市场的推动下,AI 服务器已成为产业发展不可或缺的组成部分。技术创新助力进步:AI 服务器领域不断涌现出技术创新,推动其性能和功能的提升。从硬件层面,GPU、TPU、FPGA 等专门的 AI 加速芯片得到广泛应用,大大提高了服务器在人工智能任务中的效率。同时,服务器架构、散热设计等方面的创新也不断地改进了服务器的整体性能和可靠性。2)市场规模 141 AI 服务器白皮书(2023 年)ODCC-2023-01005 AI 服务器市场规模正持续扩大,受益于云计算和大数据的推动。随着人工智能技术在各个行业的应用日益广泛,对高效能力和低能耗的 AI 服务器需求不断增加,推动了市场规模的增长。中国市场领军:在全球范围内,中国市场成为 AI 服务器的领军者之一。根据 IDC 数据,2021 年全球人工智能服务器市场的规模达到 156.3 亿美元,同比增速高达 39.1%。而中国市场更是以 68.2%的增速实现了人工智能服务器市场规模达到 59.2 亿美元。这种迅速的增长体现了中国在人工智能领域的强大需求和投入。持续增长预期:随着人工智能技术应用的深入和拓展,AI 服务器市场有望持续增长。根据预测,到 2026 年,全球人工智能服务器市场规模将达到 347.1 亿美元,复合增长率为 17.3%。这一预期增长率显示了 AI 服务器市场在未来几年内仍将保持高速发展的势头。3)产业热点 国产化推动发展:中国政府高度重视人工智能领域的发展,推出一系列政策支持国产芯片、服务器等硬件设备的研发和应用。在AI 服务器领域,国内厂商如浪潮、新华三、宁畅、曙光、华为等积极参与竞争,并不断提升产品性能和质量,推动了人工智能服务器产业的国产化进程。推理工作负载成重点:随着人工智能应用的成熟,企业开始将更多的精力投入到人工智能模型的推理工作负载上。这意味着人工 142 AI 服务器白皮书(2023 年)ODCC-2023-01005 智能模型将逐步进入广泛的投产和应用阶段。根据 IDC 数据,中国2021 年数据中心用于推理工作负载的服务器市场份额已经超过半数,达到57.6%。这一趋势将引导企业在人工智能服务器规划中更加注重服务器利用率的提升。跨链路布局:人工智能应用的多样性和复杂性要求服务器的部署更加灵活。越来越多的企业开始构建跨本地数据中心、云和边缘的全链路人工智能基础设施,以满足不同场景的需求。这种全链路布局将加强数据收集、分析、存储等所有环节的协同,提高整体效率和响应速度。总体而言,AI 服务器作为支持人工智能计算的关键基础设施,AI 服务器行业在中国市场领军的引领下,正处于持续创新和高速增长的时期。技术创新不断推动其性能提升,市场规模快速扩张,产业热点不断涌现。从人工智能技术的驱动到市场需求的引导,AI 服务器行业正在不断地塑造着人工智能的现实和未来。3 3AIAI 芯片行业现状:技术蓬勃发展,市场迅速扩张芯片行业现状:技术蓬勃发展,市场迅速扩张 在全球人工智能技术迅速发展的背景下,AI 芯片作为支撑人工智能应用的核心驱动力,正迎来前所未有的发展机遇。不断的技术创新和巨大的市场潜力共同构成了 AI 芯片行业的繁荣景象。1)行业动态 143 AI 服务器白皮书(2023 年)ODCC-2023-01005 技术创新引领发展:AI 芯片领域持续涌现出各种创新技术,为人工智能的应用赋予更强大的计算能力和更高效的处理速度。从GPU、ASIC 到 FPGA,不同类型的芯片在处理人工智能任务时,都呈现出卓越的性能和能效优势。近年来,量子计算、光学计算等新兴技术也开始在 AI 芯片领域崭露头角,为行业带来了更多可能性。芯片多样性增加:AI 应用的多样性和复杂性要求不同类型的芯片来满足不同需求。通用性和定制性并存,ASIC、GPU、FPGA、NPU等芯片类型都在不同场景中找到了应用。AI 芯片的多样性使得市场更加丰富,为不同行业和应用领域提供了更好的解决方案。2)市场规模 迅速扩张的市场规模:随着人工智能应用的普及和深入,AI 芯片市场规模呈现出迅猛的增长态势。根据 IDC 的预测,到 2025 年,全球人工智能芯片市场规模将达到 726 亿美元。中国作为全球最大的人工智能市场之一,也在 AI 芯片领域表现出强劲的增长势头。不同领域需求推动发展:人工智能应用已经渗透到各个领域,从金融到医疗,从制造到农业,无不需要强大的 AI 芯片来支持数据分析、模型训练和实时决策。智能驾驶、物联网、人脸识别等领域的不断发展,也为 AI 芯片的需求提供了持续的动力。3)产业热点 144 AI 服务器白皮书(2023 年)ODCC-2023-01005 技术国产化成为重要方向:高度依赖进口芯片的局面,使得技术国产化成为中国 AI 芯片产业发展的重要方向。政府出台一系列政策扶持,鼓励本土企业加大在 AI 芯片领域的研发投入。这种国产化的努力不仅有助于提高产业的自主可控能力,也为中国在全球 AI 芯片市场上赢得更多竞争优势。低功耗成为趋势:随着人工智能应用在移动设备和边缘端的普及,低功耗 AI 芯片逐渐成为市场的重要趋势。在实现高性能的同时,降低能源消耗已经成为芯片设计的重要目标。低功耗芯片有望满足边缘计算的需求,支持更多复杂场景的人工智能应用。生态建设加速:AI 芯片的生态建设逐步完善,包括芯片设计、制造、应用软件等多个环节。越来越多的企业开始关注芯片生态,推动开发更多的应用场景和解决方案。技术创新、产业协同以及开放合作,共同推动着 AI 芯片生态的健康发展。AI 芯片行业正处于蓬勃发展的关键时期,技术创新不断涌现,市场规模迅速扩张,产业热点不断涌现。多样性的芯片类型、国产化努力、低功耗趋势和生态建设的加速,都为 AI 芯片行业的繁荣创造了有利条件。在不断变化的环境中,AI 芯片行业将继续推动人工智能技术的前进,为各行各业的创新和发展提供强有力的支持。145 AI 服务器白皮书(2023 年)ODCC-2023-01005(二)(二)行业趋势行业趋势 1 1技术创新塑造技术创新塑造 AIAI 服务器未来服务器未来 技术创新是推动 AI 服务器未来发展的核心驱动力之一。在不断演进的人工智能领域,新的技术将不断涌现,为 AI 服务器提供更强大、高效的计算能力和应用支持。本部分将探讨 AI 服务器未来在技术方面的几个重点发展方向。1)新一代硬件技术:量子计算与光计算 随着传统计算能力的瓶颈逐渐显现,新一代硬件技术正引领着AI 服务器的未来。其中,量子计算和光计算是备受瞩目的领域。根据 IBM 在 2021 年发布的数据,他们的量子计算机已经实现了超过 65位的量子位数,相较于传统二进制计算,量子位的并行性能将极大提升计算速度和能力。而光计算作为一种能够利用光子来进行计算的技术,也呈现出更高的计算效率和能耗更低的特点。据光计算领域的专家预测,光计算将在未来十年内取得重大突破,为 AI 服务器带来更为高效的计算架构。2)自主学习算法与迁移学习的融合 AI 服务器的未来将更加注重算法的创新。自主学习算法的发展将使得 AI 服务器能够不断优化自身的性能,适应不同任务和场景的需求。同时,迁移学习作为一种能够从一个领域中学习到的知识迁移到另一个领域的技术,将极大地减少训练数据的需求。以图像识 146 AI 服务器白皮书(2023 年)ODCC-2023-01005 别为例,研究表明,在某一领域训练有素的模型可以通过迁移学习在另一领域取得更快的收敛和更好的效果,从而节省时间和计算资源。3)量子神经网络的探索与应用 随着量子计算的发展,量子神经网络作为一种新兴的神经网络架构,正受到越来越多的关注。这种网络架构基于量子比特而非传统的经典比特,具有更强大的计算能力和表示能力。研究人员已经开始尝试将量子神经网络应用于图像处理、自然语言处理等领域,取得了一些初步的成功。根据 Quantum Computing Report 的数据,到 2025 年,预计将会有更多的量子神经网络应用问世,为 AI 服务器提供更强大的计算支持。4)分布式计算与边缘计算的融合 随着物联网的兴起和边缘计算的发展,分布式计算与边缘计算正逐渐融合,为 AI 服务器带来新的机遇。根据 IDC 的数据,预计到2025 年,全球边缘计算市场规模将达到数千亿美元。边缘计算能够将计算资源更接近数据源,降低延迟,适用于对实时性要求较高的应用场景。AI 服务器将在这一趋势下扮演重要角色,通过边缘计算为物联网设备提供强大的计算支持。5)数据驱动的自动化优化技术 147 AI 服务器白皮书(2023 年)ODCC-2023-01005 数据在 AI 服务器的发展中扮演着重要角色。数据驱动的自动化优化技术将使得 AI 服务器能够根据实际应用需求自动调整参数和架构,从而实现更高效的计算。根据 OpenAI 的研究,数据驱动的自动化优化技术已经在自然语言处理任务中取得了显著的效果,提高了模型的性能。这种技术的发展将进一步提升 AI 服务器的智能化水平。通过以上技术创新,AI 服务器的未来将迎来更高效、更智能的发展。这些创新不仅将提升计算能力,还将为 AI 应用提供更广泛的应用场景,推动人工智能技术在各个领域的广泛应用。2 2产业生态建设塑造产业生态建设塑造 AIAI 服务器市场格局服务器市场格局 AI 服务器市场正逐步形成一个完整的产业生态系统。各方的协同发展和合作,包括芯片制造商、硬件供应商、系统集成商、云服务提供商等,共同推动 AI 服务器市场的繁荣。这一繁荣不仅受益于技术的迅猛进步,也受制于不断扩展的应用领域,以及不断深化的合作模式。1)芯片制造商引领技术创新 在 AI 服务器生态系统中,芯片制造商扮演着关键角色。其研发的高性能 AI 芯片,如 GPU、TPU、FPGA 等,不仅提供了强大的计算能力,还在能效和算法加速方面不断创新。随着人工智能算法的不断发展,芯片制造商将面临对性能、能效、成本等多方面的挑战。148 AI 服务器白皮书(2023 年)ODCC-2023-01005 因此,他们将不断探索新的材料、架构和设计,以满足不断变化的市场需求。2)硬件供应商实现多样化发展 硬件供应商在 AI 服务器市场的格局中也具有重要地位。随着市场的不断扩大,硬件供应商不仅需要关注性能和功能的提升,还需要关注多样性和定制化需求。根据不同行业和应用领域的需求,硬件供应商将提供不同类型的 AI 服务器解决方案,从高性能计算到边缘推理,从大规模数据中心到小型企业部署,以满足多样化的市场需求。3)系统集成商促进定制化应用 系统集成商在 AI 服务器生态系统中的作用日益重要。他们不仅负责将各类硬件整合为完整的服务器系统,还承担着定制化解决方案的开发和部署。随着各个行业对 AI 应用的需求差异越来越大,系统集成商将扮演着桥梁的角色,将通用的 AI 服务器转化为适用于特定场景和任务的定制化产品,推动 AI 技术更广泛地渗透到各个领域。4)云服务提供商推动市场普及 云服务提供商在 AI 服务器市场中发挥着关键作用,将 AI 计算能力以云服务的形式提供给企业和个人用户。他们将 AI 服务器作为核心资源,通过云平台为用户提供弹性的计算能力,使得人工智能 149 AI 服务器白皮书(2023 年)ODCC-2023-01005 技术更加易于获取和使用。云服务的灵活性和可扩展性使得 AI 技术能够迅速在不同行业和规模的企业中得以应用,推动了市场的普及和推广。5)多层次需求推动市场细分 AI 服务器市场将逐渐细分为多个层次,以满足不同场景和行业的需求。大型数据中心需要高性能的 AI 服务器来支持大规模训练任务,而边缘计算领域则需要低延迟的 AI 服务器以满足实时性要求。中小型企业可能更关注成本效益和易用性,需要适用于小规模部署的定制化解决方案。这种多层次的市场需求将促使厂商根据不同领域和规模的需求,提供更加差异化和个性化的 AI 服务器产品。综上所述,AI 服务器市场的产业生态正在不断建设和发展,各个环节的协同作用将推动市场的繁荣和创新。芯片制造商、硬件供应商、系统集成商、云服务提供商等不同角色的合作,将助力 AI 服务器市场更好地满足多样化的市场需求,实现技术的持续进步和应用的广泛拓展。3 3多元主体合作推动多元主体合作推动 AIAI 服务器的未来服务器的未来 随着人工智能技术的快速发展,AI 服务器的未来呈现出多元主体合作的新格局。不再仅仅局限于硬件和软件供应商的角色,AI 服务器领域的进一步发展将深受云服务提供商、数据中心运营商等多元主体的影响与推动。这种多元主体合作的趋势将在不同层面促进 150 AI 服务器白皮书(2023 年)ODCC-2023-01005 技术创新、资源整合以及跨领域融合,为 AI 服务器的未来带来更广阔的发展前景。1)云服务提供商与 AI 服务器的协同发展 云服务提供商在 AI 服务器领域的崛起,为多元主体合作注入了新的动力。云计算平台的高度灵活性和强大计算能力使得云服务提供商能够为用户提供更加便捷和定制化的 AI 解决方案。未来,云服务提供商有望将 AI 服务器集成到其云平台中,为用户提供一站式的AI 基础设施和开发环境,从而加速 AI 技术的普及和应用。谷歌作为全球知名的云服务提供商,通过其 Google Cloud 平台,不仅为用户提供了高性能的计算资源,还融合了其自身的 AI 技术,如TensorFlow 等,使用户可以在云上构建和训练复杂的人工智能模型。谷歌的 AI 服务器解决方案不仅仅是硬件设备,更是结合了云计算、AI 技术和大数据分析等多个领域的综合应用。2)数据中心运营商的角色转变 数据中心运营商不再局限于传统的基础设施提供者,而是成为了 AI 服务器领域中的关键参与者。数据中心的高性能计算和存储能力成为了支撑 AI 技术发展的基础,数据中心运营商通过与硬件供应商、云服务提供商等合作,可以为 AI 服务器的创新和部署提供更加全面的支持。未来,数据中心将在 AI 服务器的开发、优化和运营中扮演着更加重要的角色。151 AI 服务器白皮书(2023 年)ODCC-2023-01005 中国电信作为国内数据中心运营商领头羊之一,不仅提供高性能的服务器设备,还将 AI 技术应用于数据中心的管理和优化中,通过智能化的运维,提高了服务器的利用率和性能。此外,中国电信还与硬件供应商紧密合作,推动 AI 服务器在网络通信领域的创新,为 5G 等新技术提供强大的计算支持。3)跨行业合作推动技术创新 多元主体合作将不同行业的技术和应用场景融合在一起,为 AI服务器领域带来全新的创新机遇。例如,医疗、交通、金融等领域的需求将促使 AI 服务器技术在不同场景下进行定制化优化,以满足不同行业的特定需求。多个主体的跨界合作将加速技术的交叉创新,从而推动 AI 服务器的性能和功能不断提升。在医疗领域,IBM 与医疗机构合作开发了 Watson Health 平台,该平台利用 AI 技术分析医疗图像、医疗记录等数据,辅助医生进行诊断和治疗决策。这种跨界合作将医疗和人工智能技术结合起来,为医疗行业带来了革命性的变革。4)资源整合优势助力生态建设 多元主体合作有助于实现资源的高效整合,促使 AI 服务器生态的建设更加完善。不同主体之间可以共享技术、经验和资源,从而降低开发和运营成本,加速 AI 服务器的推广和普及。此外,多元主体合作也将为创新创业者提供更多的机会,激发更多新的想法和解 152 AI 服务器白皮书(2023 年)ODCC-2023-01005 决方案,进一步丰富 AI 服务器生态系统。以 NVIDIA 为例,作为全球知名的人工智能硬件供应商,他们通过与各种软件开发商、云服务提供商合作,构建了一个全面的生态系统。NVIDIA 的 GPU 技术不仅在数据中心中应用,还广泛用于自动驾驶、医疗影像分析、科学研究等领域,为不同行业提供了高性能的 AI 计算平台。综上所述,多元主体合作将是 AI 服务器未来发展的重要动力。在云服务提供商、数据中心运营商等多种主体的共同推动下,AI 服务器领域将迎来更加定制化、高效能的解决方案,技术创新将在不同行业之间得到跨界融合,资源整合优势将助力 AI 服务器生态的全面建设。这种多元合作的格局将为 AI 服务器的未来创造更为广阔的发展空间。4 4绿色可持续是绿色可持续是 AIAI 服务器未来的方向服务器未来的方向 随着人工智能的广泛应用,巨大的计算需求导致了数据中心能耗的迅速增加。目前,全球数据中心能耗已经占到了全球电力消耗的约2。这一数字在人工智能爆发式增长的背景下,很可能会进一步上升。在这一背景下,AI 服务器作为高能耗设备,为了减少人工智能发展对环境的负面影响,绿色 AI 服务器的研发和推广变得尤为迫切。以下将从能源效率、碳排放、循环利用等角度,探讨 AI 服务器未来绿色可持续发展的趋势。1)能源效率的提升 153 AI 服务器白皮书(2023 年)ODCC-2023-01005 AI 服务器的高性能计算需求通常伴随着大量的能源消耗。因此,提高能源效率成为降低碳足迹的重要途径之一。传统的服务器在处理高强度计算任务时通常会产生大量的热量,需要大量的冷却设备来维持温度,这进一步增加了能源的消耗。新一代 AI 服务器将借助先进的硬件架构和优化的散热系统,实现更高的计算密度和更低的功耗。例如,采用 AI 加速卡、低能耗处理器、自适应散热技术等,能够显著提高 AI 服务器的能源利用率,从而降低其运行成本和环境影响。2022 年,NVIDIA 发布的 A100 Tensor Core GPU 采用了 7nm 工艺,相较前代产品提供了更高的计算性能,但功耗却减少了约20%。这意味着在相同的计算任务下,AI 服务器所需的能源消耗大大降低。2)碳排放的减少 AI 服务器的大规模运算和训练过程通常伴随着大量的碳排放。通过采用低碳能源、优化冷却系统等措施,AI 服务器可以显著降低其碳足迹。OpenAI 于 2021 年发布的 GPT-3 模型,在训练过程中产生的碳排放相当于一个普通汽车的数百年排放量。未来,AI 服务器的制造商将采用更多的可再生能源,以及更高效的制造流程,从而减少其产品的整体碳足迹。此外,AI 服务器的制造和运营过程中也会产生大量的碳排放。为了减少碳足迹,一些公司开始采用可再生能源,如太阳能和风能,来供电其数据中心。另外,一些公司也在寻找更环保的材料和制造工艺,以降低服务器的制造过程中的环境影响。例如,微软在其服 154 AI 服务器白皮书(2023 年)ODCC-2023-01005 务器制造过程中开始采用可降解的材料,并致力于实现更环保的生产流程。谷歌在 2017 年宣布实现了 100的可再生能源供电,这意味着其数据中心和服务器在运营过程中不再依赖于传统的化石燃料。此外,谷歌还承诺在未来所有的硬件产品生命周期中抵消其碳排放,通过投资碳汇项目来实现。这个举措不仅在硬件产品中体现出绿色可持续,也为整个公司的可持续发展树立了榜样。3)循环利用与回收 随着 AI 服务器的更新换代速度加快,旧设备的处理也成为一个环保问题。循环利用和回收将成为 AI 服务器未来绿色发展的趋势之一。制造商可以设计更易于拆解和回收的产品结构,提高设备的再利用率。此外,开展二手设备市场也是一种减少电子废弃物的途径,将老旧 AI 服务器重新流通,减少资源浪费。德国某家数据中心运营商在设备报废后,将其服务器中的可重复利用部件进行拆解和检测,重新投入到生产流程中。这种做法不仅减少了废弃物,还节约了新原材料的使用。4)数据中心的能效提升 数据中心是 AI 服务器的核心,提升数据中心的能效将直接影响AI 服务器的可持续性。通过采用智能化的能源管理系统,数据中心可以根据实际负载动态分配资源,避免资源的浪费。例如,155 AI 服务器白皮书(2023 年)ODCC-2023-01005 Facebook 在其位于瑞典的数据中心中采用了自适应风冷技术,利用外部冷空气进行散热,降低了能耗。综上所述,AI 服务器的绿色可持续发展不仅是对环境的责任,也是未来市场竞争的优势。通过提高能源效率、减少碳排放、推动循环利用等措施,AI 服务器制造商将能够在绿色可持续发展的道路上迈出坚实的步伐,为人工智能技术的可持续应用奠定基础。5 5标准化推动标准化推动 AIAI 服务器的未来发展服务器的未来发展 在当今数字化时代,人工智能技术的蓬勃发展引领着各行各业的变革与创新。而作为支撑人工智能应用的关键基础设施,AI 服务器的未来发展将受到标准化的重要推动。标准化不仅有助于确保技术的互操作性,还能够提升数据安全性、优化能源利用,推动整个行业朝着更有序、更安全、更高效的方向迈进。1)技术标准:确保互操作性和协同创新 在 AI 服务器领域,不同厂商和开发团队可能采用不同的技术路线和架构设计。然而,缺乏统一的技术标准可能导致各种问题,如系统集成困难、软硬件兼容性差等。因此,制定统一的技术标准显得尤为重要。以 PCIe(Peripheral Component Interconnect Express)技术为例,该技术为服务器内部不同组件提供高速数据传输通道,加速了数据在服务器内部的交换。制定的 PCIe 标准促使不 156 AI 服务器白皮书(2023 年)ODCC-2023-01005 同厂商的服务器硬件可以更好地协同工作,进而加速了 AI 模型训练和推理的速度。2)数据安全标准:保障隐私和防范风险 随着人工智能在金融、医疗等敏感领域的应用不断增加,数据安全问题变得尤为突出。标准化的数据安全规范可以在数据传输、存储和处理等环节加强隐私保护,防范数据泄露和黑客攻击。ISO/IEC 27001 标准是国际上广泛使用的信息安全管理体系标准,它提供了一个全面的框架,帮助组织建立和维护信息安全管理体系。通过遵循这一标准,AI 服务器供应商可以确保其产品满足高水平的数据安全要求,从而为用户提供可信赖的服务。3)绿色环保标准:推动可持续发展 随着数字化浪潮的涌现,数据中心的能源消耗也逐渐成为环保关注的焦点。AI 服务器的高计算密集性使得其能耗问题尤为显著,而制定绿色环保标准可以引导 AI 服务器设计和制造过程中的能源效率提升,减少碳排放。能效比(PUE)是衡量数据中心能源使用效率的指标,标准化的 PUE 值可以促使数据中心和 AI 服务器供应商在设计、运维和冷却等方面进行优化,从而降低能源消耗。例如,Facebook 的 Prineville 数据中心在应用绿色技术和可再生能源方面取得了显著成就,其 PUE 值已经降低到了 1.06,远低于行业平均水平。157 AI 服务器白皮书(2023 年)ODCC-2023-01005 4)标准化的挑战和前景 尽管标准化对 AI 服务器的未来发展至关重要,但实施标准化也面临一些挑战。首先,技术的不断演进可能导致标准的迭代和更新,需要保持灵活性。其次,全球范围内的标准化协调也需要克服文化和法规差异,确保标准的广泛接受和落地。然而,标准化也带来了广阔的前景。通过标准化,AI 服务器的设计、制造和应用将更加高效,降低了开发和维护成本,同时还能够加速创新和技术交流。标准化还能够为全球 AI 服务器市场提供一个共同的语言,促进跨国合作,共同应对全球性的技术和伦理挑战。在 AI 服务器的未来发展中,标准化将充当重要角色,推动行业朝着更加健康、绿色、安全、高效的方向发展。技术标准、数据安全标准和绿色环保标准等将确保 AI 服务器的互操作性、数据隐私和环保可持续性。虽然标准化面临一些挑战,但其前景依然广阔,为全球 AI 生态系统的协同创新和发展提供了坚实的基础。(三)(三)应用实践应用实践 1 1AIAI 服务器在智算中心的应用实践服务器在智算中心的应用实践 人工智能计算中心,作为新型城市基础设施,专注于人工智能计算,依托 AI 基础软硬件平台构建,涵盖基建、硬件和软件基础设施。在国家统筹规划下,多个城市纷纷规划建设智算中心,其中深圳、武汉、中原、西安、成都、南京、杭州、沈阳、重庆、天津、158 AI 服务器白皮书(2023 年)ODCC-2023-01005 青岛等已投入使用,为超过 1200 家企业、120 家高校、70 家科研单位提供了算力支持。图 99.武汉人工智能计算中心 武汉人工智能计算中心:倚仗昇腾AI基础软硬件,武汉AICC于2021 年 5 月 31 日竣工启用,并在 2022 年 2 月 7 日完成扩容至总算力 200P。其“一中心四平台”战略创新,短短 5 个月从进场到正式运营,以“武汉速度”引领行业。此中心不仅诞生了全球首个三模态大模型紫东.太初,还成就了全球首个遥感影像智能解译专用框架武汉.LuoJiaNet,以及业界最大遥感影像样本数据集武汉.LuoJiaSet。多模态人工智能产业联盟和智能遥感开源生态联盟也在此成立,推动智能遥感和多模态产业的蓬勃发展。截至 2022年 12 月,该中心已吸引超过 80 家产业伙伴,孵化了近 100 个 AI 创新解决方案。159 AI 服务器白皮书(2023 年)ODCC-2023-01005 图 100.西安未来人工智能计算中心 西安未来人工智能计算中心:2021 年 5 月启动建设的西安未来人工智能计算中心,经过四个月建设,于 2021 年 9 月投入运营,初期提供 AI 算力 300P、HPC 算力 8P。作为西北地区首个大规模 AI 算力集群,致力于促进人工智能产业集群发展,推动科技成果转化、人才培养及政产学研用融合。该中心已与 170 多家企业合作,孵化了 150 多个场景化解决方案,涵盖遥感、语音、文旅、制造、交通等多个领域。同时,与高校及科研机构的合作也在前沿科技探索方面取得突破,例如“蛋白质结构预测大模型”和“雷达遥感大模型”。图 101.成都智算中心 160 AI 服务器白皮书(2023 年)ODCC-2023-01005 成都智算中心:成都智算中心于 2022 年 5 月 10 日正式上线,作为“东数西算”国家一体化大数据中心成渝 I 类节点中的重要部分,提供 300P 的 AI 算力平台以及城市智脑平台和科研创新平台。自上线以来,该中心与 80 余家企业及科研团队合作,平均算力利用率超过85%。在应用创新方面,中心正与领先企业如考拉悠然、长虹、华雁智科等合作,已孵化了 160 多个解决方案,覆盖智慧城市、智慧交通、电力、能源、金融等多个行业。在科研创新方面,成都智算中心孵化了一系列领先的预训练大模型,如“蓉城.夔牛”“蓉城.熊猫”和“空天.智译”。这些人工智能计算中心,凭借 AI 服务器的卓越性能,不仅推动了当地 AI 产业的发展,也为跨行业的科研和创新提供了强有力的支持,成为推动人工智能技术在各领域蓬勃发展的引擎。2 2AIAI 服务器在新兴技术中的应用服务器在新兴技术中的应用 随着人工智能和大模型技术的不断发展,AI 服务器成为了推动这些新兴技术应用的关键基础。在智能计算领域,AI 服务器不仅为各个行业提供强大的计算能力,还在人工智能和大模型应用中发挥着重要作用,推动了创新的突破和实际应用的落地。1)人工智能驱动的应用创新 人工智能正引领着技术创新的浪潮,AI 服务器作为支持其背后复杂计算的引擎,在各行各业都有着深刻的应用。例如,在金融领 161 AI 服务器白皮书(2023 年)ODCC-2023-01005 域,AI 服务器通过深度学习和自然语言处理技术,实现了金融数据的实时分析和预测,为投资决策提供智能支持。基于昇腾 AI 服务器的应用实践中,银行智慧网点的成功案例展示了通过无感知识别、动作分析等技术,优化客户服务和提升运营效率的成果。类似地,在教育领域,AI 服务器赋能了智能教育平台,通过个性化推荐和学习分析,提升了教育教学的质量和效率。2)大模型引领的领域革命 大模型技术的崛起正引发着领域革命,而 AI 服务器在训练和部署这些大模型方面发挥着不可或缺的作用。从自然语言处理到计算机视觉,大模型的应用已经改变了人们对于人工智能的认识。例如,在医疗领域,AI 服务器支持了依图医疗合作推出的肺炎诊断解决方案。通过大规模数据的训练,AI 服务器能够在几秒钟内对 CT 影像进行分析,极大提高了疾病诊断的准确率和效率。此外,通过基于大模型的深度学习技术,AI 服务器也在语音识别、自然语言生成等领域展现了强大的潜力。鹏城云脑:在科研领域,AI 服务器的应用助力了大模型的训练和研究。鹏城云脑作为国家级人工智能平台,基于昇腾 AI 服务器,实现了鹏程系列大模型的训练,如鹏程.盘古、鹏程.大圣、鹏程.神农等。这些大模型的训练为科研领域带来了新的突破和可能性。162 AI 服务器白皮书(2023 年)ODCC-2023-01005 AI 服务器在新兴技术的应用中发挥了重要的作用,推动了人工智能和大模型技术的不断创新和发展。随着技术的进一步演进,AI服务器将继续在新兴技术领域发挥重要作用,为社会的进步和发展贡献更多可能。3 3AIAI 服务器在典型行业的应用实践服务器在典型行业的应用实践 1)金融 随着人工智能技术的飞速发展,基于 AI 服务器打造的银行智慧网点、金融OCR、智能双录等解决方案等在金融行业中的应用正逐步改变着传统金融服务的模式,为金融机构带来了更高效、更安全、更个性化的解决方案。银行智慧网点:优化客户体验与服务银行智慧网点:优化客户体验与服务 在银行智慧网点中的应用,实现了从粗犷式发展到精细化管理的转变。通过结合无感知识别、动作分析等技术,能够精准地识别客户,创建客户画像,为银行提供有针对性的服务。招商银行深圳分行的案例证明,VIP 客户识别率提升 60% ,转化数量提升 4 倍;客户等待时间下降 70% ,客户满意度提升 50% ,充分展示了在银行智慧网点中的巨大潜力。金融金融 OCROCR:提升效率,降低风险:提升效率,降低风险 163 AI 服务器白皮书(2023 年)ODCC-2023-01005 金融 OCR 技术是金融行业中的又一重要应用。基于 Atlas 智能计算平台的 OCR 识别系统,具备高准确率的特点,能够快速采集证件与文档材料,缩短侦查、录入、核实的时间,提高客户满意度。此外,该系统还能够实现文本电子化,优化相关流程,有效提高工作效率,为金融机构实现降本增效提供了有力支持。智能双录:规避业务风险智能双录:规避业务风险 智能双录技术通过实时监督和事后统一质检,帮助金融机构规避业务风险。可实现现场实时监督,识别客户意愿并规避不规范操作,同时支持事后统一质检,筛查业务办理中的瑕疵并采取后续措施。这种全方位的监控与支持,使金融机构能够提升业务质量,减少潜在风险。综上所述,我们可以清楚地了解 AI 服务器在金融行业的多个方面都产生了积极影响。从银行智慧网点的精细化管理,到金融 OCR的效率提升,再到智能双录的业务风险规避,AI 服务器都在推动金融行业实现更高水平的智能化和现代化。随着技术的不断进步,我们有理由相信,AI 服务器将在金融行业持续发挥更大的作用,为金融服务注入更多创新和活力。2)医疗 随着人工智能的蓬勃发展,基于 AI 服务器打造的智能医疗影像、疾病预测与监测、医疗数据分析等解决方案在医疗领域中的应用正 164 AI 服务器白皮书(2023 年)ODCC-2023-01005 在取得令人瞩目的成就。AI 服务器作为支撑这些应用的关键基础设施,正为医疗行业带来革命性的变革。智能医疗影像:提升诊断效率和准确性智能医疗影像:提升诊断效率和准确性 在智能医疗影像领域展现出巨大潜力,通过深度学习和计算机视觉技术,使医疗影像的诊断更加高效和准确。以昇腾与合作伙伴依图医疗为例,合作推出的肺炎诊断解决方案,彻底改变了肺部 CT影像的诊断流程。相较传统的 1015 分钟的阅片时间,AI 服务器能够将其缩短至仅需 1015 秒,而诊断准确率从过去的 90%提升至了99%。这一突破性进展,大大加快了临床决策的速度,为医生提供了更为精准的诊断依据。疾病预测与监测:早期干预与精准治疗疾病预测与监测:早期干预与精准治疗 在疾病预测与监测领域,发挥着对潜在健康风险的敏感性和预测能力,有助于早期干预和精准治疗。通过分析大规模的医疗数据,能够识别出疾病的潜在迹象,提前警示医生和患者。例如,在感染病毒肆虐的背景下,AI 技术可以对大规模的病例数据进行分析,从而预测可能的疫情爆发趋势,为公共卫生部门提供重要决策依据。医疗数据分析:洞察医疗趋势和个体化治疗医疗数据分析:洞察医疗趋势和个体化治疗 在医疗数据分析方面,能够处理和分析大量的医疗数据,从中挖掘出有价值的信息,帮助医疗机构做出更加明智的决策。通过分 165 AI 服务器白皮书(2023 年)ODCC-2023-01005 析病历数据、药物疗效等信息,可以洞察医疗趋势,发现新的治疗模式和方法。此外,个体化治疗也是 AI 在医疗领域的应用之一。能够根据患者的基因信息、病历数据等,为每位患者提供量身定制的治疗方案,从而提高治疗效果。医疗机器人与辅助手术:精确操作与远程手术医疗机器人与辅助手术:精确操作与远程手术 AI 技术还在医疗机器人与辅助手术领域实现了突破。借助 AI 服务器的高性能计算能力,医疗机器人能够实现更为精确的操作。例如,在微创手术中,医疗机器人可以模拟医生的手动操作,实现更小的手术幅度和更精确的操作,从而减少了手术风险和患者疼痛。此外,AI 还使得远程手术成为可能。医生可以通过遥控操作机器人,进行跨越国界的手术,为无法前往医院的患者提供紧急救治。云端医疗服务:跨足地域限制云端医疗服务:跨足地域限制 在云端医疗服务中,打破了地域限制,使医疗资源能够跨足全球。通过云端平台,医生可以远程诊断和治疗患者,为偏远地区和医疗资源匮乏地区提供医疗支持。AI 技术使得远程医疗变得更加便捷高效,将先进的医疗资源延伸到人们生活的每个角落。由此可见,AI 服务器在医疗行业中的应用实践引领了医疗科技的革新。通过智能医疗影像、疾病预测与监测、医疗数据分析、医疗机器人与辅助手术以及云端医疗服务等多个领域的应用,不仅提 166 AI 服务器白皮书(2023 年)ODCC-2023-01005 升了诊断效率和治疗精度,还为医疗行业带来了更大的创新和发展机遇。3)制造业 制造业作为现代社会的重要支柱产业之一,在面临日益复杂的市场竞争和技术变革时,迫切需要创新的解决方案来提高效率、降低成本并提升产品质量。人工智能(AI)技术以其强大的数据分析和智能决策能力,为制造行业带来了新的机遇。智能生产流程优化智能生产流程优化 基于 AI 服务器打造的基础软硬件平台,在制造行业中的一个关键应用领域是智能生产流程优化。通过分析大规模的生产数据,能够识别生产中的瓶颈、异常和优化机会。例如,可以对生产线数据进行实时监测和分析,预测设备故障并提前进行维护,从而减少生产停机时间。这种实时智能优化不仅提高了生产效率,还降低了维护成本,为制造企业创造了更大的价值。质量控制和缺陷检测质量控制和缺陷检测 制造业对产品质量的要求日益提高,而基于 AI 服务器打造的基础软硬件平台在质量控制和缺陷检测方面发挥着重要作用。通过分析产品制造过程中的各种数据,如图像、声音和传感器数据,能够识别产品的缺陷和质量问题。举例来说,基于 AI 服务器打造的基础 167 AI 服务器白皮书(2023 年)ODCC-2023-01005 软硬件平台可以在生产线上对产品进行视觉检测,检测产品外观缺陷,从而提高产品质量并减少次品率。智能供应链管理智能供应链管理 供应链管理是制造业中的一个关键挑战,而基于 AI 服务器打造的基础软硬件平台在智能供应链管理方面有着巨大的潜力。通过分析供应链中的各种数据,如供应商交货时间、库存水平和市场需求,能够预测供应链中的变化并做出智能决策。这有助于制造企业更好地管理库存、降低运营成本,并及时应对市场需求的变化。智能产品设计和创新智能产品设计和创新 基于 AI 服务器打造的基础软硬件平台在制造业中还可以促进智能产品设计和创新。通过分析市场趋势、消费者反馈和竞争对手情报,能够帮助企业识别创新机会并优化产品设计。此外,还可以在产品模拟和虚拟测试中发挥作用,加速产品开发周期并降低开发成本。节能减排和可持续发展节能减排和可持续发展 制造业的可持续发展日益受到关注,基于 AI 服务器打造的基础软硬件平台在节能减排方面能够为制造企业做出贡献。通过分析能源消耗和生产过程中的碳排放数据,能够识别节能减排的机会,并 168 AI 服务器白皮书(2023 年)ODCC-2023-01005 提供优化建议。这有助于制造企业降低环境影响,实现可持续发展目标。总的来说,AI 服务器在制造行业的应用实践为制造企业带来了巨大的机遇和挑战。从生产流程优化到质量控制,从供应链管理到产品创新,AI 服务器通过其强大的计算和分析能力,推动了制造业的智能化和现代化。随着技术的不断发展,AI 服务器在制造领域的应用前景将会更加广阔,为制造业带来更大的变革和增长。4)运营商 通信行业作为现代社会的基础支撑之一,正逐步迈入智能化和数字化时代。在这个快速变革的背景下,AI 服务器正发挥着越来越重要的作用,为运营商提供智能化解决方案,从而优化运营、提升服务质量,以及推动整个通信行业的发展。智慧相册:优化用智慧相册:优化用户体验户体验 通信行业中,智慧相册解决方案借助 AI 服务器的强大计算能力,为用户提供更便捷的照片管理体验。以中移动的“和彩云”智慧云相册为例,通过Atlas 800推理服务器,该解决方案能够按照人物、物体、景色、时间等维度对相册内容进行分类,使用户能够更快速地浏览照片。此举不仅提升了用户的使用体验,还为运营商创造了增值服务的商机,增加了套餐的粘性。169 AI 服务器白皮书(2023 年)ODCC-2023-01005 智慧钢厂:实现智能生产智慧钢厂:实现智能生产 制造业的智能化升级也在通信行业得到了体现。基于 Atlas 800推理服务器,华菱湘钢智能转钢系统实现了钢板角度的实时分析,将钢板调整至目标角度,实现了从钢坯到转钢到轧钢的全流程 100%自动化。这一创新将制造业与通信行业相结合,通过智能算法和高性能计算,使得智能制造得以实现,为运营商提供高效的物资供应。智慧营业厅:提升服务效率智慧营业厅:提升服务效率 在通信运营商的营业厅中,AI 技术通过智能化应用提升了服务效率和服务质量。Atlas 500 实时分析营业厅摄像头的视频流量数据,实现 VIP 识别、潜客识别、动线和热点分析等功能。通过这些功能,客户等待时间下降 70% ,客户满意度提升 50% ,VIP 识别率提升60% ,从而在竞争激烈的通信市场中脱颖而出。数据中心生命周期管理:全数据中心生命周期管理:全方位支持方位支持 数据中心作为运营商的核心基础设施,对于其稳定运行和高效管理至关重要。AI 服务器不仅为数据中心提供高性能计算能力,还通过定制化服务,建立了“数据中心生命周期管理体系”。这一体系联合了各相关部门资源,为运营商解决运维、管理和售后保障等难题,确保数据中心的稳定运行和业务的顺利推进。算力网络算力网络 AIAI:引领先行:引领先行 170 AI 服务器白皮书(2023 年)ODCC-2023-01005 运营商行业的特点之一是巨大的算力需求,尤其是在处理大规模的数据和分析任务时。通过AICE训练集群与AICE训推一体平台,AI 服务器为运营商提供了智能底座,支持 AI 业务的孵化与创新。这种先行的态势使得运营商能够更好地适应市场的变化,从而为用户提供更加优质的服务。面向未来:面向未来:AIAI 普惠普惠 通信行业正积极探索AI技术在更广泛领域的应用,以实现AI的普惠。以百度的“文心一言”为例,该生成式 AI 产品利用 AI 服务器的强大算力,实现了深度语义理解与生成能力。通过智能云对外提供服务,为产业带来真正的 AI 普惠,将 AI 技术带到更多领域,为人类社会带来积极的改变。综上所述,AI 服务器在通信行业中的应用实践丰富多彩,从智慧相册到智能钢厂,从智慧营业厅到数据中心管理,都体现了 AI 技术在通信领域的重要地位。随着技术的不断发展,AI 服务器将继续在通信行业发挥更大的作用,引领着行业的创新和进步。

    浏览量50人已浏览 发布时间2023-10-13 179页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 施耐德电气:2023人工智能带来的颠覆:数据中心设计的挑战及相关指南白皮书(20页).pdf

    人工智能带来的颠覆:数据中心设计的挑战及相关指南 能源管理研究中心 第 110 号白皮书 版本 1.1 作者:Victor Avelar Patrick Donovan Paul Lin Wendy Torell Maria A.Torres Arango 为本白皮书评分 摘要 从大型训练集群到小型边缘推理服务器,人工智能(AI)在数据中心工作负载中所占的比例日益增加。这意味着需要向更高机柜功率密度进行转变。人工智能初创企业、一般企业、托管服务提供商和大型互联网企业现在必须考虑这些密度对数据中心物理基础设施设计和管理的影响。本白皮书探讨了人工智能工作负载的相关属性和趋势,并介绍了由此带来的数据中心挑战,并针对每个物理基础设施类别(包括供配电、制冷、机柜和软件管理)提供了应对此类挑战的指南。施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 2 人工智能带来的颠覆:数据中心设计的挑战及相关指南 近年来,我们目睹了人工智能的飞速发展,它改变了我们的生活、工作以及与技术的互动方式。生成式人工智能(如 ChatGPT)的出现更是推动了这一发展。预测算法正在对医疗1、金融、制造2、交通3和娱乐等行业产生影响。与人工智能相关的数据需求也正在推动新的芯片和服务器技术的发展,致使非常高的机柜功率密度的出现。与此同时,市场对人工智能的需求十分巨大。以上所述因素的结合为设计和运营数据中心以支持这一需求带来了新的挑战。人工智能增长预测 我们估计人工智能目前的电力需求为 4.3 GW,并预测到 2028 年它将以 26%-36%的年复合增长率(CAGR)进行增长,最终达到 13.5 GW 至 20 GW。这一增长速度是数据中心总电力需求年复合增长率(11%)的两到三倍,详见表表 1 1。其中一项重要的洞察是,随着更多经过训练的新模型开始进入生产阶段,推理4负载将随时间推移而增加。实际能源需求将在很大程度上取决于技术因素,包括连续多代的服务器、更高效的指令集、芯片性能的提升以及人工智能的持续研究。本白皮书介绍了人工智能的重要属性和趋势,这些属性和趋势对数据中心不同物理基础设施类别带来挑战,包括供配电、制冷、机柜和软件管理等。我们还提供了如何应对这些挑战的指南5。最后,我们对数据中心的未来设计方向提出了一些前瞻性看法。本白皮书并不是关于将人工智能应用在物理基础设施系统。虽然下一代物理基础设施系统最虽然下一代物理基础设施系统最终可能利用更多的人工智能技术,但本文终可能利用更多的人工智能技术,但本文专注于如何利用专注于如何利用当前当前可获得可获得的的系统系统来支持来支持人工人工智能负载智能负载。1 Federico Cabitza 等人,可靠性、可用性、可维护性和安全性(rams)、猎犬和白盒:研究医疗诊断中的人机协作协议,人工智能在医学中的应用,2023 年,第 138 卷。2 Jongsuk Lee 等人,汽车行业智能工厂的关键赋能技术:现状与 应用,国际精密工程与制造杂志,2023年,第 1 卷。3 Christian Birchler 等人,自动驾驶汽车软件中基于仿真的经济性测试选择,计算机编程科学,2023 年,第226 卷。4 定义参见“人工智能属性与趋势”部分。5 这些指南也适用于其他高密度的工作负载,如高性能计算(HPC)。与 HPC 应用的主要区别在于,HPC 往往是会一次安装到位,可能采用定制的 IT、供配电、制冷和/或机柜解决方案。相较之下,人工智能应用存在不断扩展的需求,需要在标准设备(IT 设备和辅助基础设施)加以扩展。施耐德电气的估算 2023 2028 数据中心总负载 54 GW 90 GW AI 工作负载 4.3 GW 13.5-20 GW AI 工作占总负载的百分比 8-20%训练与推理 AI 工作负载对比 20%训练,80%推理 15%训练,85%推理 集中与边缘 AI 工作负载对比 95%集中,5%边缘 50%集中,50%边缘 简介 表 1 数据中心人工智能负载概览。施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 3 人工智能带来的颠覆:数据中心设计的挑战及相关指南 人工智能以下的四个属性和趋势是导致物理基础设施面临挑战的根本原因:人工智能工作负载 GPU 的热设计功耗(TDP)网络延迟 人工智能集群规模 人工智能工作负载 AI 工作负载一般分为两类:训练和推理。训练训练工作负载用于训练人工智能模型,如大语言模型(LLM)。我们在本文中提到的训练工作负载类型属于大规模 分布式训练(大量机器并行运行6),因为它对当前的数据中心提出了挑战。这些工作负载需要将海量数据馈送至配有处理器(即加速器)的专用服务器。图形处理器(GPU)是加速器的其中一种7。加速器在执行并行处理任务(如 LLM 训练过程中的并行处理任务)时效率极高。除服务器外,训练还需要数据存储器和将之连接在一起的网络。这些元素可组合成一个机柜阵列,称为“人工智能集群”。它实质上是将集群当成一台计算机来训练一个模型。精心设计的人工智能集群中的加速器在大部分训练时间(从数小时到数月不等)内都以接近 100%的利用率运行。训练集群的平均耗电量几乎等于其峰值耗电量(峰均比1)。模型越大,需要的加速器越多。大型人工智能集群的机柜功率密度从 30 kW 到 100 kW不等,具体取决于 GPU 的型号和数量。集群的规模从几个机柜到数百个机柜不等,通常以所用加速器的数量来加以描述。例如,22,000 H100 GPU 集群使用约 700 个机柜,需要约 31 MW 的电力,平均机柜功率密度为 44 kW。请注意,此电力不包括制冷等物理基础设施需求。最后,训练工作负载将模型保存为“检查点”。如果集群发生故障或断电,它可以从中断点继续运行。推理推理是指将先前训练好的模型投入生产,以预测新查询(输入)的输出。从用户的角度来看,输出的准确性和推理时间(即延迟)之间需要权衡。如果我是一名科学家,我可能愿意支付更高的费用,在两次查询之间等待更长的时间,以获得高准确度的输出。而如果我是一个寻找写作灵感的撰稿人,我会想要一个能即时回答问题的免费聊天机器人。简而言之,业务需求决定推理模型的大小,但很少会使用完整的原始训练模型。相反,我们会部署一个轻量级版本的模型,以在可接受的准确率损失下缩短推理时间。推理工作负载倾向于使用加速器来处理大模型,并且还可能严重依赖 CPU,具体取决于应用。自动驾驶技术、推荐型引擎和 ChatGPT 等应用可能都有不同的 IT 堆栈,并根据各自要求进行了“调优”。根据模型的大小,每个实例的硬件要求可能从一台边缘设备(如智能手机)到几个服务器机柜不等。也就是说,机柜密度可以从几百瓦到 10 千瓦 6 模型中的大量参数和token要求将处理工作负载的任务分散到多个GPU上,以缩短训练模型所需时间。7 其他加速器的例子还有张量处理单元(TPU)、现场可编程门阵列(FPGA)和专用集成电路(ASIC)。人工智能属性与趋势 施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 4 人工智能带来的颠覆:数据中心设计的挑战及相关指南 以上。与训练不同,推理服务器的数量会随着用户/查询数量的增加而增加。事实上,一款流行的模型(如 ChatGPT)推理所需的机柜数量很可能是训练所需的机柜数量的数倍,因为它们现在 每天的查询量高达数百万次。最后,推理工作负载通常为业务关键型负载,需要具备韧性(如 UPS 和/或地理冗余)。GPU 的热设计功耗(TDP)虽然训练或推理离不开存储器和网络,但现在我们重点关注 GPU,因为它约占人工智能集群功耗的一半8。每一代 GPU 的功耗均呈上升趋势。芯片的功耗(以瓦特为单位)通常用 TDP 表示。虽然我们在此只讨论 GPU,但 TDP 不断增加的总体趋势也发生在其他加速器上。每一代 GPU 的 TDP 都在增加,这是 GPU 为增加运算量而设计的结果,目的是在更短的时间内以更低的成本训练模型并进行推理。表表 2 2 比较了三代Nvidia GPU 在 TDP 和性能方面的差异9。GPU TDP(W)10 TFLOPS1111(训练)通过 V100 实现的性能 TOPS1212 (推理)通过 V100 实现的性能 V100 SXM2 32GB 300 15.7 1X 62 1X A100 SXM 80GB 400 156 9.9X 624 10.1X H100 SXM 80GB 700 500 31.8X 2,000 32.3X 网络延迟 在分布式训练中,每个 GPU 都必须有一个网口 来建立计算网络结构。例如,如果一台人工智能服务器有八个 GPU,那么该服务器需要八个计算网口。这种计算网络结构支持大型人工智能集群中的所有 GPU 以高速(如 800 GB/s)协同通信。随着 GPU 处理速度的提高,网络速度也必须提高,以减少训练模型的时间和成本。例如,使用GPU 以 900 GB/s 的速度处理内存数据,而使用 100 GB/s 的计算结构,这样会降低GPU 的平均利用率,因为它需要等待网络来协调 GPU 的下一步工作。这就好比买了一辆 500 马力的自动驾驶汽车,而车载的快速传感器阵列却通过缓慢的网络进行通信;汽车的速度受到网络速度的限制,因此无法充分利用发动机的动力。高速网线价格不菲。例如,InfiniBand 光纤的价格是铜缆的 10 倍。因此,数据科学家会与 IT 团队合作,尝试使用铜缆用于人工智能训练集群,但必须确保网络布线距离在 8 400W 时,NVIDIA V100 GPU 功耗在该集群中占比 55%,当 700W 时,H100 功耗占该集群功耗的 49%。9 虽然 GPU 是这些性能提升的关键,但其他系统的改进也是为了充分利用 GPU,如增加内存和 GPU 之间的通信。10 V110、A100、H100 11 TFLOPS-每秒万亿次浮点运算-以张量浮点 32(TF32)精度度量矩阵乘法吞吐量,通常用于训练工作负载。V100、A100、H100 12 TOPS-每秒万亿次运算-以 8 位整数(INT8)精度度量整数数学吞吐量,一般用于推理工作负载。V100、A100、H100 表 2 各代 Nvidia GPU 的 TDP 和性能 施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 5 人工智能带来的颠覆:数据中心设计的挑战及相关指南 可接受的延迟范围内。增加每个机柜的端口可以缩短布线距离,这样可以增加每个机柜的 GPU 数量,但是机柜功率密度将被提高。最终,机柜集群将庞大到以至于延迟迫使设计人员改用光纤,以至于成本增加。请注意,推理工作负载的 GPU 并行化难度较大,因此这种机柜功率密度关系通常不适用于推理13。人工智能集群规模 如上所述,训练大模型可能需要数千个 GPU 协同工作。鉴于 GPU 约占集群功耗的一半,GPU 数量成为估算数据中心功耗的一个有用替代指标。图图 1 1 估算了人工智能训练集群中 GPU 数量与数据中心功耗的函数关系,涉及三代 GPU(见表表 2 2)。为了更好地理解这些值,我们以一座 40,000 kW 发电厂为例,这些值相当于该发电厂能够为大约3.1 万户美国普通家庭供电。请注意,这三条趋势线并不等同于相同的生产力。也就是说,虽然使用 H100 GPU 的数据中心的功耗超过使用 V100 GPU 的数据中心,但H100 数据中心的生产力提升远远超过其功耗增加。05,00010,00015,00020,00025,00030,00035,00040,00045,00005,00010,00015,00020,00025,000kW consumptionGPU quantityV100A100H100kW耗电量GPU数量 上述四个属性和趋势对机柜功率密度有着直接的影响。目前,大多数数据中心可支持大约 10 至 20 kW 的峰值机柜功率密度14。不过,在人工智能集群中部署数十或数百个大于 20 kW 的机柜,将给数据中心运营商带来物理基础设施方面的挑战。这些挑战可能只与供配电有关,也可能涉及两个甚至更多的物理基础设施类别。这些挑战并非不可克服,但运营商应在充分了解相关要求的基础上进行建设和运营,不仅是 IT 方面的要求,还有物理基础设施方面的要求,尤其是对现有数据中心设施的要求。设施越陈旧,支持人工智能训练工作负载的挑战就越大。下文的主要章节将针对每个物理基础设施类别更详细地介绍这些挑战,并为克服这些挑战提供了指南。请注意,其中的一些推荐设计方法仅适用于新建数据中心,而其他方法则适用于新建和已有(改造)建筑。人工智能工作负载给供配电链路共带来六大挑战,包括开关柜、配电回路和机架式配电单元(rPDU)。13 利用软硬件并行性来加快深度学习推理,2020 年 4 月 14 Uptime Institute,机柜密度正呈上升趋势,2022 年 12 月 供配电 图 1 数据中心功耗估计值与 GPU数量的函数关系 数据中心 PUE=1.3 请注意,本图表未显示生产力提升。施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 6 人工智能带来的颠覆:数据中心设计的挑战及相关指南 部署 120/208 V 配电装置变得不可行 配电模块规格太小,浪费 IT 空间 部署标准的 60/63 A 机架式 PDU 变得不可行 弧闪危险增加,使运维工作变得复杂 负载缺乏变化,增加上游断路器脱扣的风险 机柜温度高,增加了故障风险和安全隐患 部署 120/208 V 配电装置变得不可行 120/208 V 是北美数据中心历来使用的电压,适用于相对较低的机柜功率密度(每个机柜大约 23 kW)且服务器使用 120 V 电源线供电的情况。如今,对于人工智能集群等高密度负载,该电压显然过低。虽然仍然可以以 120/208 V 电压为这些负载供电,但这将带来挑战,这些挑战源于以下关系:功率等于电压乘以电流(P=V x A)。正如等式所示,电压越低,相同功率下所需的电流就越大。因此,线缆的载流量必须更大,才能在安全的条件下提供更大的电流。现以由(8)台 HPE Cray XD670 GPU 加速服务器组成的人工智能训练机柜为例,机柜功率密度共计 80 kW。在 120/208 V 电压下,需要 5 个 60 安培线路为机柜供电(每个线路等于 120 V x 3 相 x 60 A x 80%降容修正系数=17,280 W=17.3 kW),冗余为 1N。如果需要 2N 的冗余(尽管对于人工智能训练负载并不常见),这一数字将翻倍到 10。如果每个机柜有 5 到 10 个线路,可以想象,分布在由 100 个机柜组成的人工智能集群中的电缆会有多么混乱。结果很可能是电源线临时大杂烩式安装,悬挂在机柜上方/附近,这可能会导致人为失误和气流阻塞等问题。因此,这是不切实际的部署方法。此外,安装和管理过多的线路还涉及成本问题。指南指南:由于电压加倍意味着功率加倍,现有的 120/208 V 数据中心应将其配电系统改造为 240/415 V。新建数据中心应该在设计时考虑 240/415 V。有关此主题的更多信息,请参见第 128 号白皮书 数据中心高效交流配电。这就引出了下一个挑战,即如何部署 240/415 V 配电装置。需要注意的是,全球大部分地区都不存在此类挑战,因为许多国家都采用 230/400 V 的较高电压配电,这适用于满足人工智能型机柜的电力需求。配电模块规格太小,浪费 IT 空间 数据中心配电主要有三种类型:基于变压器的配电单元(PDU)、远程配电盘(RPP)和母线。配电模块规格代表每种配电解决方案的容量(kW)。即使配电电压提高到240/415V(IEC 国家为 230V),传统的配电模块规格也太小,无法支持当今的人工智能集群容量。十年前,一个 300 kW(120/208 V 时为 833 A)的配电模块可支持 100个机柜(五排,每排各 20 个机柜,平均机柜功率密度为 3 kW)。如今,同样的配电模块的电量甚至无法支持 NVIDIA DGX SuperPOD 的最低配置(单排 358 kW 的 10 个机柜,每机柜 36 kW)。由于各种原因,在单排机柜上使用多个配电模块是不切实际施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 7 人工智能带来的颠覆:数据中心设计的挑战及相关指南 的。例如,PDU 和 RPP 所占面积至少要增加一倍。与单个大容量配电模块相比,多个配电模块也会增加成本。指南指南:为满足高密度集群的需求,必须加大配电模块的规格。建议选择规格足够高的配电模块,以至少支持一整排集群。在 240/415 V 配电电压下,800 A 的配电模块规格是目前适用于所有三种配电类型的标准容量尺寸。可提供 576 kW(降容后为 461 kW)。部署标准的 60/63 A 机架式 PDU 变得不可行 即使在更高的电压下,使用标准 rPDU 提供足够的容量仍然是一大挑战。大多数决策者更喜欢现成的 rPDU,因为它们的交付周期更短、易于获得、性价比更高,而且有多家供应商可以选择。目前,最高容量的现成标准 rPDU 的额定电流为 60 A(NEMA)/63 A(IEC)。表表 3 3 给出了不同额定电流和电压下 rPDU 的可用容量。由此可见,60 A 和 63 A 额定电流将单个rPDU 的容量分别限制在 34.6 kW 和 43.5 kW。这导致了如何以最佳方式处理大于此数值的机柜功率密度的难题。NEMA 40 A 60 A 100 A 125 A 150 A 175 A 120/208 V 11.5 kW 17.3 kW 28.8 kW 36.0 kW 43.2 kW 50.4 kW 240/415 V 23.0 kW 34.6 kW 57.6 kW 72.0 kW 86.4 kW 100.8 kW 请注意,这些数值根据典型的规范要求降额到 80%。IEC 32 A 63 A 100 A 125 A 150 A 160 A 230/400 V 22.1 kW 43.5 kW 69.0 kW 86.3 kW 103.5 kW 110.4 kW 指南指南:对于机柜功率密度大于 34.6 kW(NEMA)和 43.5 kW(IEC)的情况,有两种措施可以采用。1.多个现成的标准 rPDU 2.额定电流大于 60 A 和 63 A 的定制化 rPDU 当前,大多数零 U rPDU 的高度约为 2 米(80 英寸)。使用这些标准产品,最多在一个风冷式机柜中安装 4 个 rPDU(例如,4 x 60/63 A rPDU 为 138 kW/174 kW)。或者,如果需要液冷分液器(manifold),则可在单个机柜中安装 2 个 rPDU(例如,2 x 60/63 A rPDU 为 69 kW/87 kW)。这些 rPDU 可以组合使用以增加容量,也可用于冗余(如 2N)。标配 定制 表 3 基于断路器额定电流值和电压(相电压)的每个 rPDU 可用三相功率密度 上表:NEMA(比如:北美)施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 8 人工智能带来的颠覆:数据中心设计的挑战及相关指南 如果由于 rPDU 的数量增多而导致空间受限,建议采用定制的 rPDU。例如,如表表 3 3 所示,在北美,可以使用 175 A 的 rPDU 为 100 kW 机柜供电,在欧洲,可以使用 150 A的 rPDU 为 100 kW 机柜供电。定制的 rPDU 可以配备工业连接器,也可以采用硬接线方式,让您可以灵活地选择插座的数量和类型。在额定电流较高的情况下,由于其物理尺寸原因,工业连接器在机架内安装和馈电时需要更大的工作量(参见图图 2 2)。请注意,当额定电流大于 60A 时,可能需要专业电工进行安装和操作。321 毫米(12.6 英寸)125 毫米(4.9 英寸)305 毫米(12 英寸)150 毫米(5.9 英寸)弧闪危险增加,使运维工作变得复杂 根据第 194 号白皮书数据中心 IT 空间的弧闪注意事项,“弧闪”一词描述的是电流击穿空气形成短路电弧时的情况。发生弧闪时,电流穿过空气从一点流向另一点,在不到一秒钟的时间内释放出大量的能量(称为“入射能量”)15。这些能量以热、声、光和爆炸压力的形式释放出来,所有这些都可能造成伤害。一些具体的伤害可能包括烧伤、失明、触电、听力丧失和骨折。提高 rPDU 额定电流值的结果是,它们的导线直径更大,从而允许更大的故障电流通过rPDU。如果 rPDU 上的可用故障电流导致入射能量达到或超过 1.2 cal/cm2,则工作人员在未接受适当培训和未佩戴个人防护设备(PPE)的情况下不得进入该区域16。风险随着 rPDU 电流额定值的增加而增加。数据中心人员的安全是必须解决的难题。指南指南:由于涉及的变量之多,建议首先进行弧闪风险评估,分析可产生的故障电流,以便为特定场地提供最佳解决方案。这项研究必须从中压开关柜一直分析到机柜层面。解决方案的手段包括:配置阻抗电压更高的上游变压器 使用线路电抗器(即电感器)来阻止短路电流的流动 使用 限流器 使用 限流断路器 有关应对弧闪危害的更多详情,请参见白皮书 弧闪的消除 和第 253 号白皮书 大型数据中心限制中压短路电流的益处。15 根据 NFPA 70E(2015),入射能量是指”在电弧事件中,在距离电弧源一定距离的表面上产生的热能量。”16 如需了解更多信息,请参见第 13 号白皮书 降低带电插拔设备时的电气风险和第 194 号白皮书 数据中心 IT空间的弧闪注意事项。图 2 240/415 V 125 A 工业连接器与卷纸尺寸的对比。要单人完成如此大的接头连接是个挑战。施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 9 人工智能带来的颠覆:数据中心设计的挑战及相关指南 负载缺乏变化,增加上游断路器脱扣的风险 数据中心不同工作负载通常会随机达到峰值。据统计,所有这些峰值同时出现的概率极低。因此,如果将所有单个工作负载的峰值相加,除以总平均功耗,典型的大型数据中心的峰均比会达到 1.5 到 2.0 或更高。这就是设计人员能够“超量使用”供配电和制冷系统的原因。但正如“人工智能属性与趋势”部分所述,人工智能训练负载缺乏变化。这些工作负载可以在峰值功率下运行数小时、数天甚至数周。其结果是增加了上游大型断路器脱扣的可能性。这就像家中许多大负载同时运行时,主面板上的断路器脱扣一样。图图3 3 显示了当数据中心的负载转为 100%人工智能负载时,峰均比(也称为差异系数)的典型范围。指南指南:如果新数据中心 IT 机房的人工智能训练工作负载超过 60-70%,建议根据下游各馈线断路器的总和来确定主断路器的大小。换句话说,假设峰均比为 1,即平均功耗等于峰值功耗。不建议超量使用和基于多变的做法。对于现有数据中心,计算上游断路器可支持的人工智能总负载。例如,如果人工智能工作负载集群上游有一个 1,000 A 主断路器,应确保人工智能负载总和不超过 1,000 A。机架温度过高,增加了故障风险和安全隐患 随着机柜功率密度的攀升和对运行效率的关注,IT 环境的温度越来越高。较高的工作温度可提高制冷系统的效率,但也会对元器件造成更大的压力。当元器件暴露在非额定温度下时,可能会导致以下情况:元器件元器件过早故障过早故障 尽管系统在第一天能按预期运行,但如果暴露在规定范围之外的条件下,元器件的预期寿命会大幅缩短。安全隐患安全隐患 使用不符合额定工作范围的电线可能导致线缆熔化等安全隐患。IEC 60320 是全球大多数国家公认的电源线连接国际标准。IEC 连接器的额定温度较高。标准 C19/C20 连接器和高温 C21/C22 连接器的比较如表表 4 4 所示。母头 公头 限值 备注 标配 65C C20 常用作跳线,从机架式 PDU 向大功率 IT 设备供电。高温 155C C21 可与 C22 或 C20 连接器配接,在温度超过 C19 额定值时使用。100%Traditional Workload50%Traditional Workload50%AI Training Workload100%AI Training Workloadp g y 21.51图 3 从 100%传统混合负载转为100%人工智能训练负载的典型峰均比范围 表 4 250 V 和 16/20 A 的 IEC 60320 标准和高温连接器比较 C19 C20 C21 C22 100%传统工作负载 50%传统工作负载 50%人工智能训练工作负载 100%人工智能训练工作负载 施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 10 人工智能带来的颠覆:数据中心设计的挑战及相关指南 指南指南:建议分析人工智能集群内的所有负载,以确保使用适当的连接器和插座。C21/C22 连接器在人工智能服务器等高密度计算负载中越来越常见。人工智能服务器通常配有这些高温额定值线缆/插座,但机柜上的其他设备可能没有,如机柜顶部交换机。必须了解设备的运行环境,并确保所有设备(包括 rPDU 及其所有子组件)都达到相应的额定值。在指定 rPDU 时,不仅要考虑电压、电流值和插座数量,还要考虑其额定温度。市场上有适用于此类应用的高温额定值 rPDU。尽管它们的成本通常较高,但增加的成本通常低于潜在故障发生造成的成本。建议在机柜后部放置温度传感器(由 DCIM 监控),以验证工作条件是否符合预期。人工智能训练服务器集群的致密化正迫使其从风冷向液冷转变,以应对不断增加的TDP。虽然密度较低的集群和推理服务器仍将使用更传统的数据中心制冷方式,但我们认为数据中心运营商需要应对以下六大制冷挑战:风冷不适合机柜功率密度 20 kW 以上的人工智能集群 缺乏标准化设计和场地的限制使液冷改造变得复杂 不确定的未来 TDP 增加了制冷设计淘汰的风险 缺乏液冷经验使安装、操作和维护变得复杂 液冷会增加 IT 机柜内漏液的风险 非常有限的冷却液选择限制了液冷的可持续性 风冷不适合机柜功率密度 20 kW 以上的人工智能集群 用于 IT 的液冷方式已存在半个多世纪,用于专业的高性能计算。风冷一直是主流选择,如果设计得当,采用热通道封闭,可支持约 20 kW 的平均机柜功率密度。单台 8-10U 人工智能服务器的功耗为 12 kW,很容易超过 20 kW 这一阈值。此外,由于网络延迟限制,大型人工智能集群中的服务器无法分散放置(以降低机柜功率密度),这也是一大挑战。在 TDP 不断增加的驱动下,采用液冷的人工智能训练服务器越来越多,有些甚至完全采用液冷技术。指南指南:较小的人工智能集群和推理服务器机柜(每个机柜的功率密度为 20 kW 或更低)可以采用风冷技术。对于这些机柜,应遵循良好的气流管理实践(如 盲板、通道封闭等),以确保制冷更有效与更高效。如果风冷系统仍然受到限制,将人工智能服务器分散到多个机柜上是降低机柜功率密度的策略之一。例如,如果一个群集有 20 个机柜,每个机柜的功率为 20 kW,那么将服务器分散到 40 个机柜上就可以将机柜功率密度降低到 10 kW。请注意,如果增加的网络布线距离降低了人工智能集群的性能,则可能无法将人工智能服务器分散到多个机柜。制冷 施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 11 人工智能带来的颠覆:数据中心设计的挑战及相关指南 当人工智能机柜功率密度超过 20 kW 时,应重点考虑使用液冷服务器。目前市面上有多种液冷技术和架构。冷板式液冷(有时也称为热传导或冷板)和浸没式液冷是两个主要类别。与浸没式相比,冷板式液冷是目前的首选,因为它与现有风冷技术的兼容性更好,也更适用于改造项目。如果可以选择,数据中心运营商应选择液冷服务器,以提高性能和降低能源成本,从而抵消投资溢价。例如,HPE Cray XD670 GPU 加速服务器的风冷能耗为 10 kW,而液冷能耗为 7.5 kW,原因是风扇功耗和硅片的漏电流均有所降低。有关液冷技术的更多信息,请参见第 279 号白皮书 采用液冷技术的五个理由 和第 265 号白皮书适用于数据中心和边缘应用的液冷技术。请注意,按单位体积计算,液体捕获热量的能力更强,这使得液冷技术比风冷技术更能有效地转移热量。但是,如果流体停止流动,芯片温度的上升速度远快于风冷,从而导致更快的宕机。将循环泵连接到 UPS 上将有助于解决这一问题。缺乏标准化设计和场地限制使液冷改造变得复杂 与传统的冷冻水系统相比,冷板式液冷服务器对水温、流量和化学成分的要求更为严格。这意味着数据中心运营商无法让冷冻水系统中的水直接流经芯片的冷板17。虽然水质无疑是数据中心改造为液冷数据中心所面临的挑战之一,但最大的问题是缺乏针对这种规模(即数百个机柜)的人工智能负载的标准化设计。制冷剂分配单元(CDU)有多种安装方式和位置选择18。它可以安装在机房四周的地板上,也可以安装在机柜行的末端,还可以机架式安装。连接机柜的供液管道有多种架构,制冷系统设备的位置选择也有多种,控制温度的方法同样也不少,等等。为了帮助直观地了解液冷系统的组成,图图 4 4 给出了不同的水回路和 CDU。对液冷系统进行改造也会对运行中的数据中心造成破坏,而且可能会遇到物理限制,如地面空间有限和缺乏足够的高架地板高度来铺设水管。即使 100%的服务器都采用冷板式液冷方式,仍需要额外的风冷来冷却网络交换机等其他设备以及来自液冷服务器的热传导。简而言之,改造是一项挑战,因为设计方案繁多,有限的分析,可借鉴的大规模液冷部署也不多。需要注意的是,有些数据中心没有冷冻水,这使得改造更具挑战性。机柜机柜外部CDUITECDUITE冷水机组冷却水系统(CWS)设施水系统(FWS)技术冷却系统(TCS)冷却塔数据通信设备中心 17 让未经处理的水流过服务器的冷板会导致腐蚀、生物生长和结垢。所有这些都会影响 GPU 的传热性能,最终导致 GPU 性能瓶颈或关闭以防止损坏。18 CDU 将冷冻水回路与供应服务器的“清洁”水回路进行物理隔离。图 4 使用 CDU 进行液冷的数据中心 数据来源:ASHRAE,水冷服务器:通用 设计、元器件 和流程,第 10 页 施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 12 人工智能带来的颠覆:数据中心设计的挑战及相关指南 指南指南:建议数据中心运营商在部署液冷技术之前,对液冷负载和设施的现有条件进行设计评估。专家审查对于可能的设计方案评估和避免不可预见的建筑限制对成本的影响至关重要。例如,管道可能会阻碍高架地板下的气流或或者与线缆桥架干涉。如需了解更多信息,请参见第 133 号白皮书集成液冷人工智能工作负载的数据中心设计实践。不确定的未来 TDP 增加了制冷设计淘汰的风险 人工智能技术正飞速发展,下一代 GPU 很可能会具有更高的 TDP 和更高的制冷要求。例如,目前搭载八个 GPU 的服务器,下一代可能需要 16 个。因此,数据中心根据当前负载设计的制冷架构可能不足以满足未来的负载需求。指南指南:建议在设计制冷系统时要考虑到风冷和液冷技术的兼容性,根据需要进行扩展,并支持不同代的加速器。例如,目前使用较高温度的冷机提供风冷解决方案,未来就可以轻松切换到较高温度的液冷方式。另一建议是在设计冷冻水管道系统时为未来的CDU 配备分接装置。此做法可支持 100%的冷板式液冷负载,并结合冷背板换热器用于风冷的补充。缺乏液冷经验使安装、操作和维护变得复杂 数据中心运营商对风冷系统相当熟悉,因为风冷系统已经使用了数十年,但液冷方式对于大多数运营商来说仍很陌生。液冷系统采用冷板、分液器、盲插接头等组件。这些组件还需要额外的安装、操作和维护流程,而这些都是操作人员所不熟悉的。例如,冷板式服务器中的微通道更容易结垢,这意味着操作人员可能需要学习新的操作和维护流程来控制水源的化学物质。另一个例子是将水接入服务器,这会带来漏液的风险。指南指南:液冷设计在最大限度地减少安装、操作和维护工作方面起着举足轻重的作用。建议数据中心运营商在对支持液冷式服务器物理基础设施不熟悉的情况下,应邀请专家对其设计进行全面评估,并制定详细的标准操作流程(SOP)和日常操作流程(MOP)。这将最大限度地减少故障和人为失误,尤其是与漏液有关的故障和失误。液冷技术会增加 IT 机柜内的漏液风险 冷板式液冷技术需要在服务器内的冷板中通水(如去离子水、醇溶液等)。漏液是个安全问题,会影响可靠性,因此必须在设计和采购阶段加以考虑。指南指南:建议与信誉良好的供应商合作,确保他们的系统经过严格的压力测试,从而将漏液风险降至最低。此外,服务器和机柜级的漏液检测有助于在出现严重漏液问题之前及时发现。与其采用传统的 CDU 泵送系统,不如考虑采用创新型防漏系统(LPS)的CDU。LPS 可将水回路保持在轻微真空(负压)状态,以消除 IT 设备内的漏液风险。浸没式液冷技术使用绝缘液,也能消除服务器内的漏液风险。这些都是人工智能服务器或集成供应商有可能提供的方案。最后,应制定应急操作流程(EOP)以应对可能漏液事件的发生。施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 13 人工智能带来的颠覆:数据中心设计的挑战及相关指南 非常有限的冷却液选择限制了液冷的可持续性 与传统的风冷 IT 相比,液冷在环境可持续发展方面具有一定的优势,因为它可以减少能耗和用水量。这是由于 IT 服务器和制冷系统的能效更高,因为大部分甚至全部服务器风扇都被移除,而较高的水温可以增加自然冷却时长19。不过,某些液冷系统使用了对环境有害的人工合成类化学物质。例如,碳氟化合物流体,因为优秀的传热导性能而被广泛用作浸没式液冷技术中的绝缘液20。遗憾的是,部分碳氟化合物具有高达 8,000 全球变暖潜能值(GWP)。相比之下,冰箱常用的HFC-134a 制冷剂的 GWP 仅为 1,430。此外,社会压力也促使制造商从制冷剂等产品中剔除 PFAS(全氟和多氟烷基物质)以减轻对环境的影响,采用 GWP 较低的制冷剂。可持续发展已成为大多数数据中心运营商的首要任务,这使得他们可选择的冷却液很少。指南指南:我们建议避免使用含碳氟化合物的流体。过去,冷板式系统和浸没式液冷系统都使用了这种制冷剂。如今,冷板式系统使用的是水,因此不存在这个问题。如果采用浸没式液冷,建议使用 GWP 为零的油基类绝缘液(不同于两相的人工合成流体)。不过,由于油基绝缘液的传热效果不如使用水的冷板式液冷,因此冷板式液冷已成为当今首选的液冷架构。需要注意的是,供应商很可能会开发碳氟化合物流体的可持续替代介质。这将显著提高浸没式液冷的散热效率,并可能促使制冷架构发生变化。更多信息,请参见第 291 号白皮书 用于 IT 设备浸没式液冷的绝缘液比较。前几节中提到的一些供配电和制冷的挑战也会影响到 IT 机柜(如 IT 柜体或机箱)。我们看到以下四个由人工智能工作负载所带来的对机柜系统的挑战:标准宽度的机柜缺乏所需要的配电和制冷装置安装空间 标准深度的机柜缺乏较深的人工智能服务器和布线所需的空间 标准高度的机柜缺乏容纳所需数量服务器的空间 标准机柜缺乏足够的人工智能设备承重能力 标准宽度的机柜缺乏所需要的配电和制冷装置安装空间 由于人工智能服务器深度越来越深,机柜背面安装 rPDU 和液冷分液器的空间越来越小。随着服务器功率密度的不断增加,在标准宽度机柜(即 600 毫米/24 英寸)的背面安装必要的配电和制冷分配装置将变得非常困难,甚至不可能。此外,狭窄的机柜很可能会因配电和网线而堵塞机柜背面的出风。19 当室外温度低于水温时,节能即可实现。DTC 服务器的回水温度远高于传统的冷却水回水温度。在这些较高的温度下,一年中有更多的时间实现水的自由冷却。20 浸没式液冷将所有的芯片甚至整台服务器浸没在介电流体中。机柜 施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 14 人工智能带来的颠覆:数据中心设计的挑战及相关指南 指南指南:建议至少采用 750 毫米(29.5 英寸)宽的机柜,以容纳 rPDU,如果采用液冷,还可以容纳用于液冷式服务器的分液器。虽然这些机柜不会像标准 600 毫米机柜那样与 600 mm 宽的高架穿孔地板对齐,但这不再是一个相关的限制因素。这是因为风冷人工智能服务器需要大量的气流,而高架地板通常不用于气流分配,而是用于管道铺设和布线。标准深度的机柜缺乏较深的人工智能服务器和布线所需的空间 针对人工智能工作负载进行优化的服务器,其深度可能会超过某些标准机柜的最大安装深度。即使较深的服务器可以安装到较浅的机柜中,也需要足够的后部空间来铺设网线,同时还要保证足够的气流。指南指南:IT 机柜配有可调节的安装轨道,以适应不同 IT 设备深度,但最大安装深度各不相同。建议机柜至少 1,200 mm(47.2 in),且最大安装深度大于 1,000 mm(40 in)。标准高度的机柜缺乏容纳所需数量服务器的空间 根据人工智能服务器的高度,常见的 42U 高机柜可能太矮,无法容纳所有服务器、交换机和其他设备。例如,一个 64 端口的网络交换机意味着机柜将有 8 台服务器,每台服务器有 8 个 GPU。按照这样的密度,假设服务器高度为 5U,仅服务器就占用 40U,只剩余 2U 的空间来容纳其他设备。指南指南:建议将人工智能训练集群部署在 48U 或更高的机柜上,前提是数据中心楼层高度能够容纳它们。1U 等于 44.45 mm(1.75 in)21。标准机柜缺乏足够的人工智能设备承重能力 如果使用重型人工智能服务器,高密度机柜的重量可能超过 900 kg(2000 lb)。这对 IT机柜和高架地板的静态和动态(滚动)承重能力都造成了巨大的负荷。不符合这些重量要求的机柜可能会出现框架、水平支脚和/或脚轮变形。此外,高架地板可能无法支撑这些重型机柜。指南指南:IT 机柜的承重能力分为静态和动态两种。静态是指机柜静止时所能承受的重量。动态是指机柜移动时所能承受的重量。建议指定机柜的静态承重能力大于 1,800 kg(3,968 lb),动态承重能力大于 1,200 kg(2,646 lb)。这些机柜的承重能力应由独立的第三方机构进行验证22。即使当前的人工智能部署规模较小,尚不需要这些承重能力,机柜的使用寿命也往往比 IT 设备更长。下一代人工智能部署很可能需要部分或全部采纳这些机柜的建议。最后,在某些情况下,IT 机柜先在异地进行预制,然后运往数据中心。这些机柜必须能够承受运输过程中产生的动载荷,相关包装也必须能够保护机柜及其支撑的贵重 IT 设备。21 例如,48U 表示有 2.13 m(84 in)的内部垂直空间可供设备使用。22 建议采用保险商实验室(UL)和国际安全运输协会(ISTA)。有关更多信息,请参见第 201 号白皮书 如何选择 IT 机柜。施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 15 人工智能带来的颠覆:数据中心设计的挑战及相关指南 应评估数据中心地板,特别是高架地板,以确保它们能够承受人工智能集群的重量。在数据中心内搬运重型机柜时,这一点对于高架地板的动态承载能力尤为重要。物理基础设施软件工具用来支持数据中心的设计和运营,包括 DCIM、EPMS、BMS 以及数字化 电气设计工具。在同时具有传统风冷 IT 和高功率密度以及液冷 IT 集群,某些软件功能更显关键。即使某些人工智能训练工作负载可能不需要高可用性,但设计和监控不当可能会导致相邻机柜和租户出现宕机风险,而这些机柜和租户很可能正在运行关键的业务。以下两个挑战侧重于重要的管理软件功能,这些功能在高密度人工智能训练工作负载的背景下起到更加重要的作用:人工智能集群极高的功率密度和功率需求导致设计的不确定性 在动态环境中,容错裕量的减小会增加运营风险 人工智能集群极高的功率密度和功率需求导致设计的不确定性 在改造现有设施以容纳新的人工智能集群之前,需要进行可行性研究,以确认是否有足够的功率容量和制冷能力,以及将其分配给新负载所需的基础设施。在机柜功率密度远低于 10kW 且供电和制冷能力过剩的典型情况下,增加标准 IT 可能相对容易,不需要过多的审查和验证。特定时间的配电和制冷测量可与常用配电组件和您熟悉的现有冷机组结合使用。手动量更大与“目测式”改造设计方法将不足以满足大型高密度人工智能训练集群。一个人工智能集群的耗电量高达数百千瓦,如果设计失误(如不知道实际峰均比、不确定哪些负载在哪些回路上等),后果将更为严重。设计中的未知数和不确定性可能造成代价高昂的后果。此外,由于人工智能集群的设计极其独特(例如,非标准高安培 rPDU/母线、使用液冷等),因此集群在启动时的表现存在更大的不确定性。指南指南:建议使用 EPMSEPMS 和 DCIMDCIM 来准确查看当前的配电能力及其趋势,包括 IT 空间内的大容量电力和配电级别。这些工具会显示长时间内的实际峰值功耗。了解这一点非常重要,可确保断路器不会意外脱扣。这种能力评估有助于确定托管人工智能负载的能力。请注意,评估的前提是假定使用了必要的电表。其次,在进行任何更改之前,建议进行安全和技术研究,包括容量分析、保护协调、弧闪研究以及短路和设备评估23。使用电气设计(又称电力系统工程)软件工具电气设计(又称电力系统工程)软件工具可简化数据收集和计算工作。评估结束后,可能需要对电网进行改动,以添加人工智能集群。在这种情况下,电气设计软件工具可确保您拥有正确的数据,以在 IT 空间的电气网络工作和维修时选择最佳电气设备,预防电气故障,制定有效的流程方法,并部署适当的安全方案。值得注意的是,使用 数字化单线图(iSLD)24的现有数据中心可以简化上述评估过程。使用精确、智能的 iSLD 后,收集数据和执行计算所需的时间和专业知识将大幅减 23 即评估容量、kA 额定值和其他规格是否适合特定设计 24 有些供应商提供 iSLD 创建和维护服务。软件工具 施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 16 人工智能带来的颠覆:数据中心设计的挑战及相关指南 少。iSLD 是一种更高级的单线图,存储在专门的软件中并由其管理,其中包括高级功能以及对设备特性和运行行为的感知。它创建了物理电网的数字孪生。从本质上讲,这一软件平台可用于设计电网、创建和维护 SLD,以及执行所有技术研究和安全评估。在动态环境中,容错裕量的减小会增加运营风险 假设使用第一个挑战中的指南实施了最佳数据中心设计,那么“第一天”的运行应该会很顺利。但是,与其他类型的设施相比,数据中心是一个动态环境,IT 设备会在其中频繁移动、添加和更改。随着容量安全裕量的缩小,就像增加大型人工智能集群时可能出现的情况一样,断路器脱扣、产生热点或资源搁浅的风险会随着 IT 空间内负载的变化而增加。风险增加的根本原因是前文讨论过的人工智能集群的高机柜功率密度和低峰均比(接近 1)。容错裕量的减小要求运营人员不断提高情景意识,以防止宕机,并确保在数据中心的整个生命周期内有效利用可用资源。指南指南:建议为整个 IT 空间(包括机柜中的设备和虚拟机)创建数字孪生,以尽可能减少或避免上述挑战。这种布局必须长期保持。通过 DCIM 规划和建模功能,您可以使用基于规则的工具进行有效的 IT 空间楼层布局。通过数字化方式添加或移动 IT 负载,可以验证是否有足够的供电、制冷和地板承重能力来支撑这些负载。DCIM 可创建 IT 空间的数字孪生,并记录所有设备对资源的依赖关系。这为决策提供了依据,可避免资源搁浅,并最大程度地减少可能导致宕机的人为失误。通过 EPMS 和 DCIM,您可以监控所有 PDU、UPS、rPDU 等设备的功率容量,从而在功率超过阈值时收到预警,避免停机。DCIM 软件会根据供电、制冷、冗余级别要求以及可用的 U 空间、网口和承重能力,建议新设备的最佳位置。这更适用于非人工智能设备和人工智能推理服务器。与推理负载不同,人工智能训练负载需要预先设计配置,很少甚至从不改变。许多 DCIM 规划和建模软件工具都包含计算流体动力学(CFD)工具,以确保在给定设备和热负荷的物理布局下有足够的气流。DCIM 可用于帮助优化制冷能力,通过对基础设施和负载进行优化布局和配置,释放搁浅的制冷能力。在人工智能负载移动、添加和更改方面,CFD 更多地应用于人工智能推理负载,因为需要添加更多的服务器来满足用户需求(即查询)。请注意,在某些情况下,人工智能训练或推理集群是独立的,有自己的供配电链路和制冷架构。在这些情况下,非人工智能负载不太容易受到人工智能集群的影响。不过,在这两种情况下,建立这些空间的数字孪生都是有益的。迄今为止的指南主要集中在当前可用的技术和设计方法上。本节将简要介绍一些未来的技术和设计方法,我们认为这些技术和方法将进一步帮助我们应对所面临的挑战。标准标准的的人工智能优化人工智能优化 rPDUrPDU 外形尺寸将发生变化,以支持功率密度更高的服务器,同时减少闲置插口。消除不必要的插口,可在每个机柜上安装更多的rPDU,或安装单个更大容量的 rPDU(240 V 时额定电流高达 150 A,降容后为86kW)。这些 rPDU 还可为交换机等低密度设备提供接口。支持人工智能的物理基础 设施未来展望 施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 17 人工智能带来的颠覆:数据中心设计的挑战及相关指南 中压接到中压接到技术技术/IT/IT 空间空间的的 415/240 V415/240 V 变压器变压器 中压(如 13 kV)配电可以减少铜的用量,所需的导线以及缩短安装时间。例如,IT 配电将使用 2 MW 变压器为415/240 V 的 3,000 A 母线供电,从而为整个人工智能集群或大于 2 MW 的集群的一部分供电。这种配电架构还消除了传统的 13 kV 至 480/277 V 变压器和 IT 配电上游的开关柜。这也可缓解 480 V 配电柜的供应链限制。固态变压器固态变压器 本质上是电力电子转换器。它们使用半导体元器件将一次电压转换为二次电压,并使用中频变压器(MFT)将一次侧和二次侧进行 电隔离。传统变压器体积大,只能使用交流电,而固态变压器小巧轻便,可在交流和直流电压之间转换。固态断路器固态断路器 这些断路器使用半导体来接通或断开电流。这在切断故障电流时尤为重要。不过,要被视为断路器,它们还必须使用与半导体串联的机械开关来提供 电隔离。固态断路器的运行速度更快,能够更严格地控制故障电流。这对减少高密度人工智能机柜的弧闪能量非常有利。可持续可持续性性绝缘液绝缘液 这些绝缘液可能会取代水来提高传热效率和允许更高的芯片TDP,将成为当今冷板式液冷的首选。超深超深 ITIT 机柜机柜 随着基于加速器的更深服务器的推出,需要配备更深的机柜,不仅能容纳服务器,还能容纳网线、水管和 rPDU。增强与电网的互动增强与电网的互动/优化优化 根据电网和微电网条件调度工作负载,有助于平衡电网和节约用电。工作负载管理的例子包括将负载迁移到不同的冗余区域或将 UPS置于电池放电状态等。施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 18 人工智能带来的颠覆:数据中心设计的挑战及相关指南 人工智能的快速发展和应用正在改变数据中心的设计和运营。我们估算,到 2028 年,人工智能工作负载将占数据中心总能耗的 15%-20%。尽管推理推理工作负载的功耗预计将远高于训练集群,但其运行的机柜功率密度范围很广。另一方面,人工智能训练人工智能训练工作负载始终在非常高的密度下运行,每个机柜的功率范围为 20-100 kW 甚至更高。网络需求和成本促使这些训练机柜按集群部署。这些极端功率密度的集群从根本上对数据中心的供配电、制冷、机柜和软件管理提出了挑战。本文就如何应对这些挑战提供了指南。总结如下:供配电供配电:使用 120/208 V 配电(在北美)已不足以满足需求,建议改用 240/415 V 配电,以限制高密度机柜内的回路数量。即使在更高的电压下,使用标准的 60/63 A 机架式 PDU 提供足够的容量仍然是一个挑战。例如,液冷机柜只能使用两个 rPDU,提供69/87 kW 的功率。为了人员安全考虑,建议进行弧闪风险评估和负载分析,根据暴露温度使用适当的连接器、插座和 rPDU。上游配电模块的规格必须足够大,以支撑单排的人工智能集群。制冷:制冷:虽然在不久的将来仍会使用风冷,但我们预测,人工智能集群数据中心的首选或必要解决方案将从风冷转向液冷。与风冷相比,液冷具有更多优势,如提高处理器的可靠性和性能、通过提高机柜密度节省空间、通过管道中的水提供蓄冷量、提高能效、提高电力利用率(更多电力用于 IT),以及减少用水量等。数据中心运营商可以利用我们推荐的指南,实现从风冷到液冷的平稳过渡,以支持人工智能工作负载。机柜:机柜:使用人工智能集群时,服务器更深,电力需求更大,制冷也更复杂。因此,建议使用更大尺寸和承重能力的机柜,特别是:至少宽 750 mm(29.5 in)、深 1,200 mm(47.2 in)、高 48U、安装深度 1,000 mm(40 in)、静态承重能力大于 1,800 kg(3,968 lb)以及动态承重能力大于 1,200 kg(2,646 lb)。软件管理:软件管理:在管理人工智能集群时,DCIM、EPMS、BMS 和数字化电气设计工具等软件工具非常重要。它们可降低复杂电气网络出现意外故障的风险,还可以提供数据中心的数字孪生,识别受限的供配电和制冷资源,为布局的决策提供依据。结论 施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 19 人工智能带来的颠覆:数据中心设计的挑战及相关指南 关于作者 Victor AvelarVictor Avelar 是施耐德电气能源管理研究中心的高级研究员,Victor 致力于数据中心的设计与运营方面的研究,并且通过向客户提供风险评估和设计实践方面的咨询,来优化数据中心环境的可用性和能效。Victor 于 1995 年从伦斯勒理工学院(Rensselaer Polytechnic Institute)获得了机械工程学的学士学位,而后在巴布森商学院获得工商管理硕士 MBA 学位。Victor 是 AFCOM 的成员。Patrick DonovanPatrick Donovan 是施耐德电气能源管理研究中心的高级研究员,在施耐德电气关键电源事业部的关键电源和制冷系统领域拥有超过 27 年开发和技术支持经验,先后参与了多项备受赞誉的电源保护、能效以及可用性解决方案的开发。Patrick 完成了多篇白皮书、行业文章以及技术评估,他在数据中心物理基础设施技术和市场方面的研究为数据中心设施的规划、设计和运营提供了最佳实践指南和建议。Paul Paul LinLin 是施耐德电气能源管理研究中心的技术总监和“爱迪生”专家。Paul 致力于数据中心设计和运营方面的研究,并且通过向客户提供风险评估和设计实践方面的咨询,来优化数据中心环境的可用性和可持续发展。他是业内公认的专家,经常以演讲嘉宾和圆桌论坛专家身份出席数据中心行业的重大活动。在加入施耐德电气之前,Paul 曾在 LG 电子公司担任研发项目经理并工作多年。他还是一名注册公用设备工程师,拥有 10 多项专利。Paul 拥有吉林大学机械工程学士和硕士学位。他还持有欧洲工商管理学院(INSEAD)颁发的证书。Wendy ToWendy Torellrell 是施耐德电气能源管理研究中心的高级研究员。Wendy 致力于数据中心设计与运行最佳实践的研究,发表白皮书和文章,并开发 TradeOff Tools 权衡工具来帮助客户优化数据中心环境的可用性、能效和成本。她还通过向客户提供关于可用性科学解决方案和设计实践方面的咨询,来帮助客户实现他们数据中心的性能目标。Wendy 在位于纽约州斯克内克塔迪的美国联邦学院(Union College)获得了机械工程学学士学位,而后在罗德岛大学(University of Rhode Island)获得 MBA 工商管理硕士学位。Wendy Torell 是美国质量协会认证的可靠性工程师。Maria A.Torres ArangoMaria A.Torres Arango 是施耐德电气能源管理研究中心的研究员。Maria 负责研究技术战略课题,为决策提供信息,目前主要关注储能系统和可持续发展。Maria拥有哥伦比亚玻利瓦尔教皇大学(Universidad Pontificia Bolivariana)航空工程学士学位,以及西弗吉尼亚大学航空工程硕士学位和材料科学与工程博士学位。施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 20 人工智能带来的颠覆:数据中心设计的挑战及相关指南 数据中心高效交流配电 第 128 号白皮书 集成液冷人工智能工作负载的数据中心设计实践 第 133 号白皮书 数据中心 ITIT 空间的弧闪注意事项 第 194 号白皮书 大型数据中心限制中压短路电流的益处 第 253 号白皮书 适用于数据中心和边缘应用的液冷技术 第 265 号白皮书 采用液冷的五大原因 第 279 号白皮书 用于 ITIT 设备浸没式液冷的绝缘液比较 第 291 号白皮书 弧闪的消除 白皮书 注注:链接网址可能会随时间而失效。资源链接在本白皮书编写时是有效的,但现在可能已经失效。Contact us 关于本白皮书内容的反馈和建议请联系:施耐德电气能源管理研究中心 dcscschneider- 如果您是我们的客户并对数据中心项目有任何疑问:请与您的施耐德电气销售代表联系,或登录: 浏览所有 白皮书 浏览所有 TradeOff Tools权衡工具 资源 2023 Schneider Electric.保留所有权利。

    浏览量51人已浏览 发布时间2023-10-13 20页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • ODCC:2023数据中心自适应AI节能白皮书(78页).pdf

    1数据中心自适应 AI 节能技术白皮书ODCC-2023-02009编号 ODCC-2023-02009数据中心自适应 AI 节能技术白皮书开放数据中心委员会2023-09 发布I数据中心自适应 AI 节能技术白皮书ODCC-2023-02009版权声明版权声明ODCC(开放数据中心委员会)发布的各项成果,受著作权法保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用 ODCC 成果中的文字或者观点的,应注明来源:“开放数据中心委员会 ODCC”。对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC 及有关单位将追究其法律责任,感谢各单位的配合与支持。II数据中心自适应 AI 节能技术白皮书ODCC-2023-02009编写组编写组项目经理:项目经理:查帅荣维谛技术有限公司工作组长:工作组长:李代程百度在线网络技术(北京)有限公司贡献专家:贡献专家:田军维谛技术有限公司吴健维谛技术有限公司赵玉山维谛技术有限公司傅耀玮维谛技术有限公司吴华勇维谛技术有限公司汪涵维谛技术有限公司曾莹维谛技术有限公司雷爱民维谛技术有限公司周薛继维谛技术有限公司刘敬民维谛技术有限公司韩会先维谛技术有限公司曲鑫维谛技术有限公司阮迪中国信息通信研究院III数据中心自适应 AI 节能技术白皮书ODCC-2023-02009前前 言言“新基建”政策的颁布实施,使云计算和大数据得到了快速的发展,数据中心建设迎来了前所未有的增长。新建数据中心的建设规模越来越大,对数据中心的可靠性、设备性能和能源效率的要求逐步提高;而在存量数据中心中,能效和老化问题日益凸显,改造需求激增。“双碳”等一系列政策的出台,更加推动了数据中心的节能减排,降低 PUE 已成当务之急;同时,由此带来的数据中心的管理成本也越来越高,降低数据中心运营管理成本逐渐成为人们关注的焦点。人工智能技术发展突飞猛进,使得其在数据中心基础设施领域中也得到了初步的应用。一方面,人工智能技术在数据中心中可以提高数据中心的效率,降低运营成本,优化决策。例如,智能算法能源管理、智能机器人巡检设备、自动化程序故障排查等技术可智能化地管理数据中心,为数据中心运营带来社会和经济的双重收益。另一方面,智能化的安全监控和风险评估可防止故障和宕机事件,提高数据中心可用性。本白皮书将对数据中心人工智能技术的发展现状、应用情况、未来趋势进行讨论和梳理,聚焦利用 AI 技术自适应地进行不同场景下的空调群控节能方案,从数据、算力、算法等几个方面进行展开分析。由于时间仓促,水平所限,错误和不足之处在所难免,欢迎各位读者批评指正。如有意见或建议请联系编写组。IV数据中心自适应 AI 节能技术白皮书ODCC-2023-02009目目 录录版权声明.I编写组.II前言.III一、概述.1二、术语.1三、AI 技术发展路径及在数据中心的应用现状.5(一)AI 技术的发展现状.51.AI 技术的起源及发展历程.52.AI 技术的主要应用场景.7(二)AI 技术在数据中心领域的发展情况.101.能耗优化.102.故障诊断.123.算力调度.134.安全监测.135.辅助运维.15(三)小结.16四、主要技术路线对比.18(一)AI 节能技术评估维度.18(二)AI 节能技术突破方向.20(三)数据采集方式对比.21(四)主要算法模型对比.231.主要算法模型概述.23V数据中心自适应 AI 节能技术白皮书ODCC-.常见优化算法概述.313.黑白盒算法概述.34(五)算法部署架构对比.361.边缘部署.372.中心部署.383.互联网云部署.39五、主要场景方案及案例分析.41(一)基站级场景案例.411.场景概况.412.AI 应用方案.423.AI 性能综合评估.44(二)微模块 MDC 场景案例.451.场景概况.452.AI 应用方案.483.AI 性能综合评估.52(三)房间级场景案例.551.场景概况.552.AI 应用方案.563.AI 性能综合评估.59(四)楼宇级场景案例.611.场景概况.612.AI 应用方案.62六、未来发展技术洞察.64(一)智能供配电系统.64VI数据中心自适应 AI 节能技术白皮书ODCC-2023-02009(二)智能电能路由器.65(三)智能大模型辅助运维.66(四)智能碳交易及调度系统.67(五)黑灯及无人驾驶数据中心.68(六)风险及挑战.701数据中心自适应 AI 节能技术白皮书ODCC-2023-02009数据中心自适应数据中心自适应 AIAI 节能技术白皮书节能技术白皮书一、一、概述概述本白皮书对数据中心人工智能技术的发展现状、应用情况、未来趋势进行了详细的梳理,探索如何使用人工智能技术来优化数据中心的管理和运行,主要聚焦在利用 AI 技术自适应地进行不同场景下的空调群控节能,以期推动人工智能技术在数据中心领域的发展。二、二、术语术语算法(算法(AlgorithmsAlgorithms)一组用于人工智能、神经网络或其他机器的规则或指令,以帮助它们自主学习;包括分类、聚类、推荐和回归等类型。人人工工智智能(能(ArtiArtificialicial IntelligenceIntelligence)机器模拟人类智力和行为做出决策、执行任务的能力。人人工工神经神经网络(网络(ANNANN)模拟人脑运作的学习模型,用于解决传统计算机系统难以解决的任务。聊天聊天机器机器人人(ChatbotsChatbots)通过文本对话或语音命令模拟与人类用户进行对话的计算机程序,具有 AI 功能。数据数据挖掘挖掘(DataData MiningMining)2数据中心自适应 AI 节能技术白皮书ODCC-2023-02009从大量数据中发现隐藏的模式和关联性的过程。决决策树策树(DecisionDecision TreeTree)基于分支的树模型,绘制决策及其可能后果的模型图,与流程图类似。深度深度学习学习(DeepDeep LearningLearning)机器通过由层叠信息层组成的人工神经网络自主模仿人类思维模式的能力。认知计算(认知计算(CognitiCognitive e ComputingComputing)模仿人类大脑思维方式的计算模型,通过使用数据挖掘、自然语言处理和模式识别进行自学习。机器机器智智能(能(MachineMachine IntelligenceIntelligence)涵盖机器学习、深度学习和古典学习算法在内的总括术语。机器感知(机器感知(MachineMachine PerceptionPerception)系统接收和解释来自外部世界数据的能力,类似于人类使用感官。可能需要外接硬件和软件支持。自自然然语言处理(语言处理(NaturalNatural LanguageLanguage ProcessingProcessing,NLPNLP)利用计算机算法和统计模型,让计算机能够理解和生成人类语言。强化强化学习学习(ReinReinforcementorcement LearningLearning)一种机器学习技术,通过试错过程中不断调整行为,让计算机自动3数据中心自适应 AI 节能技术白皮书ODCC-2023-02009学习最优解决方案。监监督学习督学习(SuperSupervisedised LearningLearning)机器学习的一种,其输出数据集训练机器产生所需的算法,如老师监督学生;比无监督学习更常见。无监无监督学习督学习(UnsuperUnsupervisedised LearningLearning)一种机器学习算法,通过不带标签响应的输入数据组成的数据集进行推理。最常见的无监督学习方法是聚类分析。计算机计算机视觉视觉(ComputerComputer VisionVision)利用计算机算法和模型来识别和理解图像和视频。预测分预测分析析(PredictiPredictive e AnalyticsAnalytics)利用统计模型和数据挖掘技术,预测未来事件的可能性和趋势。模式模式识识别(别(PatternPattern RecognitionRecognition)通过机器学习技术,让计算机识别和分类数据中的模式。聚聚类分类分析析(ClusterCluster AnalysisAnalysis)利用统计模型和机器学习技术,将数据分为相似的组,从而识别数据中的结构和关系。人人工工智智能优化(能优化(AIAI OptimizationOptimization)通过利用机器学习和优化算法,自动化数据中心的资源管理和调度,提高性能和效率。4数据中心自适应 AI 节能技术白皮书ODCC-2023-02009卷积神经卷积神经网络(网络(CNNCNN)一种识别和处理图像的神经网络。循环循环神经神经网络(网络(RNNRNN)一种理解顺序信息、识别模式、并根据这些计算产生输出的神经网络。5数据中心自适应 AI 节能技术白皮书ODCC-2023-02009三、三、AIAI 技术发展路技术发展路径径及在数据中心的应用现状及在数据中心的应用现状(一)(一)AIAI 技术的发展现状技术的发展现状1.1.AIAI 技术的起源及发展历程技术的起源及发展历程人工智能(AI)是计算机科学的一个分支,致力于研究和开发能够模拟人类智能的计算机系统。AI 技术的发展历程可以追溯到 20世纪 50 年代。起源起源阶阶段(段(-1955):):1943 年,Warren McCulloch 和 Walter Pitts 提出了人工神经网络的概念,这是 AI 研究的起点。1950 年,Alan Turing 发表了著名的计算机器与智能论文,提出了“图灵测试”概念,成为 AI发展的重要奠基石,在这个阶段,AI 的基本概念和理论逐渐形成。初初创阶创阶段(段(-1969):):1956 年,约翰麦卡锡、马文明斯基、纳撒尼尔罗切斯特和克劳德香农等人在达特茅斯会议上共同发起了人工智能领域的研究。此后,研究者们开始广泛探讨 AI 的潜力,开发出许多早期的AI 程序,如逻辑理论家、通用问题求解器等。这一时期的 AI 研究主要集中在基于规则和逻辑的方法上。知知识识表示与专表示与专家家系统系统阶阶段(段(-1985):):AI 研究重心转向了知识表示和推理。研究者们开始开发基于知识的专家系统,如 MYCIN、DENDRAL 等,这些系统能够在特定领域内6数据中心自适应 AI 节能技术白皮书ODCC-2023-02009解决复杂问题。在这一阶段,AI 得到了广泛关注,并在医学、化学等领域取得了实际应用。连接主义与连接主义与神经神经网络复网络复兴阶兴阶段(段(-1999):):在 1980 年代,基于连接主义的研究逐渐兴起,人工神经网络技术得到了重新关注。1986 年,Rumelhart 和 Hinton 等人提出了反向传播算法,使得多层神经网络的训练成为可能。同时,遗传算法、模糊逻辑等智能优化技术也在这一时期得到了发展。机器机器学习学习与大数据与大数据阶阶段(段(-2010):):随着计算能力的提高和大数据的兴起,机器学习技术得到了飞速发展。支持向量机、随机森林、AdaBoost 等机器学习算法应运而生,广泛应用于各种领域。在这一阶段,研究者们开始关注数据驱动的方法,通过从大量数据中学习模式和特征来实现智能。同时,AI 领域的核心技术逐步拓展至自然语言处理、计算机视觉、语音识别等多个方向。深度深度学习学习与与 AIAI 革革命命阶阶段(段(2011-2011-至至今今):):2012 年,Alex Krizhevsky 等人提出了 AlexNet,一种基于卷积神经网络的深度学习模型,成功赢得了 ImageNet 大规模视觉识别挑战赛。自此,深度学习技术在 AI 领域掀起了一场革命。随后,LSTM、Transformer 等网络结构不断涌现,深度学习在自然语言处理、语音识别、强化学习等领域取得了突破性进展。7数据中心自适应 AI 节能技术白皮书ODCC-2023-02009近年来,AI 领域的发展进入了一个高速发展阶段,诸如 OpenAI、DeepMind 等研究团队取得了重大成果。例如,OpenAI 的大模型大语言系列模型在自然语言处理领域创造了诸多纪录。同时,AlphaGo等程序成功击败了围棋世界冠军,展示了 AI 在复杂决策领域的潜力。综上所述,人工智能技术经历了多个阶段的发展,从起源到现在的深度学习革命,AI 不断拓展其在各个领域的应用,并取得了显著的突破。未来,随着技术的进一步发展,AI 有望在更多领域发挥重要作用,为人类带来更多福祉。出于对数据中心安全性的考虑,本白皮书主要聚焦于当前已成熟稳定应用算法在节能控制方面的测试及研究。2.2.AIAI 技术的主要应用场景技术的主要应用场景计算机计算机视觉视觉(ComputerComputer VisionVision)计算机视觉是一种利用计算机和数字图像处理技术来模拟和自动识别人类视觉的过程,它主要研究如何让计算机“看懂”图像和视频内容。主要任务包括图像分类、目标检测、目标跟踪、语义分割、三维重建等。深度学习技术在计算机视觉领域取得了重要突破,尤其是卷积神经网络(CNN)在图像处理任务上表现优异,例如AlexNet、VGG、ResNet 等。在医疗影像、安防监控、自动驾驶等领域都有广泛的应用。语音语音识识别(别(SpeechSpeech RecognitionRecognition)8数据中心自适应 AI 节能技术白皮书ODCC-2023-02009语音识别是将人类的语音信号转换成可理解的文本信息的技术。它涉及到声学模型、语言模型等多个方面。近年来,深度学习技术在语音识别领域取得了显著成果。长短时记忆网络(LSTM)和循环神经网络(RNN)在处理时序信息方面有优势,因此在语音识别领域应用广泛。自自然然语言处理(语言处理(NaturalNatural LanguageLanguage ProcessingProcessing,NLPNLP)自然语言处理是一种研究如何让计算机理解、生成和处理人类自然语言的方法。它能够进行自然语言合成理解、词性标注、命名实体识别、句法分析、情感分析、机器翻译等。近年来,Tranform-er 网络结构的出现和 BERT、大模型等预训练模型的发展,使得自然语言处理领域取得了突破性进展。专专家推荐家推荐系统(系统(E Expertpert RecommendationRecommendation SystemSystem)推荐系统是一种利用机器学习和人工智能技术,通过分析用户的行为和兴趣,为用户提供个性化的信息、产品或服务推荐。主要技术包括基于内容的推荐、协同过滤、矩阵分解、深度学习等。近年来,深度学习技术在推荐系统中的应用逐渐增多,如利用深度神经网络学习用户和物品的高维表示,提高推荐效果。推荐系统已经广泛应用于电商、社交媒体、音乐视频等领域。工业控制(工业控制(IndustrialIndustrial ControlControl)工业控制技术主要关注如何在实际生产过程中实现对设备和系统的有效控制。在工业控制领域,人工智能技术可以应用于优化算9数据中心自适应 AI 节能技术白皮书ODCC-2023-02009法、故障诊断、预测性维护等方面。目前,人工智能技术已经在工业控制领域取得了实质性进展,逐步成为各个环节的关键支持,尤其是在工业自动化和工业互联网领域,利用 AI 技术,如计算机视觉、深度学习和模型预测控制等,实现了自动化质量检测、故障预测和能源优化,提高生产效率和降低成本。工业机器人在人工智能的支持下取得了显著发展,实现了更高水平的人机协作和生产自动化。同时,人工智能技术在供应链管理中的应用,也提高了供应链透明度和效率。例如:西门子在其 Amberg 工厂使用 AI 来优化其生产流程。利用 AI 和其他数字技术自动化了大约 75%的生产过程,从而大大提高了生产效率和质量。阿里巴巴的菜鸟网络使用 AI 和机器人来自动化仓库操作,大大提高了仓库的运作效率并降低了人工错误。BMW 使用 AI 进行质量控制。在其生产线上,机器视觉系统可以检测车辆的漆面是否存在任何缺陷或不规则性,从而自动检测可能的生产缺陷。海尔运用工业物联网和 AI 技术,对自己的生产线进行数字化改造,在其 COSMOPlat 工业互联网平台,运用 AI 技术实现了供需匹配、生产计划、生产执行等一系列环节的优化,从而实现了灵活生产和个性化定制。尽管 AI 在多个领域表现出卓越的能力,其在工业控制领域的应10数据中心自适应 AI 节能技术白皮书ODCC-2023-02009用相较而言却显得较少。此种现象主要由一些固有难题所致,首要的问题在于数据采集的精准度、数据标准化以及控制系统的安全性。数据的准确度对 AI 模型的预测和决策至关重要,任何误差都可能影响效率和质量。标准化的数据可以促进数据交换,为 AI 应用奠定基础。而安全性则关乎重要设施和设备,一旦出现问题,后果严重。因此,虽然 AI 的潜力巨大,仍需在更广泛的应用前解决上述挑战,以推动工业控制领域 AI 的进一步发展。(二)(二)AIAI 技术在数据中心领域的发展情况技术在数据中心领域的发展情况随着全球数据量的爆炸式增长,数据中心的能耗问题日益凸显,其中,制冷系统是数据中心能耗的主要部分。如何提高数据中心制冷系统的能效,是行业面临的重要挑战。越来越多的数据中心开始寻求创新解决方案,而人工智能(AI)技术的崛起,为这个问题带来了新的可能性。AI 能够实时收集并处理大量数据,预测和控制制冷系统的工作状态,从而实现能源的优化利用。在本白皮书中,我们将深入探讨 AI 技术在数据中心制冷系统中的具体应用和潜力,展示如何利用 AI 帮助数据中心实现更高效、环保的运行模式。目前,AI 技术在数据中心领域的应用主要在能耗管理、故障诊断、安全监测、辅助运维等几个方面,下面将结合在这几个方面的应用进行介绍。1.1.能耗优化能耗优化在能耗管理方面,人工智能技术已在数据中心能耗分析和预测11数据中心自适应 AI 节能技术白皮书ODCC-2023-02009领域取得进展。通过收集历史能耗数据、机房温湿度和气象数据等多种因素,构建预测模型。利用预测模型对未来能耗进行预测,并依据预测结果对能耗进行调整与优化,实现有效的能耗管理,从而降低能耗并提高整体效率。尽管目前这些模型在应对数据种类缺失、缺乏丰富算法模型和算法组合灵活性不足,人工智能技术在数据中心能耗管理及优化方面仍开始逐步发挥着关键作用。以利用机器学习技术优化数据中心能耗管理为例。在数据中心能耗管理的场景中,可以将历史能耗数据、天气数据以及其他可能影响能耗的因素作为输入,来训练一个机器学习模型。这个模型可能使用监督学习的方式,即根据已知的输入(比如气温、湿度、负载量等)和输出(实际能耗)进行学习。训练完成后,模型将能根据输入的天气数据和预期负载量等信息,预测未来某一时间点的数据中心能耗。依据这一预测结果,数据中心可以更加精确地调整其能源策略,例如优化设备的运行状态、调度任务的执行顺序,甚至调整冷却系统的运行方式,从而实现更高效的能源管理。因此,机器学习在数据中心能源管理和资源调度中提供了强大的支持。Google 利用其 TensorFlow 机器学习框架,通过分析数据中心的负载模式和服务器资源利用率,对任务的分配和调度策略进行自动调整,从而优化了能源管理并实现了能源利用的最大化,通过使用机器学习技术,Google 成功地将其数据中心的冷却能耗降低了12数据中心自适应 AI 节能技术白皮书ODCC-%。但这种方法在冷冻水系统的应用中经常要进行针对性的调整,需要专业的人员参与和现场调试,这是对新技术普适性应用的常见挑战。在算力需求方面,系统可能需要一些特定的场景才能发挥最大效能,但随着硬件技术的不断进步,这也让我们看到了 AI 技术在不断适应和学习的过程中,其潜力和灵活性不断提高。2.2.故障故障诊诊断断在故障分析方面,数据中心设备故障是数据中心运营中常见的问题,AI 技术可以分析设备运行数据,通过机器学习和深度学习算法对数据进行分析处理,提前预测硬件故障,进而可以提前进行预测性维护,避免数据中心的服务中断和数据丢失,从而提高数据中心设备的可靠性和可用性。然而,目前这些技术普遍存在处理数据不完整、模型泛化能力有限和对实时故障诊断响应速度较慢等问题。以深度学习技术对数据中心进行故障检测为例,深度学习技术能够通过训练模型实现自动化设备故障识别。该模型通过学习设备在正常运行状态与异常状态下的特征,从而判断设备是否出现故障。进一步地,根据识别结果,可以提供相应的维修措施以确保数据中心的稳定运行。但是,深度学习方法在处理大量实时数据时可能面临计算资源和实时性的挑战。此外,当数据缺失或存在噪声时,模型的预测准确性可能受到影响。虽然 AI 技术在数据中心故障检测方面具有巨大潜力,但仍需针对现有不足进行改进。13数据中心自适应 AI 节能技术白皮书ODCC-.3.算力调度算力调度AI 技术可以通过分析数据中心中的负载、资源使用情况等数据,对数据中心的资源进行智能调度,实现资源的最优利用和分配,提高资源利用率和效率。例如,可以使用强化学习算法对服务器的资源分配和管理进行优化,提高资源利用效率和数据中心的服务质量。以服务器负载均衡为例,数据中心中的不同服务器可能承载不同数量和类型的工作负载,从而导致负载不均衡现象。应用强化学习技术,可以通过观察服务器的性能和工作负载情况,实现自动调整服务器的负载均衡。在某些场景下,现有的算法模型可能不够丰富,无法满足不同场景下的资源调度需求,导致算法组合灵活性不足。4.4.安全监测安全监测信息安全方面,数据中心正逐渐采用人工智能技术实现安全监测和威胁防范,通过 AI 技术对数据中心的网络流量进行深度学习分析,以及对数据中心的安全事件数据的结合,利用机器学习算法和深度学习算法对数据进行处理,自动检测安全事件,实现对数据中心的安全监测和威胁防范,从而提高数据中心的安全性。例如,可以使用深度学习算法对网络流量进行分类和分析,检测出潜在的安全威胁,并及时进行预警和处理。尽管 AI 技术在数据中心安全监测方面具有很大潜力,其应用仍面临一些挑战。例如,对抗性攻击可能误导 AI 系统,导致误报或漏14数据中心自适应 AI 节能技术白皮书ODCC-2023-02009报,而新型或未知的攻击方式可能无法被现有算法检测到。此外,AI 系统的训练和部署需要大量的计算资源和数据,可能导致较高的成本和难以满足实时监测的需求。阿里云是最早采用了人工智能技术以提升数据中心的安全性的厂家之一。其 AI 驱动的安全系统结合了深度学习和机器学习算法,对大规模的网络流量进行实时监测和分析,成功地自动检测出潜在的安全事件。在实际应用中,当系统检测到异常行为或安全事件时,会立即发出预警并启动防护措施。这种自动化的响应机制显著提升了阿里云数据中心的安全性和稳定性,确保了业务的连续性和数据的安全性。但对抗性攻击可能会误导 AI 系统,导致误报或漏报。同时,训练和部署这种复杂的 AI 系统需要大量的计算资源和数据,可能带来较高的成本,影响实时监测的效果。微软的 Azure 数据中心同样采用了深度学习算法,对网络流量进行实时监测,发现并阻止了一些潜在的网络攻击行为。但目前这些算法可能对一些复杂、隐蔽或新型的攻击手段表现出不足,需要不断更新和优化以应对日益严峻的网络安全威胁。Facebook 的深度学习故障诊断系统可以通过监测服务器运行状况和异常行为,识别故障和潜在的风险,并及时进行修复。该系统使用了基于深度学习的异常检测算法和预测模型,以提高数据中心的可靠性和稳定性。然而,同样的,在实际应用中,这些模型可能需要大量的训练数据和计算资源,同时,它们可能在面对一些特殊15数据中心自适应 AI 节能技术白皮书ODCC-2023-02009情况或少见的异常行为时出现误判或漏报。5.5.辅助辅助运维运维综合运维方面,数据中心正尝试采用人工智能技术实现自动化辅助运维,以提高运维效率和质量。用户能够通过自然语言与数据中心交互,实现自动化理解用户需求并执行相应操作,但自然语言处理技术在理解复杂、模糊或不规范的语言表述时可能出现误解或无法准确执行的问题。以自然语言理解技术为例,该技术能将用户的自然语言需求转化为相应命令,实现自动化执行。在数据中心运维过程中,自然语言处理技术可协助运维人员迅速获取和分析系统状态信息,执行故障排查和修复任务,但可能受限于当前技术水平,难以应对一些复杂或特殊的问题。此外,借助自然语言处理技术,数据中心还可实现与其他智能系统的无缝对接,但技术之间的兼容性和集成仍需要进一步优化,以确保实现更高程度的自动化和运维效率。腾讯云的“智能运维助手”是一个典型的 AI 在数据中心辅助运维的案例。其利用自然语言处理技术,能够准确地理解用户的需求,进而转化为相应的命令进行自动化执行。当运维人员与“智能运维助手”交互,请求系统状态报告或执行某项维护任务时,比如重启服务器,智能运维助手能快速执行并提供反馈,这大大提高了运维效率和质量。除了基础的运维任务,智能运维助手还具备与其他智能系统的无缝对接能力,这进一步推动了数据中心的自动化运16数据中心自适应 AI 节能技术白皮书ODCC-2023-02009维进程。目前,AI 在进行辅助运维方面的工作时,理解复杂、模糊或非标准的语言输入时仍存在挑战,有时可能无法准确执行命令。IBM 的 Watson 平台是另一个典型的应用案例,它基于人工智能和自然语言处理技术,能够分析和理解大量结构化和非结构化数据,为数据中心提供智能化的推理和决策支持。当 Watson 应用于数据中心日志管理时,它可以对大量日志信息进行分析和处理,协助运维人员迅速发现和解决问题,从而降低数据中心的停机时间。(三)(三)小结小结经过对人工智能的历史发展以及现状的探讨,无论是在能效优化、故障预测,还是在安全监测、辅助运维方面,不难看出 AI 技术已深入到数据中心的各个领域,AI 的影响力都日益显现。现代数据中心,也正充分利用 AI 技术,将运维自动化推向了前所未有的高度,大大提升了数据中心的安全性和运营效率。其中,就本白皮书重点关注的能效方面而言,人工智能技术正在广泛应用于提升数据中心的能源效率。通过对数据中心 PUE 的组成进行分析,其中制冷系统能耗约占数据中心总能耗的 40%,因此,将 AI 节能技术聚焦应用在制冷系统上,无疑是一种极具成效的降低数据中心能耗的节能途径。然而,必须认识到,任何 AI 技术的实施都离不开强大的算法、稳定的算力和合理的数据结构的支持。因此,接下来的内容将聚焦于 AI 技术的算法、算力和数据结构的深度探讨。通过这一过程,我17数据中心自适应 AI 节能技术白皮书ODCC-2023-02009们期待进一步理解 AI 的内在工作机制,以利用 AI 技术更好地提升数据中心的运维水平。18数据中心自适应 AI 节能技术白皮书ODCC-2023-02009四、四、主要技术路线对比主要技术路线对比(一)(一)AIAI 节能技术评节能技术评估估维度维度节能性节能性反映 AI 节能技术在降低数据中心总能源消耗方面的表现。通常用 PLF 或者整体 PUE 来衡量,也可用空调能耗或整体能耗节省百分比来评估。经济经济性性反映 AI 节能技术在投资回报方面的表现。通常用投资回报率(ROI)来衡量,全面考虑初投资、维护成本、电费节省及相关的风险成本等。可靠性可靠性反映 AI 节能技术在保证数据中心正常运行和系统稳定性方面的表现。通常用故障恢复时间、服务中断次数等指标来衡量。适应性适应性反映 AI 节能技术在应对数据中心规模变化和应用场景多样性方面的表现差异,通常用不同测试场景下节能效果百分比的标准离差(用来衡量数据分布的离散程度的一种指标)率来衡量。扩展性扩展性反映 AI 节能系统可随数据中心基础设施建设周期的规模和结构19数据中心自适应 AI 节能技术白皮书ODCC-2023-02009变化而灵活扩展的能力。拓展性强的 AI 节能系统可在数据中心全生命周期进行平滑投入和扩容。数据安全性数据安全性反映 AI 节能技术对于所使用的基础设施关键数据的保护能力。包括本地数据如何免受黑客攻击、数据泄露、系统故障等各种威胁,以及合适的云端数据加密及脱敏传输方案设计。预测准确性预测准确性反映 AI 节能技术在预测设备参数变化趋势、预防设备故障、提高基础设施可用性的能力。通常用预测的准确性、预测提前时间和故障处理效率等指标来衡量。可解可解释释性性反映一个算法或模型产生的预测或决策可以被人类理解和解释的程度,主要体现在如何让算法的工作原理通过特征值展示以及图形可视化等方式让人类用户更加透明和容易理解。表 1AI 节能技术评估维度重要性排序重重要性要性维度维度描描述述1节能性降低数据中心能源消耗2适应性应对数据中心规模变化和应用场景多样性3经济性投资回报率、成本节省4可靠性数据中心正常运行、系统稳定性20数据中心自适应 AI 节能技术白皮书ODCC-数据安全性数据和系统免受各种威胁6预测准确性设备故障预测、预防性维护7扩展性系统可随数据中心建设规模和结构变化而灵活扩展8可解释性算法工作原理透明度、易于理解(二)(二)AIAI 节能技术突节能技术突破破方向方向通过对数据中心存在问题及发展趋势的分析,结合 AI 在数据中心领域的应用情况,不难发现当前节能性、经济性、安全性 3 个维度是目前 AI 在数据中心领域应用亟待提升和突破的研究方向。更普适的节能性更普适的节能性现在数据中心的能源消耗主要集中在设备运行和冷却系统。传统数据中心的能源管理方式存在采集数据单一、收敛速度慢、场景适应性差等问题,可能无法充分发挥节能潜力,存在能源浪费。例如,传统的冷却系统往往采用固定的冷却策略,无法根据设备的实时负载和环境温度进行动态调整,导致冷却效率低下。更合理的更合理的经济经济性性在采用 AI 节能技术时,可能会面临一定程度的初期的投资成本上升,投资回报可能不会立即显现。例如,AI 技术的引入需要购买新的硬件设备,进行系统升级,以及对员工进行培训,这些都会增加初期的投资成本。为确保长期收益,需要充分评估投资回报率(ROI)。21数据中心自适应 AI 节能技术白皮书ODCC-2023-02009更全面的安全性更全面的安全性由于 AI 的不可解释性,给 AI 的安全措施设计和实现带来了很大困难。因此,在算法本身不可解释的前提下,通过 AI 相关层级的控制实现全方位,多层次的保护是非常重要的议题。目前解决此问题的思路主要有控制逻辑隔离,底层保底逻辑和减缓控制步长几种主要思路,通过综合利用几种技术思路,通过综合运用这些技术组合,可以大大增强方案的安全性。综上,针对这些问题和改进方法,可以根据具体数据中心的环境和需求进行调整和优化,来实现数据中心 AI 节能技术的高效应用。而为了实现数据中心 AI 节能技术在节能性、经济性、安全性 3 个方向的突破,还需要在具体的技术路径上进行择优,通常实现 AI 技术的运行,需要确定其数据采集方式、算法模型以及部署架构三部分内容,因此,本文将主要从采集方式、算法模型以及部署架构来进行对比。(三)(三)数据采集方式对比数据采集方式对比数据采集方式的设计将直接影响到传感器数量、算法部署思路及系统硬件成本,是整个 AI 节能系统设计的基础。数据中心的数据采集主要可通过两种方式实现:直接采集,间接采集。直接采集:直接采集:22数据中心自适应 AI 节能技术白皮书ODCC-2023-02009这种方式通常涉及到在数据中心设备上安装传感器,例如温度传感器或湿度传感器,这些传感器可以直接从设备中收集数据。此外,还可以使用网络设备,如交换机和路由器,通过 SNMP 协议直接获取设备的运行状态和性能数据。直接采集具备数据准确性高的优点,可以直接获取设备的实际运行状态,如温度、湿度、功率消耗等,对于及时发现和处理问题很有帮助。但其安装和维护成本较高,可能需要额外的硬件设备和安装工作。另外,如果设备数量众多,直接采集可能会产生大量的数据,处理和存储这些数据可能是一个挑战。间接采集:间接采集:数据中心分系统众多,在数据获取时可以充分考虑利用其他子系统已有的传感器信号通道和历史数据,进行模型训练和实时推理。许多数据中心设备,包括存储设备、网络设备和电源设备,都提供了可以查询和管理设备状态和配置的系统或网络接口。这些接口通常支持标准的网络协议,如 HTTP,SNMP 或者 RESTful API,我们可以通过这些接口定期查询设备的运行状态和性能数据。许多现代数据中心设备都支持标准的接口和协议,可以方便地集成到数据采集系统中。但是需要额外的网络资源和计算资源来处理接口查询和数据传输。另外,不同设备的接口和协议可能有所不同,需要对各种接口和协议进行管理和维护。由于机房现场实际数据采集环境的复杂性,在实际应用中,可23数据中心自适应 AI 节能技术白皮书ODCC-2023-02009能需要结合使用多种数据采集方式,以满足数据中心的监控和管理需求。(四)(四)主要算法模型对比主要算法模型对比基于机器学习的自动控制算法趋于成熟,并逐渐多样化。其中认可度较高,效果较为出众的算法主要包括:神经网络预测模型、MPC 模型、老虎机、强化学习等等。近年来,诸如维谛、谷歌、华为等等越来越多的企业,将这些优秀的机器学习控制技术引进数据中心进行能效优化。但不同企业的数据中心规模、配置及其历史数据拥有量各不相同,从而对算法的需求不同,针对于此,这里对不同的算法进行说明、对比。1.1.主要算法模型主要算法模型概述概述PIDPID 控制控制PID 是一种经典控制算法,PID 控制包括三部分:比例调节、积分调节和微分调节。其中比例调节立即产生作用以减少偏差,积分调节可以消除稳态误差,微分调节可以根据变化趋势进行超前调节。PID 控制可通过位置式或增量式公式实现,下面公式为其中一种形式:其中为偏差,为比例带,为积分时间,为微分时间。PID 控制已有多年的应用历史,应用广泛,效果可靠。在工业24数据中心自适应 AI 节能技术白皮书ODCC-2023-02009控制中,PID 控制常常作为第一选择,解决了大部分问题。PID 具有无需训练学习、收敛速度快、可解释性强、稳定可靠等诸多优点,但它也有明显的缺陷:1)PID 控制作为一种反馈控制方式仅仅根据被调量和目标值之间的偏差进行控制,它无法根据扰动进行前馈控制。在数据中心中,当负载和室外工况发生变化时,PID 无法根据该扰动变化提前干扰;2)当扰动因素比如负载不同时,PID 对应的最佳参数不同;3)PID 不适合作多目标控制。模模糊糊控制控制模糊控制是一种以模糊集合论、模糊语言变量和模糊逻辑推理为基础的计算机数字控制技术。它是模糊数学同控制理论相结合的产物,同时也是智能控制的重要组成部分。它模仿人的思维方式,是一种将专家经验规则转化为控制策略的理论方法,特别适用于难以建立精确数学模型的对象。模糊控制的实现步骤主要包括:1)观测量和控制量的模糊化2)制定模糊规则3)进行模糊推理4)控制量的反模糊化。25数据中心自适应 AI 节能技术白皮书ODCC-2023-02009模糊控制经过发展,在理论、技术、应用上都有了长足的进步,在过去有段时间甚至非常流行。然而,可能由于数学理论仍待进一步完善,该算法仍然存在争议,现在热度不复往昔。模糊控制的优点非常明显,可解释性强、收敛速度快。模糊控制的缺点也非常明显,过分依赖专家经验,而人的经验不总是可靠的。因此模糊控制主要适合解决复杂而无法建立精确数学模型系统的控制问题,它是处理推理系统和控制系统中不精确和不确定性的有效方法。神经神经网络预测模型网络预测模型当神经网络层数较低时,特征提取和记忆能力变弱,退化成线性或简单的非线性模型,因此较多时候神经网络模型特指有一定深度的网络结构。这类模型对样本量有一定的要求,收敛时间较长。因此这类模型适用于有大量历史样本的数据中心,通过历史样本的离线学习后再直接运用于数据中心。神经网络预测模型一般包含两类神经网络,每类神经网络包含一个或多个,其中一类优化网络用于预测优化目标,例如:PUE、能耗等,另一类约束网络用于业务保障性预测,例如:温度、湿度等。如下图所示:26数据中心自适应 AI 节能技术白皮书ODCC-2023-02009图 1 一种神经网络预测模型其中状态量通常包含状态变量和扰动变量,状态变量如压差、温度等,扰动变量如负载功率、室外温度等。其中控制变量通常为风扇转速、泵转速、水阀开度等等。当神经网络层数较低时,特征提取和记忆能力变弱,退化成线性或简单的非线性模型,因此较多时候神经网络模型特指有一定深度的网络结构。这类模型对样本量有一定的要求,收敛时间较长。因此这类模型适用于有大量历史样本的数据中心,通过历史样本的离线学习后再直接运用于数据中心。MPCMPC 模型模型MPC 模型(Model Predictive Control),由预测模型和优化算法组成,预测模型用于滚动预测未来几步的系统状态,优化算法根据预测的未来状态进行最优控制 u 的求解,并选择最近一步的控制量,作用于下一个周期。27数据中心自适应 AI 节能技术白皮书ODCC-2023-02009MPC 模型的基本思想:利用一个已有的模型、系统当前的状态和未来的控制量,来预测系统未来的输出,然后与期望的系统输出做比较,得到一个损失函数,优化选择使损失值(代价)最小的控制量。如下展示了 Google 的一种自回归预测模型(离散状态空间表达式):=1? =1? 1其中 A_k、B_k 和 C 是通过样本训练得到的系数矩阵。其中 x 是状态变量,是希望预测和管理的数值,如压差、温度等等。其中 u是控制变量,是希望算法模型推荐的控制变量,如风扇转速、泵转速、水阀开度等等。其中 d 是扰动变量,是无法控制的事件或环境状况,但它会影响到系统状态,如负载功率、室外温度等等。MPC 模型在优化时会同时考虑约束条件,优化控制的目标是满足约束条件限制的前提下,选择使损失(代价)函数最小的控制量u。在数据中心类项目中,在定义损失函数时通常是器件转速越小越节能则损失函数值越小,在定义约束条件时通常希望温度靠近某一设定点附近。MPC 模型的优化解法有二次规划或对偶问题的求解方法等。MPC 模型对样本量要求不高,能较快的实现收敛,另外,当系统预测模型以过去多个时刻作为输入时(如,令上文 T1),还具28数据中心自适应 AI 节能技术白皮书ODCC-2023-02009有很好的鲁棒性。对于数据中心推荐控制,是一种不错的选择。但MPC 模型的优化求解有一定的运算量。多臂老多臂老虎虎机机老虎机,又称 Bandit 算法,也是机器学习的一个重要分支,和强化学习有一定的联系,甚至可以认为是早期的强化学习。Sutton在他编写的教材强化学习里面讲解了这个算法。最早的老虎机模型,基本认为是病理学家 Thompson 在 1933 年提出的。他当时觉得验证新药的医学随机双盲实验有些残酷的地方,对于被分到药效较差的新药的那一组病人并不公平。老虎机模型减小了药效差、增大了药效好的新药的使用概率。现在,老虎机模型在搜索和推荐方面的应用很多。最近较出名的工作是 Li Lihong 发表的 LinUCB 模型,用于 Yahoo!新闻推荐。这里结合数据中心简单介绍下 UCB(Upper Confidence Bound,置信区间上界)算法。UCB 对数据中心不同配置下的稳定态使用分数或收益进行评价,然后选择分数最高的臂进行推荐,得到反馈后进行更新,其公式如下:=? 2(),其中?表示 t 次 UCB 推荐后到目前为止的第 j 种配置下的平均分数或收益,t 是目前为止的总次数,,是第 j 种配置在 t 次中被选中的次数。加号左边反应了平均收益,平均收益越大被容易被29数据中心自适应 AI 节能技术白皮书ODCC-2023-02009选择。加号右边反应了一种不确定性,使算法增加了探索能力。Bandit 算法简单有效,对样本量要求不高,能较快的实现收敛。无论用于数据中心自动控制的冷启动,还是作为其常规控制,都是一种不错的选择。强化强化学习学习强化学习的基本原理是,如果 Agent 的某个行为策略导致环境正的奖励(强化信号),那么 Agent 以后产生这个行为策略的趋势便会加强。Agent 的目标是在每个离散状态发现最优策略以使期望奖励和最大。如下图所示的一种 AC 框架的强化学习模型:其中价值网络用于对数据中心状态进行评价,能耗越低温度越好则奖励越大,反之亦然;其中策略网络用于根据数据中心当前状态选取行为动作,对于导致奖励最大的行为被选取的概率最大。通常可见的策略网络拟合了一个概率分布,越好的行为被选择的概率越大,对于其它行为也有微小的概率被选择,这样做的好处在于,模型同时具备利用和探索能力,当室外环境或负载功率发生变化时,能找到新形势下的最优设置组合。30数据中心自适应 AI 节能技术白皮书ODCC-2023-02009图 2 一种 AC 框架的强化学习模型强化学习的优点在于,它是一种比较通用的范式,能解决各种优化控制和智能推荐问题。但该算法尚不是非常成熟且门槛较高,需要算法人员具备较高的设计能力,并且建立恰当的奖励函数不是一件容易的事。另外该算法模型学习效率相对较低,对样本和学习时间有较大要求。另外由于数据中心不像游戏,无法并发大量的不断交互,因此这类模型建议用于有大量历史样本的数据中心,通过离线学习后再运用于数据中心。综上所述,几个主要模型的优缺点和适用场景如下,可根据实际场景的需求进行选择和组合,以取得最优的效果:表 2 几类主要算法模型对比算法名称算法名称算法描算法描述述优点优点缺缺点点使用场景使用场景PID 控制一种经典控制算法,包括比例调节、积分调节和微分调节。无需训练学习、收敛速度快、可解释性强、稳定可靠。无法根据扰动进行前馈控制,PID 对应的最佳参数随负载变化,不适合作多目标控制。工业控制中,作为首选解决方案,处理大部分问题。模糊控制一种基于模糊集合论、模糊语言变量和模糊逻辑推理的计算可解释性强、收敛速度快。过分依赖专家经验,人的经验不总是可适用于解决复杂且无法建立精确数学模型的系统的控制问题。31数据中心自适应 AI 节能技术白皮书ODCC-2023-02009机数字控制技术。靠。神经网络预测通过深度学习网络结构进行预测,要求有大量样本量。强大的特征提取和记忆能力,能进行复杂非线性模型的预测。对样本量有一定的要求,收敛时间较长。适用于有大量历史样本的数据中心,通过历史样本的离线学习后再直接运用于数据中心。MPC由预测模型和优化算法组成,用于滚动预测未来几步的系统状态,进行最优控制。对样本量要求不高,能较快实现收敛,具有很好的鲁棒性。优化求解有一定的运算量。在数据中心类项目中进行推荐控制。多臂老虎机一种简单有效的优化算法,能根据已有反馈快速做出决策。简单有效,对样本量要求不高,能较快实现收敛。对策略选择有一定的局限性,可能不能获取全局最优解。适用于数据中心自动控制的冷启动,或作为其常规控制。强化学习通过不断与环境交互,调整策略以使期望奖励和最大。是一种比较通用的范式,能解决各种优化控制和智能推荐问题。门槛较高,需要算法人员具备较高的设计能力,模型学习效率相对较低,对样本和学习时间有较大要求。建议用于有大量历史样本的数据中心,通过离线学习后再运用于数据中心。2.2.常见优化算法常见优化算法概述概述优化算法在算法模型中具有重要地位,是计算机寻优求解的最主要手段。但考虑到其运用过于广泛,种类过于繁多,技术过于细节,这里只从整体上进行说明。优化算法用处优化算法用处广泛广泛1)它可以是其它模型的组成部分,比如用于模型的训练收敛;2)它也可以是其它模型的承接部分,比如配合已训练好的模型进行寻优,以实现其它优化目标;3)它还可以直接作为模型,实现即有问题的运筹优化。32数据中心自适应 AI 节能技术白皮书ODCC-2023-02009优化算法种类繁多,优化算法可分为进化算法和数学优化算法两大类别,每大类别又包含很多种算法。进化算法进化算法进化算法是仿照生物进化规律,通过繁殖、竞争、再繁殖、再竞争,实现优胜劣汰,一步步逼近复杂工程技术问题的最优解。从数学上看,进化算法就像融入了生物属性的搜索寻优方法。进化算法包括:遗传算法、粒子群算法、免疫算法、蚁群算法、果蝇算法、模拟退火算法、萤火虫算法等等。其中遗传算法是当前最常用的进化算法之一。遗传算法(简称 GA)起源于对生物系统所进行的计算机模拟研究,是一种随机全局搜索优化方法,它模拟了自然选择和遗传中发生的复制、交叉和变异等现象,从一组随机初始种群出发,通过随机选择、交叉和变异操作,产生一群更适合环境的个体,使群体进化到搜索空间中越来越好的区域,这样不断繁衍进化,最后收敛到一群最适应环境的个体,从而求得问题的优质解。数数学学优化算法优化算法数学优化算法是利用微积分、运筹学、拓扑学等数学知识寻找逼近问题的最优解。数学优化算法包括:凸优化、牛顿法、共扼梯度法、拟牛顿法、梯度优化、Adam、拉格朗日优化、线性规划、动态规划等等。其中33数据中心自适应 AI 节能技术白皮书ODCC-2023-02009梯度优化、Adam 等等由于神经网络的繁荣而广为传播。进化算法进化算法 vs s 数数学学优化算法优化算法1)流派不同:进化算法和数学优化算法分属两个不同流派,都有应用案例。但由于神经网络大放异彩,部分数学优化算法作为神经网络的训练算法,又有坚实的数学基础,因此使用范围更为普遍。2)数学前提不同:进化算法只需计算目标函数的值即可,对优化问题本身的性质要求是非常低的。数学优化算法往往依赖于一大堆的条件,例如是否为凸优化,目标函数是否可微,目标函数导数是否 Lipschitz 连续等等。3)运算复杂度不同:进化算法需要不断搜索、循环迭代,因此速度较慢,其运算速度的瓶颈限制了其在大规模优化问题上的应用。数学优化算法由于充分利用问题的数学性质,运算速度相对较快。4)应用范围不同:数学优化算法需要问题具有较好的数学性质,因此应用范围小于进化算法。进化算法基本可以运用于所有优化问题,然而没有充分利用问题的数学性质,运算速度慢。另外尽管进化算法采用了变异等诸多手段,收敛不到全局最优的可能性仍然存在。5)应用场景不同:对于数学前提较好的优化问题,使用数学优化算法速度快,而且相对容易保证全局最优。但现实中也存在这样的问题,目标函数数学性质不好,非凸不连续,或者直接无法知道其数学性质,此时使用进化算法更好。对于 NP 难问题,目前数学优34数据中心自适应 AI 节能技术白皮书ODCC-2023-02009化算法无能为力,也以进化算法为宜。另外,在神经网络领域,也出现了使用进化算法进行超参数调优的例子,缓解了进化算法的尴尬境地。值得一提的是,随着时代的发展,算力不断提升将利好进化算法。但算力也永远存在瓶颈,不过到一个新的位置罢了。因此,工具本身并不存在绝对的优劣之分,每种工具都有其适用的场景。3.3.黑白盒黑白盒算法算法概述概述“黑盒”和“白盒”是用于描述算法或系统的透明度的术语。特定地,在测试和机器学习的背景下,它们通常被提及。黑盒黑盒(BlackBlack BoBox)“黑盒”指的是一个系统或算法,其中内部的工作机制是隐藏或不透明的。用户只能看到输入和输出,而不能看到内部如何进行处理。优点优点简单性:用户不需要了解内部的工作原理,只需要关心输入和输出。通用性:由于不强调内部的工作机制,因此黑盒方法往往更加通用,适用于各种情境。灵活性:内部实现可以在不影响外部接口的情况下进行修改或优化。35数据中心自适应 AI 节能技术白皮书ODCC-2023-02009缺缺点点不透明:无法确定系统或算法为何会产生特定的输出,这可能导致难以解释或难以理解的行为。难以调试:当出现问题时,难以确定错误的来源或如何修复。信任问题:由于缺乏透明度,用户可能难以完全信任系统或算法。白盒白盒(WhiteWhite BoBox)“白盒”指的是一个系统或算法,其中内部的工作机制是透明和可见的。用户不仅可以看到输入和输出,还可以看到处理过程。优点优点透明性:用户可以完全理解并验证系统或算法的行为。可调试性:由于内部工作机制是知道的,因此更容易定位和修复问题。可定制性:了解内部机制可以使用户或开发者针对特定应用进行优化或修改。缺缺点点复杂性:需要了解更多的细节,可能会对某些用户造成困扰。可能过于特定:由于太过侧重于内部机制,白盒方法可能不如黑盒方法那么通用。36数据中心自适应 AI 节能技术白皮书ODCC-2023-02009资源消耗:由于需要维护更多的细节信息,白盒方法可能需要更多的资源。在机器学习领域,例如深度学习模型通常被视为“黑盒”,因为它们的内部工作机制(即如何从输入数据中学习)对大多数用户来说都是不透明的,尽管其结构和算法是已知的。而传统的算法,如决策树,由于它们的决策过程较为直观和可解释,通常被视为“白盒”。在选择使用黑盒还是白盒方法时,要根据特定的应用和需求进行权衡。例如,如果需要一个可以提供可解释性的系统,白盒可能是更好的选择。如果需要一个可以快速部署且对内部工作机制不太关心的系统,黑盒可能更合适。在数据中心 AI 节能应用的模型设计中,白盒算法具有更强的可解释性,有利于安全策略的设计和人机协同控制,而黑盒算法具有更强的场景适应性,同时,白盒算法的设计需要更强的专家经验支持和更长的开发调试周期,因此在实际应用中常采用混合算法。(五)(五)算法部算法部署署架构对比架构对比算法的部署方案主要受数据安全性要求和算力分布的影响。当前算法部署主要有三种架构:边缘部署,私有云中心部署及互联网云部署。由于数据中心安全性要求较高,常见的主要有边缘部署和私有云中心部署。随着人工智能的飞速发展和大模型技术的不断突破,部分算法任务迁移至互联网云部署或将成为一种趋势。37数据中心自适应 AI 节能技术白皮书ODCC-2023-02009但对于不同的算法任务,应综合考虑算力需求、安全要求等等,对其模型采其不同的部署架构,以实现部署效果最优。1.1.边边缘部缘部署署边缘部署直接将算法模型部署在本地末端计算设备上,该末端计算设备往往通过串口、网络等与温湿度传感器、压力传感器、空调、电表等直接相连,并完成数据采集、控制执行等任务。这里将末端计算设备称为边缘监控管理平台,并将机柜、温湿度传感器、压力传感器、空调、电表等组成的系统称为末端系统。边缘部署是将算法直接部署在与末端系统直接相连的边缘监控管理平台上,其中边缘监控管理平台与末端系统一对一相连。以MDC 场景下的算法部署为例,下面是 MDC 末端系统与边缘监控管理平台的对应关系图:图 3MDC 末端系统与边缘监控管理平台对应关系将算法模型部署于边缘监控管理平台上有这样的好处:比如数据传输距离短,延迟小,不容易受到数据传输中断的影响,安全程度高、可靠性好;比如边缘监控管理平台较多,有算力分散的好处,可有效避免算力总需求过大而无法支持的问题。38数据中心自适应 AI 节能技术白皮书ODCC-2023-02009但是出于成本考虑边缘监控管理平台往往性能不高,对算法的支持能力有限,比如无法流畅的运行较深的神经网络模型。另外,因为末端系统与边缘监控管理平台呈一对一的对应关系,所以它不能处理与多个末端系统相关的共同计算任务。因此,边缘部署特别适合于算力要求小,安全要求高的算法模型:比如单一 MDC 中末端空调的开关控制、末端空调压缩机风机或水阀的群控等等。2.2.中心部中心部署署本地中心部署将算法模型部署于本地中心监控管理平台上(或称中心服务器,中心计算设备),一个中心监控管理平台与多个末端监控管理平台通过局域网相连,并通过末端监控管理平台间接实现对末端系统的优化。同样以 MDC 场景为例,中心监控管理平台、末端监控管理平台和 MDC 末端系统的对应关系如下图所示:图 4中心监控管理平台、末端监控管理平台和 MDC 末端系统对应关系将算法模型部署于本地中心监控管理平台:有利于充分利用多39数据中心自适应 AI 节能技术白皮书ODCC-2023-02009末端系统数据;有利于从更大层面对数据中心进行节能控制;同时由于中心监控管理平台个数较少,这还便于提高算力支持能力,同时不至于成本增加太多;另外由于没有使用公网,整个系统仍然保持了较高的安全性。因此,中心部署特别适合于算力要求适中,安全要求中等甚至较高,有多系统协作需求的算法任务:比如冷机出水温度设定点的调节、MDC 目标温度的微调等。另外,中心节能控制是对边缘节能控制的进一步完善,但不宜作为边缘控制的完全替代。在中心监控管理平台通信故障时,末端系统和边缘监控管理平台仍应可正常运行。因此末端边缘系统控制建议保留其完备性、高实时性和高可靠性。出于此考虑,诸如空调末端器件级节能群控建议仍采用边缘部署。3.3.互联网互联网云云部部署署互联网云将算法模型部署于网络云平台上,可以同时跟众多本地中心监控管理平台、本地边缘监控管理平台通过互联网相连。如下图所示:40数据中心自适应 AI 节能技术白皮书ODCC-2023-02009图 5 互联网云算法模型部署网络云平台云平台的巨大优势有利于收集数据和优化算法模型。另外由于真正大算力所需的硬件成本非常昂贵,为了经济效益,前面的边缘部署和中心部署终归算力有限,因此,如大模型之类的算法模型只有云平台可以支持。而随着人工智能的发展,大模型越来越成熟,互联网云部署将呈现增长趋势。但云平台数据传输距离长、安全性差、稳定性低、不可控因素较多。因此,网络云部署特别适合于模型较大,用于改善用户感受而非控制类的算法模型,比如:语音识别、专家咨询系统等。最后,云平台还可用于远程更新边缘算法模型,有利于算法版本的迅速迭代,收益变现。但对于数据中心这样一个安全要求较高的行业,能否接受云带来的不可靠性,仍是一个很大的问题。41数据中心自适应 AI 节能技术白皮书ODCC-2023-02009五、五、主要场景方案及案主要场景方案及案例例分分析析(一)(一)基基站站级场景案级场景案例例1.1.场景场景概概况况某基某基站站机房机房位置位置布布局局位于华东地区,属于夏季炎热、冬季寒冷的气候区域。图 6 某运营商基站机房 3D 模型空调系统空调系统该机房内设有 6 台精密空调。通常情况下,其中 2 台处于关闭状态,4 台处于开启制冷状态。整体 CT 负载相对稳定,开启的 4 台空调的送回风温度相对固定,制冷冗余较大。制制冷冷问题问题在一个空调循环周期中,压缩机只有一半周期的时间在运行,42数据中心自适应 AI 节能技术白皮书ODCC-2023-02009因此室内风机有一半周期无实际效果。所有空调的压缩机的启停都是根据回风温度来进行控制,但根据测量,该空调的回风温度与实际温度相差较大。这种温度差异导致了压缩机重复的启停,空调压缩机启动瞬间的工作电流是正常运行状态下的 4-7 倍,最终加大空调的能耗。与此同时,在机房内,机柜顶端处的温度传感器温度达到了 31 摄氏度,存在高温热点问题。因此,由于回风温度控制与实际温度存在差异,再加上压缩机工作状态的问题,都导致了能耗偏高的问题。2.2.AIAI 应用方案应用方案本案例 AI 技术应用设计旨在通过现场采集器对基站空调进行节能管理,通过已有的动力环境集中监控管理系统的空调效率。方案总体设计上以空调建模 机器学习为主,同时辅助参数自动优化调节。保证场景最优节能效果同时,减少对算力和传感器的依赖,可通过现有的监控采集传感设备,提高了整体投资回收期。安全方面与空调底层控制逻辑紧密耦合,时刻监控安全便捷,避免影响空调的正常控制逻辑。算法设计算法设计该方案通过在采集器上加载节能管理软件,根据设定的控制逻辑对基站空调进行监控,包括空调运行状态及开关机控制,以及机房环境温度监测。算法通过减少压缩机启动次数、提高制冷效率、减少室内风机运行时间等方式,在保障通信设备安全运行的前提下,43数据中心自适应 AI 节能技术白皮书ODCC-2023-02009实现节能的目标。基站规模庞大、远离监控中心,且受建筑结构、季节、经纬度、海拔、所处位置环境等因素影响,算法设计上需要着重考虑控制安全。算法采用中心-边缘的方式,算法寻优推理在中心完成,并同步到边缘智能控制主机来执行,执行包括空调启停、空调启停温度设定值、空调送回风温度设定。基站算法在中心采用大模型方式,通过基站所属地理位置、面积、建筑物类型,空调类型、空调数量、室外温湿度、电源输出负载、基站业务类型等参数进行分类。针对不同分类首先通过气流组织仿真算法建立初始模型,算法在运行过程中不断采样新数据进行验证与修正,裂化更多子模型。中心 AI 节能平台根据基站匹配到的最佳算法模型,在探测到室外温湿度、负载等数据变化超出一定阈值后,则重新发送策略到采集器边缘节能管理软件。边缘节能软件内置温度预测嵌入式 AI 模型和保护策略,在预测到有高温风险后,自动启动安全保护策略。边缘预测算法采用嵌入式 AI 技术,TensorFlow Lite 构建 LSTM 模型。数据采集数据采集数据主要包括空调的开关机状态,送回风温度,温湿度传感器的温度和湿度等。同时,通过优化基站温度采集位置,基于采集的机房温度来控制空调运行,避免因气流组织问题引起的回风温度不准确导致的能源浪费。44数据中心自适应 AI 节能技术白皮书ODCC-2023-02009实实施施过程过程首先,根据控制逻辑开发节能管理软件,并加载到智能采集器中进行调试。然后,在动环监控中正式启动基站空调节能运行及管理模式,实现对房间温度及空调运行状态的精确管理与控制。安全保障安全保障本方案在设计上充分考虑了安全因素。所有空调、温湿度传感器以及电表均接入同一个采集器,使得数据的采集和控制统一,避免了与平台数据传输的风险,提高了控制命令下发的速度。此外,方案优化调整了原有监控方案的温度告警机制,避免出现局部热点问题。3.3.AIAI 性能性能综综合评合评估估改造前运行状态改造前运行状态在未启用 AI 节能系统之前,该运营商基站机房在冬季最冷的月份(12 月和 1 月)的日用电量为 294kwh。改造后运行状态改造后运行状态机房的日用电量降低至 233kwh,相较于改造前,制冷系统的能耗降低了 20.7%。折算到月,AI 模式相较于常规模式在最冷的 12 月和 1 月可节电 1891kwh/月。按照电费 0.7 元/KWH 计算,考虑气候变化情况,全年 AI 节能效果预计节约电费:1218910.7=15884 元/年。降低了能源消耗,提高了经济效益。此外,该方案还有助于解45数据中心自适应 AI 节能技术白皮书ODCC-2023-02009决局部热点问题,消除过热隐患,保障数据中心的稳定运行。基于AI 强化学习算法的空调节能控制解决方案的成功应用,显示了人工智能技术在数据中心能源管理领域的潜力和价值。综综合分合分析析在基站场景中,安全设置是首要考虑的因素。首先,控制策略被下放到采集器中,以避免软件误操作带来的影响。其次,采集器收集的数据被存储在本地,并进行清洗、筛选等预处理以及算法训练。最后,设置了多重告警控制,包括空调面板设置高于远程控制、AI 策略历史回退以及 AI 保底策略校验等多重安全保护机制。(二)(二)微模块微模块 MDCMDC 场景案场景案例例某企业级某企业级 MDCMDC 机房机房本案例比较特殊,选取两个区域相同但业务负载及机房结构略有差异的 MDC 机房,设计了黑盒及白盒两种不同方案,以分析验证基于两种不同类型算法方案的适用场景细节及效果差异。机房位于四季分明的地区,其自然环境温度随季节变换而大幅度波动,表现为冬季寒冷、夏季炎热,而春秋两季的昼夜温差则相对较大。实际后续应用中,现场可以根据情况在两种模型中灵活切换,从而提高整体方案的适应性,提升综合节能效果。1.1.场景场景概概况况黑盒黑盒模型方案模型方案46数据中心自适应 AI 节能技术白皮书ODCC-2023-02009由于线上业务活跃度的昼夜差异性,机房中的服务器工作功率也随之明显不同,冷凝器侧热交换效率在不同时间段有所差异,同时服务器由于业务特性,其散热需求也会随着时间段的不同而变化。但原有的空调控制策略相对较为粗糙,虽然将机房的温度控制在正常范围内,但由于空调热交换效率和服务器散热需求在不同时间段的差异,使得空调在某些时段的工作负荷偏离了最佳状态。表 3 黑盒模型机房及场景配置统计微模块类型SmartAisle3IT 机柜与通道密封通道类型封闭冷通道IT 柜数量(个)11 个单柜总 U 位数(U)462单柜功率(kW)最大 10kW外型尺寸(L*W*H)600*1100*2000mm供配电系统供配电架构UPS电源制式380/400/415V,3N,50Hz冗余配置2N、1 1型号APM 0160kMK16FN02000容量IT 200A,制冷 123A制冷系统空调类型风冷型号CR035RP1NLS712E3A000PV040冗余配置3 1单台制冷量(kW)35kW监控系统监控系统名称RDU 监控系统47数据中心自适应 AI 节能技术白皮书ODCC-2023-02009图 7 黑盒模型机房及布局图对该机房进行改造前,服务器负荷处于高位运行状态,总负载功率约 98kW,整体温度正常,但备机空调未自动打开,空调运行负荷过大。场景二:场景二:白盒白盒模型场景模型场景在对机房进行节能改造的历史数据分析过程中,发现机房的微模块在运行过程中,由于对吹和近似对吹的空调互相干扰,导致其工作状态收敛于周期性波动。此外,微模块采用了送风控制,但是由于自然环境温度和负载功率的变化,不同时间段的回风侧温度会出现时高时低的现象。这些现状下,机房存在以下几个问题:当回风侧温度偏低时,会导致冷量的浪费,使得模块工作在较高的 pPUE状态。同时,空调器件被单独的空调自身控制,空调间相互影响形成竞争运行,也会收敛于周期性波动。这种情况下,温度会在不断地区域性变化,可能会带来安全隐患。表 4 白盒模型机房及场景配置统计微模块类型SmartAisleIT 机柜与通道密封通道类型封闭冷通道IT 柜数量(个)9 个单柜总 U 位数(U)46248数据中心自适应 AI 节能技术白皮书ODCC-2023-02009单柜功率(kW)最大 8kW外型尺寸(L*W*H)600*1100*2000mm供配电系统供配电架构UPS电源制式冗余配置2N、1 1型号容量制冷系统空调类型风冷型号CR025冗余配置3 1单台制冷量(kW)25kW监控系统监控系统名称RDU 监控系统图 8 白盒模型机房布局图对该机房进行改造前,空调器件由空调自身单独控制,空调相互影响,周期波动。另外,尽管改造时是夏季,但改造前 pPUE 仍偏高。2.2.AIAI 应用方案应用方案黑盒黑盒模型方案:模型方案:在对机房现状的分析中,发现原始的空调开关策略过于粗糙,即仅在空调温度测点或关联传感器测点温度过高或过低时才进行开49数据中心自适应 AI 节能技术白皮书ODCC-2023-02009关操作。因此,决定引入具有自学习、自优化能力的机器学习算法。考虑到服务器负载功率在不同时间段有大的差异,引入负载功率作为输入参数之一。同时,许多数据中心难以获取室外温度,因此选择引入空调送回风温度、机柜送回风温度等,使得算法能够间接学习到室外温度引起的室内变化。具体的方案包括:使用负载功率、空调送风温度、空调回风温度、机柜送风温度、机柜回风温度、传感器以及空调位置信息等特征及其复合特征作为算法输入。综合考虑空调功率、温度与目标值的偏离程度、温场均匀程度作为算法自优化的评价或收益反馈。同时,空调开机个数、开机位置、及温度设定点被用作调节手段,即算法推荐的动作。图 9 黑盒模型方案空调器件协作方式算法采用由 LinUCB 和 xgboost 组合而成的级联算法模型,其中LinUCB 用于进行能效探索优化,而 xgboost 用于进行温度调节。由于空调无法频繁开关,样本间隔长且收集困难,采用了收敛速度较快的 LinUCB,尤其是采用级联模型进一步提升收敛效率。考虑到特50数据中心自适应 AI 节能技术白皮书ODCC-2023-02009定数据中心样本不易获取,不能进行批量训练,因此没有采用新兴的强化学习算法,而是选择更快更稳定的 LinUCB。然而,LinUCB 仍然具有强化学习的探索能力,能适应自然环境的变化。xgboost 用于满足自然环境、负载功率及开关机变化引起的温度调节需求。并对特征工程、初始化、安全等方面进行了细致的处理。核心的算法结构图如下:图 10 黑盒模型方案核心算法结构图白盒白盒模型方案:模型方案:通过对机房现状的分析,由于初始空调器件被自身单独控制并相互干扰,因此考虑利用机器学习算法实现对不同空调器件的统一群体控制。这种方法不仅解决了设备之间控制的相互干扰问题,而且还能使空调设备之间和设备内部的各个组件协同工作,以实现节能效果。同时,将能效和温度作为评估或反馈的共同指标,兼顾节能和温度控制,避免回风侧温度过低。空调器件级协作方式如下图所示:51数据中心自适应 AI 节能技术白皮书ODCC-2023-02009图 11 白盒模型方案空调器件协作方式具体方案:将负载功率、机柜送风温度、机柜回风温度以及压缩机风机转速(或水阀开度)等特征及其组合特征作为算法的输入。综合考虑空调能耗、温度与目标值的偏离程度以及温度场的均匀程度作为算法自优化的评价或反馈。将压缩机容量、风机转速(或水阀开度)作为调节方式,即算法的推荐动作。算法采用模型预测控制(MPC)模型。首先构建系统模型,以映射温度、设备输出和负载功率之间的关系。然后,使用拉格朗日优化方法寻找适宜的温度和更低的能耗的设备输出组合。这种方法稳定,收敛速度快,并具有良好的鲁棒性。在建模过程中,使用过去一段时间内多个时刻的状态作为输入,以增强模型的抗干扰能力和理解变化趋势的能力。同时,使用未来一段时间内多个时刻的预测结果共同作为反馈,以提高模型的长期收益能力。此外,还引入了探索机制,以帮助模型不断优化。最后,对特征工程、初始化以及安全等细节进行了处理。52数据中心自适应 AI 节能技术白皮书ODCC-2023-02009图 12 白盒模型方案核心算法结构图通过对两种场景方案的对比分析,建议在微模块场景下黑盒模型和白盒模型联合使用,但仍然是可分别单独使用的。其中白盒模型是细颗粒度调节,是底层器件的微调;其中黑盒模型是粗颗粒度调节,是上层的整体调节;两者互为补充。3.3.AIAI 性能性能综综合评合评估估黑盒黑盒模型效果及节能分模型效果及节能分析析:该机房经过改造后空调的开关能力更加细致。由于当前负荷较高,改造后自动开启了空调备机,并进行温度设定点调整,节能效果约为(18.1-15.9)/18.1=12%,如下图所示:图 13 黑盒模型机房 AI 开启前后空调用电功率对比53数据中心自适应 AI 节能技术白皮书ODCC-2023-02009另外通过对空调 EER 曲线的分析,发现在极端场景下,方案的最大节能空间约为 20%。以旧型号空调的 EER 曲线为例,当空调制冷量为 19kW 时,其 EER 最大,约为 4.8,此时每 1kW 制冷量所耗电约为 0.2083kW。而当空调制冷量为 28kW 时,其 EER 最小,约为 3.6,此时每 1kW 制冷量所耗电约为 0.2778kW。因此,在相同的制冷需求下,空调的耗电量存在约 25%的差异。图 14 压缩机能效曲线白盒白盒模型效果及节能分模型效果及节能分析析:该机房经过改造后,对气流组织、温度场、冷量分配的调节更加细腻,可对冷热通道分区域调节,对于冷通道或热通道可参考机柜温度进行精确调节。同时改造后,空调的输出更加稳定。节能效果约为(18.07-15.65)/18.07=13%,如下图所示:54数据中心自适应 AI 节能技术白皮书ODCC-2023-02009图 15 白盒模型机房 AI 开启前后空调用电功率对比通过比较 AI 开启前后的冷热通道平均温度,从下图可以看出AI 在允许的范围内适当提升了热通道温度,但这并不是简单的以热通道为温控目标,而是通过能耗反馈实现的优化。图 16 AI 开启前后冷热通道温度根据工作经验和数据,存在某些工况场景的热通道温度可能更低,因此节能空间有更大的潜力。然而,算法实际上是通过器件协作和能耗反馈实现节能的,即使热通道温度相同,适当的比例和精确送冷也可能实现节能。此外,AI 开启后,4 台空调的压缩机波动更小,运行更稳定如下图所示。55数据中心自适应 AI 节能技术白皮书ODCC-2023-02009图 17 AI 开启前后压缩机运行曲线(三)(三)房间级场景案房间级场景案例例1.1.场景场景概概况况某某云云计算中心计算中心位置与布局:坐落于华东地区,属于夏季炎热、冬季寒冷的气候区域,共有两个机房。空调系统:A 机房占地面积约 400 平方米,内设 13 列机柜,包括 8 个封闭冷通道微模块(其中 3 个为单列微模块)。IT 设备的总负载约为 252KVA,负载上架率大致在 30%-40%,A 机房配备 8 台房间级风冷空调。B 机房与 A 机房位于同一建筑物的不同楼层,占地面积与机柜数量均与 A 机房相同,但具有 7 个封闭冷通道微模块(其中 1 个为单列微模块),B 机房的 IT 设备总负载约为 280KVA,负载上架率也在 30%-40%左右,B 机房配备了 6 台房间级双冷源空调。图 18 华东某数据机房 3D 模型56数据中心自适应 AI 节能技术白皮书ODCC-2023-02009制冷问题:A 机房的 13 列机柜负载各不相同,其中 2-3 列负载较高,可能出现局部热点。相较之下,B 机房的气流组织相对稳定,但同样存在局部热点和温度分布不均的问题。空调设备在较长时间内保持稳定状态,温度设定未发生变化,导致了大量的制冷冗余和温度分布不均的问题。2.2.AIAI 应用方案应用方案该解决方案旨在应用基于 AI 强化学习算法的空调节能控制于房间级空调系统中,以提升已建设的动力环境集中监控管理系统的空调效率。方案总体设计上为专家经验 神经网络 强化学习。神经网络 强化学习保证场景最优节能效果,同时专家经验的加入提高了整体的收敛速度,进一步增强了在负载频繁变化场景下的实际表现。此外,从安全性方面看,专家经验也为保底策略的设计和合理调节步长的选择提供了更有实践性的依据。算法设计算法设计通过在监控管理系统上加载 AI 强化学习模块,获取管理数据并进行 AI 强化学习,以实现对空调的节能控制。算法涉及的状态、控制和奖励要素包括开关机状态、进/出风温湿度、冷/热通道温湿度等。为保障运行安全,AI 算法中引入了安全保障机制。采集温湿度传感器的温湿度数据、空调的送回风和功率、风机和压缩机的开度以及 IT 负载数据作为数据源,采用强化学习对其进行实时优化。以57数据中心自适应 AI 节能技术白皮书ODCC-2023-02009温度均衡度和 pPUE 作为奖励函数,寻优得到最合适的送回风温度以及其他相关控制参数。该策略解决了冷通道热点问题,改善了空调制冷浪费的问题,实现了安全与节能的平衡。IDC 机房场景各异,包括送风方式、机柜封闭方式、空调变频与否以及空调使用寿命等等,机房负载随时间变化频繁,为了实现见效快、安全运行、自适应长期稳定节能等目标,采取组合算法方式,节能系统内置算法自动评估模块,在不同阶段、不同环境下对不同算法进行评估,择优选择最适合当前阶段和机房环境下的算法。节能系统同时内置算法自动训练模块,在超出一定的阈值后,自动训练算法。算法的一般原则是运行的初始阶段,此时有效样本数据有限,采用专家经验、机理模型和轻量级机器学习算法,使控制策略可以有效的控制在安全区间,具备更好的趋势性,避免少样本大模型下的严重控制策略偏离。轻量级机器学习算法主要包括遗传算法、粒子群算法、模拟退火、强化学习以及算法组合寻优。在系统评估算法到达切换点之后,即可以转入第二阶段算法,此时具备一定的数据规模、也具备大量调优策略、同时有了范围更小的安全寻优边界,算法一般采用深度神经网络。最后一个阶段采用深度强化学习,通过迁移学习先把以后的节能策略迁移到深度强化学习模型。模型评估管理平台依据机房实际运行数据进行评估和切换,不是所有机房都按照以上第一、二、三阶段运行,如果始终不具备进一步切换条件,则会保持在第一或者第二阶段。58数据中心自适应 AI 节能技术白皮书ODCC-2023-02009算法的另外一个核心在于评价函数,评价函数一般包含机房所有温湿度实时值、当前策略下的空调能耗水平。由于场地温湿度传感器的数量布置不一样,评价函数需要针对性进行编写,机房也可能对恒温恒湿有更高要求,此时评估函数的权值则需要优化调整。温湿度的评价函数可以采用多次方程或者高斯分布等数学技能,越接近设定有越高的奖励值。数据采集数据采集温湿度传感器是采集机房环境温度的关键设备。在此场景中,部署了 104 个温湿度传感器,在每一列机柜的前后各部署 4 个温湿度传感器,同时兼顾冷热通道的温度。此外,共有 6 台空调,能采集到算法所需的相关数据,同时满足下发控制命令的功能。最后,电表也是衡量节能前后的重要设备,每一列机柜和空调上都安装了一个电表以统计其消耗的电能。实实施施过程过程实施分为三个阶段:环境仿真分析、AI 业务软件部署、AI 节能59数据中心自适应 AI 节能技术白皮书ODCC-2023-02009评估。在环境仿真分析阶段,场景部署前,评估 AI 算法的智能化水平,除节能控制外,评估 AI 算法是否能解决局部热点问题,消除过热隐患。通过对机房进行气流组织分析,发现存在明显的局部热点和气流组织不均的问题。图 19 机房气流组织模拟图AI 业务软件部署阶段,基于现有监控平台提取两个月数据进行清洗、建模和强化学习。3.3.AIAI 性能性能综综合评合评估估AI 业务评估阶段,从热点消除情况和能源效率改进状况两个方面进行评估。改造前运行状态改造前运行状态夏季最热月 6、7 月室外平均温度 35,在不开启 AI 节能系统前,测算 48 小时,折算 A 机房月用电量 49225kwh,B 机房月用电量62445kwh,机房空调系统 pPUE=1.286。改造后运行状态改造后运行状态60数据中心自适应 AI 节能技术白皮书ODCC-2023-02009两个机房的空调能源效率分别提升了 18%和 15%,AI 模式相较于常规模式在夏季最热月分别可节电 8643 度/月、9470 度/月,降低了能源消耗,提高了经济效益。此外,该方案还有助于解决局部热点问题,消除过热隐患,保障数据中心的稳定运行。图 20 A 机房 AI 开启前后效果对比图 21 B 机房 AI 开启前后效果对比综综合分合分析析与传统节能改造方案相比,基于 AI 强化学习算法的空调节能控制解决方案具有更高的智能化水平和优化效果,能够根据实时环境状态和反馈信息调整控制策略,提高空调运行效率。此外,AI 算法的快速学习收敛和控制稳定性特点,使得节能效果更为显著且可持续。在采用 AI 强化学习算法后,冷通道温度没有再出现局部过高的情况,A 机房整个冷通道的四个温度传感器反馈的温度基本维持在61数据中心自适应 AI 节能技术白皮书ODCC--26 摄氏度左右,B 机房所有微模块冷通道的四个温度传感器反馈的温度基本维持在 26-27 摄氏度左右,既保证了热点的消除,也保证了通道温度的均衡。在此前提下,空调的电能有了明显的下降,整体 pPUE 也有明显的下降,实现了在保证安全的前提下的最大程度节能。在数据中心 AI 节能中,安全是所有工作的前提。本场景下的数据存储在数据中心的本地,极大地保证了数据的安全性。同时,通过温度告警以及设备通讯等多种告警模式,在出现热点以及其他问题时可以及时发现并处理。最后,软件中还加入了保底策略以及策略回退等功能,极大程度上保证了操作的安全性。(四)(四)楼宇楼宇级场景案级场景案例例1.1.场景场景概概况况某自用数据中心某自用数据中心位置与位置与布布局局该数据中心位于西南地区,属于亚热带季风气候区,气候温暖湿润。整栋机楼占地约 900 平方米,包括一楼的高低压配电房,二三楼的业务机房,四楼的通讯机房以及顶层的水冷设备。机楼内置有一个微模块,该微模块中装有 8 台水冷空调和 16 个温湿度传感器。目前,机楼内共有 36 列机柜,其中 4 列已上架。空调系统空调系统62数据中心自适应 AI 节能技术白皮书ODCC-2023-02009该系统包括两个螺杆冷水机组,10 个阀门和 10 个水泵,以及总计 41 台空调设备(包括 22 台水冷空调和 19 台风冷空调)。在这41 台空调设备中,微模块中的 8 台水冷空调也包括在内。制制冷冷问题问题尽管机柜的上架率目前较低,但由于空调设备在较长时间内保持稳定状态,且温度设定未发生变化,可能存在大量的制冷冗余和温度分布不均的问题。温湿度传感器反馈的数据表明负载较高的地方温度已经超过了 29 摄氏度,负载较低的地方温度只有 24 摄氏度左右。但所有空调的送回风温度设置都是相同的,造成冷量的极大浪费。目前,机楼的整体 PUE(功率使用效率)为 2.04,这表明在能源使用效率方面还有提升的空间。2.2.AIAI 应用方案应用方案本应用案例的 AI 节能水冷机楼方案实施,旨在通过基于 AI 强化学习算法的空调节能控制,提升已建设的动力环境集中监控管理系统的空调效率。方案总体设计上为机理建模 神经网络 强化学习。由于冷冻水系统过程参量巨大,机理建模可以有效建立参量之前约束关系,对参量进行降维,从而降低训练的难度。同时,神经网络 强化学习可以有效调节算法参数,保证场景最优节能效果,充分适应复杂冷冻水场景下的房间差异。最终保证了实际方案的适应性和整体投资回报率。63数据中心自适应 AI 节能技术白皮书ODCC-2023-02009算法设计算法设计方案通过在监控管理系统上加载 AI 强化学习模块,获取管理数据并进行 AI 强化学习,以实现对空调的节能控制。算法涉及的状态、控制和奖励要素包括开关机状态、进/出风温湿度、冷/热通道温湿度,以及冷水系统的阀门开度、进出水温度、进出水流量、压缩机开度、水泵功率、频率和室外干湿球温度等。为保障运行安全,AI算法中引入了安全保障机制。数据采集数据采集数据采集主要通过 B 接口和 C 接口的方式接入到本地的 AI 节能系统。采集的数据主要包括空调的开关机状态、送回风温度,温湿度传感器的温度和湿度,以及冷水系统的阀门开度、进出水温度、进出水流量、压缩机开度、水泵功率、频率和室外干湿球温度等。四楼的房间共包含 59 个温度传感器,包括微模块中的 16 个温湿度传感器,用于监测和调整机房的温度。64数据中心自适应 AI 节能技术白皮书ODCC-2023-02009六六、未未来发展技术来发展技术洞察洞察当前的 AI 技术在实际应用中仍面临一些挑战,随着科技的不断进步,AI 算法的迭代将不断完善克服现有挑战,提高对复杂场景和新型威胁的识别能力。未来,AI 技术在数据中心领域的发展将呈现更高的自动化程度、智能化管理和绿色节能性。实现进一步优化资源调度、辅助运维和安全监测,更加精细化、个性化的服务。AI 技术将助力数据中心实现更高的能源效率和环境友好性,降低运营成本。以下是 AI 技术有望在数据中心领域取得广泛应用的几个方面的技术洞察。(一)(一)智智能供配电系统能供配电系统高度自动化与高度自动化与智智能化能化未来的智能供配电系统将进一步实现自动化与智能化,例如通过 AI 实现负荷预测、能源管理、故障检测与诊断等。高能效与高能效与绿色绿色计算计算数据中心将采用更先进的 AI 技术来优化能源管理,实现更高的能源利用率、降低能耗以及减少碳排放。微电网集成与优化微电网集成与优化未来数据中心 AI 的智能供配电系统可能会与微电网系统集成,实现对多种能源类型(如太阳能、风能、蓄电池等)的优化调度。这将有助于提高能源利用率,降低能源成本,同时增强数据中心的65数据中心自适应 AI 节能技术白皮书ODCC-2023-02009能源供应稳定性。预测性维护与故障预测性维护与故障诊诊断断AI 技术将在预测性维护和故障诊断方面发挥重要作用。通过对设备运行数据进行实时监控与分析,AI 可以预测潜在的设备故障,从而降低意外停机时间,提高数据中心的可靠性和可用性。(二)(二)智智能电能路由器能电能路由器随着 AI 技术的不断发展,智能电能路由器将在数据中心领域发挥越来越重要的作用,提高数据中心的性能、可靠性和安全性。以下是AI 技术在未来数据中心智能电路路由器发展中的一些应用场景:自动化路由优化自动化路由优化AI 技术可以实现数据中心网络的自动化路由优化。通过分析网络流量、拓扑结构和链路状态等信息,AI 可以动态调整路由策略,实现更高的网络性能和资源利用率。负载均负载均衡衡与流量控制与流量控制AI 技术可以协助实现数据中心网络的负载均衡和流量控制。通过对网络流量的智能调度,AI 可以保证网络资源的合理分配,降低拥塞风险,提高整体性能。预测性维护预测性维护AI 技术可以为数据中心网络设备提供预测性维护服务。通过对设备运行数据的分析,AI 可以预测潜在的设备故障,从而降低意外66数据中心自适应 AI 节能技术白皮书ODCC-2023-02009停机时间,提高数据中心的可靠性和可用性。(三)(三)智智能大模型能大模型辅助辅助运维运维随着 AI 技术的不断发展,大模型辅助运维将在数据中心领域发挥越来越重要的作用,为数据中心提供更高效、智能和人性化的服务。以下是大模型辅助运维在未来数据中心的一些潜在应用场景:技术支持技术支持大模型辅助运维可以在数据中心的客户支持领域发挥作用,通过自然语言处理(NLP)技术理解用户问题并提供实时解答。这将降低客户等待时间,提高用户满意度。故障故障诊诊断与排查断与排查大模型辅助运维可以帮助数据中心工程师诊断和排查故障。通过对故障信息进行分析,大模型辅助运维可以为工程师提供可能的解决方案,从而降低故障处理时间。资资源调度与优化源调度与优化大模型辅助运维可以协助数据中心管理人员进行资源调度与优化,例如根据用户需求预测资源使用情况,以及提供建议以实现更高的资源利用率。知知识库识库维护维护大模型辅助运维可以协助数据中心维护和更新知识库,以确保用户和工程师能够访问到最新、最准确的信息。67数据中心自适应 AI 节能技术白皮书ODCC-2023-02009安全监控与风险管理安全监控与风险管理大模型辅助运维可以辅助数据中心进行安全监控与风险管理,例如通过分析安全日志和异常事件,协助识别潜在的安全威胁,并提供相应的解决方案。培训培训与与教育教育大模型辅助运维可以为数据中心员工提供在线培训和教育资源,例如回答技术问题、解释操作流程等,从而提高员工的技能和工作效率。与其他与其他 AIAI 系统的集成系统的集成大模型辅助运维还可以与数据中心的其他 AI 系统(如智能供配电系统、智能冷却系统等)集成,实现更高效的数据中心管理和运维。大模型辅助运维在未来数据中心的发展前景是非常广阔的。通过引入先进的 AI 技术,大模型辅助运维将为数据中心提供更高效、智能和人性化的服务,从而提高数据中心的运营效率和客户满意度。(四)(四)智智能能碳碳交交易易及调度系统及调度系统随着全球对碳排放控制的重视程度不断提高,智能碳交易及调度系统将会对实现可持续发展产生积极影响。未来 AI 在智能碳交易及调度系统中可能涉及到的应用场景如下:碳碳排放预测排放预测68数据中心自适应 AI 节能技术白皮书ODCC-2023-02009AI 技术可以帮助企业和政府部门预测碳排放量,为碳排放减少目标设定提供依据。通过对历史数据和实时数据的深度分析,AI 可以为决策者提供更准确的碳排放预测。碳碳交交易易优化优化AI 可以在碳交易市场中实现优化,通过分析市场行情和需求,AI 可以为交易参与者提供策略建议,如何有效购买或出售碳排放权,从而降低企业的碳排放成本。碳资碳资产管理产管理AI 可以帮助企业更有效地管理碳资产,通过对企业的生产流程、能源消耗等进行分析,AI 可以为企业提供节能减排的优化建议,从而降低碳排放并提高资产价值。政政策策制定与评制定与评估估AI 可以帮助政府部门制定更为有效的碳排放政策,并评估政策实施效果。通过对大量数据的分析,AI 可以为政府提供针对性的政策建议,以促进碳排放的减少。AI 在智能碳交易及调度系统中具有巨大潜力。通过将 AI 技术与碳交易及调度系统相结合,可以实现更有效的碳排放管理,为应对全球气候变化做出贡献。(五)(五)黑灯黑灯及无及无人驾驶人驾驶数据中心数据中心黑灯数据中心和无人驾驶数据中心是两种以自动化和人工智能69数据中心自适应 AI 节能技术白皮书ODCC-2023-02009为核心的先进数据中心概念。黑灯黑灯数据中心数据中心黑灯数据中心是指在几乎不需要人工参与的情况下,由人工智能和自动化技术进行运维的数据中心。黑灯一词寓意该数据中心可以在无人值守的情况下在黑暗中运行。人工智能在黑灯数据中心中的作用主要表现在能源管理、网络流量管理、安全事件监测和故障排查等多个方面,大大提高了数据中心的运行效率和安全性。预计未来,黑灯数据中心将更深入地采用 AI 技术,比如深度学习,以实现更精细化的数据中心管理和更准确的故障预测。无无人驾驶人驾驶数据中心数据中心无人驾驶数据中心则是一种更广泛地应用 AI 和自动化技术的数据中心,目标是实现无需人工干预的全自动运行。无人驾驶数据中心的实现需要用到包括机器学习、深度学习、自然语言处理等在内的多种 AI 技术,进行资源分配、性能优化、安全防护等一系列复杂任务的自动化处理。未来,随着 AI 技术的进一步发展,无人驾驶数据中心有望实现更高级别的自动化,例如通过增强学习实现自我优化,通过模式识别预测并自动处理可能出现的问题。可以说无人驾驶数据中心是黑灯数据中心的进一步演变,需要更高级别的 AI 和自动化技术支持。这两种数据中心展示了人工智能在数据中心运维方面的强大能力,也为 AI 技术的进一步发展提供了重要的应用场景和实践基础。然而,同时需要注意到,当前这些预70数据中心自适应 AI 节能技术白皮书ODCC-2023-02009测基于 AI 技术的持续发展以及相关技术问题的有效解决,例如如何确保 AI 系统的决策透明性和可解释性、如何防止 AI 系统被恶意攻击等。(六六)风险及风险及挑战挑战未来要实现 AI 技术在数据中心的高度结合和利用率,除了希望和愿景外,还将面对一些现实的挑战:数据共数据共享享:为了确保 AI 技术能够更准确地理解和预测数据中心的状态,需要构建一个开放、透明、安全的数据共享平台。通过数据共享,AI 技术可以获取更多的训练数据,从而提高其预测和决策的准确性。接口统一:接口统一:要实现数据中心各个系统和设备之间的高度集成,需要建立统一的接口标准。统一的接口可以简化 AI 技术的集成过程,提高数据中心的自动化程度。行业自行业自律律:在推动 AI 技术广泛应用的同时,行业也需要对其使用进行规范和监管,避免因数据安全、隐私等问题带来的风险。行业自律既包括制定相应的标准和规范,也包括对 AI 技术应用的监管和审查。如如何衡何衡量节能性:量节能性:随着数据中心规模的增大和功耗的提高,如何准确衡量其节能性成为一个挑战。目前,PUE(Power UsageEffectiveness)是最常用的衡量数据中心能效的指标,但这个指标主要关注的是 IT 设备的能耗,可能无法全面反映出数据中心的节能71数据中心自适应 AI 节能技术白皮书ODCC-2023-02009性。因此,需要发展新的能效指标,以更全面地衡量数据中心的节能性。复杂系统的管理和调优:复杂系统的管理和调优:随着 AI 技术的加入,数据中心的系统将变得更加复杂。如何有效管理和调优这些系统,以实现最优的运行效率,是一个新的挑战。数据安全和数据安全和隐私隐私保护:保护:随着数据共享和 AI 技术的广泛应用,数据安全和隐私保护的问题也越来越突出。如何在利用数据的同时保障用户的数据安全和隐私,是需要解决的重要问题。技术升级和技术升级和人才培养人才培养:实现 AI 技术的高度集成和利用,需要有高水平的技术和专业人才支持。如何进行技术升级和人才培养,以满足数据中心的发展需求,也是一个重要的挑战。

    浏览量28人已浏览 发布时间2023-10-12 78页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 互联网行业海外垂类AI应用专题(1):Duolingo~人工智能推动商业飞轮多维优势打造在线教育龙头-231008(35页).pdf

    请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告|2022023 3年年1010月月8 8日日海外垂类海外垂类AIAI应用应用专题(专题(1 1):):DuolingoDuolin.

    浏览量15人已浏览 发布时间2023-10-11 35页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
1115条  共56
前往
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部