《ODCC:2023数据中心自适应AI节能白皮书(78页).pdf》由会员分享,可在线阅读,更多相关《ODCC:2023数据中心自适应AI节能白皮书(78页).pdf(78页珍藏版)》请在三个皮匠报告上搜索。
1、1数据中心自适应 AI 节能技术白皮书ODCC-2023-02009编号 ODCC-2023-02009数据中心自适应 AI 节能技术白皮书开放数据中心委员会2023-09 发布I数据中心自适应 AI 节能技术白皮书ODCC-2023-02009版权声明版权声明ODCC(开放数据中心委员会)发布的各项成果,受著作权法保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用 ODCC 成果中的文字或者观点的,应注明来源:“开放数据中心委员会 ODCC”。对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC 及有关单位将追究其法律责任,感谢各单位的配合
2、与支持。II数据中心自适应 AI 节能技术白皮书ODCC-2023-02009编写组编写组项目经理:项目经理:查帅荣维谛技术有限公司工作组长:工作组长:李代程百度在线网络技术(北京)有限公司贡献专家:贡献专家:田军维谛技术有限公司吴健维谛技术有限公司赵玉山维谛技术有限公司傅耀玮维谛技术有限公司吴华勇维谛技术有限公司汪涵维谛技术有限公司曾莹维谛技术有限公司雷爱民维谛技术有限公司周薛继维谛技术有限公司刘敬民维谛技术有限公司韩会先维谛技术有限公司曲鑫维谛技术有限公司阮迪中国信息通信研究院III数据中心自适应 AI 节能技术白皮书ODCC-2023-02009前前 言言“新基建”政策的颁布实施,使云计
3、算和大数据得到了快速的发展,数据中心建设迎来了前所未有的增长。新建数据中心的建设规模越来越大,对数据中心的可靠性、设备性能和能源效率的要求逐步提高;而在存量数据中心中,能效和老化问题日益凸显,改造需求激增。“双碳”等一系列政策的出台,更加推动了数据中心的节能减排,降低 PUE 已成当务之急;同时,由此带来的数据中心的管理成本也越来越高,降低数据中心运营管理成本逐渐成为人们关注的焦点。人工智能技术发展突飞猛进,使得其在数据中心基础设施领域中也得到了初步的应用。一方面,人工智能技术在数据中心中可以提高数据中心的效率,降低运营成本,优化决策。例如,智能算法能源管理、智能机器人巡检设备、自动化程序故障
4、排查等技术可智能化地管理数据中心,为数据中心运营带来社会和经济的双重收益。另一方面,智能化的安全监控和风险评估可防止故障和宕机事件,提高数据中心可用性。本白皮书将对数据中心人工智能技术的发展现状、应用情况、未来趋势进行讨论和梳理,聚焦利用 AI 技术自适应地进行不同场景下的空调群控节能方案,从数据、算力、算法等几个方面进行展开分析。由于时间仓促,水平所限,错误和不足之处在所难免,欢迎各位读者批评指正。如有意见或建议请联系编写组。IV数据中心自适应 AI 节能技术白皮书ODCC-2023-02009目目 录录版权声明.I编写组.II前言.III一、概述.1二、术语.1三、AI 技术发展路径及在数
5、据中心的应用现状.5(一)AI 技术的发展现状.51.AI 技术的起源及发展历程.52.AI 技术的主要应用场景.7(二)AI 技术在数据中心领域的发展情况.101.能耗优化.102.故障诊断.123.算力调度.134.安全监测.135.辅助运维.15(三)小结.16四、主要技术路线对比.18(一)AI 节能技术评估维度.18(二)AI 节能技术突破方向.20(三)数据采集方式对比.21(四)主要算法模型对比.231.主要算法模型概述.23V数据中心自适应 AI 节能技术白皮书ODCC-.常见优化算法概述.313.黑白盒算法概述.34(五)算法部署架构对比.361.边缘部
6、署.372.中心部署.383.互联网云部署.39五、主要场景方案及案例分析.41(一)基站级场景案例.411.场景概况.412.AI 应用方案.423.AI 性能综合评估.44(二)微模块 MDC 场景案例.451.场景概况.452.AI 应用方案.483.AI 性能综合评估.52(三)房间级场景案例.551.场景概况.552.AI 应用方案.563.AI 性能综合评估.59(四)楼宇级场景案例.611.场景概况.612.AI 应用方案.62六、未来发展技术洞察.64(一)智能供配电系统.64VI数据中心自适应 AI 节能技术白皮书ODCC-2023-02009(二)智能电能路由器.65(三)
7、智能大模型辅助运维.66(四)智能碳交易及调度系统.67(五)黑灯及无人驾驶数据中心.68(六)风险及挑战.701数据中心自适应 AI 节能技术白皮书ODCC-2023-02009数据中心自适应数据中心自适应 AIAI 节能技术白皮书节能技术白皮书一、一、概述概述本白皮书对数据中心人工智能技术的发展现状、应用情况、未来趋势进行了详细的梳理,探索如何使用人工智能技术来优化数据中心的管理和运行,主要聚焦在利用 AI 技术自适应地进行不同场景下的空调群控节能,以期推动人工智能技术在数据中心领域的发展。二、二、术语术语算法(算法(AlgorithmsAlgorithms)一组用于人工智能、神经网络或其
8、他机器的规则或指令,以帮助它们自主学习;包括分类、聚类、推荐和回归等类型。人人工工智智能(能(ArtiArtificialicial IntelligenceIntelligence)机器模拟人类智力和行为做出决策、执行任务的能力。人人工工神经神经网络(网络(ANNANN)模拟人脑运作的学习模型,用于解决传统计算机系统难以解决的任务。聊天聊天机器机器人人(ChatbotsChatbots)通过文本对话或语音命令模拟与人类用户进行对话的计算机程序,具有 AI 功能。数据数据挖掘挖掘(DataData MiningMining)2数据中心自适应 AI 节能技术白皮书ODCC-2023-02009从
9、大量数据中发现隐藏的模式和关联性的过程。决决策树策树(DecisionDecision TreeTree)基于分支的树模型,绘制决策及其可能后果的模型图,与流程图类似。深度深度学习学习(DeepDeep LearningLearning)机器通过由层叠信息层组成的人工神经网络自主模仿人类思维模式的能力。认知计算(认知计算(CognitiCognitive e ComputingComputing)模仿人类大脑思维方式的计算模型,通过使用数据挖掘、自然语言处理和模式识别进行自学习。机器机器智智能(能(MachineMachine IntelligenceIntelligence)涵盖机器学习、深
10、度学习和古典学习算法在内的总括术语。机器感知(机器感知(MachineMachine PerceptionPerception)系统接收和解释来自外部世界数据的能力,类似于人类使用感官。可能需要外接硬件和软件支持。自自然然语言处理(语言处理(NaturalNatural LanguageLanguage ProcessingProcessing,NLPNLP)利用计算机算法和统计模型,让计算机能够理解和生成人类语言。强化强化学习学习(ReinReinforcementorcement LearningLearning)一种机器学习技术,通过试错过程中不断调整行为,让计算机自动3数据中心自适应
11、AI 节能技术白皮书ODCC-2023-02009学习最优解决方案。监监督学习督学习(SuperSupervisedised LearningLearning)机器学习的一种,其输出数据集训练机器产生所需的算法,如老师监督学生;比无监督学习更常见。无监无监督学习督学习(UnsuperUnsupervisedised LearningLearning)一种机器学习算法,通过不带标签响应的输入数据组成的数据集进行推理。最常见的无监督学习方法是聚类分析。计算机计算机视觉视觉(ComputerComputer VisionVision)利用计算机算法和模型来识别和理解图像和视频。预测分预测分析析(Pr
12、edictiPredictive e AnalyticsAnalytics)利用统计模型和数据挖掘技术,预测未来事件的可能性和趋势。模式模式识识别(别(PatternPattern RecognitionRecognition)通过机器学习技术,让计算机识别和分类数据中的模式。聚聚类分类分析析(ClusterCluster AnalysisAnalysis)利用统计模型和机器学习技术,将数据分为相似的组,从而识别数据中的结构和关系。人人工工智智能优化(能优化(AIAI OptimizationOptimization)通过利用机器学习和优化算法,自动化数据中心的资源管理和调度,提高性能和效率。
13、4数据中心自适应 AI 节能技术白皮书ODCC-2023-02009卷积神经卷积神经网络(网络(CNNCNN)一种识别和处理图像的神经网络。循环循环神经神经网络(网络(RNNRNN)一种理解顺序信息、识别模式、并根据这些计算产生输出的神经网络。5数据中心自适应 AI 节能技术白皮书ODCC-2023-02009三、三、AIAI 技术发展路技术发展路径径及在数据中心的应用现状及在数据中心的应用现状(一)(一)AIAI 技术的发展现状技术的发展现状1.1.AIAI 技术的起源及发展历程技术的起源及发展历程人工智能(AI)是计算机科学的一个分支,致力于研究和开发能够模拟人类智能的计算机系统。AI 技
14、术的发展历程可以追溯到 20世纪 50 年代。起源起源阶阶段(段(-1955):):1943 年,Warren McCulloch 和 Walter Pitts 提出了人工神经网络的概念,这是 AI 研究的起点。1950 年,Alan Turing 发表了著名的计算机器与智能论文,提出了“图灵测试”概念,成为 AI发展的重要奠基石,在这个阶段,AI 的基本概念和理论逐渐形成。初初创阶创阶段(段(-1969):):1956 年,约翰麦卡锡、马文明斯基、纳撒尼尔罗切斯特和克劳德香农等人在达特茅斯会议上共同发起了人工智能领域的研究。此后,研究者们开
15、始广泛探讨 AI 的潜力,开发出许多早期的AI 程序,如逻辑理论家、通用问题求解器等。这一时期的 AI 研究主要集中在基于规则和逻辑的方法上。知知识识表示与专表示与专家家系统系统阶阶段(段(-1985):):AI 研究重心转向了知识表示和推理。研究者们开始开发基于知识的专家系统,如 MYCIN、DENDRAL 等,这些系统能够在特定领域内6数据中心自适应 AI 节能技术白皮书ODCC-2023-02009解决复杂问题。在这一阶段,AI 得到了广泛关注,并在医学、化学等领域取得了实际应用。连接主义与连接主义与神经神经网络复网络复兴阶兴阶段(段(
16、-1999):):在 1980 年代,基于连接主义的研究逐渐兴起,人工神经网络技术得到了重新关注。1986 年,Rumelhart 和 Hinton 等人提出了反向传播算法,使得多层神经网络的训练成为可能。同时,遗传算法、模糊逻辑等智能优化技术也在这一时期得到了发展。机器机器学习学习与大数据与大数据阶阶段(段(-2010):):随着计算能力的提高和大数据的兴起,机器学习技术得到了飞速发展。支持向量机、随机森林、AdaBoost 等机器学习算法应运而生,广泛应用于各种领域。在这一阶段,研究者们开始关注数据驱动的方法,通过从大量数据中学习模式和特征来实现智能。同时,AI
17、领域的核心技术逐步拓展至自然语言处理、计算机视觉、语音识别等多个方向。深度深度学习学习与与 AIAI 革革命命阶阶段(段(2011-2011-至至今今):):2012 年,Alex Krizhevsky 等人提出了 AlexNet,一种基于卷积神经网络的深度学习模型,成功赢得了 ImageNet 大规模视觉识别挑战赛。自此,深度学习技术在 AI 领域掀起了一场革命。随后,LSTM、Transformer 等网络结构不断涌现,深度学习在自然语言处理、语音识别、强化学习等领域取得了突破性进展。7数据中心自适应 AI 节能技术白皮书ODCC-2023-02009近年来,AI 领域的发展进入了一个高速
18、发展阶段,诸如 OpenAI、DeepMind 等研究团队取得了重大成果。例如,OpenAI 的大模型大语言系列模型在自然语言处理领域创造了诸多纪录。同时,AlphaGo等程序成功击败了围棋世界冠军,展示了 AI 在复杂决策领域的潜力。综上所述,人工智能技术经历了多个阶段的发展,从起源到现在的深度学习革命,AI 不断拓展其在各个领域的应用,并取得了显著的突破。未来,随着技术的进一步发展,AI 有望在更多领域发挥重要作用,为人类带来更多福祉。出于对数据中心安全性的考虑,本白皮书主要聚焦于当前已成熟稳定应用算法在节能控制方面的测试及研究。2.2.AIAI 技术的主要应用场景技术的主要应用场景计算机
19、计算机视觉视觉(ComputerComputer VisionVision)计算机视觉是一种利用计算机和数字图像处理技术来模拟和自动识别人类视觉的过程,它主要研究如何让计算机“看懂”图像和视频内容。主要任务包括图像分类、目标检测、目标跟踪、语义分割、三维重建等。深度学习技术在计算机视觉领域取得了重要突破,尤其是卷积神经网络(CNN)在图像处理任务上表现优异,例如AlexNet、VGG、ResNet 等。在医疗影像、安防监控、自动驾驶等领域都有广泛的应用。语音语音识识别(别(SpeechSpeech RecognitionRecognition)8数据中心自适应 AI 节能技术白皮书ODCC-2
20、023-02009语音识别是将人类的语音信号转换成可理解的文本信息的技术。它涉及到声学模型、语言模型等多个方面。近年来,深度学习技术在语音识别领域取得了显著成果。长短时记忆网络(LSTM)和循环神经网络(RNN)在处理时序信息方面有优势,因此在语音识别领域应用广泛。自自然然语言处理(语言处理(NaturalNatural LanguageLanguage ProcessingProcessing,NLPNLP)自然语言处理是一种研究如何让计算机理解、生成和处理人类自然语言的方法。它能够进行自然语言合成理解、词性标注、命名实体识别、句法分析、情感分析、机器翻译等。近年来,Tranform-er
21、网络结构的出现和 BERT、大模型等预训练模型的发展,使得自然语言处理领域取得了突破性进展。专专家推荐家推荐系统(系统(E Expertpert RecommendationRecommendation SystemSystem)推荐系统是一种利用机器学习和人工智能技术,通过分析用户的行为和兴趣,为用户提供个性化的信息、产品或服务推荐。主要技术包括基于内容的推荐、协同过滤、矩阵分解、深度学习等。近年来,深度学习技术在推荐系统中的应用逐渐增多,如利用深度神经网络学习用户和物品的高维表示,提高推荐效果。推荐系统已经广泛应用于电商、社交媒体、音乐视频等领域。工业控制(工业控制(IndustrialI
22、ndustrial ControlControl)工业控制技术主要关注如何在实际生产过程中实现对设备和系统的有效控制。在工业控制领域,人工智能技术可以应用于优化算9数据中心自适应 AI 节能技术白皮书ODCC-2023-02009法、故障诊断、预测性维护等方面。目前,人工智能技术已经在工业控制领域取得了实质性进展,逐步成为各个环节的关键支持,尤其是在工业自动化和工业互联网领域,利用 AI 技术,如计算机视觉、深度学习和模型预测控制等,实现了自动化质量检测、故障预测和能源优化,提高生产效率和降低成本。工业机器人在人工智能的支持下取得了显著发展,实现了更高水平的人机协作和生产自动化。同时,人工智能
23、技术在供应链管理中的应用,也提高了供应链透明度和效率。例如:西门子在其 Amberg 工厂使用 AI 来优化其生产流程。利用 AI 和其他数字技术自动化了大约 75%的生产过程,从而大大提高了生产效率和质量。阿里巴巴的菜鸟网络使用 AI 和机器人来自动化仓库操作,大大提高了仓库的运作效率并降低了人工错误。BMW 使用 AI 进行质量控制。在其生产线上,机器视觉系统可以检测车辆的漆面是否存在任何缺陷或不规则性,从而自动检测可能的生产缺陷。海尔运用工业物联网和 AI 技术,对自己的生产线进行数字化改造,在其 COSMOPlat 工业互联网平台,运用 AI 技术实现了供需匹配、生产计划、生产执行等一
24、系列环节的优化,从而实现了灵活生产和个性化定制。尽管 AI 在多个领域表现出卓越的能力,其在工业控制领域的应10数据中心自适应 AI 节能技术白皮书ODCC-2023-02009用相较而言却显得较少。此种现象主要由一些固有难题所致,首要的问题在于数据采集的精准度、数据标准化以及控制系统的安全性。数据的准确度对 AI 模型的预测和决策至关重要,任何误差都可能影响效率和质量。标准化的数据可以促进数据交换,为 AI 应用奠定基础。而安全性则关乎重要设施和设备,一旦出现问题,后果严重。因此,虽然 AI 的潜力巨大,仍需在更广泛的应用前解决上述挑战,以推动工业控制领域 AI 的进一步发展。(二)(二)A
25、IAI 技术在数据中心领域的发展情况技术在数据中心领域的发展情况随着全球数据量的爆炸式增长,数据中心的能耗问题日益凸显,其中,制冷系统是数据中心能耗的主要部分。如何提高数据中心制冷系统的能效,是行业面临的重要挑战。越来越多的数据中心开始寻求创新解决方案,而人工智能(AI)技术的崛起,为这个问题带来了新的可能性。AI 能够实时收集并处理大量数据,预测和控制制冷系统的工作状态,从而实现能源的优化利用。在本白皮书中,我们将深入探讨 AI 技术在数据中心制冷系统中的具体应用和潜力,展示如何利用 AI 帮助数据中心实现更高效、环保的运行模式。目前,AI 技术在数据中心领域的应用主要在能耗管理、故障诊断、
26、安全监测、辅助运维等几个方面,下面将结合在这几个方面的应用进行介绍。1.1.能耗优化能耗优化在能耗管理方面,人工智能技术已在数据中心能耗分析和预测11数据中心自适应 AI 节能技术白皮书ODCC-2023-02009领域取得进展。通过收集历史能耗数据、机房温湿度和气象数据等多种因素,构建预测模型。利用预测模型对未来能耗进行预测,并依据预测结果对能耗进行调整与优化,实现有效的能耗管理,从而降低能耗并提高整体效率。尽管目前这些模型在应对数据种类缺失、缺乏丰富算法模型和算法组合灵活性不足,人工智能技术在数据中心能耗管理及优化方面仍开始逐步发挥着关键作用。以利用机器学习技术优化数据中心能耗管理为例。在
27、数据中心能耗管理的场景中,可以将历史能耗数据、天气数据以及其他可能影响能耗的因素作为输入,来训练一个机器学习模型。这个模型可能使用监督学习的方式,即根据已知的输入(比如气温、湿度、负载量等)和输出(实际能耗)进行学习。训练完成后,模型将能根据输入的天气数据和预期负载量等信息,预测未来某一时间点的数据中心能耗。依据这一预测结果,数据中心可以更加精确地调整其能源策略,例如优化设备的运行状态、调度任务的执行顺序,甚至调整冷却系统的运行方式,从而实现更高效的能源管理。因此,机器学习在数据中心能源管理和资源调度中提供了强大的支持。Google 利用其 TensorFlow 机器学习框架,通过分析数据中心
28、的负载模式和服务器资源利用率,对任务的分配和调度策略进行自动调整,从而优化了能源管理并实现了能源利用的最大化,通过使用机器学习技术,Google 成功地将其数据中心的冷却能耗降低了12数据中心自适应 AI 节能技术白皮书ODCC-%。但这种方法在冷冻水系统的应用中经常要进行针对性的调整,需要专业的人员参与和现场调试,这是对新技术普适性应用的常见挑战。在算力需求方面,系统可能需要一些特定的场景才能发挥最大效能,但随着硬件技术的不断进步,这也让我们看到了 AI 技术在不断适应和学习的过程中,其潜力和灵活性不断提高。2.2.故障故障诊诊断断在故障分析方面,数据中心设备故障是数
29、据中心运营中常见的问题,AI 技术可以分析设备运行数据,通过机器学习和深度学习算法对数据进行分析处理,提前预测硬件故障,进而可以提前进行预测性维护,避免数据中心的服务中断和数据丢失,从而提高数据中心设备的可靠性和可用性。然而,目前这些技术普遍存在处理数据不完整、模型泛化能力有限和对实时故障诊断响应速度较慢等问题。以深度学习技术对数据中心进行故障检测为例,深度学习技术能够通过训练模型实现自动化设备故障识别。该模型通过学习设备在正常运行状态与异常状态下的特征,从而判断设备是否出现故障。进一步地,根据识别结果,可以提供相应的维修措施以确保数据中心的稳定运行。但是,深度学习方法在处理大量实时数据时可能
30、面临计算资源和实时性的挑战。此外,当数据缺失或存在噪声时,模型的预测准确性可能受到影响。虽然 AI 技术在数据中心故障检测方面具有巨大潜力,但仍需针对现有不足进行改进。13数据中心自适应 AI 节能技术白皮书ODCC-.3.算力调度算力调度AI 技术可以通过分析数据中心中的负载、资源使用情况等数据,对数据中心的资源进行智能调度,实现资源的最优利用和分配,提高资源利用率和效率。例如,可以使用强化学习算法对服务器的资源分配和管理进行优化,提高资源利用效率和数据中心的服务质量。以服务器负载均衡为例,数据中心中的不同服务器可能承载不同数量和类型的工作负载,从而导致负载不均衡现象。
31、应用强化学习技术,可以通过观察服务器的性能和工作负载情况,实现自动调整服务器的负载均衡。在某些场景下,现有的算法模型可能不够丰富,无法满足不同场景下的资源调度需求,导致算法组合灵活性不足。4.4.安全监测安全监测信息安全方面,数据中心正逐渐采用人工智能技术实现安全监测和威胁防范,通过 AI 技术对数据中心的网络流量进行深度学习分析,以及对数据中心的安全事件数据的结合,利用机器学习算法和深度学习算法对数据进行处理,自动检测安全事件,实现对数据中心的安全监测和威胁防范,从而提高数据中心的安全性。例如,可以使用深度学习算法对网络流量进行分类和分析,检测出潜在的安全威胁,并及时进行预警和处理。尽管 A
32、I 技术在数据中心安全监测方面具有很大潜力,其应用仍面临一些挑战。例如,对抗性攻击可能误导 AI 系统,导致误报或漏14数据中心自适应 AI 节能技术白皮书ODCC-2023-02009报,而新型或未知的攻击方式可能无法被现有算法检测到。此外,AI 系统的训练和部署需要大量的计算资源和数据,可能导致较高的成本和难以满足实时监测的需求。阿里云是最早采用了人工智能技术以提升数据中心的安全性的厂家之一。其 AI 驱动的安全系统结合了深度学习和机器学习算法,对大规模的网络流量进行实时监测和分析,成功地自动检测出潜在的安全事件。在实际应用中,当系统检测到异常行为或安全事件时,会立即发出预警并启动防护措施
33、。这种自动化的响应机制显著提升了阿里云数据中心的安全性和稳定性,确保了业务的连续性和数据的安全性。但对抗性攻击可能会误导 AI 系统,导致误报或漏报。同时,训练和部署这种复杂的 AI 系统需要大量的计算资源和数据,可能带来较高的成本,影响实时监测的效果。微软的 Azure 数据中心同样采用了深度学习算法,对网络流量进行实时监测,发现并阻止了一些潜在的网络攻击行为。但目前这些算法可能对一些复杂、隐蔽或新型的攻击手段表现出不足,需要不断更新和优化以应对日益严峻的网络安全威胁。Facebook 的深度学习故障诊断系统可以通过监测服务器运行状况和异常行为,识别故障和潜在的风险,并及时进行修复。该系统使
34、用了基于深度学习的异常检测算法和预测模型,以提高数据中心的可靠性和稳定性。然而,同样的,在实际应用中,这些模型可能需要大量的训练数据和计算资源,同时,它们可能在面对一些特殊15数据中心自适应 AI 节能技术白皮书ODCC-2023-02009情况或少见的异常行为时出现误判或漏报。5.5.辅助辅助运维运维综合运维方面,数据中心正尝试采用人工智能技术实现自动化辅助运维,以提高运维效率和质量。用户能够通过自然语言与数据中心交互,实现自动化理解用户需求并执行相应操作,但自然语言处理技术在理解复杂、模糊或不规范的语言表述时可能出现误解或无法准确执行的问题。以自然语言理解技术为例,该技术能将用户的自然语言
35、需求转化为相应命令,实现自动化执行。在数据中心运维过程中,自然语言处理技术可协助运维人员迅速获取和分析系统状态信息,执行故障排查和修复任务,但可能受限于当前技术水平,难以应对一些复杂或特殊的问题。此外,借助自然语言处理技术,数据中心还可实现与其他智能系统的无缝对接,但技术之间的兼容性和集成仍需要进一步优化,以确保实现更高程度的自动化和运维效率。腾讯云的“智能运维助手”是一个典型的 AI 在数据中心辅助运维的案例。其利用自然语言处理技术,能够准确地理解用户的需求,进而转化为相应的命令进行自动化执行。当运维人员与“智能运维助手”交互,请求系统状态报告或执行某项维护任务时,比如重启服务器,智能运维助
36、手能快速执行并提供反馈,这大大提高了运维效率和质量。除了基础的运维任务,智能运维助手还具备与其他智能系统的无缝对接能力,这进一步推动了数据中心的自动化运16数据中心自适应 AI 节能技术白皮书ODCC-2023-02009维进程。目前,AI 在进行辅助运维方面的工作时,理解复杂、模糊或非标准的语言输入时仍存在挑战,有时可能无法准确执行命令。IBM 的 Watson 平台是另一个典型的应用案例,它基于人工智能和自然语言处理技术,能够分析和理解大量结构化和非结构化数据,为数据中心提供智能化的推理和决策支持。当 Watson 应用于数据中心日志管理时,它可以对大量日志信息进行分析和处理,协助运维人员
37、迅速发现和解决问题,从而降低数据中心的停机时间。(三)(三)小结小结经过对人工智能的历史发展以及现状的探讨,无论是在能效优化、故障预测,还是在安全监测、辅助运维方面,不难看出 AI 技术已深入到数据中心的各个领域,AI 的影响力都日益显现。现代数据中心,也正充分利用 AI 技术,将运维自动化推向了前所未有的高度,大大提升了数据中心的安全性和运营效率。其中,就本白皮书重点关注的能效方面而言,人工智能技术正在广泛应用于提升数据中心的能源效率。通过对数据中心 PUE 的组成进行分析,其中制冷系统能耗约占数据中心总能耗的 40%,因此,将 AI 节能技术聚焦应用在制冷系统上,无疑是一种极具成效的降低数
38、据中心能耗的节能途径。然而,必须认识到,任何 AI 技术的实施都离不开强大的算法、稳定的算力和合理的数据结构的支持。因此,接下来的内容将聚焦于 AI 技术的算法、算力和数据结构的深度探讨。通过这一过程,我17数据中心自适应 AI 节能技术白皮书ODCC-2023-02009们期待进一步理解 AI 的内在工作机制,以利用 AI 技术更好地提升数据中心的运维水平。18数据中心自适应 AI 节能技术白皮书ODCC-2023-02009四、四、主要技术路线对比主要技术路线对比(一)(一)AIAI 节能技术评节能技术评估估维度维度节能性节能性反映 AI 节能技术在降低数据中心总能源消耗方面的表现。通常用
39、 PLF 或者整体 PUE 来衡量,也可用空调能耗或整体能耗节省百分比来评估。经济经济性性反映 AI 节能技术在投资回报方面的表现。通常用投资回报率(ROI)来衡量,全面考虑初投资、维护成本、电费节省及相关的风险成本等。可靠性可靠性反映 AI 节能技术在保证数据中心正常运行和系统稳定性方面的表现。通常用故障恢复时间、服务中断次数等指标来衡量。适应性适应性反映 AI 节能技术在应对数据中心规模变化和应用场景多样性方面的表现差异,通常用不同测试场景下节能效果百分比的标准离差(用来衡量数据分布的离散程度的一种指标)率来衡量。扩展性扩展性反映 AI 节能系统可随数据中心基础设施建设周期的规模和结构19
40、数据中心自适应 AI 节能技术白皮书ODCC-2023-02009变化而灵活扩展的能力。拓展性强的 AI 节能系统可在数据中心全生命周期进行平滑投入和扩容。数据安全性数据安全性反映 AI 节能技术对于所使用的基础设施关键数据的保护能力。包括本地数据如何免受黑客攻击、数据泄露、系统故障等各种威胁,以及合适的云端数据加密及脱敏传输方案设计。预测准确性预测准确性反映 AI 节能技术在预测设备参数变化趋势、预防设备故障、提高基础设施可用性的能力。通常用预测的准确性、预测提前时间和故障处理效率等指标来衡量。可解可解释释性性反映一个算法或模型产生的预测或决策可以被人类理解和解释的程度,主要体现在如何让算法
41、的工作原理通过特征值展示以及图形可视化等方式让人类用户更加透明和容易理解。表 1AI 节能技术评估维度重要性排序重重要性要性维度维度描描述述1节能性降低数据中心能源消耗2适应性应对数据中心规模变化和应用场景多样性3经济性投资回报率、成本节省4可靠性数据中心正常运行、系统稳定性20数据中心自适应 AI 节能技术白皮书ODCC-数据安全性数据和系统免受各种威胁6预测准确性设备故障预测、预防性维护7扩展性系统可随数据中心建设规模和结构变化而灵活扩展8可解释性算法工作原理透明度、易于理解(二)(二)AIAI 节能技术突节能技术突破破方向方向通过对数据中心存在问题及发展趋势的分析,
42、结合 AI 在数据中心领域的应用情况,不难发现当前节能性、经济性、安全性 3 个维度是目前 AI 在数据中心领域应用亟待提升和突破的研究方向。更普适的节能性更普适的节能性现在数据中心的能源消耗主要集中在设备运行和冷却系统。传统数据中心的能源管理方式存在采集数据单一、收敛速度慢、场景适应性差等问题,可能无法充分发挥节能潜力,存在能源浪费。例如,传统的冷却系统往往采用固定的冷却策略,无法根据设备的实时负载和环境温度进行动态调整,导致冷却效率低下。更合理的更合理的经济经济性性在采用 AI 节能技术时,可能会面临一定程度的初期的投资成本上升,投资回报可能不会立即显现。例如,AI 技术的引入需要购买新的
43、硬件设备,进行系统升级,以及对员工进行培训,这些都会增加初期的投资成本。为确保长期收益,需要充分评估投资回报率(ROI)。21数据中心自适应 AI 节能技术白皮书ODCC-2023-02009更全面的安全性更全面的安全性由于 AI 的不可解释性,给 AI 的安全措施设计和实现带来了很大困难。因此,在算法本身不可解释的前提下,通过 AI 相关层级的控制实现全方位,多层次的保护是非常重要的议题。目前解决此问题的思路主要有控制逻辑隔离,底层保底逻辑和减缓控制步长几种主要思路,通过综合利用几种技术思路,通过综合运用这些技术组合,可以大大增强方案的安全性。综上,针对这些问题和改进方法,可以根据具体数据中
44、心的环境和需求进行调整和优化,来实现数据中心 AI 节能技术的高效应用。而为了实现数据中心 AI 节能技术在节能性、经济性、安全性 3 个方向的突破,还需要在具体的技术路径上进行择优,通常实现 AI 技术的运行,需要确定其数据采集方式、算法模型以及部署架构三部分内容,因此,本文将主要从采集方式、算法模型以及部署架构来进行对比。(三)(三)数据采集方式对比数据采集方式对比数据采集方式的设计将直接影响到传感器数量、算法部署思路及系统硬件成本,是整个 AI 节能系统设计的基础。数据中心的数据采集主要可通过两种方式实现:直接采集,间接采集。直接采集:直接采集:22数据中心自适应 AI 节能技术白皮书O
45、DCC-2023-02009这种方式通常涉及到在数据中心设备上安装传感器,例如温度传感器或湿度传感器,这些传感器可以直接从设备中收集数据。此外,还可以使用网络设备,如交换机和路由器,通过 SNMP 协议直接获取设备的运行状态和性能数据。直接采集具备数据准确性高的优点,可以直接获取设备的实际运行状态,如温度、湿度、功率消耗等,对于及时发现和处理问题很有帮助。但其安装和维护成本较高,可能需要额外的硬件设备和安装工作。另外,如果设备数量众多,直接采集可能会产生大量的数据,处理和存储这些数据可能是一个挑战。间接采集:间接采集:数据中心分系统众多,在数据获取时可以充分考虑利用其他子系统已有的传感器信号通
46、道和历史数据,进行模型训练和实时推理。许多数据中心设备,包括存储设备、网络设备和电源设备,都提供了可以查询和管理设备状态和配置的系统或网络接口。这些接口通常支持标准的网络协议,如 HTTP,SNMP 或者 RESTful API,我们可以通过这些接口定期查询设备的运行状态和性能数据。许多现代数据中心设备都支持标准的接口和协议,可以方便地集成到数据采集系统中。但是需要额外的网络资源和计算资源来处理接口查询和数据传输。另外,不同设备的接口和协议可能有所不同,需要对各种接口和协议进行管理和维护。由于机房现场实际数据采集环境的复杂性,在实际应用中,可23数据中心自适应 AI 节能技术白皮书ODCC-2
47、023-02009能需要结合使用多种数据采集方式,以满足数据中心的监控和管理需求。(四)(四)主要算法模型对比主要算法模型对比基于机器学习的自动控制算法趋于成熟,并逐渐多样化。其中认可度较高,效果较为出众的算法主要包括:神经网络预测模型、MPC 模型、老虎机、强化学习等等。近年来,诸如维谛、谷歌、华为等等越来越多的企业,将这些优秀的机器学习控制技术引进数据中心进行能效优化。但不同企业的数据中心规模、配置及其历史数据拥有量各不相同,从而对算法的需求不同,针对于此,这里对不同的算法进行说明、对比。1.1.主要算法模型主要算法模型概述概述PIDPID 控制控制PID 是一种经典控制算法,PID 控制
48、包括三部分:比例调节、积分调节和微分调节。其中比例调节立即产生作用以减少偏差,积分调节可以消除稳态误差,微分调节可以根据变化趋势进行超前调节。PID 控制可通过位置式或增量式公式实现,下面公式为其中一种形式:其中为偏差,为比例带,为积分时间,为微分时间。PID 控制已有多年的应用历史,应用广泛,效果可靠。在工业24数据中心自适应 AI 节能技术白皮书ODCC-2023-02009控制中,PID 控制常常作为第一选择,解决了大部分问题。PID 具有无需训练学习、收敛速度快、可解释性强、稳定可靠等诸多优点,但它也有明显的缺陷:1)PID 控制作为一种反馈控制方式仅仅根据被调量和目标值之间的偏差进行
49、控制,它无法根据扰动进行前馈控制。在数据中心中,当负载和室外工况发生变化时,PID 无法根据该扰动变化提前干扰;2)当扰动因素比如负载不同时,PID 对应的最佳参数不同;3)PID 不适合作多目标控制。模模糊糊控制控制模糊控制是一种以模糊集合论、模糊语言变量和模糊逻辑推理为基础的计算机数字控制技术。它是模糊数学同控制理论相结合的产物,同时也是智能控制的重要组成部分。它模仿人的思维方式,是一种将专家经验规则转化为控制策略的理论方法,特别适用于难以建立精确数学模型的对象。模糊控制的实现步骤主要包括:1)观测量和控制量的模糊化2)制定模糊规则3)进行模糊推理4)控制量的反模糊化。25数据中心自适应
50、AI 节能技术白皮书ODCC-2023-02009模糊控制经过发展,在理论、技术、应用上都有了长足的进步,在过去有段时间甚至非常流行。然而,可能由于数学理论仍待进一步完善,该算法仍然存在争议,现在热度不复往昔。模糊控制的优点非常明显,可解释性强、收敛速度快。模糊控制的缺点也非常明显,过分依赖专家经验,而人的经验不总是可靠的。因此模糊控制主要适合解决复杂而无法建立精确数学模型系统的控制问题,它是处理推理系统和控制系统中不精确和不确定性的有效方法。神经神经网络预测模型网络预测模型当神经网络层数较低时,特征提取和记忆能力变弱,退化成线性或简单的非线性模型,因此较多时候神经网络模型特指有一定深度的网络
51、结构。这类模型对样本量有一定的要求,收敛时间较长。因此这类模型适用于有大量历史样本的数据中心,通过历史样本的离线学习后再直接运用于数据中心。神经网络预测模型一般包含两类神经网络,每类神经网络包含一个或多个,其中一类优化网络用于预测优化目标,例如:PUE、能耗等,另一类约束网络用于业务保障性预测,例如:温度、湿度等。如下图所示:26数据中心自适应 AI 节能技术白皮书ODCC-2023-02009图 1 一种神经网络预测模型其中状态量通常包含状态变量和扰动变量,状态变量如压差、温度等,扰动变量如负载功率、室外温度等。其中控制变量通常为风扇转速、泵转速、水阀开度等等。当神经网络层数较低时,特征提取
52、和记忆能力变弱,退化成线性或简单的非线性模型,因此较多时候神经网络模型特指有一定深度的网络结构。这类模型对样本量有一定的要求,收敛时间较长。因此这类模型适用于有大量历史样本的数据中心,通过历史样本的离线学习后再直接运用于数据中心。MPCMPC 模型模型MPC 模型(Model Predictive Control),由预测模型和优化算法组成,预测模型用于滚动预测未来几步的系统状态,优化算法根据预测的未来状态进行最优控制 u 的求解,并选择最近一步的控制量,作用于下一个周期。27数据中心自适应 AI 节能技术白皮书ODCC-2023-02009MPC 模型的基本思想:利用一个已有的模型、系统当前
53、的状态和未来的控制量,来预测系统未来的输出,然后与期望的系统输出做比较,得到一个损失函数,优化选择使损失值(代价)最小的控制量。如下展示了 Google 的一种自回归预测模型(离散状态空间表达式):=1?+=1?+1其中 A_k、B_k 和 C 是通过样本训练得到的系数矩阵。其中 x 是状态变量,是希望预测和管理的数值,如压差、温度等等。其中 u是控制变量,是希望算法模型推荐的控制变量,如风扇转速、泵转速、水阀开度等等。其中 d 是扰动变量,是无法控制的事件或环境状况,但它会影响到系统状态,如负载功率、室外温度等等。MPC 模型在优化时会同时考虑约束条件,优化控制的目标是满足约束条件限制的前提
54、下,选择使损失(代价)函数最小的控制量u。在数据中心类项目中,在定义损失函数时通常是器件转速越小越节能则损失函数值越小,在定义约束条件时通常希望温度靠近某一设定点附近。MPC 模型的优化解法有二次规划或对偶问题的求解方法等。MPC 模型对样本量要求不高,能较快的实现收敛,另外,当系统预测模型以过去多个时刻作为输入时(如,令上文 T1),还具28数据中心自适应 AI 节能技术白皮书ODCC-2023-02009有很好的鲁棒性。对于数据中心推荐控制,是一种不错的选择。但MPC 模型的优化求解有一定的运算量。多臂老多臂老虎虎机机老虎机,又称 Bandit 算法,也是机器学习的一个重要分支,和强化学习
55、有一定的联系,甚至可以认为是早期的强化学习。Sutton在他编写的教材强化学习里面讲解了这个算法。最早的老虎机模型,基本认为是病理学家 Thompson 在 1933 年提出的。他当时觉得验证新药的医学随机双盲实验有些残酷的地方,对于被分到药效较差的新药的那一组病人并不公平。老虎机模型减小了药效差、增大了药效好的新药的使用概率。现在,老虎机模型在搜索和推荐方面的应用很多。最近较出名的工作是 Li Lihong 发表的 LinUCB 模型,用于 Yahoo!新闻推荐。这里结合数据中心简单介绍下 UCB(Upper Confidence Bound,置信区间上界)算法。UCB 对数据中心不同配置下
56、的稳定态使用分数或收益进行评价,然后选择分数最高的臂进行推荐,得到反馈后进行更新,其公式如下:=?+2(),其中?表示 t 次 UCB 推荐后到目前为止的第 j 种配置下的平均分数或收益,t 是目前为止的总次数,,是第 j 种配置在 t 次中被选中的次数。加号左边反应了平均收益,平均收益越大被容易被29数据中心自适应 AI 节能技术白皮书ODCC-2023-02009选择。加号右边反应了一种不确定性,使算法增加了探索能力。Bandit 算法简单有效,对样本量要求不高,能较快的实现收敛。无论用于数据中心自动控制的冷启动,还是作为其常规控制,都是一种不错的选择。强化强化学习学习强化学习的基本原理是
57、,如果 Agent 的某个行为策略导致环境正的奖励(强化信号),那么 Agent 以后产生这个行为策略的趋势便会加强。Agent 的目标是在每个离散状态发现最优策略以使期望奖励和最大。如下图所示的一种 AC 框架的强化学习模型:其中价值网络用于对数据中心状态进行评价,能耗越低温度越好则奖励越大,反之亦然;其中策略网络用于根据数据中心当前状态选取行为动作,对于导致奖励最大的行为被选取的概率最大。通常可见的策略网络拟合了一个概率分布,越好的行为被选择的概率越大,对于其它行为也有微小的概率被选择,这样做的好处在于,模型同时具备利用和探索能力,当室外环境或负载功率发生变化时,能找到新形势下的最优设置组
58、合。30数据中心自适应 AI 节能技术白皮书ODCC-2023-02009图 2 一种 AC 框架的强化学习模型强化学习的优点在于,它是一种比较通用的范式,能解决各种优化控制和智能推荐问题。但该算法尚不是非常成熟且门槛较高,需要算法人员具备较高的设计能力,并且建立恰当的奖励函数不是一件容易的事。另外该算法模型学习效率相对较低,对样本和学习时间有较大要求。另外由于数据中心不像游戏,无法并发大量的不断交互,因此这类模型建议用于有大量历史样本的数据中心,通过离线学习后再运用于数据中心。综上所述,几个主要模型的优缺点和适用场景如下,可根据实际场景的需求进行选择和组合,以取得最优的效果:表 2 几类主要
59、算法模型对比算法名称算法名称算法描算法描述述优点优点缺缺点点使用场景使用场景PID 控制一种经典控制算法,包括比例调节、积分调节和微分调节。无需训练学习、收敛速度快、可解释性强、稳定可靠。无法根据扰动进行前馈控制,PID 对应的最佳参数随负载变化,不适合作多目标控制。工业控制中,作为首选解决方案,处理大部分问题。模糊控制一种基于模糊集合论、模糊语言变量和模糊逻辑推理的计算可解释性强、收敛速度快。过分依赖专家经验,人的经验不总是可适用于解决复杂且无法建立精确数学模型的系统的控制问题。31数据中心自适应 AI 节能技术白皮书ODCC-2023-02009机数字控制技术。靠。神经网络预测通过深度学习
60、网络结构进行预测,要求有大量样本量。强大的特征提取和记忆能力,能进行复杂非线性模型的预测。对样本量有一定的要求,收敛时间较长。适用于有大量历史样本的数据中心,通过历史样本的离线学习后再直接运用于数据中心。MPC由预测模型和优化算法组成,用于滚动预测未来几步的系统状态,进行最优控制。对样本量要求不高,能较快实现收敛,具有很好的鲁棒性。优化求解有一定的运算量。在数据中心类项目中进行推荐控制。多臂老虎机一种简单有效的优化算法,能根据已有反馈快速做出决策。简单有效,对样本量要求不高,能较快实现收敛。对策略选择有一定的局限性,可能不能获取全局最优解。适用于数据中心自动控制的冷启动,或作为其常规控制。强化
61、学习通过不断与环境交互,调整策略以使期望奖励和最大。是一种比较通用的范式,能解决各种优化控制和智能推荐问题。门槛较高,需要算法人员具备较高的设计能力,模型学习效率相对较低,对样本和学习时间有较大要求。建议用于有大量历史样本的数据中心,通过离线学习后再运用于数据中心。2.2.常见优化算法常见优化算法概述概述优化算法在算法模型中具有重要地位,是计算机寻优求解的最主要手段。但考虑到其运用过于广泛,种类过于繁多,技术过于细节,这里只从整体上进行说明。优化算法用处优化算法用处广泛广泛1)它可以是其它模型的组成部分,比如用于模型的训练收敛;2)它也可以是其它模型的承接部分,比如配合已训练好的模型进行寻优,
62、以实现其它优化目标;3)它还可以直接作为模型,实现即有问题的运筹优化。32数据中心自适应 AI 节能技术白皮书ODCC-2023-02009优化算法种类繁多,优化算法可分为进化算法和数学优化算法两大类别,每大类别又包含很多种算法。进化算法进化算法进化算法是仿照生物进化规律,通过繁殖、竞争、再繁殖、再竞争,实现优胜劣汰,一步步逼近复杂工程技术问题的最优解。从数学上看,进化算法就像融入了生物属性的搜索寻优方法。进化算法包括:遗传算法、粒子群算法、免疫算法、蚁群算法、果蝇算法、模拟退火算法、萤火虫算法等等。其中遗传算法是当前最常用的进化算法之一。遗传算法(简称 GA)起源于对生物系统所进行的计算机模
63、拟研究,是一种随机全局搜索优化方法,它模拟了自然选择和遗传中发生的复制、交叉和变异等现象,从一组随机初始种群出发,通过随机选择、交叉和变异操作,产生一群更适合环境的个体,使群体进化到搜索空间中越来越好的区域,这样不断繁衍进化,最后收敛到一群最适应环境的个体,从而求得问题的优质解。数数学学优化算法优化算法数学优化算法是利用微积分、运筹学、拓扑学等数学知识寻找逼近问题的最优解。数学优化算法包括:凸优化、牛顿法、共扼梯度法、拟牛顿法、梯度优化、Adam、拉格朗日优化、线性规划、动态规划等等。其中33数据中心自适应 AI 节能技术白皮书ODCC-2023-02009梯度优化、Adam 等等由于神经网络
64、的繁荣而广为传播。进化算法进化算法 vs s 数数学学优化算法优化算法1)流派不同:进化算法和数学优化算法分属两个不同流派,都有应用案例。但由于神经网络大放异彩,部分数学优化算法作为神经网络的训练算法,又有坚实的数学基础,因此使用范围更为普遍。2)数学前提不同:进化算法只需计算目标函数的值即可,对优化问题本身的性质要求是非常低的。数学优化算法往往依赖于一大堆的条件,例如是否为凸优化,目标函数是否可微,目标函数导数是否 Lipschitz 连续等等。3)运算复杂度不同:进化算法需要不断搜索、循环迭代,因此速度较慢,其运算速度的瓶颈限制了其在大规模优化问题上的应用。数学优化算法由于充分利用问题的数
65、学性质,运算速度相对较快。4)应用范围不同:数学优化算法需要问题具有较好的数学性质,因此应用范围小于进化算法。进化算法基本可以运用于所有优化问题,然而没有充分利用问题的数学性质,运算速度慢。另外尽管进化算法采用了变异等诸多手段,收敛不到全局最优的可能性仍然存在。5)应用场景不同:对于数学前提较好的优化问题,使用数学优化算法速度快,而且相对容易保证全局最优。但现实中也存在这样的问题,目标函数数学性质不好,非凸不连续,或者直接无法知道其数学性质,此时使用进化算法更好。对于 NP 难问题,目前数学优34数据中心自适应 AI 节能技术白皮书ODCC-2023-02009化算法无能为力,也以进化算法为宜
66、。另外,在神经网络领域,也出现了使用进化算法进行超参数调优的例子,缓解了进化算法的尴尬境地。值得一提的是,随着时代的发展,算力不断提升将利好进化算法。但算力也永远存在瓶颈,不过到一个新的位置罢了。因此,工具本身并不存在绝对的优劣之分,每种工具都有其适用的场景。3.3.黑白盒黑白盒算法算法概述概述“黑盒”和“白盒”是用于描述算法或系统的透明度的术语。特定地,在测试和机器学习的背景下,它们通常被提及。黑盒黑盒(BlackBlack BoBox)“黑盒”指的是一个系统或算法,其中内部的工作机制是隐藏或不透明的。用户只能看到输入和输出,而不能看到内部如何进行处理。优点优点简单性:用户不需要了解内部的工
67、作原理,只需要关心输入和输出。通用性:由于不强调内部的工作机制,因此黑盒方法往往更加通用,适用于各种情境。灵活性:内部实现可以在不影响外部接口的情况下进行修改或优化。35数据中心自适应 AI 节能技术白皮书ODCC-2023-02009缺缺点点不透明:无法确定系统或算法为何会产生特定的输出,这可能导致难以解释或难以理解的行为。难以调试:当出现问题时,难以确定错误的来源或如何修复。信任问题:由于缺乏透明度,用户可能难以完全信任系统或算法。白盒白盒(WhiteWhite BoBox)“白盒”指的是一个系统或算法,其中内部的工作机制是透明和可见的。用户不仅可以看到输入和输出,还可以看到处理过程。优点
68、优点透明性:用户可以完全理解并验证系统或算法的行为。可调试性:由于内部工作机制是知道的,因此更容易定位和修复问题。可定制性:了解内部机制可以使用户或开发者针对特定应用进行优化或修改。缺缺点点复杂性:需要了解更多的细节,可能会对某些用户造成困扰。可能过于特定:由于太过侧重于内部机制,白盒方法可能不如黑盒方法那么通用。36数据中心自适应 AI 节能技术白皮书ODCC-2023-02009资源消耗:由于需要维护更多的细节信息,白盒方法可能需要更多的资源。在机器学习领域,例如深度学习模型通常被视为“黑盒”,因为它们的内部工作机制(即如何从输入数据中学习)对大多数用户来说都是不透明的,尽管其结构和算法是
69、已知的。而传统的算法,如决策树,由于它们的决策过程较为直观和可解释,通常被视为“白盒”。在选择使用黑盒还是白盒方法时,要根据特定的应用和需求进行权衡。例如,如果需要一个可以提供可解释性的系统,白盒可能是更好的选择。如果需要一个可以快速部署且对内部工作机制不太关心的系统,黑盒可能更合适。在数据中心 AI 节能应用的模型设计中,白盒算法具有更强的可解释性,有利于安全策略的设计和人机协同控制,而黑盒算法具有更强的场景适应性,同时,白盒算法的设计需要更强的专家经验支持和更长的开发调试周期,因此在实际应用中常采用混合算法。(五)(五)算法部算法部署署架构对比架构对比算法的部署方案主要受数据安全性要求和算
70、力分布的影响。当前算法部署主要有三种架构:边缘部署,私有云中心部署及互联网云部署。由于数据中心安全性要求较高,常见的主要有边缘部署和私有云中心部署。随着人工智能的飞速发展和大模型技术的不断突破,部分算法任务迁移至互联网云部署或将成为一种趋势。37数据中心自适应 AI 节能技术白皮书ODCC-2023-02009但对于不同的算法任务,应综合考虑算力需求、安全要求等等,对其模型采其不同的部署架构,以实现部署效果最优。1.1.边边缘部缘部署署边缘部署直接将算法模型部署在本地末端计算设备上,该末端计算设备往往通过串口、网络等与温湿度传感器、压力传感器、空调、电表等直接相连,并完成数据采集、控制执行等任
71、务。这里将末端计算设备称为边缘监控管理平台,并将机柜、温湿度传感器、压力传感器、空调、电表等组成的系统称为末端系统。边缘部署是将算法直接部署在与末端系统直接相连的边缘监控管理平台上,其中边缘监控管理平台与末端系统一对一相连。以MDC 场景下的算法部署为例,下面是 MDC 末端系统与边缘监控管理平台的对应关系图:图 3MDC 末端系统与边缘监控管理平台对应关系将算法模型部署于边缘监控管理平台上有这样的好处:比如数据传输距离短,延迟小,不容易受到数据传输中断的影响,安全程度高、可靠性好;比如边缘监控管理平台较多,有算力分散的好处,可有效避免算力总需求过大而无法支持的问题。38数据中心自适应 AI
72、节能技术白皮书ODCC-2023-02009但是出于成本考虑边缘监控管理平台往往性能不高,对算法的支持能力有限,比如无法流畅的运行较深的神经网络模型。另外,因为末端系统与边缘监控管理平台呈一对一的对应关系,所以它不能处理与多个末端系统相关的共同计算任务。因此,边缘部署特别适合于算力要求小,安全要求高的算法模型:比如单一 MDC 中末端空调的开关控制、末端空调压缩机风机或水阀的群控等等。2.2.中心部中心部署署本地中心部署将算法模型部署于本地中心监控管理平台上(或称中心服务器,中心计算设备),一个中心监控管理平台与多个末端监控管理平台通过局域网相连,并通过末端监控管理平台间接实现对末端系统的优化
73、。同样以 MDC 场景为例,中心监控管理平台、末端监控管理平台和 MDC 末端系统的对应关系如下图所示:图 4中心监控管理平台、末端监控管理平台和 MDC 末端系统对应关系将算法模型部署于本地中心监控管理平台:有利于充分利用多39数据中心自适应 AI 节能技术白皮书ODCC-2023-02009末端系统数据;有利于从更大层面对数据中心进行节能控制;同时由于中心监控管理平台个数较少,这还便于提高算力支持能力,同时不至于成本增加太多;另外由于没有使用公网,整个系统仍然保持了较高的安全性。因此,中心部署特别适合于算力要求适中,安全要求中等甚至较高,有多系统协作需求的算法任务:比如冷机出水温度设定点的
74、调节、MDC 目标温度的微调等。另外,中心节能控制是对边缘节能控制的进一步完善,但不宜作为边缘控制的完全替代。在中心监控管理平台通信故障时,末端系统和边缘监控管理平台仍应可正常运行。因此末端边缘系统控制建议保留其完备性、高实时性和高可靠性。出于此考虑,诸如空调末端器件级节能群控建议仍采用边缘部署。3.3.互联网互联网云云部部署署互联网云将算法模型部署于网络云平台上,可以同时跟众多本地中心监控管理平台、本地边缘监控管理平台通过互联网相连。如下图所示:40数据中心自适应 AI 节能技术白皮书ODCC-2023-02009图 5 互联网云算法模型部署网络云平台云平台的巨大优势有利于收集数据和优化算法
75、模型。另外由于真正大算力所需的硬件成本非常昂贵,为了经济效益,前面的边缘部署和中心部署终归算力有限,因此,如大模型之类的算法模型只有云平台可以支持。而随着人工智能的发展,大模型越来越成熟,互联网云部署将呈现增长趋势。但云平台数据传输距离长、安全性差、稳定性低、不可控因素较多。因此,网络云部署特别适合于模型较大,用于改善用户感受而非控制类的算法模型,比如:语音识别、专家咨询系统等。最后,云平台还可用于远程更新边缘算法模型,有利于算法版本的迅速迭代,收益变现。但对于数据中心这样一个安全要求较高的行业,能否接受云带来的不可靠性,仍是一个很大的问题。41数据中心自适应 AI 节能技术白皮书ODCC-2
76、023-02009五、五、主要场景方案及案主要场景方案及案例例分分析析(一)(一)基基站站级场景案级场景案例例1.1.场景场景概概况况某基某基站站机房机房位置位置布布局局位于华东地区,属于夏季炎热、冬季寒冷的气候区域。图 6 某运营商基站机房 3D 模型空调系统空调系统该机房内设有 6 台精密空调。通常情况下,其中 2 台处于关闭状态,4 台处于开启制冷状态。整体 CT 负载相对稳定,开启的 4 台空调的送回风温度相对固定,制冷冗余较大。制制冷冷问题问题在一个空调循环周期中,压缩机只有一半周期的时间在运行,42数据中心自适应 AI 节能技术白皮书ODCC-2023-02009因此室内风机有一半
77、周期无实际效果。所有空调的压缩机的启停都是根据回风温度来进行控制,但根据测量,该空调的回风温度与实际温度相差较大。这种温度差异导致了压缩机重复的启停,空调压缩机启动瞬间的工作电流是正常运行状态下的 4-7 倍,最终加大空调的能耗。与此同时,在机房内,机柜顶端处的温度传感器温度达到了 31 摄氏度,存在高温热点问题。因此,由于回风温度控制与实际温度存在差异,再加上压缩机工作状态的问题,都导致了能耗偏高的问题。2.2.AIAI 应用方案应用方案本案例 AI 技术应用设计旨在通过现场采集器对基站空调进行节能管理,通过已有的动力环境集中监控管理系统的空调效率。方案总体设计上以空调建模+机器学习为主,同
78、时辅助参数自动优化调节。保证场景最优节能效果同时,减少对算力和传感器的依赖,可通过现有的监控采集传感设备,提高了整体投资回收期。安全方面与空调底层控制逻辑紧密耦合,时刻监控安全便捷,避免影响空调的正常控制逻辑。算法设计算法设计该方案通过在采集器上加载节能管理软件,根据设定的控制逻辑对基站空调进行监控,包括空调运行状态及开关机控制,以及机房环境温度监测。算法通过减少压缩机启动次数、提高制冷效率、减少室内风机运行时间等方式,在保障通信设备安全运行的前提下,43数据中心自适应 AI 节能技术白皮书ODCC-2023-02009实现节能的目标。基站规模庞大、远离监控中心,且受建筑结构、季节、经纬度、海
79、拔、所处位置环境等因素影响,算法设计上需要着重考虑控制安全。算法采用中心-边缘的方式,算法寻优推理在中心完成,并同步到边缘智能控制主机来执行,执行包括空调启停、空调启停温度设定值、空调送回风温度设定。基站算法在中心采用大模型方式,通过基站所属地理位置、面积、建筑物类型,空调类型、空调数量、室外温湿度、电源输出负载、基站业务类型等参数进行分类。针对不同分类首先通过气流组织仿真算法建立初始模型,算法在运行过程中不断采样新数据进行验证与修正,裂化更多子模型。中心 AI 节能平台根据基站匹配到的最佳算法模型,在探测到室外温湿度、负载等数据变化超出一定阈值后,则重新发送策略到采集器边缘节能管理软件。边缘
80、节能软件内置温度预测嵌入式 AI 模型和保护策略,在预测到有高温风险后,自动启动安全保护策略。边缘预测算法采用嵌入式 AI 技术,TensorFlow Lite 构建 LSTM 模型。数据采集数据采集数据主要包括空调的开关机状态,送回风温度,温湿度传感器的温度和湿度等。同时,通过优化基站温度采集位置,基于采集的机房温度来控制空调运行,避免因气流组织问题引起的回风温度不准确导致的能源浪费。44数据中心自适应 AI 节能技术白皮书ODCC-2023-02009实实施施过程过程首先,根据控制逻辑开发节能管理软件,并加载到智能采集器中进行调试。然后,在动环监控中正式启动基站空调节能运行及管理模式,实现
81、对房间温度及空调运行状态的精确管理与控制。安全保障安全保障本方案在设计上充分考虑了安全因素。所有空调、温湿度传感器以及电表均接入同一个采集器,使得数据的采集和控制统一,避免了与平台数据传输的风险,提高了控制命令下发的速度。此外,方案优化调整了原有监控方案的温度告警机制,避免出现局部热点问题。3.3.AIAI 性能性能综综合评合评估估改造前运行状态改造前运行状态在未启用 AI 节能系统之前,该运营商基站机房在冬季最冷的月份(12 月和 1 月)的日用电量为 294kwh。改造后运行状态改造后运行状态机房的日用电量降低至 233kwh,相较于改造前,制冷系统的能耗降低了 20.7%。折算到月,AI
82、 模式相较于常规模式在最冷的 12 月和 1 月可节电 1891kwh/月。按照电费 0.7 元/KWH 计算,考虑气候变化情况,全年 AI 节能效果预计节约电费:1218910.7=15884 元/年。降低了能源消耗,提高了经济效益。此外,该方案还有助于解45数据中心自适应 AI 节能技术白皮书ODCC-2023-02009决局部热点问题,消除过热隐患,保障数据中心的稳定运行。基于AI 强化学习算法的空调节能控制解决方案的成功应用,显示了人工智能技术在数据中心能源管理领域的潜力和价值。综综合分合分析析在基站场景中,安全设置是首要考虑的因素。首先,控制策略被下放到采集器中,以避免软件误操作带来
83、的影响。其次,采集器收集的数据被存储在本地,并进行清洗、筛选等预处理以及算法训练。最后,设置了多重告警控制,包括空调面板设置高于远程控制、AI 策略历史回退以及 AI 保底策略校验等多重安全保护机制。(二)(二)微模块微模块 MDCMDC 场景案场景案例例某企业级某企业级 MDCMDC 机房机房本案例比较特殊,选取两个区域相同但业务负载及机房结构略有差异的 MDC 机房,设计了黑盒及白盒两种不同方案,以分析验证基于两种不同类型算法方案的适用场景细节及效果差异。机房位于四季分明的地区,其自然环境温度随季节变换而大幅度波动,表现为冬季寒冷、夏季炎热,而春秋两季的昼夜温差则相对较大。实际后续应用中,
84、现场可以根据情况在两种模型中灵活切换,从而提高整体方案的适应性,提升综合节能效果。1.1.场景场景概概况况黑盒黑盒模型方案模型方案46数据中心自适应 AI 节能技术白皮书ODCC-2023-02009由于线上业务活跃度的昼夜差异性,机房中的服务器工作功率也随之明显不同,冷凝器侧热交换效率在不同时间段有所差异,同时服务器由于业务特性,其散热需求也会随着时间段的不同而变化。但原有的空调控制策略相对较为粗糙,虽然将机房的温度控制在正常范围内,但由于空调热交换效率和服务器散热需求在不同时间段的差异,使得空调在某些时段的工作负荷偏离了最佳状态。表 3 黑盒模型机房及场景配置统计微模块类型SmartAis
85、le3IT 机柜与通道密封通道类型封闭冷通道IT 柜数量(个)11 个单柜总 U 位数(U)462单柜功率(kW)最大 10kW外型尺寸(L*W*H)600*1100*2000mm供配电系统供配电架构UPS电源制式380/400/415V,3N,50Hz冗余配置2N、1+1型号APM 0160kMK16FN02000容量IT 200A,制冷 123A制冷系统空调类型风冷型号CR035RP1NLS712E3A000PV040冗余配置3+1单台制冷量(kW)35kW监控系统监控系统名称RDU 监控系统47数据中心自适应 AI 节能技术白皮书ODCC-2023-02009图 7 黑盒模型机房及布局图
86、对该机房进行改造前,服务器负荷处于高位运行状态,总负载功率约 98kW,整体温度正常,但备机空调未自动打开,空调运行负荷过大。场景二:场景二:白盒白盒模型场景模型场景在对机房进行节能改造的历史数据分析过程中,发现机房的微模块在运行过程中,由于对吹和近似对吹的空调互相干扰,导致其工作状态收敛于周期性波动。此外,微模块采用了送风控制,但是由于自然环境温度和负载功率的变化,不同时间段的回风侧温度会出现时高时低的现象。这些现状下,机房存在以下几个问题:当回风侧温度偏低时,会导致冷量的浪费,使得模块工作在较高的 pPUE状态。同时,空调器件被单独的空调自身控制,空调间相互影响形成竞争运行,也会收敛于周期
87、性波动。这种情况下,温度会在不断地区域性变化,可能会带来安全隐患。表 4 白盒模型机房及场景配置统计微模块类型SmartAisleIT 机柜与通道密封通道类型封闭冷通道IT 柜数量(个)9 个单柜总 U 位数(U)46248数据中心自适应 AI 节能技术白皮书ODCC-2023-02009单柜功率(kW)最大 8kW外型尺寸(L*W*H)600*1100*2000mm供配电系统供配电架构UPS电源制式冗余配置2N、1+1型号容量制冷系统空调类型风冷型号CR025冗余配置3+1单台制冷量(kW)25kW监控系统监控系统名称RDU 监控系统图 8 白盒模型机房布局图对该机房进行改造前,空调器件由空
88、调自身单独控制,空调相互影响,周期波动。另外,尽管改造时是夏季,但改造前 pPUE 仍偏高。2.2.AIAI 应用方案应用方案黑盒黑盒模型方案:模型方案:在对机房现状的分析中,发现原始的空调开关策略过于粗糙,即仅在空调温度测点或关联传感器测点温度过高或过低时才进行开49数据中心自适应 AI 节能技术白皮书ODCC-2023-02009关操作。因此,决定引入具有自学习、自优化能力的机器学习算法。考虑到服务器负载功率在不同时间段有大的差异,引入负载功率作为输入参数之一。同时,许多数据中心难以获取室外温度,因此选择引入空调送回风温度、机柜送回风温度等,使得算法能够间接学习到室外温度引起的室内变化。具
89、体的方案包括:使用负载功率、空调送风温度、空调回风温度、机柜送风温度、机柜回风温度、传感器以及空调位置信息等特征及其复合特征作为算法输入。综合考虑空调功率、温度与目标值的偏离程度、温场均匀程度作为算法自优化的评价或收益反馈。同时,空调开机个数、开机位置、及温度设定点被用作调节手段,即算法推荐的动作。图 9 黑盒模型方案空调器件协作方式算法采用由 LinUCB 和 xgboost 组合而成的级联算法模型,其中LinUCB 用于进行能效探索优化,而 xgboost 用于进行温度调节。由于空调无法频繁开关,样本间隔长且收集困难,采用了收敛速度较快的 LinUCB,尤其是采用级联模型进一步提升收敛效率
90、。考虑到特50数据中心自适应 AI 节能技术白皮书ODCC-2023-02009定数据中心样本不易获取,不能进行批量训练,因此没有采用新兴的强化学习算法,而是选择更快更稳定的 LinUCB。然而,LinUCB 仍然具有强化学习的探索能力,能适应自然环境的变化。xgboost 用于满足自然环境、负载功率及开关机变化引起的温度调节需求。并对特征工程、初始化、安全等方面进行了细致的处理。核心的算法结构图如下:图 10 黑盒模型方案核心算法结构图白盒白盒模型方案:模型方案:通过对机房现状的分析,由于初始空调器件被自身单独控制并相互干扰,因此考虑利用机器学习算法实现对不同空调器件的统一群体控制。这种方法
91、不仅解决了设备之间控制的相互干扰问题,而且还能使空调设备之间和设备内部的各个组件协同工作,以实现节能效果。同时,将能效和温度作为评估或反馈的共同指标,兼顾节能和温度控制,避免回风侧温度过低。空调器件级协作方式如下图所示:51数据中心自适应 AI 节能技术白皮书ODCC-2023-02009图 11 白盒模型方案空调器件协作方式具体方案:将负载功率、机柜送风温度、机柜回风温度以及压缩机风机转速(或水阀开度)等特征及其组合特征作为算法的输入。综合考虑空调能耗、温度与目标值的偏离程度以及温度场的均匀程度作为算法自优化的评价或反馈。将压缩机容量、风机转速(或水阀开度)作为调节方式,即算法的推荐动作。算
92、法采用模型预测控制(MPC)模型。首先构建系统模型,以映射温度、设备输出和负载功率之间的关系。然后,使用拉格朗日优化方法寻找适宜的温度和更低的能耗的设备输出组合。这种方法稳定,收敛速度快,并具有良好的鲁棒性。在建模过程中,使用过去一段时间内多个时刻的状态作为输入,以增强模型的抗干扰能力和理解变化趋势的能力。同时,使用未来一段时间内多个时刻的预测结果共同作为反馈,以提高模型的长期收益能力。此外,还引入了探索机制,以帮助模型不断优化。最后,对特征工程、初始化以及安全等细节进行了处理。52数据中心自适应 AI 节能技术白皮书ODCC-2023-02009图 12 白盒模型方案核心算法结构图通过对两种
93、场景方案的对比分析,建议在微模块场景下黑盒模型和白盒模型联合使用,但仍然是可分别单独使用的。其中白盒模型是细颗粒度调节,是底层器件的微调;其中黑盒模型是粗颗粒度调节,是上层的整体调节;两者互为补充。3.3.AIAI 性能性能综综合评合评估估黑盒黑盒模型效果及节能分模型效果及节能分析析:该机房经过改造后空调的开关能力更加细致。由于当前负荷较高,改造后自动开启了空调备机,并进行温度设定点调整,节能效果约为(18.1-15.9)/18.1=12%,如下图所示:图 13 黑盒模型机房 AI 开启前后空调用电功率对比53数据中心自适应 AI 节能技术白皮书ODCC-2023-02009另外通过对空调 E
94、ER 曲线的分析,发现在极端场景下,方案的最大节能空间约为 20%。以旧型号空调的 EER 曲线为例,当空调制冷量为 19kW 时,其 EER 最大,约为 4.8,此时每 1kW 制冷量所耗电约为 0.2083kW。而当空调制冷量为 28kW 时,其 EER 最小,约为 3.6,此时每 1kW 制冷量所耗电约为 0.2778kW。因此,在相同的制冷需求下,空调的耗电量存在约 25%的差异。图 14 压缩机能效曲线白盒白盒模型效果及节能分模型效果及节能分析析:该机房经过改造后,对气流组织、温度场、冷量分配的调节更加细腻,可对冷热通道分区域调节,对于冷通道或热通道可参考机柜温度进行精确调节。同时改
95、造后,空调的输出更加稳定。节能效果约为(18.07-15.65)/18.07=13%,如下图所示:54数据中心自适应 AI 节能技术白皮书ODCC-2023-02009图 15 白盒模型机房 AI 开启前后空调用电功率对比通过比较 AI 开启前后的冷热通道平均温度,从下图可以看出AI 在允许的范围内适当提升了热通道温度,但这并不是简单的以热通道为温控目标,而是通过能耗反馈实现的优化。图 16 AI 开启前后冷热通道温度根据工作经验和数据,存在某些工况场景的热通道温度可能更低,因此节能空间有更大的潜力。然而,算法实际上是通过器件协作和能耗反馈实现节能的,即使热通道温度相同,适当的比例和精确送冷也
96、可能实现节能。此外,AI 开启后,4 台空调的压缩机波动更小,运行更稳定如下图所示。55数据中心自适应 AI 节能技术白皮书ODCC-2023-02009图 17 AI 开启前后压缩机运行曲线(三)(三)房间级场景案房间级场景案例例1.1.场景场景概概况况某某云云计算中心计算中心位置与布局:坐落于华东地区,属于夏季炎热、冬季寒冷的气候区域,共有两个机房。空调系统:A 机房占地面积约 400 平方米,内设 13 列机柜,包括 8 个封闭冷通道微模块(其中 3 个为单列微模块)。IT 设备的总负载约为 252KVA,负载上架率大致在 30%-40%,A 机房配备 8 台房间级风冷空调。B 机房与
97、A 机房位于同一建筑物的不同楼层,占地面积与机柜数量均与 A 机房相同,但具有 7 个封闭冷通道微模块(其中 1 个为单列微模块),B 机房的 IT 设备总负载约为 280KVA,负载上架率也在 30%-40%左右,B 机房配备了 6 台房间级双冷源空调。图 18 华东某数据机房 3D 模型56数据中心自适应 AI 节能技术白皮书ODCC-2023-02009制冷问题:A 机房的 13 列机柜负载各不相同,其中 2-3 列负载较高,可能出现局部热点。相较之下,B 机房的气流组织相对稳定,但同样存在局部热点和温度分布不均的问题。空调设备在较长时间内保持稳定状态,温度设定未发生变化,导致了大量的制
98、冷冗余和温度分布不均的问题。2.2.AIAI 应用方案应用方案该解决方案旨在应用基于 AI 强化学习算法的空调节能控制于房间级空调系统中,以提升已建设的动力环境集中监控管理系统的空调效率。方案总体设计上为专家经验+神经网络+强化学习。神经网络+强化学习保证场景最优节能效果,同时专家经验的加入提高了整体的收敛速度,进一步增强了在负载频繁变化场景下的实际表现。此外,从安全性方面看,专家经验也为保底策略的设计和合理调节步长的选择提供了更有实践性的依据。算法设计算法设计通过在监控管理系统上加载 AI 强化学习模块,获取管理数据并进行 AI 强化学习,以实现对空调的节能控制。算法涉及的状态、控制和奖励要
99、素包括开关机状态、进/出风温湿度、冷/热通道温湿度等。为保障运行安全,AI 算法中引入了安全保障机制。采集温湿度传感器的温湿度数据、空调的送回风和功率、风机和压缩机的开度以及 IT 负载数据作为数据源,采用强化学习对其进行实时优化。以57数据中心自适应 AI 节能技术白皮书ODCC-2023-02009温度均衡度和 pPUE 作为奖励函数,寻优得到最合适的送回风温度以及其他相关控制参数。该策略解决了冷通道热点问题,改善了空调制冷浪费的问题,实现了安全与节能的平衡。IDC 机房场景各异,包括送风方式、机柜封闭方式、空调变频与否以及空调使用寿命等等,机房负载随时间变化频繁,为了实现见效快、安全运行
100、、自适应长期稳定节能等目标,采取组合算法方式,节能系统内置算法自动评估模块,在不同阶段、不同环境下对不同算法进行评估,择优选择最适合当前阶段和机房环境下的算法。节能系统同时内置算法自动训练模块,在超出一定的阈值后,自动训练算法。算法的一般原则是运行的初始阶段,此时有效样本数据有限,采用专家经验、机理模型和轻量级机器学习算法,使控制策略可以有效的控制在安全区间,具备更好的趋势性,避免少样本大模型下的严重控制策略偏离。轻量级机器学习算法主要包括遗传算法、粒子群算法、模拟退火、强化学习以及算法组合寻优。在系统评估算法到达切换点之后,即可以转入第二阶段算法,此时具备一定的数据规模、也具备大量调优策略、
101、同时有了范围更小的安全寻优边界,算法一般采用深度神经网络。最后一个阶段采用深度强化学习,通过迁移学习先把以后的节能策略迁移到深度强化学习模型。模型评估管理平台依据机房实际运行数据进行评估和切换,不是所有机房都按照以上第一、二、三阶段运行,如果始终不具备进一步切换条件,则会保持在第一或者第二阶段。58数据中心自适应 AI 节能技术白皮书ODCC-2023-02009算法的另外一个核心在于评价函数,评价函数一般包含机房所有温湿度实时值、当前策略下的空调能耗水平。由于场地温湿度传感器的数量布置不一样,评价函数需要针对性进行编写,机房也可能对恒温恒湿有更高要求,此时评估函数的权值则需要优化调整。温湿度
102、的评价函数可以采用多次方程或者高斯分布等数学技能,越接近设定有越高的奖励值。数据采集数据采集温湿度传感器是采集机房环境温度的关键设备。在此场景中,部署了 104 个温湿度传感器,在每一列机柜的前后各部署 4 个温湿度传感器,同时兼顾冷热通道的温度。此外,共有 6 台空调,能采集到算法所需的相关数据,同时满足下发控制命令的功能。最后,电表也是衡量节能前后的重要设备,每一列机柜和空调上都安装了一个电表以统计其消耗的电能。实实施施过程过程实施分为三个阶段:环境仿真分析、AI 业务软件部署、AI 节能59数据中心自适应 AI 节能技术白皮书ODCC-2023-02009评估。在环境仿真分析阶段,场景部
103、署前,评估 AI 算法的智能化水平,除节能控制外,评估 AI 算法是否能解决局部热点问题,消除过热隐患。通过对机房进行气流组织分析,发现存在明显的局部热点和气流组织不均的问题。图 19 机房气流组织模拟图AI 业务软件部署阶段,基于现有监控平台提取两个月数据进行清洗、建模和强化学习。3.3.AIAI 性能性能综综合评合评估估AI 业务评估阶段,从热点消除情况和能源效率改进状况两个方面进行评估。改造前运行状态改造前运行状态夏季最热月 6、7 月室外平均温度 35,在不开启 AI 节能系统前,测算 48 小时,折算 A 机房月用电量 49225kwh,B 机房月用电量62445kwh,机房空调系统
104、 pPUE=1.286。改造后运行状态改造后运行状态60数据中心自适应 AI 节能技术白皮书ODCC-2023-02009两个机房的空调能源效率分别提升了 18%和 15%,AI 模式相较于常规模式在夏季最热月分别可节电 8643 度/月、9470 度/月,降低了能源消耗,提高了经济效益。此外,该方案还有助于解决局部热点问题,消除过热隐患,保障数据中心的稳定运行。图 20 A 机房 AI 开启前后效果对比图 21 B 机房 AI 开启前后效果对比综综合分合分析析与传统节能改造方案相比,基于 AI 强化学习算法的空调节能控制解决方案具有更高的智能化水平和优化效果,能够根据实时环境状态和反馈信息调
105、整控制策略,提高空调运行效率。此外,AI 算法的快速学习收敛和控制稳定性特点,使得节能效果更为显著且可持续。在采用 AI 强化学习算法后,冷通道温度没有再出现局部过高的情况,A 机房整个冷通道的四个温度传感器反馈的温度基本维持在61数据中心自适应 AI 节能技术白皮书ODCC--26 摄氏度左右,B 机房所有微模块冷通道的四个温度传感器反馈的温度基本维持在 26-27 摄氏度左右,既保证了热点的消除,也保证了通道温度的均衡。在此前提下,空调的电能有了明显的下降,整体 pPUE 也有明显的下降,实现了在保证安全的前提下的最大程度节能。在数据中心 AI 节能中,安全是所有工
106、作的前提。本场景下的数据存储在数据中心的本地,极大地保证了数据的安全性。同时,通过温度告警以及设备通讯等多种告警模式,在出现热点以及其他问题时可以及时发现并处理。最后,软件中还加入了保底策略以及策略回退等功能,极大程度上保证了操作的安全性。(四)(四)楼宇楼宇级场景案级场景案例例1.1.场景场景概概况况某自用数据中心某自用数据中心位置与位置与布布局局该数据中心位于西南地区,属于亚热带季风气候区,气候温暖湿润。整栋机楼占地约 900 平方米,包括一楼的高低压配电房,二三楼的业务机房,四楼的通讯机房以及顶层的水冷设备。机楼内置有一个微模块,该微模块中装有 8 台水冷空调和 16 个温湿度传感器。目
107、前,机楼内共有 36 列机柜,其中 4 列已上架。空调系统空调系统62数据中心自适应 AI 节能技术白皮书ODCC-2023-02009该系统包括两个螺杆冷水机组,10 个阀门和 10 个水泵,以及总计 41 台空调设备(包括 22 台水冷空调和 19 台风冷空调)。在这41 台空调设备中,微模块中的 8 台水冷空调也包括在内。制制冷冷问题问题尽管机柜的上架率目前较低,但由于空调设备在较长时间内保持稳定状态,且温度设定未发生变化,可能存在大量的制冷冗余和温度分布不均的问题。温湿度传感器反馈的数据表明负载较高的地方温度已经超过了 29 摄氏度,负载较低的地方温度只有 24 摄氏度左右。但所有空调
108、的送回风温度设置都是相同的,造成冷量的极大浪费。目前,机楼的整体 PUE(功率使用效率)为 2.04,这表明在能源使用效率方面还有提升的空间。2.2.AIAI 应用方案应用方案本应用案例的 AI 节能水冷机楼方案实施,旨在通过基于 AI 强化学习算法的空调节能控制,提升已建设的动力环境集中监控管理系统的空调效率。方案总体设计上为机理建模+神经网络+强化学习。由于冷冻水系统过程参量巨大,机理建模可以有效建立参量之前约束关系,对参量进行降维,从而降低训练的难度。同时,神经网络+强化学习可以有效调节算法参数,保证场景最优节能效果,充分适应复杂冷冻水场景下的房间差异。最终保证了实际方案的适应性和整体投
109、资回报率。63数据中心自适应 AI 节能技术白皮书ODCC-2023-02009算法设计算法设计方案通过在监控管理系统上加载 AI 强化学习模块,获取管理数据并进行 AI 强化学习,以实现对空调的节能控制。算法涉及的状态、控制和奖励要素包括开关机状态、进/出风温湿度、冷/热通道温湿度,以及冷水系统的阀门开度、进出水温度、进出水流量、压缩机开度、水泵功率、频率和室外干湿球温度等。为保障运行安全,AI算法中引入了安全保障机制。数据采集数据采集数据采集主要通过 B 接口和 C 接口的方式接入到本地的 AI 节能系统。采集的数据主要包括空调的开关机状态、送回风温度,温湿度传感器的温度和湿度,以及冷水系
110、统的阀门开度、进出水温度、进出水流量、压缩机开度、水泵功率、频率和室外干湿球温度等。四楼的房间共包含 59 个温度传感器,包括微模块中的 16 个温湿度传感器,用于监测和调整机房的温度。64数据中心自适应 AI 节能技术白皮书ODCC-2023-02009六六、未未来发展技术来发展技术洞察洞察当前的 AI 技术在实际应用中仍面临一些挑战,随着科技的不断进步,AI 算法的迭代将不断完善克服现有挑战,提高对复杂场景和新型威胁的识别能力。未来,AI 技术在数据中心领域的发展将呈现更高的自动化程度、智能化管理和绿色节能性。实现进一步优化资源调度、辅助运维和安全监测,更加精细化、个性化的服务。AI 技术
111、将助力数据中心实现更高的能源效率和环境友好性,降低运营成本。以下是 AI 技术有望在数据中心领域取得广泛应用的几个方面的技术洞察。(一)(一)智智能供配电系统能供配电系统高度自动化与高度自动化与智智能化能化未来的智能供配电系统将进一步实现自动化与智能化,例如通过 AI 实现负荷预测、能源管理、故障检测与诊断等。高能效与高能效与绿色绿色计算计算数据中心将采用更先进的 AI 技术来优化能源管理,实现更高的能源利用率、降低能耗以及减少碳排放。微电网集成与优化微电网集成与优化未来数据中心 AI 的智能供配电系统可能会与微电网系统集成,实现对多种能源类型(如太阳能、风能、蓄电池等)的优化调度。这将有助于
112、提高能源利用率,降低能源成本,同时增强数据中心的65数据中心自适应 AI 节能技术白皮书ODCC-2023-02009能源供应稳定性。预测性维护与故障预测性维护与故障诊诊断断AI 技术将在预测性维护和故障诊断方面发挥重要作用。通过对设备运行数据进行实时监控与分析,AI 可以预测潜在的设备故障,从而降低意外停机时间,提高数据中心的可靠性和可用性。(二)(二)智智能电能路由器能电能路由器随着 AI 技术的不断发展,智能电能路由器将在数据中心领域发挥越来越重要的作用,提高数据中心的性能、可靠性和安全性。以下是AI 技术在未来数据中心智能电路路由器发展中的一些应用场景:自动化路由优化自动化路由优化AI
113、 技术可以实现数据中心网络的自动化路由优化。通过分析网络流量、拓扑结构和链路状态等信息,AI 可以动态调整路由策略,实现更高的网络性能和资源利用率。负载均负载均衡衡与流量控制与流量控制AI 技术可以协助实现数据中心网络的负载均衡和流量控制。通过对网络流量的智能调度,AI 可以保证网络资源的合理分配,降低拥塞风险,提高整体性能。预测性维护预测性维护AI 技术可以为数据中心网络设备提供预测性维护服务。通过对设备运行数据的分析,AI 可以预测潜在的设备故障,从而降低意外66数据中心自适应 AI 节能技术白皮书ODCC-2023-02009停机时间,提高数据中心的可靠性和可用性。(三)(三)智智能大模
114、型能大模型辅助辅助运维运维随着 AI 技术的不断发展,大模型辅助运维将在数据中心领域发挥越来越重要的作用,为数据中心提供更高效、智能和人性化的服务。以下是大模型辅助运维在未来数据中心的一些潜在应用场景:技术支持技术支持大模型辅助运维可以在数据中心的客户支持领域发挥作用,通过自然语言处理(NLP)技术理解用户问题并提供实时解答。这将降低客户等待时间,提高用户满意度。故障故障诊诊断与排查断与排查大模型辅助运维可以帮助数据中心工程师诊断和排查故障。通过对故障信息进行分析,大模型辅助运维可以为工程师提供可能的解决方案,从而降低故障处理时间。资资源调度与优化源调度与优化大模型辅助运维可以协助数据中心管理
115、人员进行资源调度与优化,例如根据用户需求预测资源使用情况,以及提供建议以实现更高的资源利用率。知知识库识库维护维护大模型辅助运维可以协助数据中心维护和更新知识库,以确保用户和工程师能够访问到最新、最准确的信息。67数据中心自适应 AI 节能技术白皮书ODCC-2023-02009安全监控与风险管理安全监控与风险管理大模型辅助运维可以辅助数据中心进行安全监控与风险管理,例如通过分析安全日志和异常事件,协助识别潜在的安全威胁,并提供相应的解决方案。培训培训与与教育教育大模型辅助运维可以为数据中心员工提供在线培训和教育资源,例如回答技术问题、解释操作流程等,从而提高员工的技能和工作效率。与其他与其他
116、 AIAI 系统的集成系统的集成大模型辅助运维还可以与数据中心的其他 AI 系统(如智能供配电系统、智能冷却系统等)集成,实现更高效的数据中心管理和运维。大模型辅助运维在未来数据中心的发展前景是非常广阔的。通过引入先进的 AI 技术,大模型辅助运维将为数据中心提供更高效、智能和人性化的服务,从而提高数据中心的运营效率和客户满意度。(四)(四)智智能能碳碳交交易易及调度系统及调度系统随着全球对碳排放控制的重视程度不断提高,智能碳交易及调度系统将会对实现可持续发展产生积极影响。未来 AI 在智能碳交易及调度系统中可能涉及到的应用场景如下:碳碳排放预测排放预测68数据中心自适应 AI 节能技术白皮书
117、ODCC-2023-02009AI 技术可以帮助企业和政府部门预测碳排放量,为碳排放减少目标设定提供依据。通过对历史数据和实时数据的深度分析,AI 可以为决策者提供更准确的碳排放预测。碳碳交交易易优化优化AI 可以在碳交易市场中实现优化,通过分析市场行情和需求,AI 可以为交易参与者提供策略建议,如何有效购买或出售碳排放权,从而降低企业的碳排放成本。碳资碳资产管理产管理AI 可以帮助企业更有效地管理碳资产,通过对企业的生产流程、能源消耗等进行分析,AI 可以为企业提供节能减排的优化建议,从而降低碳排放并提高资产价值。政政策策制定与评制定与评估估AI 可以帮助政府部门制定更为有效的碳排放政策,并
118、评估政策实施效果。通过对大量数据的分析,AI 可以为政府提供针对性的政策建议,以促进碳排放的减少。AI 在智能碳交易及调度系统中具有巨大潜力。通过将 AI 技术与碳交易及调度系统相结合,可以实现更有效的碳排放管理,为应对全球气候变化做出贡献。(五)(五)黑灯黑灯及无及无人驾驶人驾驶数据中心数据中心黑灯数据中心和无人驾驶数据中心是两种以自动化和人工智能69数据中心自适应 AI 节能技术白皮书ODCC-2023-02009为核心的先进数据中心概念。黑灯黑灯数据中心数据中心黑灯数据中心是指在几乎不需要人工参与的情况下,由人工智能和自动化技术进行运维的数据中心。黑灯一词寓意该数据中心可以在无人值守的情
119、况下在黑暗中运行。人工智能在黑灯数据中心中的作用主要表现在能源管理、网络流量管理、安全事件监测和故障排查等多个方面,大大提高了数据中心的运行效率和安全性。预计未来,黑灯数据中心将更深入地采用 AI 技术,比如深度学习,以实现更精细化的数据中心管理和更准确的故障预测。无无人驾驶人驾驶数据中心数据中心无人驾驶数据中心则是一种更广泛地应用 AI 和自动化技术的数据中心,目标是实现无需人工干预的全自动运行。无人驾驶数据中心的实现需要用到包括机器学习、深度学习、自然语言处理等在内的多种 AI 技术,进行资源分配、性能优化、安全防护等一系列复杂任务的自动化处理。未来,随着 AI 技术的进一步发展,无人驾驶
120、数据中心有望实现更高级别的自动化,例如通过增强学习实现自我优化,通过模式识别预测并自动处理可能出现的问题。可以说无人驾驶数据中心是黑灯数据中心的进一步演变,需要更高级别的 AI 和自动化技术支持。这两种数据中心展示了人工智能在数据中心运维方面的强大能力,也为 AI 技术的进一步发展提供了重要的应用场景和实践基础。然而,同时需要注意到,当前这些预70数据中心自适应 AI 节能技术白皮书ODCC-2023-02009测基于 AI 技术的持续发展以及相关技术问题的有效解决,例如如何确保 AI 系统的决策透明性和可解释性、如何防止 AI 系统被恶意攻击等。(六六)风险及风险及挑战挑战未来要实现 AI
121、技术在数据中心的高度结合和利用率,除了希望和愿景外,还将面对一些现实的挑战:数据共数据共享享:为了确保 AI 技术能够更准确地理解和预测数据中心的状态,需要构建一个开放、透明、安全的数据共享平台。通过数据共享,AI 技术可以获取更多的训练数据,从而提高其预测和决策的准确性。接口统一:接口统一:要实现数据中心各个系统和设备之间的高度集成,需要建立统一的接口标准。统一的接口可以简化 AI 技术的集成过程,提高数据中心的自动化程度。行业自行业自律律:在推动 AI 技术广泛应用的同时,行业也需要对其使用进行规范和监管,避免因数据安全、隐私等问题带来的风险。行业自律既包括制定相应的标准和规范,也包括对
122、AI 技术应用的监管和审查。如如何衡何衡量节能性:量节能性:随着数据中心规模的增大和功耗的提高,如何准确衡量其节能性成为一个挑战。目前,PUE(Power UsageEffectiveness)是最常用的衡量数据中心能效的指标,但这个指标主要关注的是 IT 设备的能耗,可能无法全面反映出数据中心的节能71数据中心自适应 AI 节能技术白皮书ODCC-2023-02009性。因此,需要发展新的能效指标,以更全面地衡量数据中心的节能性。复杂系统的管理和调优:复杂系统的管理和调优:随着 AI 技术的加入,数据中心的系统将变得更加复杂。如何有效管理和调优这些系统,以实现最优的运行效率,是一个新的挑战。数据安全和数据安全和隐私隐私保护:保护:随着数据共享和 AI 技术的广泛应用,数据安全和隐私保护的问题也越来越突出。如何在利用数据的同时保障用户的数据安全和隐私,是需要解决的重要问题。技术升级和技术升级和人才培养人才培养:实现 AI 技术的高度集成和利用,需要有高水平的技术和专业人才支持。如何进行技术升级和人才培养,以满足数据中心的发展需求,也是一个重要的挑战。