上海品茶工作室服务(上海各区工作室新茶,上海各区外卖自带工作室)

《英特尔：2023中国医疗健康行业AI实战手册（55页）.pdf》由会员分享，可在线阅读，更多相关《英特尔：2023中国医疗健康行业AI实战手册（55页）.pdf（55页珍藏版）》请在三个皮匠报告上搜索。

1、英特尔中国医疗健康行业AI实战手册趋势篇实战篇技术篇06目录*人工智能在医疗健康领域的发展与应用OpenVINO 提升医疗图像 AI 推理效率医学影像处理中的图像分割U-Net 分割网络的优化方法Dense U-Net 图像分割方法东软 eStroke 影像平台西门子医疗利用英特尔深度学习加速技术，推进诊疗中的 AI 应用 GE 医疗利用英特尔技术与产品，优化深度学习模型，提升 CT 图像推理性能汇医慧影利用英特尔技术，构建高效协助诊疗平台卫宁健康基于英特尔先进产品，构建高效的智能辅助诊断系统致远慧图借力英特尔技术，推出智能远程阅片方案AI+Cloud，协力共建高效医学影像分析能力医疗领域

2、中的医学影像分析优化 AI 模型效率西安盈谷利用 AI 技术和云服务，提升医学诊疗辅助能力AI 技术加速病理图像分析医疗领域中的病理切片分析基于深度学习的病理切片分析方法的优化江丰生物利用 AI 技术提升高危病筛查效率江丰生物以 AI 技术助力肺部疾病筛查0228303233353739424345485056465676969784硬件产品第四代英特尔至强可扩展处理器第三代英特尔至强可扩展处理器英特尔至强 CPU Max 系列第二代 Gaudi 深度学习加速器(Habana Gaudi2)英特尔

3、高级矢量扩展 512（英特尔 AVX-512）英特尔高级矩阵扩展（英特尔 AMX）英特尔软件防护扩展（英特尔 SGX）英特尔 SST889979899992AI 技术助力加速药物研发深度学习方法加速药物筛选基于英特尔至强可扩展平台的优化诺华利用深度学习提高药物研发效率*AI 助力打造更为精准智能的医疗解决方案*医疗行业中更多 AI 技术的落地应用*英特尔架构提升机器学习方法效率第四范式构建慢性病预防与管理闭环管理方案面向英特尔架构优化的 Python 分发包，助力汇医慧影提升放射组学特征选择效率*卫宁健康 NLP 后结构化平台提供由 A

4、I 驱动的医疗信息整合解决方案*东软医保借力第四代英特尔至强可扩展处理器加速 OCR 票据识别基于联邦学习的 AI 方法在医疗行业中的探索打破数据壁垒，提升医疗 AI 应用效能英特尔软件防护扩展联邦学习在医疗领域的实战基于联邦学习，开展面向脑部病灶分割的研究*医渡云打造基于联邦学习的多方安全计算解决方案*锘崴科技开展基于隐私保护计算的 GWAS 研究*运用 OpenFL 推动联邦学习方案落地医疗领域*AI 技术加速蛋白质结构预测*AlphaFold2 实现蛋白质结构预测加速*基于英特尔至强可扩展处理器开展 AlphaFold2 优化*英特尔优化方案在 AlphaFold2 上的实

5、战软件和框架英特尔 oneAPI 工具套件英特尔数据分析加速库（oneDAL）英特尔 oneAPI 数学内核库（oneMKL）英特尔深度神经网络库（oneDNN）面向英特尔架构优化的深度学习框架面向英特尔架构优化的 TensorFlow 扩展包(ITEX)OpenVINO 工具套件注：*部分为 2023 年版本更新内容Contents趋势篇5476英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册趋势篇趋势篇人工智能在医疗健康领域的发展与应用人工智能在医疗健康领域的发展医疗人工智能的市场趋势得益于算法的进一步成熟、算力的提高以及数据的持续积累，人工智能（Artific

6、ial Intelligence，AI）得到迅猛发展，深度学习成为其代表，并呈现出应用领域日益集中的趋势。作为 AI 技术最重要的落地领域之一，医疗行业与人工智能技术的结合也在近年来获得了市场的巨大青睐。据弗若斯特沙利文（Frost&Sullivan）发布的研究报告显示，中国医疗智能行业市场规模正在呈现高速增长，预计将在 2030 年超过 1.1 万亿元人民币1。这一高速增长一方面得益于中国医疗市场的迫切需求，另一方面则源于近年来医疗人工智能技术的发展以及相关政策的支持。同时，人工智能技术与产品的市场化落地也呈加速趋势，数据表明截至 2021 年 8 月，中国已有 28 款不同的人工智能医疗产

7、品获批三类医疗器械注册证2。从全球来看，医疗人工智能的应用细分领域与中国略有不同。根据 Global Market Insight 的统计数据，药物研发在全球医疗人工智能市场中的占比最大，达到 35%。紧随其后的是医学影像人工智能，占比 25%，并将以超过 40%的增速发展，预计 2024 年其规模将达到 25 亿美元。3此外，基因组学分析是人工智能应用的又一重要领域。预计到2022 年，该细分市场的规模仅在中国就将接近 300 亿元人民币4。基因测序与人工智能进一步结合，势必还会加速其发展，同时随之带来的测序时间缩短以及成本大幅降低，又会为医疗行业人工智能的应用创造更大的想象空间。随着人工智

8、能在更多医疗领域的运用，更多医疗数据也参与到各类机器学习和深度学习模型的训练中来，如何在提升模型性能的同时保证信息安全和隐私保护也是目前业界瞩目的焦点之一。因此，可信理念也在人工智能与医疗行业的结合中逐渐深入。1 数据援引自弗若斯特沙利文在2022年5月25日发布的报告医疗智能行业白皮书，https:/ 数据援引自中国信息通信研究院发布的人工智能白皮书（2022年）：http:/ Global Market Insights report.2018年4月前瞻产业研究院。2018-2023年中国基因测序行业市场前瞻与投资战略规划报告。2018年。https:/ AlphaFold2 为代表的新

9、方案能够大幅加速蛋白质结构解析速度，揭示和呈现有机体内更多的信息秘密，是人工智能在生物学、医学和药学等领域落地的核心发力点之一。在中国，政策激励是加速医疗人工智能应用落地的关键因素之一。相关政府部门陆续推出了大量政策，从人才培养、技术创新、标准监管、行业融合、产品落地等多方位推动人工智能发展。其中，在2018年1月，国家标准化管理委员会指导下的人工智能标准化白皮书（2018 版）发布；同年 4 月，国务院印发关于促进 “互联网+医疗健康”发展的意见，将推进 “互联网+”人工智能应用服务作为实施“健康中国”战略的重要举措，并表示将重点支持研发医疗健康相关的人工智能技术、医用机器人、大型医疗设备

10、等。2021 年 10 月，由国家卫生健康委、国家中医药管理局印发的公立医院高质量发展促进行动（2021-2025 年）提出建设“三位一体”智慧医院。通过完善智慧医院分级评估顶层设计，鼓励有条件的公立医院加快应用智慧服务软硬件。2023 年 3 月由中共中央办公厅、国务院办公厅印发的关于进一步完善医疗卫生服务体系的意见指出发展“互联网+医疗健康”，加快推进互联网、人工智能、云计算等在医疗卫生领域中的应用，加强健康医疗大数据共享交换与保障体系建设。医疗人工智能的应用趋势人工智能在医疗健康领域的应用非常广泛，在从医学影像到健康管理、药物研发、慢性病管理以及生物学探索等诸多环节，都可发挥关键作用，并

11、已在不同层级与不同细分领域的医疗机构呈现出各异的“职能”。其中，人工智能用于医学影像等场景主要服务于医院或其他医疗机构，其应用集中在疾病筛查方面。但囿于存在假阴性的情况，还需要医生审阅所有片子以防漏诊，致使此类应用在减轻医生工作量方面的效果并不显著。6趋势篇98英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册趋势篇趋势篇针对这些挑战，医疗和人工智能等领域的专家已经提出多项应对措施，来优化应用环境，提高应用实效：收集大规模和多样化的健康数据。广泛收集来自不同种族、民族、语言和社会经济地位患者的数据，并对其进行标准化和集成；提高数据质量。从提供可靠、高质量的数据输入入手，继之再

12、利用工具提高数据收集的质量，如进行错误纠正、发出关于缺失数据的警告等；融入临床工作流程。将深度学习融入现有电子病历系统的管理，提高临床医生的工作效率和数据采集的实时性；构建高维学习模型。引入百万级乃至上亿级的规则，通过高维学习模型，大幅提升预测和识别的准确率；法制化规范化。针对诸如计算机黑客篡改数据，从而影响深度学习模型的结果等信息安全问题，要制定相应法规，保护分析模型。同时，为推动多源医疗数据进行更安全的交互、传输和聚合，解决因数据孤岛所造成的高质量训练数据不足问题，各方专家正积极探索引入联邦学习方法等安全性更高的数据协作方式和更完善的 AI 模型训练架构，以便在降低隐私泄露风险的前提下，以

13、更多高质量数据构建起安全可信的多源数据协同方案，提升医疗 AI 应用效能，使 AI 技术更高效、安全地服务于医疗健康。未来，人工智能在不同层级的医疗机构的应用方向可能会呈现出更加多元化的趋势，即在基层医院或第三方体检中心，其应用将以辅助筛查、辅助诊断以及慢性病管理为主；在三甲医院，则以提高医生工作效率为主；在健康管理方面，人工智能以支持单位和个人支付的健康体检为主要方向；在药物研发领域，人工智能应用又表现出不同特点，需要相关技术公司与大型药企、医药研究机构通力合作来推进。虽然人工智能在医疗健康领域迅速得以应用，但源于数据、模型等方面的影响，目前仍然面临诸多挑战：数据量。模型越复杂，参数越多，所

14、需要的训练样本量就越大。但是对许多复杂的临床场景而言，所需要的大量可靠数据却并不容易获得；数据维度。通常而言，数据维度越少，对真实世界的描述能力也越差，但高维数据处理面临着处理效率低、所需计算量大等问题；数据质量。一般而言，健康数据的组织化和标准化程度都不高，且数据分散、有噪声。在条件不好的诊所与基层医院，还存在电子病历信息缺失或有误、多机构间分散存储等问题，同时接口数据可靠性也很差；数据孤岛现象。作为关乎人们隐私信息的敏感领域，医疗数据泄露风险已经受到医疗机构的足够重视，但由此也催生出不同机构间数据相互隔离的数据孤岛现象。而单一医疗机构又难以聚集起足够的高质量训练数据，供 AI 模型训练学习

15、所用；模型的可解释性。深度学习模型是个黑盒子，对如何得出结论没有明确的解释，其决策模式的权威性尚待验证；模型的通用性。首先是模型偏差，比如采用白种人患者数据进行训练的模型，可能在其他种族患者中效果不佳；还有就是模型互操作性差，即很难建立一个适用于两种不同电子病历系统的深度学习模型；模型安全。即便是训练有素的图像处理模型，也有可能因输入图像的扰动而受到不良影响，但这一扰动却无法被人察觉。此外，还存在数据“差之毫厘”就可能带来预测结果“失之千里”的问题。比如，轻微改变患者电子病历数据中的实验检测值，就可能极大影响模型对住院死亡率的预测。人工智能在医疗健康领域的应用场景医疗健康是人工智能应用落地最具

16、潜力的领域之一，对此业界已有共识。伴随着应用的不断深入，人工智能将在以下多种医疗健康应用场景中大显身手：慢病管理与疾病监测。基于患者体征对（潜在）慢性疾病进行风险预估，从而通过早期干预，大大降低患者的医疗费用；临床预测分析。例如，基于电子病历数据评估在院内感染疾病的风险，根据运营模型预测患者再入院率，根据财务模型制定捆绑销售服务方案等；慢性病管理。利用数据采集方法（例如物联网），构建基于人工智能方法的慢性病评估及筛查模式，提升慢性病的预测和早期诊断能力；病历搜索与质量控制。精准提取医疗文本中的关键信息，进行医学实体识别，进而实现灵活的全量电子病历搜索；虚拟现实助手。通过虚拟现实会话，参与到患教

17、活动中，帮助患者清楚了解其病因，使医患沟通更有效；智能导诊。通过语音、触屏等多种交互方式，更好地提供院内导航、导诊、导医，提升精准分诊、健康咨询、健康宣教等服务的水平；影像辅助诊断。帮助放射科医生快速筛除正常影像，提高医生的病例处理效率；提高分析影像的准确度，缩短诊断结果报告时间，提升医疗系统的诊断能力；病理分析。例如，高效、准确地对送检物进行检测和分类；基因组学分析。用以大幅降低基因测序成本，快速精确实现规模庞大的基因组数据分析，为疾病的诊断和治疗等提供支持；蛋白质结构预测。通过深度学习方法，加速蛋白质结构的解析，为生物学、医学、药学乃至农业、畜牧业等领域的未来研究与发展提供高质量的生物学假

18、设；药物发现。加快药物研发效率，降低成本。在下一章“实战篇”中，我们将结合英特尔与东软、西门子、盈谷、第四范式、汇医慧影、致远慧图、卫宁健康、医渡云、锘崴科技以及江丰生物等产业伙伴与客户在医疗人工智能领域的实战案例，详细介绍项目的背景、实施过程，以及取得的经验与成果，还将结合各应用场景提供相对应的软、硬件配置推荐。实战篇11101312英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇OpenVINO 提升医疗图像AI推理效率医学影像处理中的图像分割传统医学影像图像分割方法计算机视觉中的图像分割5 是指以图像中的自然边界，例如物体轮廓、线条等，将图像切分为多个区域

19、，其目的是用于简化或改变图像的表现形式，使之更易解读和分析。在计算机方法中，这一过程通常会被解构为将图像中的每个像素加上标签，使具有相同标签的像素有着某种共同视觉特性，例如颜色、亮度、纹理等，由此进行的度量或计算得出的一定区域的像素特性相似，而邻接区域则有着很大的不同。作为计算机视觉技术的重要分支，图像分割已在医学影像处理、工业机器人、智能交通、指纹识别以及卫星图像定位等多个行业和领域获得广泛应用。在医学影像处理领域，图像分割已在诸多病理位置定位、组织体积测量、解剖学研究、计算机辅助手术、治疗方案制定以及临床辅助诊断等多个细分领域证明了其价值。传统的图像分割方法主要有以下几种常见方法：基于聚类

20、的方法：聚类法是基于K-均值算法，将图像迭代分割成K个聚类。该算法中，分割图像中像素与聚类中心之间都有着相似的距离偏差，距离偏差通常采用颜色、亮度、纹理、位置等指标。该算法具有良好的收敛性；基于阈值的方法：该方法是通过计算图像的一个或多个灰度阈值后，将每个像素的灰度值与阈值相比较，最后进行归类的方法；基于边缘的方法：该方法是根据图像中自然边缘的灰度、颜5 关于图像分割的描述，部分参考：Linda G.Shapiro and George C.Stockman(2001)：“Computer Vision”,pp 279-325,New Jersey,Prentice-Hall,ISBN 0-1

21、3-030796-36 关于FCN的相关技术描述，摘选自UC Berkeley jonlong、shelhamer和trevor的论文Fully Convolutional Networks for Semantic Segmentation：https:/people.eecs.berkeley.edu/jonlong/long_shelhamer_fcn.pdf色、纹理等特性的突变性来对图像进行分割。一般来说，基于边缘的分割方法依赖于灰度值边缘检测，当边缘灰度值呈现阶跃型等变化时，判断为图像边缘；基于区域的方法：该方法是根据图像的相似性来对图像进行分割，其判断原则是根据相邻像素点的灰度、颜

22、色、纹理等特性是否存在相似性，如有相似，则扩大像素点的集合。基于深度学习的图像分割方法随着近年来AI技术的飞速发展，尤其是在图像领域，基于AI技术的图像识别、图像处理应用已经被用在很多场景中，其对各类医学影像的分析识别能力已经超过人类。与卷积神经网络（Convolutional Neural Network,CNN）类似的模型，是目前基于AI的图像分割技术中常见的网络模型。这其中，全卷积网络（Fully Convolutional Network,FCN）、U-Net和V-Net是常见的几种基于深度学习的图像分割方法。FCNCNN 的典型用途是对任务进行分类。对图像处理而言，它的输出是单个类别

23、标签。在生物医学的图像分割处理中，期望的输出应该包括定位，即应该将类标签分配给每个像素。作为卷积神经网络的升级扩展版本，如图 2-1-1 所示，FCN6 遵循编码、解码的网络结构模式级联了卷积层和池化层。卷积层和最大池化层有效降低了原始图像的空间维度。同时，FCN 使用 AlexNet 作为网络的编码器，采用多重转置卷积重复扩展的方式，对编码器最后一个卷积层输出的特征图进行上采样，直到特征图恢复到输入图像的分辨率，因而，可以实现像素级别的图像分割。正向/推理反向/学习962425640964096像素级预测图像分割图 2-1-1 FCN 方法原理图12实战篇1514英特尔

24、中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇图 2-1-3 V-Net 拓扑思想卷积层2x2 过滤器，步长：2解卷积层2x2 过滤器，步长：2细粒度特征转发使用 5x5x5 过滤器，步长：1元素总和非线性 PReLu向下卷积向下卷积向下卷积向下卷积向下卷积向上卷积向上卷积向上卷积向上卷积向上卷积图 2-1-2 U-Net 拓扑conv3x3,ReLUcopy and cropmax pool 2x2up-conv 2x2conv 1x1outputsegmentationmapinputimagetile-Net作为 FCN 网络的一个改进版本，U-Net 具有一

25、个鲜明的 U 型结构，其拓扑图如 2-1-2 所示，其在每个 Encoder 上都会进行 4 次上采样，这使得分割图恢复边缘等信息会更为精细。同时，在同一个 stage 上，U-Net 都采用了跳跃连接（skip connection），而不是直接在高级语义特征上进行监督和loss 反传，这样就可以保证最后得到的特征图融合了多的低层级（low-level）特征，也使得不同尺度的特征得到了融合，从而可以进行多尺度预测（Multi-Scale Prediction）和深度监督（Deep Supervision）。另外，U-Net 在网络后部补充了一个与前面类似的网络，形成 U 性结构。其中池化运算

26、符由上采样运算符替换，因此增加了输出的分辨率。同时，为了定位，模型从收缩路径的高分辨率特征与上采样输出相结合。连续卷积层可以采用 relu 激活函数来对原始图片进行降采样操作，从而获得更精确的输出。V-NetV-Net 可以视为 3D 版本的 U-Net，如图 2-1-3 所示，它与U-Net有着类似的拓扑形态，适用于三维结构的医学影像分割。V-Net 能够实现基于 3D 图像的端到端图像语义分割，并通过类似于残差学习的 trick 来对网络进行改进。医学影像在实际应用中也有其独有的特性。我们可以看到，一般胸片影像是胸片 CT，而眼底检查则是眼底 OCT，均为针对一个指定器官的成像，而非全身。

27、而器官本身结构比较固定，语义信息并非特别丰富。所以高级语义信息和低层级特征就显得非常重要，而 U-Net 的 U 型结构和跳跃连接在这种场景中，可以发挥出更大作用。近年来，U-Net 在医学影像分割领域良好的应用效果，已在很多部署中得到充分了证明。-Net分割网络的优化方法基于英特尔架构的优化方法将传统的CNN图像分割方法用于医学图像时，往往存在以下困难：CNN通常都是应用于分类，生物医学图像则更关注分割以及定位的任务；CNN需要获取大量的训练数据，而医学图像很难获得相应较大规模的数据。以往在应对上述困难时，通常采用滑窗的方法，即为每一个待分类的像素点取周围的一部分邻域输入。这种方法好处有两

28、点：首先，这一方法能够在滑窗的同时完成定位工作；其次，每次动作都会取一个像素点周围的邻域，可以大大增加训练的数据量。但是，这一方法也有两个缺点：一是通过滑窗所取的块之间有较大的重叠，会导致训练和推理速度变慢；二是网络需要在局部准确性和获取上下文之间进行取舍，因为如果滑窗取的块过大，就需要更多的池化层，定位准确率会降低，而取的块过小，则网络只能看到很小的一部分上下文。基于英特尔架构平台开展的一系列优化，可以从另一个层面帮助用户解决以上问题。这些优化方法包括：调整处理器核心数量、引入非统一内存访问架构（Non-Uniform Memory 名称规格处理器英特尔至强金牌 6240 处理器或更高

29、超线程ON睿频加速ON内存16GB DDR4 2666MHz*12及以上存储英特尔固态盘 D5 P4320系列及以上操作系统CentOS Linux 7.6 或最新版本Linux 核心3.10.0 或最新版本编译器GCC 4.8.5 或最新版本Python 版本Python 3.6 或最新版本TensorFlow 版本 R1.13.1 或最新版本OpenVINO 工具套件2019 R1 或最新版本Keras 版本2.1.3 或最新版本软硬件配置建议对于在医疗行业中构建基于深度学习的图像分割方法，可以参考以下基于英特尔架构平台的软硬件配置来完成。Access Architecture，NUM

30、A）技术，以及面向深度神经网络的英特尔数学核心函数库（Intel Math Kernel Library for Deep Neural Networks,英特尔 MKL-DNN），从而为U-Net图像分割法提供多层次的优化。优化步骤如下：环境变量设置首先，需要对环境变量进行设置，如以下所示，命令包括：清空系统的缓存（cache），将处理器设置为性能优先的模式，即运行在最高频率，打开处理器的睿频加速。KMP_BLOCKTIME 设置为 1，是设置某个线程在执行完当前任务并进入休眠之前需要等待的时间，通常设置为 1 毫秒；KMP_AFFINITY 设置为 Compact，是表示在该模式下，线程

31、绑定按计算核心的计算要求优先，先绑定同一个核心，再依次绑定同一个处理器上的下一个核心。此种绑定适用于线程之间具有数据交换或有公共数据的计算情况，优势在于可以充分利用多级缓存的特性；OMP_NUM_THREADS 设置为 20，是将并行执行线程的数量设定为所需的物理核心数。测试代码中添加线程控制如上述设置命令所示，在进行 tf.ConfigProto()初始化时，我们也可以通过设置 intra_op_parallelism_threads 参数和inter_op_parallelism_threads 参数，来控制每个操作符 op并行计算的线程个数。二者的区别在于：intra_op_parall

32、elism_threads 控制运算符 op 内部的并行，当运算符 op 为单一运算符，并且内部可以实现并行时，如矩阵乘法、reduce_sum 之类的操作，可以通过设置 intra_op_parallelism_threads 参数来并行,intra 代表内部。1716英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇模型转换由于原有的模型是基于 Keras 进行训练，生成的模型为 hdf5格式，这种格式的模型无法直接作为 OpenVINO 工具套件的输入，需要先进行格式转换，操作命令如下：图 2-1-4 用 NUMA 特征来控制处理器计算资源的使用7测试配置

33、为：处理器：双路英特尔至强金牌 6148 处理器，2.40GHz；核心/线程：20/40；内存：16GB DDR4 2666MHz*12；硬盘：英特尔固态盘 SC2BB480G7；BIOS：SE5C620.86B.02.01.0008.031920191559；操作系统：CentOS Linux 7.6；Linux 内核：3.10.0-957.21.3.el7.x86_64；gcc 版本：7.2；Python 版本：Python 3.6；TensorFlow 版本：R1.13.1。inter_op_parallelism_threads 控制多个运算符 op 之间的并行计算

34、，当有多个运算符 op，并且它们之间比较独立，运算符和运算符之间没有直接的路径 Path 相连时，TensorFlow 会尝试并行地对其进行计算，并使用由 inter_op_parallelism_threads 参数来控制数量的一个线程池。通常而言，intra_op_parallelism_threads 设置为单个处理器的物理核心数量，而 inter_op_parallelism_threads 则设置为1 或者 2。利用 NUMA 特征来控制处理器计算资源的使用数据中心使用的服务器，通常都是配置两颗或更多的处理器，多数都采用 NUMA 技术，使众多服务器像单一系统那样运转。处理器访问它自

35、己的本地存储器的速度比非本地存储器更快一些。为了在这样的系统上获取最好的计算性能，需要通过一些特定指令来加以控制。Numactl 就是用于控制进程与共享存储的一种技术机制，也是在 Linux 系统中广泛使用的计算资源控制方法。具体使用方法如下所示：上述指令表示的是 test.py 在执行的时候只使用了处理器#CPU0 中的 0-19 和 40-59 核，以及处理器#CPU0 对应的近端内存。采用面向英特尔 MKL-DNN优化的TensorFlow为了使用户在通用处理器平台上进行高效的 AI 计算，英特尔针对众多主流的深度学习开源框架进行了大量的优化，包括目前在工业界和学术界使用十分广泛的 Te

36、nsorFlow。通过使用英特尔 MKL-DNN 优化的多种原语（Primitive），英特尔对 TensorFlow 进行了优化。英特尔 MKL-DNN 是从TensorFlow 1.2 开始添加的。除了在训练基于 CNN 的模型时能显著提升性能之外，使用英特尔 MKL-DNN 进行编译还可以创建针对英特尔高级矢量扩展指令集（Intel Advanced Vector Extensions，英特尔 AVX）、英特尔 AVX 2 和英特尔 AVX-512 进行优化的二进制文件，从而得到一个经过优化且与大多数现代（2011 年后）处理器兼容的文件。参考文献：https:/www.tensorf

37、low.org/guide/performance/overview?hl=zh_cn https:/ MKL-DNN 的技术细节，请参阅本手册技术篇相关介绍。U-Net基于英特尔架构优化后的测试及结果通过以上四个方面的优化，U-Net在基于英特尔架构的处理器平台上的性能得到了显著提升，测试结果如下图所示 7：基于 OpenVINO 工具套件英特尔发行版对 U-Net 进一步优化为满足客户在实际应用场景中的需求，在上述结果的基础上，英特尔又基于 OpenVINO 工具套件英特尔发行版（以下简称“OpenVINO 工具套件”）对 U-Net 图像切割方法实施了进一步的优化，具体优化步骤如

38、下：图 2-1-5 基于英特尔架构优化前后性能对比优化后处理时延大幅降低未优化方案基于英特尔架构的处理器（包括英特尔 MKL-DNN）优化准确率120.00%100.00%80.00%60.00%40.00%20.00%0.00%1.00099.50%1.2001.0000.8000.6000.4000.2000.0000.274 将模型通过 OpenVINO 工具套件的 mo.py转换成 xml 文件和 bin 文件命令如下：通过Inference Engine 来进行模型推理命令如下：其中，做推理的代码包含如下逻辑模块：基于 OpenVINO 工具套件的优化结果优化结果如图 2-1-6

39、所示，最左列为 CT 原图，中间列是未优化时的图像分割结果，最右列是通过 OpenVINO 工具套件优化之后生成的图像分割结果。可以看出，通过 OpenVINO 工具套件优化后生成的图像分割结果，在准确率上与未优化时基本保持一致，但在推理速度上却远高于未优化时8。图 2-1-6 基于 OpenVINO 工具套件对 U-Net 的优化结果8 相关验证测试配置为：处理器：双路英特尔至强金牌 6148 处理器，2.40GHz；核心/线程：20/40；内存：16GB DDR4 2666MHz*12；硬盘：英特尔固态盘SC2BB480G7；BIOS：SE5C620.86B.02.01.0008.

40、031920191559；操作系统：CentOS Linux 7.6；Linux内核：3.10.0-957.21.3.el7.x86_64；gcc版本：4.8.5；Python版本：Python 3.6；OpenVINO 工具套件：2019 R1；Keras：2.1.3。9 数据源引自https:/ 工具套件的技术细节，请参阅本手册技术篇相关介绍。Dense U-Net 图像分割方法英特尔深度学习加速（Intel Deep Learning Boost,英特尔 DL Boost）技术英特尔至强可扩展处理器从第二代起，不仅以优化的微架构、更多的内核及更快的内存通道带来了计算性能的提升，更面

41、向 AI 应用提供了更为全面的加速能力，在其集成的英特尔深度学习加速技术（VNNI指令集）中，加入了对INT8的支持，为用户提供了高效的 INT8 深度学习推理加速能力，这一能力将有效提升 U-Net 图像分割方法的执行效率。英特尔深度学习加速技术通过 VNNI 指令集来支持 8 位或16 位低精度数值相乘，这对于需要执行大量矩阵乘法的深度学习计算而言尤为重要。它的导入使得用户在执行 INT8 推理时，对系统内存的要求最大可减少 75%9，而对内存和所需带宽的减少，也加快了低数值精度运算的速度，从而使系统整体性能获得大幅提升。与以往的 FP32 模型相比，INT8 模型具有更小的数值精度和

42、动态范围，因此在图像切割等深度学习中采用 INT8 推理方式，需要着重解决计算执行时的信息损失问题。一般地来讲，INT8 推理功能可以通过量化校准的方式来形成待推理的INT8 模型，进而实现将 FP32 在信息损失最小化的前提下转换为 INT8 的目标。以图像分析应用为例，从高精度数值向低精度数据转换，实际是一个边计算边缩减的过程。换言之，如何确认缩减的范围是实现信息损失最小化的关键。在 FP32 向 INT8 映射的过程中，采用根据数据集校准的方式，来确定映射缩减的参数。在确定参数后，平台再根据所支持的 INT8 操作列表，对图形进行分析并执行量化/反量化等操作。量化操作用于 FP32 向

43、S8（有符号 INT8）或 U8（无符号 INT8）的量化，反量化操作则执行反向操作。基于 OpenVINO 工具套件进行 FP32 模型到 INT8 模型的转换通常地，通过神经网络训练好的模型是单精浮点精度的，即FP32，用户可以将这样的模型直接部署在实际应用场景中，并通过量化技术得到低精度模型，比如 INT8 模型在保证模型1918英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇图 2-1-7 基于OpenVINO 工具套件的 FP32模型到 INT8 模型的转换10 图 2-1-8 FP32 与 INT8 的时延性能对比精度的基础之上可以提供效率更高的模型

44、推理应用，通常情况下模型精度的损失小于 1%。OpenVINO 工具套件从 2018 R4 版本开始提供 FP32 模型到 INT8 模型的转换功能，并且从 2019 R1 版本开始，支持基于第二代英特尔至强可扩展处理器所集成的英特尔深度学习加速技术。OpenVINO 工具套件中的模型优化器基本工作和部署流程为：首先工具套件会将训练好的、基于开放神经网络交换（Open Neural Network Exchange，ONNX）训练的模型进行转换和优化，生成 FP32 格式的 xml 文件和 bin 文件，其中的优化包含节点融合、批量归一化的去除和常量折叠等方法；然后，通过 OpenVI

45、NO 工具套件中的转换工具将 FP32 格式的文件转换为 INT8 格式的 xml 文件和 bin 文件，在转换的过程中需要用到一个小批量的验证数据集，并且会将转换量化过程中的统计数据存储下来，以便在后续的推理时确保精度不受影响。上述的转换流程是离线运行的，也就是只要转换一次即可，详细做法如图 2-1-7 所示：通过对两种模型进行性能分析可以看出，FP32 模型中的重排序操作（Reorder Ops）占据了大量的执行时间，在 INT8模型中，重采样（Resample Ops）只支持 FP32 的操作，连接操作（Concat Ops）执行时间过长，而本来占比最高的卷积操作（Convolution

46、 Ops）在整个模型运行中占据的时间比例反而少。因此，需对其进行进一步的优化。此时再将 INT8 模型进行逐层分析，可以看到相比之前已经有了很明显的提升。但在优化之后的模型中，Concat Ops 所占据的执行时间还是较长。为了进一步提升模型的吞吐量，需对 Concat Ops 进行特定优化，并且不再使用英特尔 MKL-DNN 中的原语，而是要进行定制化，详细代码如下所示：按照上述模型转换之后，得到初步模型，其性能如下图所示：如图2-1-9所示，经过优化，模型的延迟有了大幅度的降低。上述优化主要的目的是，实现并行化地批量拷贝数据到指定位置。通过此类型的优化，模型性能有了进一步的提升。此时的模型

47、执行时间基本达到了理想状况，最终优化结果如图 2-1-10所示：从性能分析可以获知，此时模型运行占比最高的原语成了卷积操作，完全符合本实例中 Dense U-Net 模型本应有的效果。图 2-1-10 进一步优化后的 INT8 模型时延性能对比图 2-1-9 优化后的 INT8 模型时延性能对比.XML.binTaina ModelRun ModelOptimizerUserApplicationInferenceEngineIR10本图来源于 https:/docs.openvinotoolkit.org/latest/_docs_MO_DG_Deep_Learning_Model_Opti

48、mizer_DevGuide.html对INT8进行优化后，处理时延进一步降低0.4040.314FP32INT8INT8 优化 11与 FP32 相比，INT8处理时延更低0.404FP32INT81INT8 对 Concat Ops 进行特定优化后，处理时延进一步降低0.4040.3140.147FP32INT8INT8 优化 1INT8 优化 21应用案例东软 eStroke 影像平台背景医疗影像的快速和准确判读对医院医疗技术能力有着一定的要求，同样也需要专业的影像医生进行判读，十分依赖医生的判读水平。为应对这一挑战，医疗行业需要一种即便在基层医院医生判断水平不足的情况下，仍然可以快速

49、准确地对相关医学影像进行分析的工具。现在，基于深度学习的医学影像判读已经逐步走入医疗机构，帮助应对以上问题。方案与成效eStroke 影像平台具有以下优势：支持多模态影像学设备。其中包括电子计算机断层扫描（Computed Tomography，CT）、核磁共振成像（Magnetic Resonance Imaging，MRI）图像等 16 排以上多层螺旋 CT以及 1.5T 以上 MRI；实现全流程自动化。从医院设备扫描序列开始到影像后处理分析，一直到输出影像诊断报告，均无需人工干预；能够接入互联网医疗诊治技术应用研究平台等外部诊疗系统。支撑开展远程急救、移动急救、高危人群智能预警及干预、疾

50、病联合救治、虚拟手术等技术研发和工程化。以 eStroke 影像平台为载体，东软与英特尔携手，基于 U-Net模型对平台中的医学影像进行图像分割处理，根据 eStroke 平台对灌注成像的各个参数,包括 CBF、CBV、MTT 和 TMAX的计算，并结合以上参数通过左右脑循环的对称性，如图2-1-11所示，进一步推理出用于医学诊断的病灶所在区域。图2-1-11 通过 TMAX&CBF 异常区域计算出的病灶区域该方案基于面向英特尔架构优化的 TensorFlow（基于英特尔 MKL-DNN 优化）以及 OpenVINO 工具套件进行了优化，使基于 U-Net 模型的深度学习推理在保证准确性的

51、同时，推理时间得以大幅减少。这对于争分夺秒的脑卒中诊治而言，无疑有着重大的实践意义。如图 2-1-12 所示，在推理准确性基本一致的情况下，采用两个工具优化后的方案与未经优化的方案对比，推理延迟分别降低 72.6%和 85.4%11。图 2-1-12 东软 U-Net 图像分割各方案性能对比11 该数据所使用的测试配置为：处理器：双路英特尔至强金牌 6148 处理器，2.40GHz；核心/线程：20/40；内存：16GB DDR4 2666MHz*12；硬盘：英特尔固态盘SC2BB480G7；BIOS：SE5C620.86B.02.01.0008.031920191559；操作系统：Ce

52、ntOS Linux 7.6；Linux内核：3.10.0-957.21.3.el7.x86_64；gcc版本：7.2（TensorFlow）&4.8.5（OpenVINO）；Python版本：Python 3.6；TensorFlow版本：R1.13.1；OpenVINO 工具套件：2019 R1；Keras：2.1.3。优化后处理时延大幅降低未优化方案基于英特尔架构的处理器（包括英特尔 MKL-DNN）优化基于OpenVINO 工具套件英特尔发行版优化准确率120.00%100.00%80.00%60.00%40.00%20.00%0.00%1.00099.50%1.2001.0000

53、.8000.6000.4000.2000.0000.2740.1462120英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇西门子医疗利用英特尔深度学习加速技术，推进诊疗中的 AI 应用背景与挑战过去，医生往往需要凭借经验来对 MRI 影像进行判读，不仅费时费力，且错误率较高，在解释图像时也容易受到主观因素的影响，导致漏诊和误诊。随着 AI 技术的发展，西门子医疗正在开展一系列创新医疗 AI应用研究，并将成果纳入实际应用。但要将这些 AI 能力真正应用到医疗实践中，还面临着一系列的挑战。首先，AI 应用对临床诊疗带来延迟。AI 应用需要与各类检查仪器生成的

54、数据保持同步，并保证 AI 推理具备高吞吐、低延迟的特性，才能让基于 AI 的医疗系统服务更多患者。其次，AI 应用应当尽可能与临床诊疗流程进行融合，以便节省时间，并提高测量和诊断之间的一致性和准确性。为此，西门子医疗与英特尔一起，基于通用处理器平台来开展针对 MRI 影像的判读和测量，实施高效的 AI 推理工作。双方不仅利用深度学习的方法对来自 MRI 的影像进行了 AI 判读研究，同时基于第二代英特尔至强可扩展处理器以及OpenVINO 工具套件等，进行了优化工作，使推理速度大幅提升，为临床医学诊疗提供了强有力的支撑。图 2-1-13 西门子医疗与英特尔一起构建面向 MRI 的 AI

55、分析能力心脏 MRI检查四个腔室的量化AI 系统方案简介及实施效果在本案例中，西门子医疗与英特尔一起合作，优化了基于第二代英特尔至强可扩展处理器构建的医疗检测和量化模型。该 AI 模型基于 Dense U-Net，可对检测对象进行语义分割。AI 模型的输入是检测对象的 MRI 图像的堆叠，输出则是检测对象的不同区域以及结构，其中每个结构都会被颜色编码。这样可以将原先需要人工识别标注的过程智能化，从而加快影像判读速度，其整体工作流程见图 2-1-13 所示。第二代英特尔至强可扩展处理器为该 AI 模型的推理提供了高效、灵活和可扩展的平台，特别是经与 OpenVINO 工具套件的紧密结合

56、，有效地加速了针对视觉应用的深度学习推理，提高了诊疗过程中至关重要的诊断与决策的速度和准确性。同时，处理器集成的英特尔深度学习加速技术，具有全新的矢量神经网络指令（VNNI），能够进一步加速深度学习中的各种计算密集型操作，让图像分类、图像分割、目标检测等 AI 应用在英特尔处理器平台上推理效率变得更高。英特尔深度学习加速技术对 INT8 良好的支持能力，使其可以将 FP32 训练模型转化为 INT8，在保持准确性的同时大幅提升推理速度。在本案例中，深度神经网络（例如 Dense U-Net）经过训练后被用以识别检测对象区域，神经网络的权值通常采用浮点数值（FP32）来表示，因此模型通常情

57、况下会通过FP32 精度来进行训练和推理。但 INT8 同样可以在损失很小的准确率（通常 0.5%，本案例中可达到=x 时，判为患病。而在实际场景中，这一函数会复杂得多，例如除了年龄以外，异常细胞的大小、状态等也可能成为判断依据，此时，线性函数就会变成一个多元线性函数，例如y=n*a+m*c+o*d+b如前所述，分类问题需要输出一系列离散的结果，因此需要在线性函数上加上一个激活函数，使其输出结果呈离散化。而对于神经网络而言，激活函数的作用是能够给神经网络加入一些非线性因素，使神经网络可以更好地解决较为复杂的问题。常见的激活函数有 Sigmoid 函数、tanh 函数、ReLU 函数等。另外，逻

58、辑回归会采用梯度下降迭代求解的方法，来获取最小化的损失函数。通常，基于二分类算法的 CNN 图像分类具有以下几个主要模块，如图 2-3-1 所示，包括图像读取与预处理、图像训练、迭代优化和图像预测。其中基于 CNN 的模型训练，由卷积层、池化层以及全连接层等构成，可采用交叉熵损失函数，以及MBGD 梯度下降算法或 BGD 梯度下降算法。图像数据预处理模型训练卷积层池化层卷积层全连接层全连接层池化层迭代优化推理预测实际部署图 2-3-1 基于二分类算法的 CNN 图像分类组成模块32实战篇3534英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇在实际应用中，残差网

59、络（Residual Net，ResNet）也是常见的分类卷积神经网络之一，其在 2D 图像分类、检测及定位上有着非常优异的特性。与其他 CNN 相比，ResNet 在网络中增加了直连通道，允许输入信息直接传到后面的层中，如图 2-3-2 所示：这一结构（残差结构）在一定程度上解决了经典 CNN 网络结构在信息传递时可能存在的信息丢失、损耗，乃至梯度消失等问题，这些问题是深度模型的层数无法变得太多的原因之一。采用 ResNet 后，训练模型的层数可以大幅增加，也由此提高了分类准确率。目标侦测神经网络目标侦测神经网络是指在给定的图片中精确找到物体所在位置，并标注出物体的类别。常见的目标侦测神经网

60、络有R-CNN、Fast R-CNN、SPP-NET、R-FCN 等。R-CNN 是经典的深度学习目标检测算法，其基本工作流程如下：首先，R-CNN 会基于 selective search 方法在原始图上生成数千个大小一致的候选区域，并输入 CNN 网络。由该网络模型得到的特征向量将通过多类别的支持向量机（Support 图 2-3-2 ResNet 的残差结构图 2-3-3 Fast R-CNN 网络结构Weight LayerxF(x)reLUF(x)+xWeight LayerVector Machines，SVM）分类器，每个目标都会训练一个SVM分类器，并从特征向量中推断其属于该目

61、标的概率。同时，R-CNN 还设置了一个边界框的回归模型来提升定位准确性，通过边框回归模型对边界框的准确位置进行了优化。为了解决 R-CNN 在实际应用中训练、推理和测试速度较慢，训练所需空间大等问题，Fast R-CNN采用了以下方法来应对，并获得了比 R-CNN 更好的应用效果。方法为：将整个图像先进行归一化后再送入 CNN 网络；在卷积层不进行候选区域的特征提取，而是在最后一个池化层加入候选区域坐标信息进行特征提取的计算；在 CNN 网络中统一做目标与候选框回归。而后续的 Faster R-CNN又将特征抽取（feature extraction）、proposal提取，bounding

62、 box regression（rect refine）、classification都整合在了一个网络中，使得综合性能有较大提高，在检测速度方面尤为明显。软硬件配置建议对于基于 AI 的病理切片分析方案构建，可以参考以下基于英特尔架构平台的软硬件配置来完成。任意 size图片卷积、池化层特征图Rol 池化层区域建议全连接层全连接层分类得分全连接层分类得分名称规格处理器英特尔至强金牌 6240 处理器或更高超线程ON睿频加速ON内存16GB DDR4 2666MHz*12 及以上存储英特尔固态盘 D5 P4320 系列及以上操作系统CentOS Linux 7.6 或最新版本Linu

63、x 核心 3.10.0 或最新版本编译器GCC 4.8.5或最新版本Caffe 版本面向英特尔架构优化的 Caffe 1.1.6 或最新版本基于深度学习的病理切片分析方法的优化基于英特尔架构处理器的优化方法在英特尔平台上进行基于深度学习的病理切片分析方法的构建和优化，可以为用户带来以下几个方面的收益：病理切片图像每个文件容量都动辄有数十、上百 MB。传统上，由于存储空间的限制，训练中设定的Batch Size都偏小，由此会带来训练时间的增加。而采用基于英特尔架构平台，服务器具备了大内存（普遍具备数 TB 乃至数十 TB），可以让 Batch Size 轻松设置至 100 以上，能够加

64、快训练速度；基于 3D XPoint 存储介质构建的英特尔傲腾持久内存的引入，让至强可扩展平台的优势得到进一步加强。与昂贵的动态随机存取存储器（Dynamic Random-Access Memory，DRAM）内存相比，英特尔傲腾持久内存大容量和非易失性的特性，及其在实现容量扩展时更低的成本优势，可以有效提升执行模型训练和推理的服务器的内存密度以及计算效率，并大幅降低 TCO;英特尔至强可扩展处理器创新的微架构，包括更多数量的核心、更高并发度的线程和更充沛的高速缓存，配合它集成的大量硬件增强技术，特别是英特尔 AVX-512 等，都能为 AI 应用提供更强的算力。面向英特尔架

65、构优化的 Caffe Caffe 是一种常用的深度学习框架，其在视频、图像处理等领域的 AI 训练和推理上有着广泛的运用。为了进一步提升和优化基于 Caffe 的深度学习模型的工作效率，基于英特尔架构特性，英特尔对 Caffe 进行了大量优化。这些优化工作包括：针对典型 ResNet 网络开展的优化面向英特尔架构优化的 Caffe 利用 ResNet 系列模型特性，来减少计算和内存访问带来的开销。图 2-3-4 是一种典型的ResNet 的残差结构，从图左半部可以看出，其底部的 2 个1*1 卷 Stride-2 卷积层只消耗了一半激活操作。优化方案更改了绑定层设置，如图右半部所示，其将一

66、个 1*1 的池化层加入直连通道，减少了一半的计算量。图 2-3-4 面向英特尔架构优化的 Caffe 对 ResNet 网络的优化方案Conv output:56x56Kernel:3x3Stride:1Convoutput:28x28Kernel:3x3Stride:2Conv output:28x28Kernel:1x1Stride:2Original56x5656x56OptimizedConv output:28x28Kernel:1x1Stride:2Conv output:28x28Kernel:1x1Stride:1Conv output:28x28Kernel:1x1Str

67、ide:1EltWiseEltWiseConv output:56x56Kernel:1x1Stride:1Conv output:28x28Kernel:1x1Stride:1Pool output:28x28Kernel:1x1Stride:2 层融合技术面向英特尔架构优化的 Caffe 除了针对指令集的向量化、线程级并行进行优化外，还在 Caffe 框架中引入了更为有效的层融合（Layer Fusion）优化手段，如 BN+Scale、Conv+Sum、Conv+Relu、BN inplace 以及 sparse fusion,这些手段使得神经网络，如ResNet50的

68、性能获得了极大提升。如图 2-3-5 所示，这是一种残差结构的 Conv 层与 Eltwise层的融合，图左半部中的卷积层（Conv）res2a_branch2c和 Eltwise 层 res2a_relu 被融合到一个新的卷积层 res2a_branch2c 中（图右半部所示），有效地提升了 ResNet 类网络模型的性能表现。同时，面向英特尔架构优化的 Caffe 还对 INT8 有着良好支持，并提供了 calibration 工具，可帮助用户将神经网络无缝转换到 INT8，以大幅提升性能。一项测试表明，与使用 BVLC Caffe 相比，面向英特尔架构优化的 Caffe 在英特尔至

69、强可扩展处理器上，通过加入层融合技术，使用 ResNet50 卷积神经网络在同等测评环境中执行 AI 推理，如图 2-3-6 所示，单位时间推理性能可提升达前者的 51 倍之多，推理时长则缩短至前者的 4.7%27。图 2-3-5 Conv 层与 Eltwise 层融合res2a_branch1res2a_branch1res2ares2a_relures2a_branch2ares2a_branch2ares2a_branch2bres2a_branch2bElement-wise SumFused Convolution andElement-wise Sumres2a_branch2c

70、res2a_branch2cConvolution27 该数据援引自Highly Efficient 8-bit Low Precision Inference of Convolutional Neural Networks with Intel Caffe一文：https:/arxiv.org/pdf/1805.08691.pdf，测试配置如下：卷积模型：ResNet50，硬件：AWS single-socket c5.18xlarge。3736英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇28 数据源引自 https:/ 深度学习加速技术在第二代英特尔

71、至强可扩展处理器中，加入了对 INT8 有着良好优化支持的英特尔深度学习加速技术，它能够在不影响预测准确率的情况下加速多种深度学习模型在使用 INT8 时的推理速度，有效提升用户深度学习应用的工作效能。在图像分类、目标检测等深度学习场景中，采用 INT8 等较低精度的数值替代 FP32 是一种良好的性能优化方案。低精度数值可以更好地使用高速缓存，增加内存数据传输效率，减少带宽瓶颈，且在充分利用计算和存储资源的同时，还能有效降低系统功率。另外，在同样的资源支持下，INT8 还可为深度学习的推理带来更多的每秒操作数（Operations Per Second，OPS）。英特尔深度学习加速技术

72、通过 VNNI 指令集，提供了多条全新的 FMA 内核指令，用于支持 8 位或 16 位低精度数值相乘，这对于需要执行大量矩阵乘法的深度学习计算而言尤为重要。图2-3-6 面向英特尔架构优化的Caffe在英特尔至强可扩展处理器上加入优化方案后，在推理吞吐量和推理时长性能上与BLVC Caffe对比BLVC Caffe面向英特尔架构优化的Caffe FP32基准BatchNorm层展开后融合融合的卷积层和Relu层融合的卷积层和Element-wise 求和层消除稀疏性面向英特尔架构优化的Caffe FP32基准BatchNorm层展开后融合融合的卷积层和Relu层融合的卷积层和El

73、ement-wise 求和层消除稀疏性BLVC Caffe400300200008060402006.1131.8推理时长（毫秒）10.77.87.576.25312它使用户在执行 INT8 推理时，对系统内存的要求最大可减少75%28，而对内存和所需带宽的减少，也加快了低数值精度运算的速度，从而使系统整体性能获得大幅提升。*更多有关英特尔至强可扩展处理器以及英特尔深度学习加速技术的技术细节，请参阅本手册技术篇相关介绍。利用工具进行模型准确率优化的方法相似性度量工具在深度学习中，可以使用相似性度量（Similarity）工具来判断两个特征值之

74、间的相似度。不同的工具可以从不同维度来进行相似性度量，比较常见的有以下几种：欧氏距离（Euclidean Distance）：是最常见的距离度量，通过对坐标系中的两个点来计算两点之间的绝对距离，距离越大，相似度越低。向量空间余弦相似度（Cosine Similarity）：使用向量空间图 2-3-7 利用相似性度量工具分析预测失败原因中两个向量夹角的余弦值，来衡量两个个体间的差异。与距离度量相比，余弦相似度更加注重两个向量在方向上的差异，夹角越小，相似度越高。标准化欧氏距离（Standardized Euclidean Distance）：是欧氏距离改进版，在计算各个特征的距离之前，需要先将各

75、个分量进行标准化计算。马氏距离（Mahalanobis Distance）：用来表示点与一个分布之间的距离，简单而言，单一样本和哪个样本集距离最近，就属于该样本集。假阳性预测结果真阳性标注利用相似性度量工具，可以灵活地设计和组合出一系列提升模型训练准确率的方法。例如，通过计算两个特征之间的欧氏距离，来分析预测失败的原因。如图 2-3-7 所示，通过测量假阳性样本在特征抽取层和哪个阳性标注最为接近，可以推导出导致误判的主要原因。层级相关性传播工具传统上，深度学习模型各层之间的信息传递和逻辑，一直像一个黑盒一样难以回溯，利用层级相关性传播（Layer-wise Relevance Propagat

76、ion，LRP）工具可以在一定程度上帮助用户解决这一困惑。LRP 工具是利用计算相关性，将相关性逐层向后传播，具有较好的回溯性。同时，利用这一机制，系统也可以推导出哪些因素对预测结果起到的作用更大，从而提升模型准确率。如图 2-3-8 所示，在医疗图像分析预测的 AI 应用中，利用LRP 工具，可以看到不同像素点对于推理结果的效果，并形成热力图，从而帮助方案推导出哪个像素点对最终的预测结果起的作用更大。图 2-3-8 利用 LRP 检测不同像素点对于推理效果的作用原始推理图片热点图江丰生物利用 AI 技术提升高危病筛查效率背景当高危病在早期被发现并有效预防，就能帮助病患尽早确诊及早治疗，挽救

77、病患生命。江丰生物与英特尔一起，开始利用先进的 AI 技术，构建和优化基于病理切片的高危病筛查 AI 解决方案，致力于推动高危病的有效防范与治疗。目前，有几个因素制约着方案的筛查效率和准确率，使其无法进一步提高。首先是数据标注问题：与其他的医疗数据相比，病理切片的分析数据有其独特之处。如图 2-3-9 所示，病理切片图片会有 1 到 40 倍的不同缩放尺度，缩放尺度较小时，图片基本无法进行标注，而当把图片放大到 20 倍甚至 40 倍时候，只能对整张图片中的很小一部分区域进行人工标注，无法覆盖该切片中的所有问题细胞。图 2-3-9 不同尺寸的病理切片20倍比例1 倍比例40 倍比例2 倍比例3

78、938英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇同时，在目前的标注方案中，通常只关注阳性细胞，对于阴性细胞不够重视。即便对阴性细胞进行标注，也只覆盖到切片级别。对于占总量大多数的阴性细胞，没有有效的利用方案。另外，现有的标注样本严重不均衡，不利于学习效率的提高。另一个需要关注的问题是神经网络的选择。从实践的效果来看，目前常用的细胞病变目标侦测网络可以输出病变细胞所在位置矩形坐标以及病变细胞具体的描述性（The Bethesda System，TBS）分级，但单独的目标侦测网络并不能很好地解决标注完整性问题。为解决以上这些问题，江丰生物与英特尔一起，从以下几

79、个维度展开优化，以提升筛查深度学习模型的工作效率：优化数据清理和预处理流程；构建两阶段端到端神经网络；引入模型准确率优化工具。方案与成效江丰生物联合英特尔构建的基于切片的病变筛查AI解决方案，主要工作流程如图 2-3-11 所示，系统在输入图片后，经由数据预处理、分类卷积神经网络和后处理阶段，分别得到阳性预测在优化数据清理和预处理流程中，针对切片图像的不同缩放尺度问题，方案将切片缩放尺度较大、且阳性标注为细胞/细胞块级的病理切片图像，采用从大切片图像上裁剪小图的方式来得到训练数据。而针对切片中样本不均衡的问题，训练集采用了阳性：阴性=1:5 这一比例，同时，由于阳性标注样本相对较少，方案也对样

80、本进行了旋转，以扩大样本的多样性。同时，为了提升阴性细胞样本的利用效率，方案假设阴性切片中所有细胞均为阴性细胞，阴性切片的训练集从每一张阴性切片上按比例随机裁剪（目的是除去切片边缘干扰）。而对阳性切片的训练集，则直接根据在阳性切片上标注的坐标中心点，加上合理的随机偏移量裁剪为 512*512 的子图。为提升识别准确率和效率，方案创新地构建了两阶段端到端神经网络。其中，阶段一为分类卷积神经网络，阶段二为目标侦测神经网络。如图 2-3-12 所示，分类卷积神经网络的主要作用是在每张切片产生的滑动窗上进行二分类推理，并对该切片所有的滑动窗结果进行融合处理，从而得到切片级推理结果。图 2-3-11 优

81、化后的方案流程图 2-3-10 标注不够完整的病理切片图片此外，在标注过程中，也存在着标注不完整的问题。有时，标注人员只会标注视野中最严重的问题细胞。如图 2-3-10 上方所示，右下角蓝框中的严重病变细胞被标注了出来，但未标注左上角的红框中的弱阳性细胞；而图 2-3-10 下方，则出现了标注位置不够精准的情况。输入图片数据预处理后处理目标预测网络医生审查分类卷积神经网络阳性预测阳性识别阴性预测和阴性预测。对于阳性预测，方案则进行第二阶段的目标侦测网络（基于 ResNet50）模型的训练，然后进行阳性识别的推理过程，并交由医生做最终审查。图 2-3-12 基于滑动窗操作的分类卷积神经网络目标侦

82、测网络则是用于对上一阶段确定为阳性的切片进行进一步的阳性区域侦测。在模型训练的过程中，方案采用了以下的优化方案来提升训练效果：模型采用了在 Imagenet 数据集上具备优异性能的ResNet50 来进行训练；训练集准备好后会对其进行旋转，然后按中心点裁剪到224*224 做均值（Normalize）和归一化（Scale）处理，接下来开始模型训练；鉴于训练集中的正负样本数量较为悬殊，方案将训练好的部分阴性切片和部分阳性切片的子图做集合，递增地加入到训练集中，形成迭代训练。训练集阳性：阴性比为 1:5，从而进一步提升模型的准确率；方案中也加入了相似性度量（Simil

83、arity）工具和层级相关性传播（LRP）工具来提升模型准确率。江丰生物和英特尔一同测评了优化后的基于切片的病变筛查 AI解决方案，基于 5,961 张精准标注样本进行了训练，并在 246张测试集上评估了不同的模型。评估结果表明，加入分类网络后的优化方案，其准确性比单独的目标侦测网络方案有了大幅提升。如图 2-3-13 所示，可以看出，加入分类网络后，当其敏感度（真阳性率，TPR）为 96%时，特异度（真阴性率，TNR）接近 70%；而在单独目标侦测网络方案中，特异度仅为 40%左右29，这意味着准确性获得了大幅度的提升30。滑动窗model:org dataset:1 AUC=0.90目标侦

84、测网络 ROC 曲线分类网络 ROC 曲线TPRTPR1.0-0.8-0.6-0.4-0.2-0.0-1.0-0.8-0.6-0.4-0.2-0.0-0.0 0.2 0.4 0.6 0.8 1.00.0 0.2 0.4 0.6 0.8 1.0ROC AUC=0.9587582289918682图 2-3-13 优化方案与传统方案准确性对比29 该数据援引自江丰生物与英特尔发布的基于深度学习的病理图像分析30 数据所使用的测试配置为：双路英特尔至强铂金 8280 处理器，2.70GHz；核心/线程：28/56;HT：ON；Turbo：ON；内存：192GB DDR4 2933；硬盘：英特尔

85、固态盘 SC2KG48；网络适配器：英特尔以太网网络适配器 X722 for 10GBASE-T；BIOS：SE5C620.86B.02.01.0003.020220190234；操作系统：CentOS Linux 7.6；Linux 内核：3.10.0-957.el7.x86_64；编译器版本：ICC 18.0.1 20171018；Caffe 版本：面向英特尔架构优化的 Caffe 1.1.0；工作负载：ResNet50 with 2 classes，130 张图像每秒。背景随着近年来 AI 技术在医学领域的应用取得飞速发展，基于深度学习/机器学习方法的智能化病理分析和诊断技术、正被逐

86、步用于肺部疾病筛查中。作为一家专业从事数字病理系统开发和生产的高科技生物信息技术企业，江丰生物正致力于以高精度数字化病理切片扫描仪代替传统的显微镜，实现对传统病理切片的数字化转换，并利用基于 AI 的医疗影像处理技术推进智能化病理分析和诊断。现在，针对制约肺部疾病筛查与诊治中的一系列问题，江丰生物正通过筛查系统来推动新型智能化检测技术在该领域的应用。基于深度学习方法的肺部疾病筛查系统江丰生物肺部疾病筛查系统，旨在将目标病菌涂片转变为切片数字图像，以便于图像信息的保存和传输，同时在此基础上开发目标病菌相关筛查功能，帮助医生大幅提高判读效率，且解决目标病菌涂片分级的客观性、易控性和重复性问题。筛查

87、系统基本工作流程如图 2-3-14 所示，首先会应用荧光扫描仪和标注服务平台，对数以千计的目标病菌涂片进行扫描，然后在扫描文件上对目标病菌进行标注。其后再基于深度神经网络进行深度学习，使模型精确识别出目标病菌，以及背景细菌/杂质的语义特征。江丰生物以 AI 技术助力肺部疾病筛查图 2-3-14 筛查系统基本流程TNRTNR4140英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇小结利用深度学习的方法来对病理切片图像等做出快速检测，不仅可以大大提升医疗机构病理检测的生产力，消弭因专业病理科医生不足带来的一系列问题，也能为病患带去更精确、更及时的治疗方案。目前，基于

88、图像分类和目标检测的病理切片检测AI 应用，已在众多医疗机构进行了落地部署，并获得良好的反馈。英特尔架构处理器、面向英特尔架构优化的 Caffe、英特尔深度学习加速技术等在内的一系列英特尔先进产品和技术，已在众多应用场景中，助力基于深度学习的病理切片检测应用大幅提升其工作效率。例如英特尔架构处理器对大内存的良好支持，使得在模型训练中可以设定更大的 Batch Size，从而大幅提升训练效率；再如面向英特尔架构优化的Caffe，以及英特尔深度学习加速技术对 INT8 的良好支持，可以有效提升推理效率，提升病理切片分析的实时性。随着英特尔至强可扩展处理器持续迭代以及其他英特尔新产品

89、、新技术的到来，用户可以基于这些更新的软硬件，来构建训练和推理性能更为强大的 AI 应用。同时，英特尔还计划针对更多的深度学习模型开展推理优化研究，以帮助更多的病患赢得宝贵的治疗时间和效率。为使系统达到医疗机构应用所需的高效、可靠以及高可用的要求，江丰生物对系统做了如下性能设计：单片识别速度：基于通用 PC 硬件，可达到单例在 180 秒内完成所有指标识别；目标病菌检测：目标病菌检测精准率 APIOU=0.5 大于80%；痰涂片阴阳性定量分级：分级准确率（1+内）达到85%以上。为达成以上目标，江丰生物将病理学与先进的深度学习/机器学习方法相结合，并如图 2-3-15 所示，制定了以下的技术路

90、线设定：在训练阶段，经由涂片扫描数字化、数据标注与数据增强、前景检测模型等步骤，对目标病菌分类器模型（典型的例如ResNet50）实施训练；在应用阶段，首先通过高性能数字切片扫描仪，得到目标病菌涂片的数字图像，然后采用滑窗法，提取用于深度学习推理的图像 Patch。在获得 Patch 推理结果后，再通过非极大值抑制（Non Maximum Suppression，NMS）算法，剔除重复识别及识别置信度低的检测目标，最终保留高精度的单视野内检测结果；重复以上应用阶段的推理和 NMS 计算过程，最终生成全视野识别的可视化结果与指标，并以此作为辅助筛查系统的输入，为医生显示病历信息、数字图像、目标病

91、菌位置/数量以及涂片分级结果等信息，助力其快速筛查诊断病情。得益于英特尔架构处理器的优异性能以及针对性的优化方案，江丰生物筛查系统已在诸多医疗机构获得了广泛的部署与应用。来自一线的数据反馈表明，新方案能够保持 86.8%的精准率 AP，以及 88.9%的涂片级分级准确率35，并满足在80 秒36内对目标病菌涂片完成数字化扫描和涂片定量分级，获得了医院、医生和患者的一致好评。图 2-3-16 方案优化前后性能归一化对比 31、32 该数据援引自江丰生物内部数据统计。33 该数据援引自江丰生物内部数据统计。34 测试工作负载：Medical Image detection,detectron2（

92、detectron2 0.1.1），平台：Dell PowerEdge R740；处理器：双路英特尔至强金牌 6252 处理器，2.10GHz；核心/线程：24/48;超线程开启；睿频开启；内存 192GB DDR4（12 x 16384 MB 2666 MT/s）；存储：1x 英特尔 1.8T SSD（英特尔 SSDSC2KB01）；网络适配器：英特尔 C621(1 x 英特尔 X722 for 10GBASE-T)；操作系统：Ubuntu 18.04.4 LTS（Kernel：5.3.0-51-generic）；深度学习框架：PyTorch 1.4；库：英特尔 MKL-DNN v0.2

93、1.1；实例数：1；优化方案：处理器：双路英特尔至强金牌 6252 处理器，2.10GHz；核心/线程：24/48;超线程开启；睿频开启；内存 192GB DDR4（12 x 16384 MB 2666 MT/s）；存储：1x 英特尔 1.8T SSD（英特尔 SSDSC2KB01）；网络适配器：英特尔 C621(1 x 英特尔 X722 for 10GBASE-T)；操作系统：Ubuntu 18.04.4 LTS（Kernel：5.3.0-51-generic）；深度学习框架：PyTorch 1.6；库：英特尔 MKL-DNN DNNL v1.2.0；实例数：24。35 该数据援引自江丰

94、生物内部数据统计。36 工作站配置：主板：X11DPI-N，CPU：英特尔至强金牌 6240R 处理器（24Core，2.4GHZ），内存：192GB DDR4（12 x 16GB，2666MT/S），Raid 卡：LSI 9361-8I，存储：2x Intel 960G SSD，4x 4T SATA 3.5 寸多实例异步处理：英特尔架构处理器不仅具有多核特性，还对大内存有着良好支持，新方案采用多实例异步并发进行处理，能充分利用多核大内存平台带来的优势，以使用 20个实例进行处理为例，此项优化经评估可获得约 500%的FPS 性能提升；33 整体流程优化：基于上述优化点，新方案还引入了

95、多实例处理，采用数据加载 DataLoader，对数据输入进行优化，去除冗余部分等方法，使系统的最终工作速度得到了充分优化。为了验证优化方案在实践部署中的性能表现，江丰生物与英特尔一起，对优化方案进行了测评，测评结果如图 2-3-16 所示。经过各方面优化的方案，性能表现是未优化方案的 11.4 倍。34图 2-3-15 目标病菌辅助筛查技术路线图可以看到，与传统计算机视觉方法相比，上述基于深度学习方法的新方案有着检测精度高，形态适应性强，模型更具鲁棒性等优势。基于英特尔技术的优化方案与成效江丰生物在实践部署中发现，医疗机构既有的信息化系统通常都基于 x86 服务器，尤其是基于英特尔架构服务

96、器构建。为了帮助医疗机构最大程度地在既有信息化系统上获得更优的处理效能，并有效降低成本，江丰生物与英特尔展开深度合作，在英特尔架构平台上对算法模型实施优化，获得更佳的推理速度。新的优化方案基于PyTorch深度模型框架自带的profile模块，对模型的各个模块、kernel 运行时间，以及处理器资源占用率等指标进行了全面评估，并采取以下优化措施：PyTorch 优化：优化前使用的 PyTorch 版本为 1.4，新方案升级到 1.6 版本，其对 native_batch_norm 进行了优化，此项优化经评估可获得约 22%的 FPS 性能提升；31 内存管理优化：考虑到系统内各框架频繁的申请

97、/释放内存过程会消耗大量资源和时间，于是新方案引入 jemalloc 用于动态管理优化内存的分配，此项优化经评估可获得约 18%的 FPS 性能提升；32数字切片视野数字切片结果辅助筛查杆菌识别等级：P3+识别置信分数：86 分杆菌识别总条数：4085 条存在杆菌视野数：204 个训练阶段应用阶段前景检测模型数字切片视野（标注）目标病菌分类模型目标病菌智能分析11.414342英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇AI 技术助力药物研发深度学习方法加速药物筛选基于 HCS 的表型分类越来越多的新技术正被运用于加速药物研发进程。基于细胞图像的高内涵筛选（

98、High Content Screening，HCS）方法是目前在系统生物学和药物研发领域常用的自动化分析方法之一，也是 AI 技术在药物发现早期环节的重要应用。其通过显微成像法获得的图像信息，来分析和获得由遗传或化学处理诱导的细胞表型特征。在这一流程中，对细胞图像的表型检测、分析和分类是最重要的几个环节。但生物学分析过程的固有复杂性和细胞测定的固有可变性，对细胞图像中的表型分析带来了严峻挑战。传统细胞表型特征提取的图像分析方法主要由一系列独立的数据分析步骤组成。如图 2-4-1 所示，在输入原始图像后，首先利用目标检测（Object Detection）方法，在细胞层级或图像层级上提取特征，

99、随后对这些特性进行转换（选择、标准化等），最后是总结归纳相关特征，并作为预测表型的分类算法的输入。尽管以上的特征检测、分析和分类方法已经在大量药物研发过程中获得成功应用，但其仍存在许多局限性。例如对于对象分割、降维和表型分类，通常需要大量的先验知识，例如所预期的表型几何形态（The geometric properties of the expected phenotypes）要对每个测定流程进行定制。同时，采用传统的 HCS 方法，执行每一个步骤，都涉及方法的定制以及参数的调整。而在对整个分析流程的性能调优过程中，如何对所有参数进行联合优化，以达到性能最优化，目前仍面临挑战，因此整体效率还有

100、待提高。为此，更多基于深度学习的 AI 方法正逐渐被引入基于细胞图像的 HCS 表型分类工作。输入图像目标检测特征提取选择和简化归类细胞目标细胞特征特性转换表型几率图 2-4-1 传统的 HCS 方法基于深度学习的 HCS 方法37 背景在传统的 HCS 图像分析方法中，会将图像数据转换为不同的抽象级别，例如像素亮度（Pixel Intensity）等。在深度神经网络等深度学习方法中，可以通过一个框架来对这些图像数据中的分层抽象进行计算和分析，但这些方法在很大程度依赖手动定义的特征。与之相比，CNN 能够自动地从图像中学习和提取特征，因此在对细胞图像的表型预测中具有更好的效率。CNN 网络通常

101、包括了输入层、卷积层、ReLU 层、池化层、全连接层等。其中卷积层通过计算层输入（例如原始图像或前一卷积层的输出）和多个二维卷积核之间的卷积，来获得图像中的二维几何信息。每个卷积核都可编码一个几何特征（Geometric Pattern），并可卷积得到一个卷积核映射（或特征映射），该映射是一个基于像素的非线性激活函数，并会被传递到后续的卷积层，获得更复杂的模式。最后，卷积层的输出被送至全连接层，并以前反馈的方式对给定的输入生成预测。假设 CNN 的输出层有 Np个待分类的表型，那么对于给定的输入图像 x，网络将在输出层为计算每一路 j 单元的激活函数aj（x），并基于此计算一个向量，k可以构成

102、一个概率质量函数，用于覆盖 Np个待分类的表型：37本节中有关基于 CNN 及 M-CNN 的 HCS 的技术描述，详情请参阅：Godinez et al,A multi-scale convolutional neural network for phenotyping high-content cellular images.Bioinformatics,2017其中，k 为表型的序号，根据这些概率，可以得到表型的预测值为：42实战篇4544英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇软硬件配置建议对于利用AI技术来加速药物研发，可以参考以下基于英特尔

103、架构平台的软硬件配置，来进行系统部署。图 2-4-2 M-CNN 架构示意图名称规格处理器英特尔至强金牌 6240 处理器或更高超线程ON睿频加速ON内存16GB DDR4 2666MHz*12 及以上存储英特尔固态盘 D5 P4320系列及以上操作系统CentOS Linux 7.6或最新版本Linux 核心3.10.0 或最新版本编译器GCC 4.8.5 或最新版本TensorFlow 版本面向英特尔架构优化的 TensorFlow v1.7.0 或最新版本Horovod0.12.1 或最新版本OpenMPI3.0.0 或最新版本由此可知，诸如层数、卷积层内单元数量，以及卷积核和

104、池化因子的大小选择，都会对预测性能带来影响。而在细胞表型分类中，存在着另外一个问题，即由于细胞本身大小不同，显微成像大小不同，导致在图像数据中往往存在着较大的空间差异，此时如果仍沿用经典的 CNN 网络结构，可能会造成准确率的下降。多尺度卷积神经网络（Multi-scale Convolutional Neural Networks，M-CNN）可以较好地解决这一问题。与经典 CNN 网络结构相比，其加入了并行的多尺度分析，对于不同尺度上的图像，可以使用不同的 CNN 网络，以独立的方法进行训练。图 2-4-2 展示了一种具有 7 个尺度的 M-CNN 网络结构，缩放尺寸自上而下逐渐变化。网络

105、在其输入层将输入图像的七个不同尺度的缩放版本，并使用三个卷积层的序列，处理每一个尺度的缩放图像。每个尺度的卷积路径均独立于其他尺度，而在每个尺度的最后一层，都通过汇集方法将得到的卷积核映射缩放到最粗的尺度，并链接起来，用作最终卷积层的输入，最终的输出层将会输出每个表型的生成概率值。在单计算节点上，M-CNN 方法遇到的问题之一是内存容量问题。通常而言，深度学习网络的效率可以随着 Batch Size 的增加而有一定程度的提高。用于高内涵筛选的细胞图像通常图 2-4-3 不同 Batch Size 下的内存需求量图 2-4-4 典型的计算节点中双路英特尔至强可扩展处理器的划分基于英特尔至强

106、可扩展处理器的优化提升单计算节点训练效率一款新药的研发时间往往长达数年，而其背后常常伴随着患者焦急的等待。为了进一步提升基于 M-CNN 网络模型的 HCS方法在药物发现工作中的效率，进而让研发得以加速，已经推出了一系列针对英特尔至强可扩展处理器的优化方案，其包括提升单计算节点吞吐量、提升多计算节点效率等多种方法。首先，在单计算节点上启动 M-CNN 模型进行训练代码如下：英特尔至强可扩展处理器对大内存有良好的支持能力，可以有效解决随 Batch Size 增加而带来的大内存需求，其更优化的微架构、更多的核心数量以及对更快、更大容量内存的控制和调度能力，使基于 TensorFlow

107、框架构建的 M-CNN 方法得以轻松展开。在一项使用 Broad Bioimage Benchmark Collection 021（BBBC-021）数据集38所做的测试中，输入的显微镜图像尺寸为 1024*1280*3，在 Batch Size 为 32 时，单一 TensorFlow 工作进程（Worker）下，处理速度达到 13张每秒。但这一处理速度对于多达成千上万张图像的数据集而言，整个训练过程仍显漫长，效率亟待提高。通过NUMA技术的引入，以及基于分布式深度学习框架Horovod的权重同步技术，可以让用户在TensorFlow框架下，同时使用四个TensorFlow工作进程。如图2

108、-4-4所示，在一个典型的计算节点中部署的双路英特尔至强可扩展处理器，可以被划分为4个计算区域，每个区域分别执行一个TensorFlow工作进程。38 BBBC-021:Ljosa V,Sokolnicki KL,Carpenter AE,Annotated high-throughput microscopy image sets for validation,Nature Methods,2012英特尔至强可扩展处理器英特尔 C620 系列芯片组英特尔以太网网络适配器X722英特尔 Omni-Path 光纤英特尔 Omni-Path 光纤英特尔至强可扩展处理器英特尔 UPI有

109、着较大尺寸，再加上多尺度联合操作，当 Batch Size 增加到一定量后，所需的内存容量会很大，如图 2-4-3 所示，当Batch Size 为 32 时，系统所需内存达到了 47.5GB。80GB47.5GB30.9GB17.5GB13.3GB481632644746英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇利用 NUMA 的技术特性，可以绑定处理器的不同核心以及不同内存来执行训练，而互相之间不会有计算资源和存储资源的竞争。各个计算区域之间，使用英特尔超级通道互联（Intel Ultra Path Interconnect，英特尔 UPI）技术实现

110、权重同步。通过这种方式，训练模型的吞吐量可获得进一步的提升。如图2-4-5所示，使用四个TensorFlow工作进程后，在同样 Batch Size 为 32 时，处理速度达到 16.3 张每秒，效率提升达 25.4%。提升多计算节点训练效率除了提升单计算节点训练效率之外，利用分布式训练技术方式也可以进一步提升训练效率。在经典的 TensorFlow 分布式架构中，需要使用参数服务器的方法来平均梯度，每个处理线程都可能作为工作线程或参数服务器。前者用于用户处理和训练数据，计算梯度，并把它们传递到参数服务器上进行平均。但在这一方法中，如果参数服务器的处理能力不足，可能会造成系统的整体性瓶颈。同时

111、，为了实现最优化性能，使用者在一开始就需要指定合适的初始工作线程和参数服务器，但稍有不慎就会带来性能的下降。新的开源 TensorFlow 分布式深度学习框架 Horovod 可以有效解决这一问题。其引入的 Ring-allreduce 算法构建了新的通信策略，允许工作线程来平均梯度，而无需再加入参数服务器。图 2-4-6 Ring-allreduce 算法示意图图 2-4-5 TensorFlow 中四个工作线程与单个工作线程性能对比如图 2-4-6 所示，在 Ring-allreduce 算法中，每个工作线程首先根据各自的训练数据分别进行梯度计算，得到梯度信息。每个工作线程与其他 N-1

112、个工作线程进行 2*（N-1）次通信。在这一过程中，一个工作线程发送并接收数据缓冲区传来的梯度信息，每次接收的梯度信息被添加到工作进程缓冲区中，并替代上一次的值。所有的工作线程将在发送和接收 N-1 个梯度消息之后，收到计算更新模型所需的梯度。这一方法可以最大化地利用网络能力，避免计算瓶颈出现39。在此通信策略基础上，Horovod 通过开放消息传递接口（Open Message Passing Interface，OpenMPI）建立基于 TensorFlow 的分布式系统。39 相关技术描述详情，请参阅：Alex Sergeev，Mike Del Balso，Meet Horovod:Ub

113、ers Open Source Distributed Deep Learning Framework图 2-4-7 M-CNN 网络训练过程中的 LR 调整由此，M-CNN 网络在多计算节点上的训练命令如下：指数式衰减急剧衰减随着 Batch Size变化扩展 LR起始使用单节点范围 LR0.0350.030.0250.020.0150.010.00500 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 另一个可以对多计算节点训练效率进行优化的方式是收敛和调整学习率（Learning Rat

114、e，LR），不同训练阶段的 LR 大小是深度学习中非常重要的设置项，LR 过大会造成振荡，过小则会收敛速度慢且易过拟合。在基于 TensorFlow 框架构建的M-CNN 模型训练过程中，可以采用如下的 LR 调整方法来获得性能优化。40更多 LR 设置技术详情，请参阅：Yang You et el,2017,“ImageNet Training in Minutes”即便在采用 Horovod 框架的情况下，所需要传递的梯度信息仍然可观。例如在使用 BBBC-021 数据集所做的测试中，梯度信息大小为 162.2MB。如图 2-4-7 所示，在训练之初，首次迭代先使用单节点的LR，随后将其扩

115、展到全局的Batch Size参数。在其后的迭代中，LR 以指数方式衰减，从第 14 次迭代开始，LR 出现一个急剧衰减40。16.3 张每秒200.0180.0160.0140.0120.0100.080.060.040.020.00.0206420187.0GB125.4GB91.0GB64.3GB52.8GB613 张每秒908070605040302010080GB47.5GB30.9GB17.5GB13.3GB480864204948英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇方案中

116、部署了 8 个基于英特尔至强可扩展处理器的节点，使用 BBBC-021 数据集，图像总量为 1 万张，尺寸为1024*1280*3。在超过 20 次的训练后，如图 2-4-9 所示，训练时间总长约为 31 分钟，准确率超过 99%。同时，方案在使用 NUMA 技术形成 32 个 TensorFlow 工作进程（每个节点4 个工作线程）后，处理能力达到了每秒 120 多幅图像，与未优化前相比，性能获得了显著提升。图 2-4-9 诺华优化后方案的训练效果图 2-4-8 用于 HCS 的显微镜图像与常见图像数据集对比大尺寸的显微镜图像，与其带来的数百万个参数，加之一次训练图像数千个的规模，既对系

117、统内存形成挑战，也带来巨大的计算负荷。为了有效应对这一挑战，双方采用了一系列深度神经网络优化和加速技术，帮助系统能够在更短的时间内处理多个图像，并保持准确率。优化方案与成效优化方案在两个方面对基于英特尔至强可扩展处理器所部署的 M-CNN 模型的训练进行了加速。首先、在单计算节点，充分利用英特尔至强可扩展处理器对大内存的良好支持，使方案可以采用大 Batch Size（方案中设为 32），并利用 NUMA 技术增加工作线程来提升训练效率；其次、在多计算节点，引入了开源的 TensorFlow 分布式深度学习框架Horovod，来大幅提升 M-CNN 模型在多节点下的训练效率。同时还设计

118、、采用了优化后的学习率收敛和调整方法来提升性能43。现在，英特尔和诺华的生物学家、数据科学家们希望通过基于优化的英特尔至强可扩展处理器上部署的 M-CNN 网络，来加快 HCS 分析。在这项联合工作中，该团队专注于整个显微镜图像，而不是使用单独的流程来首先识别图像中的每个细胞。而且，其使用的数据集 BBBC-021 数据集中的显微镜图像可能比常见深度学习数据集中的图像大得多。41 该数据援引自 https:/ ImageNet:Russakovsky O et al,ImageNet Large Scale Visual Recognition Challenge,IJCV,201543

119、数据所使用的测试配置为：双路英特尔至强金牌 6148 处理器，2.40GHz；核心/线程：20/40;HT：ON；Turbo：ON；内存：16GB DDR4 2666*12；硬盘：480GB 英特尔固态盘 OS drive*1，1.6TB英特尔固态盘data drive*1；网络适配器：英特尔 Omni-Path主机结构接口（HFI）；BIOS：SE5C620.8 6B.02.01.0008.031920191559；操作系统：CentOS Linux 7.3；gcc版本：6.2；TensorFlow版本：面向英特尔架构优化的TensorFlow v1.7.0；Horovod版本：0

120、.12.1；OpenMPI：3.0.0；ToRSwitch：英特尔 Omni-Path架构工作负载：Broad Bioimage Benchmark Collection*021（BBBC-021）数据集，1万张图像，图像尺寸为1024*1280*3。诺华利用深度学习提高药物研发效率背景作为全球领先的医药企业，诺华正积极借助数字化转型来保持其在药物创新、疾病诊断和药物研究等方面的竞争优势，而“AI+药物发现”是其面向未来药物研发进程中的重要一环。现在，诺华正与英特尔一起，合作研究使用深度学习的方法来加速 HCS 进程。细胞表型的 HCS 是目前诺华进行早期药物发现的重要方法之一。所谓高内涵是指

121、使用经典图像处理技术，从图像中提取的数千个预定义特征（例如大小、形状、纹理等等）的丰富集合。HCS 允许分析显微图像，以研究数千种遗传或化学处理对不同细胞培养物的影响。利用深度学习方法，诺华可以从数据中“自动”学习，并区分一种治疗与另一种治疗的相关图像特征，但细胞显微镜图像巨大的信息量使这一方法仍需耗费大量时间其图像分析模型的训练时间约为 11 小时41。如图 2-4-8 所示，左侧是一个用于 HCS 的显微镜图像，其单张像素接近 400 万，而右侧是来自著名的 ImageNet 数据集42的图像，其训练数据集单张图像为 15 万像素，双方相差 26 倍。小结一款新药从发现、试验到生产，动辄数

122、年，期间伴随着患者及其家属的殷切期待。利用 AI 技术来加速药物研发进程，不仅是众多制药企业加速创新，保持核心竞争力的普遍选择，也是让科技造福人类，助力创造健康生活的重要体现。为此，英特尔也与众多制药企业一起，为加速 AI 方案在药物研发中的应用而努力。通过合理的优化方案，英特尔至强可扩展处理器在内的先进技术与产品，可以为基于深度学习的 HCS 等 AI 应用提供出色且可靠的大内存支持，以及大 Batch Size 与多 TensorFlow工作进程支持，来加速单节点或多节点的训练效率，并以高带宽、低延迟的先进互联架构来对 Horovod 分布式训练框架提供支撑，进而大幅加速诺华等药企的药

123、物研发进程。目前，基于英特尔至强可扩展平台的一系列 AI 应用，已在众多制药企业获得了落地部署，并获得了良好的效果。值得一提的是，虽然本文中的测试是基于英特尔至强金牌 6148 处理器展开，但随着第四代英特尔至强可扩展处理器等英特尔硬件与技术的推出与应用，用户在未来实际部署中可以选用更新的英特尔硬件平台，以及相关软件优化方案来构建性能更强劲的深度学习方案，并获得更佳的训练和推理效果，进而进一步加速药物发现的进程，更好地助力患者治疗与康复。ImageNet1024x1280 x3224x224x35150英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战

124、篇AI 助力打造更为精准智能的医疗解决方案医疗行业中更多AI 技术的落地应用更多AI 方法被应用于医疗行业近年来，随着不同方向的 AI 技术都获得长足进展，越来越多的 AI 应用也在医疗行业的不同领域获得广泛地落地应用。例如，随着医疗信息化进程的推进，在过去数十年中，医疗数据已逐渐从纸质记录全面走向电子化，这为 AI 方法的应用提供了数据基础。目前，很多医疗机构已经着手部署基于深度学习或机器学习方法的各类 AI 技术，并在医疗科研、临床辅助中取得了良好的成效。在疾病分析领域，一些医疗机构正尝试运用决策树、随机森林（Random Forest，RF）等机器学习算法，对某种慢性病的海量患者数据进行

125、分析，预测该慢性病患病概率。在数据比对中，基于机器学习的这一慢性病患病率预测方法已被证明可比人工具备更高效率。而另一些医疗机构中，基于海量数据构建的机器学习模型正帮助医师高效评估患者的预后风险得分，从而更好地判断患者临床预后情况，为其选择最佳治疗方案。除了对已知疾病实施辅助诊疗外，AI 方法还可帮助医疗机构从大量复杂的医疗记录（例如健康信息系统(HIS)中的海量数据）中，利用 NLP 等 AI 技术梳理预测未知的疾病信号，例如从视网膜眼底图像中预测屈光不正等。本文接下来将就 AI 方法在医疗领域更多的应用方向，包括慢性病预防与诊疗以及放射组学应用等展开描述，并介绍相关的实践案例，探讨 AI 技

126、术在医疗行业中的发展趋势。AI 方法在医疗领域的重要应用方向50实战篇慢性病预防与诊疗伴随工业化、城镇化带来的生活方式改变，以及人口老龄化进程加速和不健康生活方式的影响，慢性非传染性疾病（以下简称 “慢性病”）已成为中国居民的主要死亡原因。一项数据表明，新世纪以来，中国成人慢性病死亡率已占总死亡率的 86%以上44。因此，慢性病业已逐渐成为重大公共卫生问题。与病原体感染、食物中毒等突发性疾病相比，慢性病具有以下几类特点：慢性病患病人数众多且以中老年人为主，患病率随年龄增长而上升；慢性病多为终身性疾病，治疗护理康复周期长，医疗服务需求量大，护理要求高；大多数慢性病属于不可逆性疾病，不仅影响患者

127、的生活质量，且会给家庭和社会带来沉重经济负担；慢性病往往有交叉并发现象，单一治疗方案难以起效，需多方位综合康复。基于这样的特点，各级医疗机构对于慢性病的治疗，提出了“预防为主、治疗为辅”的策略，但这需要依据患者健康状况做出综合评估，并长期跟踪。现有专科门诊为主的传统医疗模式及一年一次的体检，显然无法达到早筛查、早发现，给与早治疗。逐渐丰富和多元化的医疗数据积累，为 AI 技术在慢性病预防和治疗中的应用奠定基础。通过一定算法，机器学习方法可在患者各项健康数据中发现相应的模式，并通过建模学习这些模式，进而对慢性病进行预测。通过将慢性病预防与诊疗算法部署在医疗机构、康复中心甚至家庭智能设备中，中老年

128、人、肥胖者、烟民等慢性病高风险人群，可以更便捷地得到慢性病风险评估、个性化健康干预以及干预效果长期评估，更好地实现自我健康管理。放射组学应用自 2012 年第一次被提出以来45，放射组学（Radiomics，亦称影像组学，本文中统一采用放射组学）就一直受到医疗行业的热切关注。其是指从CT、MRI、PET等医疗影像中，以（半）高通量方法提取大量影像信息，通过区域分割、特征提取和模型建立等过程，来对影像数据信息进行更深层次的挖掘、预测和分析，从而辅助医生做出更精准的诊断，已在诸多疾病诊断治疗中，发挥着越来越关键的作用。放射组学融合了基因信息和影像多模态信息，可将影像转换为可挖掘的高通量影像特征数据

129、，量化病灶组织的空间-时间异质性，揭示出肉眼无法识别的疾病特征，有效将医学影像转换至高维的可识别特征空间，并使用统计学和/或机器学习的方法，筛选最有价值的影像组学特征用以解析临床信息，从而建立具有诊断、预后或预测价值的模型，为精准个体化诊疗提供有价值的信息。与活检方法相比，放射组学分析不仅可以全面提取病例特征，还可以重复利用数据；与传统医学影像相比，44 数据引自国家卫生计生委疾病预防控制局发布的中国居民营养与慢性病状况报告（2015年）45 放射组学（Radiomics）由荷兰学者Philippe Lambin在其论文Radiomics:Extracting more information

130、 from medical images using advanced feature analysis中首次提出：https:/www.ncbi.nlm.nih.gov/pmc/articles/PMC4533986/5352英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇在以上流程中，选择合适的特征选择方法将影响整个放射组学系统的预测效率和精度。通常系统需要根据影像采集参数的不同，以及呼吸运动位移带来的干扰等，使用合理的特征选择方法来筛选抗噪声能力强的放射组学特征，并通过调整参数来提高其稳定性。另外，特征选择也是避免“维度灾难（Curse of Dimens

131、ionality）”和信息损失的关键环节。针对医疗机构 IT 基础能力储备不强的现状，信息化厂商在提供放射组学方案时，也会引入数据可视化工具来帮助医生，并通过一键式的操作降低使用门槛。在大量医疗影像病灶经输入后，通过一键提取特征值并进行归一化处理，能迅速给出具有统计学价值的特征值，供机器学习模型进行训练，从而有效提升模型效率和精准度。现在，基于放射组学的一系列医疗科研、辅助诊疗方案已在众多医疗机构得到了部署和实践，并在病灶的早期筛查等场景中取得了显著的效果。利用 NLP 技术开展医疗信息整合存储并流转在各个医疗信息化系统中的各类数据有其独有的语言和文本特征，因此，传统的自动化系统很难全面地利用

132、并分析数据，用以提供患者治疗和管理。尤其是非面向医疗行业的应用系统一般都缺乏有效和系统化的方式，来确定医疗数据结构，以及整合并分析数据和结果，势必也难以帮助医生获得洞察并做出更精准的临床决策。NLP 技术的发展可以帮助医疗机构更有效地对不同类型的健康数据开展洞察。一般地，基于NLP技术构建的系统在工作时，44 数据引自国家卫生计生委疾病预防控制局发布的中国居民营养与慢性病状况报告（2015年）45 放射组学（Radiomics）由荷兰学者Philippe Lambin在其论文Radiomics:Extracting more information from medical images us

133、ing advanced feature analysis中首次提出：https:/www.ncbi.nlm.nih.gov/pmc/articles/PMC4533986/关键的算法模块包括了基于医疗文本的命名实体识别模型以及关系提取模型。命名实体识别实体是知识或概念的基本要素。这是一个可以唯一识别并与其他实体区分开的对象。NLP 解决方案中的命名实体识别既可以总结并区分这些在医疗文本中出现的概念，又可以组织概念体系，如患者、患病部位、疾病和症状。命名实体识别模型由一个神经网络模型和一个经过预先训练的语言模型组成。这些模型使机器能够自动识别医疗文本中出现的实体，包括识别实体的边界以及确定实体

134、的类型。关系提取语义关系用以描述实体和概念之间的关联与交互。这些关系是知识的核心组成部分之一。例如，患者和疾病之间存在一种诊断关系，而且疾病有不同的症状。关系提取模型可自动识别文本中不同实体间的语义关系。该模型可以形成三元组，从而生成一个语义网络，匹配文本，对文本进行结构化处理，并以图形数据的形式存储。通过 NLP 技术的加入，医疗机构就有能力将不同维度、具有不同特征的医疗数据，包括临床记录、影像报告、实验室测试、探视记录等开展有效整合，揭示非结构化和不相关的医疗数据点中隐含的信息，提供患者数据的整体视图，帮助医生做出更精准的临床决策，并为患者提供更好的治疗方案，也有助于推进临床研究。利用 O

135、CR 技术加速医疗信息流转传统的医疗信息采集、录入和转化流程中，相关的住院、用药以及就诊等信息的采集和转化都需要人工参与。不仅耗时耗力，而且还可能因为人为疏忽导致错录、漏录等问题。基于 AI 方法的 OCR 技术的推出，成为解决这一问题的良方。作为 CV（计算机视觉研究）领域的重要分支，OCR 技术是利用光学和计算机技术将图像中的字符信息读取出来并转化为系统数据。OCR 系统的工作流程一般可分为以下几个步骤：预处理：对待提取字符信息的图像进行降噪、矫正和加强，包括几何变换（透视、扭曲、旋转等）、畸变校正、去除模糊、图像增强和光线校正等；数据收集VOI 分割特征提取强度特征形状特征纹理特征小波变

136、换及图像滤波特征选择模型训练机器学习模型评价及预测诺模图1、3、5 年复发率等ROC 曲线，敏感性、特异性解剖结构成像组织病理图像临床报告基因表达谱分子分型LASSO 回归筛选单变量选择法逻辑回归决策树随机森林XGBoostSVMKNN方差阈值法主成分分析独立成分分析可重复性检验图 2-5-1 放射组学基本分析流程文本检测：检测文本的所在位置、范围及其布局，即发现文本所在区域、文本范围有多大。常用的 AI 模型包括 Faster R-CNN、RRPN、DMPNet、CTPN 等；文本识别：这一步是在文本检测的基础上，对文本内容进行识别，将图像中的文本信息转化为文本信息。常用的 AI 模型组合

137、包括 CNN+RNN+CTC、CNN+RNN+Attention机制等。目前在医疗行业中，基于 AI 方法的 OCR 技术正为医疗机构的效能提升带来巨大助力。例如在医疗票据录入场景中，不同使用者（医生、病人、病人家属以及医保机构等）都有可能需要将医疗票据中的文本信息录入系统，以便进行下一阶段的操作。通过智能 OCR 产品的应用，可以将上述手动录入流程转化为自动流程，从而提高信息采集、录入和转化效率和正确率，实现医疗信息管理智能化、精细化。放射组学具有高通量、定量、计算速度快、精度高等优点，因而得到了研究人员广泛关注与研究。放射组学基本分析流程如图 2-5-1 所示，分为数据收集、感兴趣容量（V

138、olumes Of Interest，VOI）分割、特征提取、特征选择、模型训练以及模型评价及预测几个主要步骤。在数据收集阶段，系统会将患者的 CT、MRI、PET-CT 等以 DICOM影像格式导入，基因表达谱以及临床报告则以特定的临床信息格式载入，入组数据需要具有相同或相似的采集参数，保证数据不会受到机型、参数的影响。考虑到纳入研究的影像数据可能来自不同的扫描参数或扫描机器，为了尽可能减小由此造成的影像数据差异及其对最后结果的影响，平台会对每例影像进行重采样并通过 BSpline 函数进行插值，以便保证后期处理时每组影像的分辨率相同，并进行信号的归一化处理。VOI 分割是指在影像图像上勾画

139、出感兴趣区域，从而针对这一特定区域计算放射组学特征。特征提取是通过提取强度、形状等特征，将低维视觉特征、高维复杂特征和临床经验特征相结合，来全面分析病灶异质性。然后，通过最小绝对收缩选择算子（Least Absolute Shrinkage and Selection Operator，LASSO）回归筛选、主成分分析法（Principal Component Analysis，PCA）等特征选择方法，在筛选特定的放射组学特征后，通过逻辑回归，决策树等机器学习方法进行模型训练。最后，系统会通过受试者曲线（Receiver Operating Characteristic Curve，ROC）、

140、诺模图等对模型效果做出评估，并进行预后预测。英特尔架构提升机器学习方法效率医疗领域中的常用机器学习方法机器学习方法是医疗行业中常用的 AI 技术分支，常见的机器学习方法可以分为分类、回归等不同范畴，以下内容将简要介绍在医疗行业中常用的一些机器学习算法。决策树与随机森林算法决策树是一个树形结构的监督学习模型，模型会对每一个特征进行判断，产生不同的结果并进行分支，每个分支再对特征进行判断、继续分支，直到该分支不满足拆分条件为止，最终推断出分类结果。根节点预测分类结果特征分裂节点，即判断条件图 2-5-2 决策树模型5554英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇

141、实战篇决策树的深度增高容易出现过拟合现象，随机森林算法可以有效解决这一问题。简单而言，随机森林作为一种集成学习方法，其用随机方式构建一个决策树森林，当有一个新的样本进入随机森林，就让每一棵决策树都进行一次判断，计算样本的分类，然后通过“投票”的方式来得到预测样本的归类。随机森林既可用于分类，也可用于回归问题，而这两类问题恰好构成了临床诊断中所需要着重解决的一些定性和定量问题，例如特定人群筛查。逻辑回归算法逻辑回归（Logistic Regression，LR）算法是目前常见的机器学习算法之一，其在线性回归的基础上引入 Sigmoid 函数，将线性回归（-,+）值域映射到（0-1）之间，进而用于

142、预测某种疾病发生的概率。例如在传染病防控模型中，将患病毒感染设定为 a=1，未感染设定为 a=0，将 N 个独立样本中的特征值 b（年龄、性别、病史、旅行史、接触史等）引入如下目标函数中：然后利用最大似然求解极大值，并引入正则项优化，惩罚过大参数避免过拟合，从而计算得出最优的参数值。最终，通过样本数据训练得出是否感染的概率模型。AdaBoost 算法采用的是迭代的思想，一般采用单层决策树作为弱分类器。每次迭代只会训练一个弱分类器，然后让计算好的弱分类器参与下次迭代。N 次迭代后会出现 N-1 个训练好、参数不变的弱分类器，以及第 N 个需要进行训练的迭代器，模型的最终效果取决于 N 个弱分类器

143、的综合效果。在AdaBoost 算法的训练过程中，每次迭代均会更改样本权重和对应的弱分类器权重，因此其可以根据不同弱分类器的特性不断进行调整。LR 模型可对连续的数值特征进行离散化，易于模型快速迭代且具有较强的鲁棒性。在对离散后的向量进行特征交叉后，更有助于提升模型表达能力。几种 Boosting 算法集成学习是机器学习中通过一系列弱分类器来产生强分类器的方法，当弱分类器间存在强依赖关系，如图 2-5-3 所示，各个弱分类器之间有着串行关系时，称之为 Boosting 算法。典型的 Boosting 算法包括了自适应提升（Adaptive Boosting，AdaBoost）、梯度提升迭代决策

144、树（Gradient Boosting Decision Tree，GBDT）算法。图 2-5-3 机器学习中的集成学习方法弱分类器#1弱分类器#2弱分类器#3组合输出弱分类器#4弱分类器#NGBDT 算法是由一系列分类回归树（Classification And Regression Tree，CART）集合而成的强分类器。CART 回归树是在二叉树上不断根据特征进行分叉，例如当前树节点 J是基于 a 个特征值进行分叉，则特征值小于 b 的样本划分为左子树，大于 y 的样本划分为右子树：CART回归树实质就是在该特征维度上对样本空间进行划分，典型 CART 回归树产生的

145、目标函数为：与 AdaBoost 算法一样，GBDT 算法也采用了迭代的方法，其目标函数也可以表示为：其中正则化参数 0。同时，L1 范数正则化还有更易获得稀疏解的优势，即其求得的 w 会有更少的非 0 分量。LASSO算法求解通常可采用近端梯度下降法（Proximal Gradient Descent，PGD）46。而 LASSOCV 是沿着正则化路径迭代拟合的 LASSO 线性模型，其是基于 LASSO 方法，加上 K-Fold 交叉验证来自动找出最优模型。交叉验证是机器学习方法建立模型和验证模型参数时常用的办法，即将数据集切分成多个部分，每个部分轮流作为测试集，以验证在其余数据上训练出来

146、的模型。K-Fold交叉验证就是将数据集切分为 K 个子集后，进行交叉验证的一种方法。目前 LASSO 算法已被广泛地应用于压缩感知、图像处理、趋势分析等领域。*更多 LASSO 算法内容，可参阅周志华教授所著机器学习西瓜书11.4 节部分内容。当有 k 个样本，其第 N 轮的模型预测结果为：但与 AdaBoost 算法相比，GBDT 算法每一轮预测和实际值有残差，下一轮再根据残差进行预测，最后将所有预测相加，就得到了预测结果，更重要的是，GBDT算法具备较强鲁棒性，对于复杂的数据采集尤为重要。近年来广受关注的 XGBoost 是 GBDT 算法的一个优良扩展和高效实现。其核心思想，就是通过不

147、断进行特征分裂来生成新的分叉树，每添加一个树，其实就是学习一个新函数来拟合上次预测的残差。因此，XGBoost 目标函数可以定义为：46 以上 LASSO 相关算法描述，部分参考周志华教授所著机器学习西瓜书 11.4 节部分内容。与 AdaBoost、GBDT 等算法相比，XGBoost 算法有着如下的优势：XGBoost 支持并行计算，可充分利用处理器的多线程能力，尤其当其工作在英特尔架构平台上时，能更有效利用英特尔 AXV-512 等新指令集提升矢量计算能力；XGBoost 在其代价函数中引入了正则化项，可以有效地控制模型的复杂度，防止模型过拟合；XGBoost 支持列抽样（column

148、 subsampling）方式，不仅能够防止过拟合，还能降低计算复杂度。LASSO 算法众所周知，当模型在样本特征很多且样本数相对较少时，容易陷入过拟合。缓解过拟合问题一般可以用两种方法。一是减少特征数量，二是通过正则化来减少特征参数 w 的数量级。所谓正则化，即是指选择平均损失函数和模型复杂度同时较小的模型。因此，LASSO等算法的目标在于对引入的正则化项（表示模型复杂度的单调递增函数）实施优化，正则化项越大，模型复杂度则越低，过拟合概率也就越低。正则化项可以是模型参数向量的范数，常用项有L1范数、L2范数。LASSO 算法即是对 L1 范数的正则化，其优化目标可表示为：堆栈式集成学习（St

149、acking）算法在现实机器学习任务中，数据往往存在特征分层的现象，高层级的特征语义信息复杂，往往难以用单层简单模型提取的信息加以表示，因而无法获得好的预测结果。Stacking 默认通过 2 层模型来实现复杂层次特征的提取，以获得对数据更好的拟合。在第一层中，可在原始训练集(Xtrain0,Ytrain)上训练不同类型的基模型(level-0)，并利用基模型骨干网络从原始验证集(Xvalidate0,Yvalidate)的输入上提取特征，合并组成新的训练集(Xtrain1,Yvalidate)，并在原始测试集(Xtest0,Ytest)的输入上提取特征，合并组成新的测试集(Xtest1,Yt

150、est)。在第二阶段，可利用新的训练集(Xtrain1,Yvalidate)和测试集(Xtest0,Ytest)训练不同类型的模型，融合后作为元模型(level-1)。模型部署时，通过 level-0 推理以提取初级特征，并输入 level-1 以输出最终预测结果。当然，为了获取更复杂的语义特征，Stacking 也可以实现从 level-0 到 level-N 层模型的不断堆叠。5756英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇 PCA 算法PCA 算法是一种使用广泛的数据降维算法。降维是对高维特征数据进行的预处理，通过去除高维数据中的噪声和次要特征来加

151、快数据处理速度，提升机器学习模型效率。简单而言，如图 2-5-4 所示，PCA 算法是通过将数据坐标轴（蓝色坐标轴）上的基线（红色线）进行旋转，一直旋转到数据方差最大（三角形数据在基线上投影最大）的方向，然后通过特征值分析来确定需要保留的主成分个数，进而实现数据降维。一般地，假设有 X 行 Y 维原始数据，PCA 算法基本步骤如下：读入数据矩阵，将数据按列组成 Y 行 X 列矩阵 Z；将 Z 的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值；计算协方差矩阵；计算协方差矩阵的特征值及对应的特征向量；将特征向量按对应特征值大小从上到下按行排列成矩阵；保留前 W 行组成矩阵 D；将数据转

152、换到个特征向量构建的新空间，Y=DX 即是降维到k 维后的数据。与其他降维算法相比，PCA 算法有着以下优点：属于无监督学习，不受参数限制；各主成分之间正交，可最大程度消除数据成分间的相互影响；计算开销低，易于实现；能有效去除噪声；可达到数据压缩的效果且信息损失小。基于这些优点，目前 PCA 算法已被广泛运用于高维数据集的探索与可视化，以及数据压缩、医疗/金融数据预处理、语音分析等领域。图 2-5-4 PCA 算法映射示意医疗应用中的高维机器学习模型根据数据的二八定律，传统专家规则系统可以通过人为总结的经验来覆盖 80%的人群。然而，二八定律又叫关键少数法则，也就是说在任何一组事务中，最重要的

153、只占其中的 20%，其余 80%尽管是多数，却是次要的。不过，剩下的 20%人群若通过规则覆盖，需要的维度会高出几个量级。此时如果通过机器学习模型来对医疗数据进行挖掘，将特征维度提升至百万至亿级别，就可以有效覆盖后 20%的长尾用户。具体到医疗应用的具体场景中，传统专家规则系统可能仅通过医学检查结果来判断用户是否确诊，或根据典型症状，例如发烧、起疹子等对疾病进行筛选甄别。而通过机器学习模型，可以通过更多的拓扑关系，例如用户本身的健康记录，是否是某种疾病高危群体等关键信息构成高维组合特征，可以在规则模型的基础上大大提升疾病判断的覆盖面和识别的准确率，在确保提升召回率的同时，还能维持较高的准确率。

154、目前第四范式等企业推出的离散化高维模型，已经可以将维度提升至千万，乃至上亿级别。通过构建高维机器学习模型，可以带来以下几个方面的优势：特征（规则）带来的高维：每个特征对应业务上的一条规则，业务规则是人为总结出来的，数量少（一般千条以内），对真实世界描述能力就差；而高维模型所使用的规则（特征）在百万级，远大于一般业务模型，可以大幅提升对预测和识别的准确率；模型（非线性）带来的高维：包括规则模型在内的线性模型表达能力较弱，且线性模型的非线形化需要基于核函数、手工离散化和特征组合等方法，在学习之前就要付出大量人力工作。而树模型可以通过海量真实数据的输入，产生高度非线性的模型。维度和样本数成指数级关系

155、，对真实世界的表达能力更强；模型融合带来的高维：虽然高维模型表达能力很强，但无限制地提升维度会导致过拟合。而每个分类器通过高维捕捉数据的不同方面，通过模型融合能刻画更高维度。另外模型融合隐含正则，也可以防止出现过拟合。英特尔为高维机器学习模型提供更强硬件基础设施支持高维机器学习模型。不同于一般算法模型，往往构建的是一个巨型的金字塔型数据矩阵，其底层的数据维数可能高达上亿级别，因此其在带来优势的同时，对通用计算能力以及海量内存有着迫切需求，对基础硬件设施的性能要求更高。基于英特尔架构的处理器更高的处理器时钟频率、更多的处理器内核和线程无疑可为高维模型提供更强算力支撑。第二代英特尔至强可扩展

156、处理器不仅具有多达56个处理器内核、112 个线程以及全面升级优化的微架构，还配备了更快、效率更高的高速缓存来提升处理效能，并可支持高达 36TB 的系统级内存容量。其集成的英特尔 AVX-512，可提供更宽的矢量计算功能，能对机器学习中的多种算法提高执行效率给与有力支撑。与此同时，高维模型意味着系统必须应对海量的数据处理。通常，当数据的维度在百万级时，文件大小为 GB 级，而在十亿维度时，文件大小可至 TB 级。机器学习系统无论使用何种算法进行模型计算和更新时，都会产生大量的中间结果数据用于模型迭代，这些中间结果的存储性能显然直接制约了训练速度的进一步提高。同时，在一些场景下，还需要中间数据

157、在发生意外时不会丢失。在传统的基础硬件设施中，高性能的存储需求一般都是由DRAM 内存来承担。但随着数据的维度到达一定量级，就需要更为经济可靠的硬件设施来提供存储能力。以独特的 3D XPoint 存储介质构建、能兼顾高性能和大容量两方面需求的英特尔傲腾持久内存显然是良好的选择，其提供了两项高维机器学习模型所需的重要特性：高密度和持久性。前者意味着高达 512 GB/每 DIMM 插槽的内存最大密度，是目前DRAM 内存的数倍，而后者则使得服务器即便发生断电或重启，数据仍可保留。应用案例第四范式构建慢性病预防与管理闭环管理方案背景慢性病已对人们的生活质量和社会经济造成了巨大的危害，而对抗

158、慢性病最有效的措施是进行有效的预防。如图2-5-5所示，慢性病防治可简略为四步法则：1)为肥胖、吸烟、中老年以及有既往病史者等高风险人群建立健康档案；2)通过科学的方法进行慢性病风险评估；3)采取有效的个性化健康干预方案，例如运动方案、饮食方案等；4)对干预的效果进行长期跟踪，判断风险趋势，调整干预方案。过去，以上工作都需要经验丰富的专业医师、健康专家、营养专家以及运动专家等给出专业的意见。但在医疗资源日益紧张的今天，为大众提供普遍性的专家服务显然并不现实。此外，即便是专家服务，也是依赖个人经验进行判断，难以满足精准与个性化需求。那么，如何利用高科技手段，为更多居民提供高质量慢性病预防和管理服

159、务，就成为众多医疗健康机构和高科技企业新课题。基于丰富的医疗数据，通过机器学习的方法来实施风险评估、个性化健康干预以及干预效果评估，已经成为应对慢性病挑战的有效途径。基于这一模式，第四范式与上海交通大学医学院附属瑞金医院共同合作，结合瑞金医院精湛的专业知识和丰富临床经验以及全球最大的代谢性疾病样本库，使用第四范式的图 2-5-5 慢性病防治四步法建立健康档案慢性病风险评估干预效果长期评估个性化健康干预5958英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇图 2-5-6 慢性病预防管理闭环机器学习“先知”平台，利用国际领先的机器学习技术，同时采用英特尔先进软硬件

160、产品，构建了知宁慢性管理系列产品，包括知宁慢病管理一体机、慢病管理云系统、瑞宁知糖、瑞宁知心、慢病管理随访箱、健康小式机器人等产品，助力医疗健康机构实施慢性疾病的全流程预防管理。方案与成效如图 2-5-6 所示，第四范式开发的慢性病预防管理服务主要由知宁慢病管理一体机和慢病管理云系统组成，用户可以通过登录慢病管理云系统，借助慢病管理一体机进行智能检测，建立自己的慢性病管理档案。检测数据上传到云平台后，通过精准的机器学习模型对检测数据进行慢性疾病风险精准评估，并结合多病种风险因素分析，提供科学、个性化健康干预方案；同时，方案还利用“健康范式”微信公众号及小程序为用户提供智能提醒及跟踪管理服务，实

161、现干预效果的长期评估管理。通过以上的闭环系统，用户即可获得集体检、筛查、干预和管理于一体的全方位慢病管理服务。医师多年的经验积累，往往也只能总结出数千条专家规则，以此来面对当代人多样化的生活方式和更高要求的慢病管理，显然越来越力不从心。云系统通过对检测数据进行切片，形成了超高维的机器学习能力来应对这一挑战。在数据预处理环节，系统首先对全量样本进行数据建模。在特征工程阶段，抽取检测结果数据、用户信息等基本信息，结合检测者的历史医疗记录，家族病史等多样化特征，再利用超高维的机器学习算法，以及基于英特尔架构处理器的服务器集群所构成的强悍算力，通过对数据原始字段进行超高维组合和衍生，最终形成总量达上

162、千万乃至数以亿计的特征集。与传统机器学习算法相比，第四范式 GBDT 机器学习算法在模型准确度、离散特征使用能力等多个方面都优于决策树等模型，如表 1 所示，第四范式 GBDT 算法可以兼顾模型准确度要求以及防止模型过拟合的要求，同时在支持的建模样本数量和输入特征数量上，也比传统集成学习决策树算法有着大幅提升。知宁慢病管理一体机健康范式公众号知宁慢病管理云系统用户传统决策树算法第四范式 GBDT 算法树的数量单棵树多棵树模型准确度树过深容易过拟合，刻画准确和过拟合难以兼得用很多棵简单的树迭代，不容易过拟合样本数量几百万级上亿级输入特征数千没有限制，由平台节点规模而定离散特征使用能力无法处理大规

163、模离散特征可实现大规模离散特征的处理和使用表 1 第四范式 GBDT 算法与传统决策树算法比较47 数据援引自第四范式第四范式知宁慢病管理一体机产品手册。目前，新方案在多家医疗机构的实践中已被证明具有良好的表现。训练和预测任务提供强劲的算力，让 LASSOCV 和 PCA 算法的执行更具效率。同时，汇医慧影还与英特尔一起，针对算法执行语言 Python进行了优化。由英特尔提供的面向英特尔架构优化的Python，加入了对更多英特尔性能库（如英特尔 MKL）的支持，并内置了最新的矢量化指令。更为重要的是，其对Scikit-learn（sklearn）库也有着良好的支持。Sklearn 库是机器

164、学习方法最常用的第三方库之一，对LASSOCV 和 PCA 等常用机器学习算法进行了封装，同时也提供了 K-Fold 交叉验证等方法供用户方便调用。在面向英特尔架构优化的 Python 中的环境配置命令如下：面向英特尔架构优化的Python分发包，助力汇医慧影提升放射组学特征选择效率背景运用放射组学，能进一步挖掘医学影像数据中蕴藏的信息，助力医疗机构更早、更快地发现细微病灶，从而将恶性疾病消弭于早期，来大幅减轻病患的痛苦，且有效提升医疗资源的使用效率，提升全民健康水平。而作为中国放射组学技术与解决方案的积极探索者，汇医慧影正以 AI 一体机等产品与平台，为医疗机构提供“全周期”、“一键式

165、”的影像大数据科学分析能力，为放射组学技术在医疗机构的应用提供工具。从前文所述可知，放射组学的基本流程分为数据收集、VOI 分割、特征提取、特征选择、模型训练以及模型评价及预测等步骤。由于放射组学的思路在于尽可能地提取医学影像中的更多数据特征，需要面对可能的“维度灾难”等问题。机器学习方法中的维度灾难，是指在样本量一定的情况下，随着输入维度的增加，空间数据会变得更为稀疏，这会严重影响模型的预测效果。要解决这一问题，则需要在特征选择阶段选择合适的算法对数据特征进行降维处理。医疗机构部署放射组学方案需要通过大数据集进行训练，从而更精准地对患者的影像数据做出预测，此时就需要特征选择步骤具备更高的处理

166、效率。因此，为方案配备更高处理能力的硬件基础设施，并需要根据算法特点进行针对性的调优至关重要。因应这一需求，汇医慧影不仅引入了第二代英特尔至强可扩展处理器作为方案的强大处理引擎，而且采用面向英特尔架构优化的 Python 版本，来提升 LASSOCV、PCA 等特征选择算法的运行效率。方案与成效LASSOCV、PCA 等算法是在基于放射组学技术的医学影像处理系统中，面向特征选择步骤的最常用算法，能够有效帮助系统缓解放射组学流程中常见的维度灾难问题，并使系统在压缩数据的同时让信息损失最小化，同时还有助于数据可视化，使信息呈现更直观。汇医慧影在 AI 一体机配置了第二代英特尔至强可扩展处

167、理器。该处理器不仅集成了更多的处理器内核和线程以及全面升级优化的微架构，也配备了更多高速缓存来提升处理效能，并可支持高达36TB的系统级内存容量；其内置的英特尔 AVX-512 带来的强大矢量计算能力，还能为放射组学方案中的模型目前，知宁慢病管理一体机已能为用户提供血压、血糖、尿酸、胆固醇、血氧、心电图、脂肪率、代谢指数、肌肉含量（%）、水分含量（%）、体温等近 20 项指标检测。云系统采用半监督多任务 SMT-GBDT 机器学习算法，基于全球最大最新代谢性疾病样本库，建立了针对当前中国人的慢性病高精准筛查模型，筛查范围包括多种高发慢性病。从实践来看，模型评估效果远优于现行标准（包括美国、芬兰

168、等发达国家标准及中华医学会标准），预测结果准确率达到专业医生目前使用的临床金标准的 2 到 3 倍47。先进算法的背后，是第四范式构建的超高维的机器学习方法。从前文对高维模型的描述可知，机器学习中模型的维度越高，学习能力就越强。在传统基于专家经验的慢性病管理中，穷尽为提升慢性病预防管理效能，第四范式在整个闭环的各个流程中，都引入了英特尔架构产品来提升效率。一方面，采用第二代英特尔至强可扩展处理器的加入，让平台有了足够算力，来应对万亿级高维数据处理提出的挑战。同时，处理器中所集成的英特尔 AVX-512 技术，也能以强大的矢量计算能力，加速模型预测过程。另一方面，英特尔傲腾固态盘则将高

169、吞吐量、低延迟、高服务质量和高耐用性结合在一起，为平台提供了高质量的数据存储基础设施。图 2-5-7 面向英特尔架构优化的Python与原生Python性能对比48 其中 KMP_BLOCKTIME 是设置某个线程在执行完当前任务并进入休眠之前需要等待的时间，此处设为 0 毫秒，USE_DAAL4PY_SKLEARN 是设置使用 SKLEARN 库。与原生 Python 相比，面向英特尔架构优化的 Python 在特征选择的实际执行中有着巨大的效率提升。如图 2-5-7 上侧图所示，在勾选全部放射组学特征，采用 K-Fold 10 交叉验证的 LASSOCV 算法工作负载中，面向英特尔架

170、构优化的 Python 执行速度是原生 Python 的 2.12 倍。而在下侧图中，勾选全部放射组学特征，采用 K-Fold 10 交叉验证的LASSOCV+PCA 算法工作负载中，面向英特尔架构优化的Python 执行速度是原生 Python 的 2.08 倍。原生Python面向英特尔架构优化的PythonLASSOCV算法执行速度2.521.510.5012.12原生Python面向英特尔架构优化的PythonLASSOCV+PCA算法执行速度2.521.510.5012.0848 测试配置如下：处理器：双路英特尔至强金牌 6252 处理器，主频 2.1GHz，24 核心 4

171、8 线程；内存：192GB DRAM 内存；存储：INTEL SSDSC2BB48；BIOS 版本：SE5C620.86B.02.01.0009.092820190230；操作系统版本：18.04.1 LTS（Kernel：4.15.0-91-generi）；原生 Python 版本：Python2.7.17；面向英特尔架构优化的 Python 版本：Intel-Python2019U5；工作负载：由汇医慧影提供的医学影像分级训练 6160英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇图 2-5-8 英特尔至强铂金 8480+处理器上的 BERT NER

172、推理结果比对图 2-5-9 英特尔至强铂金 8380 处理器与英特尔至强铂金 8480+处理器对比这样的方案无疑对平台算力以及AI加速能力提出挑战，为此，卫宁健康与英特尔展开合作，引入第四代英特尔至强可扩展处理器，借助英特尔高级矩阵扩展（Intel Advanced Matrix Extensions，英特尔 AMX）和 16 位量子化技术，来为方案中的命名实体识别算法等提供优化，优化方案经实际验证后，被证明具有良好的效果。优化方案与成效第四代英特尔至强可扩展处理器集成了用于助推 AI 能力的英特尔 AMX 和其他 AI 加速器。此外，针对英特尔架构和英特尔 AI 加速器

173、而优化的软件也可以显著提升诸如卫宁健康 NLP 后结构化平台这样解决方案的性能。卫宁健康NLP 解决方案在英特尔架构平台进行基准测试时，命名实体识别任务是基于 BERT 语言模型。最初的卫宁健康 NLP 模型采用 PyTorch 创建。以下优化措施用于在第四代英特尔至强可扩展处理器上提高推理吞吐量：使用面向PyTorch的英特尔扩展优化框架（Intel Extensions for PyTorch，IPEX，可由英特尔 oneAPI AI 工具套件提供），并进一步将 IPEX 用在卫宁健康代码中；在第四代英特尔至强可扩展处理器上使用英特尔 AMX，进行自然语言处理加速；基于 BF

174、16 进行模型量化，在保证准确度的同时，与英特尔 AMX 结合，以实现矩阵运算性能的大幅提升。为验证上述优化项的效果，卫宁健康与英特尔一起开展了相应的对比测试。测试在第三代英特尔至强可扩展处理器（英特尔至强铂金 8380 处理器）与第四代英特尔至强可扩展处理器（英特尔至强铂金8480+处理器）之间展开，并评估了不同优化项对不同处理器平台性能的影响49。测试中，命名实体识别任务是基于 BERT 语言模型展开。首先在英特尔至强铂金 8480+处理器的不同优化项对比上，如图 2-5-8 所示，在精度为 FP32 的数据类型下，优化后的工作负载在英特尔至强铂金 8480+处理器

175、上的吞吐量，比未优化的工作负载（基准值）增加了 1.64 倍。另一方面，通过IPEX 增强带来的优化，以及使用英特尔 AMX 加速矩阵计算和BF16量化共同发挥作用，使吞吐量综合增加至基准值的6.04倍。而在基于英特尔至强可扩展处理器代际运行的性能对比上，结果如图 2-5-9 所示，最新第四代英特尔至强可扩展处理器更有优势。使用英特尔至强铂金 8480+处理器且加入英特尔 AMX 和 BF16 量化优化，与完全未做优化的前一代英特尔至强铂金 8380 处理器相比，吞吐量增加了 6.3 倍。自 2021 年底部署以来，卫宁健康 NLP 后结构化平台解决方案已帮助相关医疗机构整

176、合、链接并分析了 57,000 份相关疾病患者的病历。同时，平台也已经帮助研究人员根据研究对象提取并识别了32 个影像特征和 114 个病理特征。49 基准配置/英特尔至强铂金8480+处理器(FP32)上未优化的 PyTorch：测试由英特尔在2022年10月17日进行。单节点，双路英特尔至强铂金 8480+处理器(2.0GHz)，112核，开启超线程，开启睿频加速技术，512GB 总内存（16 插槽/32GB/4800MHz 运行频率 4800MHz），BIOS:00.01.21，Ucode:0 x2b000041，Ubuntu 22.04.1 LTS，5.15.0-48-gene

177、ric，gcc 11.2.0，BERT 用于处理 NER 任务推理工作负载，框架：Pytorch 1.12.1，拓扑：Bert-Base-Chinese，数据集：JSON 格式 612 中文医疗报告，数据类型：FP32基于英特尔至强铂金 8480+处理器(FP32)的 Intel Optimization for PyTorch*：测试由英特尔在 2022 年 10 月 17 日进行。单节点，双路英特尔至强铂金 8480+处理器(2.0GHz)，112核，开启超线程，开启睿频加速技术，512GB 总内存（16插槽/32GB/4800MHz 运行频率 4800MHz），BIOS:00.0

178、1.21，Ucode:0 x2b000041，Ubuntu 22.04.1 LTS，5.15.0-48-generic，gcc 11.2.0，BERT 用于处理 NER 任务推理工作负载，框架：Pytorch 1.12.1+Intel Extension for Pytorch 1.12.3，Intel OpenMP，Tcmalloc 2.10，OMP_NUM_THREADS=56，KMP AFFINITY=granularity=fine,compact,1,0，KMP_BLOCKTIME=1，拓扑：Bert-Base-Chinese，数据集：JSON 格式 612 中文医疗报告，数据类型：

179、FP32基于英特尔至强铂金 8480+处理器(BF16)的 Intel Optimization for PyTorch*：测试由英特尔在 2022 年 10 月 17 日进行。单节点，双路英特尔至强铂金 8480+处理器(2.0GHz)，112核，开启超线程，开启睿频加速技术，512GB 总内存（16插槽/32GB/4800MHz 运行频率 4800MHz），BIOS:00.01.21，Ucode:0 x2b000041，Ubuntu 22.04.1 LTS，5.15.0-48-generic，gcc 11.2.0，BERT 用于处理 NER 任务推理工作负载，框架：Pytorch

180、1.12.1+Intel Extension for Pytorch 1.12.3，Intel OpenMP，Tcmalloc 2.10，OMP_NUM_THREADS=56，KMP AFFINITY=granularity=fine,compact,1,0，KMP_BLOCKTIME=1，拓扑：Bert-Base-Chinese，数据集：JSON 格式 612 中文医疗报告，数据类型：BF16基准配置/英特尔至强铂金 8380 处理器(FP32)上未优化的 PyTorch：测试由英特尔在 2022 年 11 月 8 日进行。单节点，双路英特尔至强铂金 8380 处理器(2.30GHz

181、)，80 核，开启超线程，开启睿频加速技术，512GB 总内存（16 插槽/32GB/3200MHz 运行频率 3200MHz），BIOS:SE5C6200.86B.0022.D64.2105220049，Ucode:0 xd000375，Ubuntu 20.04.5 LTS，5.4.0-131-generic，gcc 9.4.0，BERT 用于处理 NER 任务推理工作负载，框架：Pytorch 1.12.1，拓扑：Bert-Base-Chinese，数据集：JSON 格式 612 中文医疗报告，数据类型：FP32基于英特尔至强铂金 8380 处理器(FP32)的 Intel Optim

182、ization for PyTorch*：测试由英特尔在 2022 年 11 月 8 日进行。单节点，双路英特尔至强铂金 8380 处理器(2.30GHz)，80核，开启超线程，开启睿频加速技术，512GB 总内存（16 插槽/32GB/3200MHz 运行频率 3200MHz），BIOS:SE5C6200.86B.0022.D64.2105220049，Ucode:0 xd000375，Ubuntu 20.04.5 LTS，5.4.0-131-generic，gcc 9.4.0，BERT 用于处理 NER 任务推理工作负载，框架：Pytorch 1.12.1+Intel Extensio

183、n for Pytorch 1.12.3，Intel OpenMP，Tcmalloc 2.10，OMP_ NUM_THREADS=40，KMP AFFINITY=granularity=fine,compact,1,0，KMP_BLOCKTIME=1，拓扑：Bert-Base-Chinese，数据集：JSON 格式 612 中文医疗报告，数据类型：FP32卫宁健康 NLP 后结构化平台提供由 AI 驱动的医疗信息整合解决方案案例背景作为中国领先的医疗软件和解决方案提供商，卫宁健康一直以“科技赋能，提升人们健康水平”为使命，致力于成为“数字健康领域值得信赖的服务提供者”，构建的 NLP 后结构

184、化平台，能够帮助医疗机构在一个联网数字平台上整合业务功能、医疗数据和服务交付流程。借助基于深度学习方法和机器学习方法的 AI 技术发展，卫宁健康正专注于在各个医疗领域中开发由AI 驱动的解决方案，为临床医生和医院工作人员提供帮助。卫宁健康 NLP 后结构化平台的设计目的是帮助医院整合多个医疗数据来源，包括临床记录、影像报告、实验室测试、探视记录等。例如，在健康信息系统(HIS)中，就包含了来自多个科室，由不同医生、护士、其他临床医生和助理输入的关于患者的多种非结构化数据，成了一个针对每个患者的非结构化、零散且不相关的海量数据库。卫宁健康平台希望通过 NLP 技术的引入与部署，为医疗机构提供一个

185、面向患者数据的整体视图，从而帮助医生做出更精准的临床决策，并提供更好的患者治疗和研究。以该平台在中国一家知名医院的应用为例，该医院正借助卫宁健康 NLP 后结构化平台开展一种在初期很难诊断出来的恶性疾病的研究和治疗。多学科会诊需要影像科、外科及其他学科的参与。而原始影像信息仅提供定性分析，而且过去没有与电子病历系统整合。借助卫宁健康平台，相关的实体识别和关系提取模型可被用于评估病灶影像质量控制。通过这种技术，可以进一步分析影像诊断和病理结果，从而提高该恶性疾病诊断的准确性，并最终改善患者的预后。通过引入 NLP 技术并将相关能力集成到信息系统中，相关的关键信息可从报告中提取，并通过对多样化数据

186、进行分析，实现在新的流程下的大规模数据自动分析，进而帮助医生做出准确的诊断并开展临床研究。东软医保借力第四代英特尔至强可扩展处理器加速 OCR 票据识别案例背景医疗保障（医保）在医疗系统整体运行中扮演着重要的角色。在传统的医保单据识别流程中，在无法联网结算时，医院需要将所有相关的住院、用药、就诊信息打印为纸质单据，并将纸质单据提交给医保结算柜台，医保机构随后会录入这些纸质单据中的信息并进行处理。传统模式的这一手动录入，不仅耗时耗力，而且还可能因为人为疏忽导致错录、漏录等问题。为响应建设服务型政府号召，帮助医保部门提高医保结算效率，使医保经办人员摆脱重复性、事务性工作，实现精细化管理，东软

187、推出了医保 OCR 票据识别方案。如图 2-5-10 所示，新方案能通过纸质单据电子化、OCR文字识别、人工辅助校改、目录智能比对等流程，最终形成符合业务系统报销要求的医保电子结构化数据，从而降低人工成本、优化医保经办工作流程，保障医保基金安全。8480+BERT NER 推理2011.002345672.646.04(it/s)越高越好 PyTorch FP32 PyTorch FP32 PyTorch BF16/Intel AMX 为解决方案中智能 OCR 票据识别在算力资源、成本等方面的挑战，东软采用了基于第四代英特尔至强可扩展处理器的服务器作为基础算力设备，并通过 OpenVINO

188、工具套件进行优化，实现了高性能、高性价比的 AI 推理。优化方案与成效智能 OCR 是该方案的关键技术，为识别不同医院打印出的处方、明细、项目名称、数量和单价等信息，东软自研智能 OCR 算法，能够准确地在复杂背景下，识别出不同医院出具的不同格式单据，实现了较高的识别准确率。该方案在通过 OCR 将纸质单据转换为电子数据后，还会对数据进行智能化的匹配，以便于后续的数据处理。图 2-5-10 东软医保 OCR 票据识别方案应用流程系据智能系 OCR BERT NER 推理（283808480+011.002345672.752.076.30(it/s)越高越好 PyTorch FP32 8

189、380 PyTorch FP32 8380 PyTorch FP32 8480+8480+PyTorch BF16/英特尔 AMX6362英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇图 2-5-11 OCR 模型在第三代/第四代英特尔至强可扩展处理器上的推理性能对比图 2-5-12 第三代英特尔至强可扩展处理器+英特尔 AVX 512 _VNNI 与第四代英特尔至强可扩展处理器+英特尔 AMX_INT8 性能对比图 2-5-13 不同数据精度在第四代英特尔至强可扩展处理器上的推理性能比较而在第四代英特尔至强可扩展平台中，不同精度（INT8

190、/FP32）的数据类型对比上，INT8 相比 FP32 实现了 4.66 倍的性能提升。另外，经测试，也验证了东软医保 OCR 票据识别方案能够有效解决单据识别问题，且将处理时间缩短为传统手动流程的三分之一52，为客户带来如下收益：管埋规范化：实现单据处理的事务性工作和专业性工作分离，明确责任，落实公平、公正原则；业务智能化：Al+传统业务结合，OCR 识别准确度可达 95%以上53，缩短业务办理周期；档案电子化：档案业务一体化，减少纸质材料管理成本，提高复查、检索能力；数据精细化：搭建医疗知识库，使得目录对照越用越准，进而提高审计精细化程度，降低医保基金潜在风险。目前，东软医保 OCR 票据

191、识别方案已经在多家医保部门得到成功落地。以某市医保局为例，自方案正式上线运行以来，日均处理档案袋 20 个，累计处理单据 492 张，积累单据明细比对数据超过 30W，医保定制化目录对照经验库数据累计过百万，显著提高了医保业务的智能化水平54。50 截止 2022 年 8 月东软联合英特尔开展的测试。测试配置：基准配置/新配置 3 单节点，双路英特尔至强铂金 8380 处理器，40 核，开启超线程，开启睿频加速技术，256 GB 总内存（16 插槽/16 GB/3200 MHz），；新配置 1/2 单节点，双路英特尔至强铂金 8480+处理器，56 核，开启超线程，开启睿频加速技术，2

192、56 GB 总内存（16 插槽/16 GB/4800 MHz），。51 截止 2022 年 8 月东软联合英特尔开展的测试。测试配置：基准配置/新配置 3 单节点，双路英特尔至强铂金 8380 处理器，40 核，开启超线程，开启睿频加速技术，256 GB 总内存（16 插槽/16 GB/3200 MHz），；新配置 1/2 单节点，双路英特尔至强铂金 8480+处理器，56 核，开启超线程，开启睿频加速技术，256 GB 总内存（16 插槽/16 GB/4800 MHz），。小结利用不同的 AI 方法，构建更为高效的慢性病预防和管理以及放射组学模型，通过更有效的疾病防治和病理检测方法，

193、减少病患痛苦，提升全民健康水平。在慢性病预防和管理上，第四范式与英特尔针对慢性病特征，推出了闭环的慢性病预防管理系统。一系列英特尔架构软硬件产品为之提供了强有力的计算与存储能力，使系统在慢性病预测等多种应用实践中都有着良好的表现。在基于放射组学技术的医学影像处理方案中，汇医慧影与英特尔一起，携手打造基于机器学习方法的 AI 一体机，通过面向英特尔架构优化的 Python 对全新医学影像检测能力进行优化，帮助医疗机构有能力对早期恶性疾病病灶等实施检测。而在卫宁健康 NLP 后结构化平台解决方案中，通过将解决方案集成到医疗机构的信息化系统中，分散的患者数据可以被智能地合并成为一个更全面的信息

194、库。在采用英特尔 AMX 和 BF16 对英特尔至强铂金 8480+处理器进行优化后，该解决方案的性能得以改善，与基于英特尔至强铂金 8380 处理器的平台相比，命名实体识别推理的吞吐量提升达 6.3 倍同 49。加速推理可以帮助临床医生和研究人员更快地从多个临床部门的多种数据中获得洞察，从而实现更好的治疗效果。最后，为帮助医保机构提升纸质单据的处理效率，释放人力资源，同时降低人工录入存在的信息疏漏等风险，东软推出了医保 OCR 票据识别解决方案。该方案能够通过由 AI 赋能的 OCR 应用，将相当一部分的医保票据识别转为自动化流程，可将处理时间缩短三分之二55。为解决智能 OCR 票

195、据识别在算力资源、总体拥有成本(TCO)等方面的挑战，东软采用了基于第四代英特尔至强可扩展处理器的服务器作为基础算力设备，并通过 OpenVINO 工具套件进行优化，实现了高性能、高性价比的 AI 推理。52数据援引自东软内部测试结果，通过对比传统手工报销流程（30 分钟）和新模式下报销流程（10 分钟）计算得出。英特尔并不控制或审计第三方数据。请您审查该内容，咨询其他来源，并确认提及数据是否准确。53 数据援引自东软提供的信息。英特尔并不控制或审计第三方数据。请您审查该内容，咨询其他来源，并确认提及数据是否准确。54 数据援引自东软提供的信息。英特尔并不控制或审计第三方数据。请您审查该内

196、容，咨询其他来源，并确认提及数据是否准确。55 数据援引自东软内部测试结果，通过对比传统手工报销流程（30 分钟）和新模式下报销流程（10 分钟）计算得出。英特尔并不控制或审计第三方数据。请您审查该内容，咨询其他来源，并确认提及数据是否准确。0.000.200.400.600.801.001.201.401.60 8380 8480+（基准性能，越高越好）0.000.501.001.502.002.50 8380(VNNI_INT8)8480+(AMX_INT8)（基准性能，越高越好）0.000.501.001.502.002.503.003.504.004.505.00 8480+(AMX_

197、FP32)8480+(AMX_INT8)（基准性能，越高越好）为实现高性能、低成本的 OCR 推理能力，东软选择第四代英特尔至强可扩展处理器作为方案的核心算力引擎。第四代英特尔至强可扩展处理器通过创新架构增加了每个时钟周期的指令，每个插槽多达 60 个核心，支持 8 通道 DDR5 内存，有效提升了内存带宽与速度，并通过 PCIe 5.0（80 个通道）实现了更高的 PCIe 带宽提升。而在智能 OCR 所需的 AI 加速能力上，第四代英特尔至强可扩展处理器内置了创新的英特尔 AMX 加速引擎，其通过提供矩阵类型的运算，显著增加了人工智能应用程序的每时钟指令数(IPC)，可为OC

198、R工作负载提供显著的性能提升。同时，第四代英特尔至强可扩展处理器与 OpenVINO 工具套件的结合，可以进一步提升智能 OCR 所需的推理性能，因此智能 OCR 应用顺理成章，OpenVINO 工具套件成为东软智能 OCR 应用的 AI 框架。方案在部署后，东软医保验证了 OCR 算法在第三代/第四代英特尔至强可扩展处理器上的代际性能对比，以及在不同精度的数据类型(FP32/INT8)下的性能对比。基于第三代/第四代英特尔至强可扩展处理器的 OCR 模型推理性能测试数据，如图 2-5-11 所示，在数据类型的精度同为 FP32 时，相比未采用矢量神经网络指令(VNNI)的第三代

199、英特尔至强可扩展处理器，第四代英特尔至强可扩展处理器实现了 1.42 倍的性能提升50。同时，东软利用第四代英特尔至强可扩展处理器的英特尔 AMX 加速器，将模型转换成INT8数据类型。如图2-5-12所示，转化后的模型推理性能结果与采用 VNNI 的第三代英特尔至强可扩展处理器相比，实现了 2.29 倍的性能提升51。6564英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇基于联邦学习的AI 方法在医疗行业中的探索打破数据壁垒，提升医疗AI 应用效能利用多源数据提升训练性能从前述内容可以看到，利用深度学习、机器学习等方法，AI能有效提升医疗行业

200、中医学影像处理、辅助诊断、疾病预测以及药物研发等领域工作的效率，帮助医生更全面、精确地了解病情，让病患早日摆脱病魔。除了选择合适的算法和需要充沛的算力，AI 效率的提升还有赖于更多的数据，来进行训练和推理验证，以提升模型准确率。尤其在图像分割、病理切片分析等应用方向，所使用的深度学习模型更需要大量样本数据来进行训练，才能达到较好的泛化能力（Generalization），并防止过拟合（Overfitting）。为获取隐藏在数据像素后面的大量特征，医疗影像常用的深度学习模型一般会采用多层网络的方法，典型如卷积神经网络，在输入层和输出层之间有很多隐藏层，隐藏层的数量决定了学习的深度。模型中的一些学

201、习方式，例如反向传播，会将输出与训练数据的误差进行比较，进而计算输出中的误差，而后相关的隐藏层会调整其权重来降低错误率。因此，深度学习通常需要大量不同实例的数据集，让模型能从中学习到所需的特征，并生成带有概率向量的输出。所处理的图像越复杂，训练所需的数据量也越大。研究表明，如图 2-6-1所示，传统机器学习方法中，AI 性能初期会随着训练数据量的增加而增长，后期则趋于平缓；而深度学习方法的性能则一直会随着训练数据量的增加而增长56。因此，为医疗行业 AI应用，尤其是基于深度学习的 AI 应用提供更多不同实例的数据集，可以有效提升其性能。同时在医疗科研领域，对数据资产的利用程度也会影响到科研效率

202、。数据集的体量越大、维度越丰富，能够从中发现和学习到的特征就越多，由此构建的 AI 模型的性能及应用价值也就越高。大量统计数据已表明，有着多数据源融合与协作的医疗机构的科研效率往往会高于单一数据源的机构。因此，医疗科研机构普遍期望能开展多方及多样化的数据协作，来获取以下关键优势：消除或降低数据偏差：研究区域以及方法、方式的不同，会带来不同医疗机构间的数据差异，通过数据融合能消除或降低数据偏差，使研究成果泛化能力更强；扩大科研样本量：数据融合能够让不同研究中心的临床数据得以共享，进而扩大科研所需的数据样本量，提升最终 AI模型的性能；补充非临床数据：许多长期跟踪的医疗科研数据还需要与社区医疗、家

203、庭医生、体检机构，以及可穿戴设备的数据实施融合。但与大多数行业一样，数据在医疗行业中“数据孤岛”问题同样严重，不同医疗机构，甚至不同科室的数据往往并不相互联通。而要做到完全的互联互通式数据共享，又势必面临如何保护数据隐私和安全的问题。众所周知，健康状况等数据是极为重要的个人隐私信息，如果因使用不当带来泄露风险，无疑是医疗机构无法接受的。而在国家政策层面，个人信息保护法、数据安全法等一系列法律法规的出台，也对数据安全和隐私信息保护，做出了明确和严格的规范。为了向AI应用提供更多源、合规以及更高质量的训练数据集，许多科研与学术机构也提出了多种联合学习方法，例如机构增量学习（Institutiona

204、l Incremental Learning，IIL）、循环机构增量学习（Cyclic Institutional Incremental Learning，CIIL）以及近年来声名鹊起的联邦学习（Federated Learning，FL）。IIL 方法是让参与训练的各方顺序排列，训练模型按顺序依次传递，前一参与方用自己的数据训练模型进行训练，然后将结果传递给后一参与方，后一方再用自己的数据重新训练，而CIIL 是在 IIL 的基础上多次循环迭代。这两种方法在实践中都存在一些缺陷，首先是它们都采用了共享模型的方式，训练模型需要在不同参与方之间传递，容易造成隐私泄露和数据安全问题；其次，这两种

205、方法每个参与方的训练数据如果过小，例如每个医疗机构只能提供数名患者的数据，那联合学习的效果并不能得到有效改善；最后，以上的方法都采用一种串行协作模式，需要将模型完全传递给下一个参与方，对网络性能也有一定的要求。AI 性能深度学习方法传统机器学习方法训练数据量56 该观点由 Zhu,X.et al.,Do we Need More Training Data?https:/arxiv.org/abs/1503.01508,March 2015.、Shchutskaya,V.,Latest Trends on Computer Vision Market,https:/ 以及 Why go lar

206、ge with Data for Deep Learning?https:/ 等文综合得出。图 2-6-1 训练数据量对不同学习方法的影响64实战篇6766英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇与以上两种方法不同，联邦学习方法则使用并行的协作方法，使得参与联合学习的各方都在本地使用本地化数据对模型进行训练，然后再将训练得到的模型参数进行共享。这能带来显而易见的优势，一方面，各方的训练数据和模型都留在了本地，在数据安全和隐私保护方面有了更好的保障；另一方面，并行的训练模式使训练效果获得叠加，有效提升了训练效果。同时由于在并行协作方法中，数据和模型与训练的

207、结合接近分布式训练，因此训练效率要高于串行协作方法。构建联邦学习系统的核心，是为各参与方打造可信数据共享方式。目前，基于硬件可信执行环境（Trusted Execution Environment，TEE）技术的解决方案正越来越受到医疗行业的青睐。其核心理念是以第三方硬件为载体，为不同数据源提供安全可信高效的计算环境。如图 2-6-2 所示，来自 A、B 不同数据源的训练优化结果，可以在右侧由硬件创建的 TEE 环境中进行共享，并生成最终的优化模型。在各种 TEE 方案中，英特尔软件防护扩展（Intel Software Guard Extensions，英特尔 SGX）是目前较为成熟，且广

208、受用户好评的方案。原始数据原始数据加密加密加密加密认证模块认证模块认证模块认证模块参与方ATEE环境参与方B图 2-6-2 联邦学习中的 TEE 环境图 2-6-3 联邦学习基本架构最终模型模型A模型B防火墙协同方CA数据B数据加密模型训练0004发送公钥交换中间结果计算梯度与损失更新模型参与方A参与方B基于联邦学习的 AI 方法联邦学习根据使用场景的不同，可分为横向联邦学习（Horizontal Federated Learning）、纵向联邦学习（Vertical Federate

209、d Learning）以及联邦迁移学习（Federated Transfer Learning）等。其中横向联邦学习适用于数据集中，特征重叠较多，而用户重叠较少的情况。其可以将数据集按用户维度切分，并取出特征相同而用户不完全相同的数据进行训练。例如，在同一种病理图像处理中，来自不同医疗机构的用户数据，就可以按照横向联邦学习方式进行训练。纵向联邦学习则适用于不同数据集中，用户重叠较多而特征重叠较少的情况。这一模式可以将数据集按照特征维度切分，并取出用户相同而特征不完全相同的那部分数据进行训练。典型场景例如对病患进行结构化病理诊断，同一批用户在不同检查项中的数据，就可以按照纵向联邦学习方式进行训练

210、。而联邦迁移学习是在用户和特征重叠均较少的情况下，不对数据进行切分，而利用迁移学习的方法来完成数据联合训练。以使用 AI 方法进行病理图像分割的场景为例，医疗机构 A、B 各自拥有大量的患者的病理图像资料，出于安全隐私考虑，这些图像数据存在于各自的数据中心，并通过防火墙实施了高等级隔离，任何直接的数据访问都会被拒绝。在通过联邦学习的方式来训练这两组数据的过程中，为保证训练过程中的数据保密性，如图 2-6-3 所示，需要借助协同方 C进行加密训练。加密训练过程分为以下步骤：1.协同方 C 把公钥分发给 A 和 B，用以对训练过程中需要交换的数据进行加密；2.A 和 B 之间互相以加密的形式交互用

211、于计算梯度的中间结果；图 2-6-4 被实施内部攻击的应用程序3.A 和 B 分别基于加密的梯度值进行计算，并将结果汇总给协同方 C。协同方 C 通过汇总结果计算总梯度值并进行解密；4.协同方 C 将解密后的梯度分别回传给 A 和 B，A 和 B 再以此更新各自模型的参数。上述训练迭代步骤将一直持续至损失函数收敛，训练过程完成并得到最终的模型。联邦学习所传递的参数包括了：深度学习架构的典型超参数，例如 Batch Size，优化器，学习率等；每轮学习的 Epochs（EpR），更多 EpR 可以加速收敛，但收益递减；每轮学习中的参与者数量；模型更新所使用的压缩/修剪方法。与一般的分布式机器学习

212、/深度学习方法相比，联邦学习方法具有以下特征：数据不脱离本地：参与者利用自身拥有的数据训练全局模型；每个参与方都参与学习过程，模型损失可控；训练过程中兼顾隐私和安全，参与各方能够在不披露底层数据及其加密形态的前提下共建模型。除此之外，联邦学习还具有良好的效果激励机制，即通过联邦学习建立模型后，模型的效果能够获得评估，并通过永久数据记录机制进行记录。提供高质量数据多的参与方所获得的模型效果会更好，模型效果取决于数据提供方对自己和他人的贡献。这些模型的效果在联邦效果激励机制上会分发给各数据源，以此获得联邦的奖励，并继续激励更多数据源加入联邦。基于以上特点，联邦学习能为医疗行业 AI 应用提供跨机构

213、、跨部门的数据共享方法和模型训练方式，帮助实现各数据源的私密数据不出本地，只通过加密机制下的参数交换，在不违反数据隐私法规的情况下建立学习模型优化机制。联邦学习源码可参考：https:/www.tensorflow.org/federated/英特尔软件防护扩展（英特尔 SGX）技术简介作为 TEE 方案技术实现的典型代表，英特尔 SGX 通过一组新的指令集扩展与访问控制机制，在硬件（例如内存）中构造出一个可信的“飞地”（Enclave），使数据和应用程序的安全边界仅限于飞地本身以及处理器内，实现不同应用程序间的隔离运行。同时其运行过程也可不依赖于其他软、硬件设备。这意味着数据的安全保护是独

214、立于软件操作系统或硬件配置，即便在硬件驱动程序、虚拟机乃至操作系统均受到攻击破坏的情况下，也能杜绝数据泄露和篡改，从而增强应用程序代码和数据的安全性。传统上，数据的隐私保护和安全防护大都是工作在操作系统或软件层面，但是当操作系统或软件受到“感染”时，数据的安全性就变得岌岌可危。如图 2-6-4 所示，虽然应用程序可以通过安全扫描，防火墙等对来自外部黑客或应用程序的攻击进行防护，但是恶意软件、恶意代码如果利用操作系统漏洞，就可以绕过这些防护，直接攻击关键的隐私数据。因此，英特尔 SGX 可以为用户提供更强的安全防护，并具备以下主要特性：增强的保密性和完整性：飞地工作在隔离的硬件环境（支持SGX

215、技术的英特尔架构处理器、内存）中，并通过密钥对应用系统和数据实施鉴权，即使在操作系统、BIOS 或虚拟机等中存在高权限恶意软件或恶意代码，也无法对数据实施攻击；更小的安全攻击面：英特尔 SGX 将应用程序与敏感数据限定运行在受保护的硬件飞地中，杜绝了传统上恶意程序可能从硬件、虚拟机和操作系统发起的攻击，更小的攻击面带来了更高的安全性；应用程序隐私数据漏洞恶意软件应用程序恶意代码攻击黑客攻击防护防护6968英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇远程鉴权和控制能力：用户可以通过执行远程鉴权，更安全地将密钥、凭据和其他敏感数据提供给飞地；增强的联邦学习效

216、率：在基于英特尔 SGX 技术执行的联邦学习过程中，AI 模型和训练数据都部署在受保护的硬件飞地中，大幅降低因应用程序和数据加解密带来的通信和计算成本，使学习效率更高；更低学习曲线：采用英特尔 SGX 技术的应用程序可基于特定英特尔架构处理器平台进行开发、集成和执行，开发人员只需安装相关驱动并进行 SDK 适配，无需熟悉额外的软硬件环境，编程方式也无需更改，学习曲线更低。更加高效的实现：与基于安全多方计算，同态加密等技术的联邦学习实现方法相比，基于英特尔 SGX 技术的硬件TEE 方案运行效率更高。英特尔 SGX 安装与配置用户可以通过引入英特尔 SGX SDK 来创建基于英特尔 SGX 的

217、解决方案，该 SDK 提供了以下内容：API 函数库文档样本源码工具可以访问以下链接获得最新的英特尔 SGX SDK：基于 Windows 系统的 SDK 下载地址 https:/ Linux 系统的 SDK 下载地址https:/01.org/intel-software-guard-extensions/downloads基于英特尔 SGX 的典型解决方案借助英特尔 SGX，医疗机构可以根据自身需求来构建多样化的解决方案。下文将简单介绍一种典型的基于英特尔 SGX，协同方采用中心聚合服务器（Aggregator）的多源数据 AI 模型训练解决方案。解决方案架构如图 2-6-5 所示，

218、采用位于中心的聚合服务器 “飞地”以及部署在不同参与方的边缘“飞地”组成网络。聚合服务器和各参与方中的 “飞地”，均是由英特尔 SGX 提供的处理器指令，可在内存中构造出具有高等级安全访问权限的可信区域。方案中，在加密通道中被传输的是 AI 模型的各种参数，而训练数据、明文 AI 模型以及 AI 算法则被留存在各个节点本地。在初始化过程中，各“飞地”首先产生公私密钥对，公钥注册到聚合服务器，私钥保存在各自的“飞地”里。当训练开始时，聚合服务器会先和目标“飞地”建立基于对称加密密钥的连接。连接建立后，聚合服务器会先将待训练的模型共享参数加密推送到各个“飞地”中，然后各“飞地”把模型参数解密传送到

219、本地AI 训练环境对本地数据实施训练。训练结束后，本地 AI 训练环境将训练得到的共享参数返回至本地的“飞地”。以上“飞地”间的传递流程可以进行多轮循环迭代，直至获得满意的训练结果，同时方案也可对各参与方的训练效果贡献度进行评估。由于上述过程都是在“飞地”中实现，即在方案的整个循环迭代过程中，AI 模型参数都在加密通道以及“飞地”内进行传递和交互，并不与外界软、硬件接触，故而形成了安全可信的“内循环”。同时，AI 模型和训练数据都留存在各个受保护的硬件飞地中，需要在加密通道中传递的只有中间参数，这无疑大为增加了联邦学习的执行效率。而基于英特尔架构的处理器，特别是第二代英特尔至强可扩展处理

220、器，可为“飞地”的构建、加密通道的铺设以及中间参数交互和聚合提供强大算力。模型更新更新聚合模型更新加密 AI 模型参与方参数参与方参数AI 模型加密 AI 模型聚合后的共享参数聚合后的共享参数本地数据+明文 AI 模型+AI 算法本地数据+明文 AI 模型+AI 算法联邦学习飞地 A联邦学习聚合服务器飞地联邦学习飞地 B加解密加解密私钥公钥私钥图 2-6-5 使用英特尔 SGX 的联邦学习方案图 2-6-6 用于 BraTS 联邦学习方案的 U-Net 拓扑58联邦学习在医疗领域的实战基于联邦学习，开展面向脑部病灶分割的研究案例背景深度学习方法一直是医疗图像处理领域的热门话题，在近年的国际医

221、学图像计算和计算机辅助干预会议57（International Conference on Medical Image Computing and Computer Assisted Intervention,MICCAI）中，也不断有新的方法涌现。让更多数据参与训练，例如创建公共可用的高质量多源数据集，用于基准测试和定量评估，能进一步提升影像处理性能已成为一种共识，但在实际运行过程中仍面临着巨大的挑战。一方面，如何将数据共享到集中位置仍需要解决系统架构和传输效率的问题；另一方面，与普通摄影图像相比，由于法律、隐私、技术和数据所有权等方面的限制，医疗数据的可用性更加有限。从 2018 年开始，

222、英特尔就开始与宾夕法尼亚大学生物医学图像计算与分析中心（CBICA）一起，就联邦学习在医疗影像处理上的应用展开联合探索，并形成了有效的应用实践，其成果可参阅相关论文Ulti-Institutional Deep Learning Modeling Without Sharing Patient Data:A Feasibility Study on Brain Tumor Segmentation。下文将就该实践中，如何使用相关数据集，通过在聚合服务器上迭代聚合本地训练的模型，在不共享任何患者数据的情况下，应用联邦学习方法构建一个有效的图像分割模型，并使模型可为多个参与方提供服务的过程，进行简

223、要描述。57 具体请参阅 http:/www.miccai.org/58图片引用自 Multi-Institutional Deep Learning Modeling Without Sharing Patient Data:A Feasibility Study on Brain Tumor Segmentation，Micah J Sheller,G Anthony Reina,Brandon Edwards,Jason Martin,Spyridon Bakas，https:/arxiv.org/pdf/1810.04304v1.pdf 59数据集引自 Menze,B.H.,Jakab

224、,A.,Bauer,S.,Kalpathy-Cramer,J.,Farahani,K.,Kirby,J.,Burren,Y.,Porz,N.,Slotboom,J.,Wiest,R.,Lanczi,L.,Gerstner,E.,Weber,M.A.,Arbel,T.,Avants,B.B.,Ayache,N.,Buendia,P.,Collins,D.L.,Cordier,N.,Corso,J.J.,Criminisi,A.,Das,T.,Delingette,H.,D.,Durst,C.R.,Dojat,M.,Doyle,S.,Festa,J.,Forbes,F.,Geremia,E.,Gl

225、ocker,B.,Golland,P.,Guo,X.,Hamamci,A.,Iftekharuddin,K.M.,Jena,R.,John,N.M.,Konukoglu,E.,Lashkari,D.,Mariz,J.A.,Meier,R.,Pereira,S.,Precup,D.,Price,S.J.,Raviv,T.R.,Reza,S.M.S.,Ryan,M.,Sarikaya,D.,Schwartz,L.,Shin,H.C.,Shotton,J.,Silva,C.A.,Sousa,N.,Subbanna,N.K.,Szekely,G.,Taylor,T.J.,Thomas,O.M.,Tus

226、tison,N.J.,Unal,G.,Vasseur,F.,Wintermark,M.,Ye,D.H.,Zhao,L.,Zhao,B.,Zikic,D.,Prastawa,M.,Reyes,M.,Leemput,K.V.:The Multimodal Brain Tumor Image Segmentation Benchmark(BRATS).IEEE Transactions on Medical Imaging 34(10),1993-2024(2015)、Bakas,S.,Akbari,H.,Sotiras,A.,Bilello,M.,Rozycki,M.,Kirby,J.S.,Fre

227、ymann,J.B.,Farahani,K.,Davatzikos,C.:Advancing The Cancer Genome Atlas gliomaMRI collections with expert segmentation labels and radiomic features.Nature Scientific Data 4,170117(2017)https:/doi.org/10.1038/sdata.2017.117、Bakas,S.,Akbari,H.,Sotiras,A.,Bilello,M.,Rozycki,M.,Kirby,J.,Freymann,J.,Davat

228、zikos,C.:Segmentation Labels and Radiomic Features for the Pre-operativeScans of the TCGA-GBM collection.In:The Cancer Imaging Archive,(2017)以及 Bakas,S.,Akbari,H.,Sotiras,A.,Bilello,M.,Rozycki,M.,Kirby,J.,Freymann,J.,Davatzikos,C.:Segmentation Labels and Radiomic Features for the Pre-operativeScans

229、of the TCGA-LGG collection.In:The Cancer Imaging Archive,(2017)Transposed ConvolutionMax pooling 2x2Concatenation2D Convolution32 323232 32 3232 646464 6464646486256256256256256256511281281 案例描述与成效如图2-6-6所示，本案例采用了一个深度卷积神经网络（CNN）的 U-Net 拓扑，该模型将单道图像作为输入，并输出等效的二进制掩码，其会为

230、每个像素分配一个类别标签。该网络模仿自动编码器的体系结构，其能够通过最大池化，具有捕获上下文的收缩路径，并通过上采样实现本地化的扩展路径。与标准的自动编码器不同，扩展路径中的每个特征图谱与来自收缩路径的对应特征图谱以跳跃连接（skip connection）的方式进行关联，这使得模型通过较小的感受域就能获取更多拥有空间信息的下游特征图谱。直观来说，这允许该网络考虑不同空间尺度下的特征。现在，U-Net 已成为用于医学图像分割的标准深度学习拓扑之一，在神经超声图像分割、肺 CT 扫描影像分割等工作负载中发挥了巨大作用。本案例中联邦学习的各项验证测试均使用了该模型，其 Dropout 参数设为 0

231、.2，上采样设置为真。更多U-Net 分割网络的优化方法，请参阅前文相关介绍。本方案中使用了 BraTS 2018 训练数据集59，其中包含了来自多个医疗机构确诊患者的多模式脑部扫描磁共振成像（MRI）。每个脑部扫描的放射线照相异常区域已用三种截然不同的标签进行手动标注。由于本案例是为了评估联邦学习在临床图像分割中的表现，因此只关注被以上三种标签标记为病灶的体积。同时，案例还选择了 IIL 和 CIIL 等联合学习方法作为对比组。7170英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇联邦学习架构如图 2-6-7 所示，参与者都不需要共享各自的数据而是在本地训练

232、共享模型，且仅将模型的更新发送到聚合服务器。聚合服务器整合更新的内容，并将新的共享参数发送给各参与方，以便进行进一步训练（可循环进行）或应用。整合的共享参数相当于各参与方更新的加权平均值，特定参与方的权重作为驻留在该参与方的总数据实例的分数给出。这一本地训练，更新整合和新参数分发的迭代过程被称为联合轮。方案中，对不同数量的参与者，以及不同的 EpR 对最终 AI 应用的性能影响进行了评估。更多联邦学习方案流程细节，请参阅第72 页“基于英特尔 SGX 的典型解决方案”相关描述。图 2-6-7 用于 BraTS 的联邦学习方案架构BraTS 图像分割效果可通过 Dice 系数（Dice Coef

233、ficient，DC）值来进行评估，其反映了预测与实际联合的交集比，可定义为：其中 P，T 分别为预测和 GT（Ground Truth）的 Mask。方案中的基准值是通过 U-Net 拓扑，由经过完全共享（Data-Sharing）的数据训练得出。其经过验证的峰值精度DC=0.862（最优值）。如图 2-6-8 所示，上侧表示各种联合学习方法在各联合轮中的 DC 值变化。可以发现，联邦学习方法的 DC 值最为稳定，且接近于完全数据共享方法下得到的最优值，而 IIL 和 CIIL 方法则波动幅度较大。下侧是表示在每次通过完整训练之后，各种联合学习方法的验

234、证 DC 值，联邦学习方法的 DC 值也接近于最优值且非常稳定。71图 2-6-8 联邦学习与其他学习方式性能比较 60验证测试的结果表明，在医疗机构中使用联邦学习方法，其性能可以达到完全数据共享方法的 99%61，即使对于不平衡的数据集也是如此。无疑，通过引入联邦学习方法，医疗机构可以更有效地改善和提升计算机辅助分析和诊断系统的性能，从而促进精准医学的发展，同时也能有效应对一系列因数据共享产生的安全、隐私或数据所有权问题。更多案例详情，请参阅：Multi-Institutional Deep Learning ModelingWithout Sharing Patient Data:A Fe

235、asibility Study on Brain Tumor Segmentation，Micah J Sheller,G Anthony Reina,Brandon Edwards,Jason Martin,Spyridon Bakashttps:/arxiv.org/pdf/1810.04304v1.pdfValidation DCAData-Sharing FL CIIL IIL0.850.800.75Validation DCBFLCIILData-SharingData-Sharing Epoch/FL Round/CIIL Cycle0 2 4 6 8 10 12 14 16 18

236、 200.850.800.7560图片引用自 Multi-Institutional Deep Learning Modeling Without Sharing Patient Data:A Feasibility Study on Brain Tumor Segmentation，Micah J Sheller,G Anthony Reina,Brandon Edwards,Jason Martin,Spyridon Bakas，https:/arxiv.org/pdf/1810.04304v1.pdf61 数据援引自 Multi-Institutional Deep Learning M

237、odeling Without Sharing Patient Data:A Feasibility Study on Brain Tumor Segmentation，Micah J Sheller,G Anthony Reina,Brandon Edwards,Jason Martin,Spyridon Bakas，https:/arxiv.org/pdf/1810.04304v1.pdf医渡云打造基于联邦学习的多方安全计算解决方案案例背景为帮助众多医疗科研机构打造兼顾高效和安全需求的多方隐私计算能力，为医疗和健康行业提供更优的数据融合与数据科研价值挖掘能力，多年来一直深耕医疗 AI 与

238、大数据技术创新的医渡云，以强大的医学数据治理能力为后盾，通过自研YiduManda 安全计算引擎为数据融合提供了联邦学习、联合统计、联盟区块链等核心技术保障。这其中，基于硬件可信执行环境（TEE）的联邦学习方法凭其在数据“可用不可见”方面的独到优势，在各医疗科研机构的实践中收获了良好效果，与其他多方隐私计算方案相比，展现出以下优势：医疗数据不脱离本地，各参与方可利用自身拥有的数据训练全局模型；每个医疗科研参与方都可参与训练过程，模型损失可控；训练过程能更好地兼顾隐私和安全需求，各参与方能在不暴露数据及加密形态的前提下进行联合建模。为此，医渡云与英特尔携手，引入英特尔 SGX，来为联邦学习方法应

239、用打造基于硬件的可信执行环境（TEE）的联邦学习方法，来为各医疗科研机构打造提供高效的多方安全计算解决方案。案例描述与成效医渡云基于联邦学习等隐私计算方法打造的多方安全计算解决方案，其功能层面如图 2-6-9 所示，自下而上分别是面向院内外业务系统的数据采集系统、进行数据加工治理的专病库以及开展多方隐私计算的安全计算平台。在安全计算平台之上，医渡云又通过多中心医学研究全场景解决方案，部署了一系列面向多样化医疗科研场景所需的上层应用能力，如临床研究开展、药械试验与研究、诊疗技术开放推广、患者随访与管理等。图 2-6-9 医渡云多方安全计算解决方案整体架构模型更新模型A更新聚合服务器模型B更新模型

240、C更新参与方A参与方B参与方C床研究展械与研究技放推广患者随与管理医渡云多中心医学研究全景解决方案果行展XX多方安全算平台病数据采集系(面向院内外系)子理HIS手麻ICU放疾病情况疾病加密联邦统计、建模加密样本对齐隐私数据不可交换综合医院 A综合医院 B综合医院 C隐私数据不可交换加密样本对齐加密联邦统计、建模临床数据随访数据生物信息数据生物样本组学数据生信分析7372英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇在处于核心位置的多方安全计算平台中，医渡云通过自研的YiduManda，以多方安全计算、联邦学习为基础，同时结合英特尔 SGX，将来自各个科研参与

241、方（医院）的原始数据，通过联合统计、特征工程（Feature Engining）、逻辑回归（LR）、XGBoost 等方法进行联合统计分析和模型训练，并最终得到医疗科研 AI 模型以及相关深度学习模型。在架构设计上，医渡云的方案采用了分布式的设计，如图2-6-10所示可分为平台端（调度节点）和医院端（计算节点），其中：平台端（调度节点）：部署在云环境或机构联盟的主中心私有云环境中，包括一套用于联邦学习等隐私计算的调度层框架以及相应的科研应用平台。应用层框架对各医院端隐私计算节点进行统一的管理和协调，并对多方安全计算任务进行统一调度；医院端（计算节点）：部署在医院的私有云环境中，通过隐私计算节点

242、间的协作，能保证数据在不出医院的前提下完成联邦学习等多方隐私计算过程，且各个节点对其所有的数据有绝对控制权，所有数据调用经过多方安全计算框架可审计。基于上述功能与架构设计，各医疗科研机构之间可基于联邦学习开展模型协同训练。在数据准备阶段，数据准备和预处理工作是在各个参与协同训练的医院或医疗机构本地完成的，准备好的数据可通过程序接口加载到医院端，随后平台端会调度完成模型的协同训练过程。参与训练的医院端通过加密信道与其它参与方完成通信和计算，并最后完成模型的优化训练。图 2-6-10 医渡云多方安全计算解决方案中医院端和平台端的协作模式锘崴科技开展基于隐私保护计算的 GWAS研究案例背景全基因组

243、关联分析(Genome-Wide Association Studies，GWAS)一直是生物医学领域开展各项研究的重要方法，其是指从人类全基因组范围内找出存在的序列变异（即单核苷酸多态性(Single Nucleotide Polymorphisms,SNPs)），并筛选出与疾病相关的 SNPs 来帮助开展诊断或预防。这一方法常用于一些复杂疾病的研究。这类疾病往往受多个基因和环境因素共同影响，每个基因的单独作用较弱，且往往存在多基因间和基因环境间的交互作用，因此被称作复杂疾病。利用 GWAS 对其遗传机制的研究有助于开发新药物、发展新疗法和开展预防工作。但基于 GWAS 的研究往往需要大量样

244、本，单一数据源的数据量很难满足一项研究所需的足够样本量。多机构的数据融合是最佳解决方案，既能提高样本量，又能扩充样本维度，提升研究质量，同时最大程度地利用了数据。但在具体实践中，跨机构基因数据协作和共享存在包括隐私安全和合规性等诸多问题。如何合理有效保护这些敏感信息，规避不必要的隐私泄露风险是广泛推行基因数据分享和联合分析、实现生物医疗数据融合所面临的主要挑战之一。为应对这一挑战，锘崴科技引入英特尔 SGX 来构建基于硬件的可信执行环境（TEE），并在其上打造可进行隐私保护计算的 iPRIVATES 框架方案。新框架能通过融合不同的隐私保护计算技术，来满足用户在不同 GWAS 研究场景下对数据

245、隐私保护的需求，为医疗数据“可用不可见”赋能。在方案的具体部署中，引入了英特尔 SGX为联邦学习构建基于硬件的可信执行环境（TEE）。目前，包括第三代英特尔至强可扩展处理器、第四代英特尔至强可扩展处理器等平台都已集成了英特尔 SGX，其能在内存的特定硬件环境中构造出一个可信的安全“飞地”（Enclave），为医疗科研过程中参与多方计算的敏感数据和代码提供更强的安全防护。与其它技术方案相比，英特尔 SGX 一方面可为敏感数据与程序构建隔离的硬件环境，使安全保护机制独立于软件应用、操作系统或硬件配置之外，从而令保密性和完整性大幅提升；另一方面，独立的“飞地”设置可让关键的应用程序和数据更有

246、效地避开来自硬件驱动程序、虚拟机乃至操作系统的攻击，带来更强的安全性。基于英特尔 SGX 提供的这些优势，各医疗科研机构就可将数据分析、模型训练及推理所涉及的数据运行在“飞地”中，通过访问控制为这些应用代码和数据提供更可信赖的安全保障。而在性能表现上，英特尔 SGX基于硬件层面的安全保护机制，可使敏感数据与应用程序获得来自基于英特尔架构处理器强劲性能的加速或助推，从而更好地解决方案中性能和安全的平衡问题，在某些对计算性能和安全等级要求都很高的医疗科研场景中，打造更为全面的应用优势。案例描述与成效由锘崴科技打造、带有隐私保护的 GWAS 技术框架iPRIVATES，能实现在不分享明文数据（个体

247、基因数据）的基础上，支持多种疾病的 GWAS 研究，为解决生物医学数据的共享问题提供了新思路。iPRIVATES 框架融合了多种面向 GWAS 分析的技术和算法，例如可定制的基因组数据预处理模块、基于主成分分析(Principal component analysis，PCA)的人口分层模型、基于逻辑回归(LR)和似然比(Likelihood Ratio，LLR)检验的关联分析模型。上述设计能灵活地集成和配置不同的 GWAS，方便识别 SNPs 与许多不同类型的特征（如某些重大疾病）之间的关联。但其在模型评估阶段涉及许多敏感信息，如模型参数、模型输入数据、模型结果（例如匹配结果）等无法由传统联

248、邦学习方法提供隐私保护，可能会出现泄露。此外，内部攻击也是方案中的中心节点(Global Service Provider,GSP)面临的威胁之一。例如在建立逻辑回归模型时，中间统计数据可能会泄露敏感信息。为此，锘崴科技与英特尔合作，通过融合英特尔 SGX 来构建更为安全的数据共享方法和流程。基于 iPRIVATES 框架的系统，如图 2-6-11 所示，来自各个医院的数据可通过客户端汇集到锘崴信隐私保护计算平台进行处理分析，锘崴科技融合英特尔 SGX，通过软硬件结合的方式在底层构建可信执行环境（TEE），以确保基因数据共享过程中每一环节的安全，不仅实现了不分享明文个体数据，同时也对模型本身

249、进行保护。图 2-6-11 iPRIVATES 框架示意图某医院 A某医院 B某医院 C某医院 A某医院 B某医院 C锘崴信客户端锘崴信客户端锘崴信客户端内置 Intel SGX医院 A 本地计算汇总结果医院 B 本地计算汇总结果医院 C 本地计算汇总结果7574英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇其中，框架中用到的安全联邦学习(Secure Federated Learning,SFL)技术，是锘崴团队在传统联邦学习技术基础上提出的创新技术，其能够有效消除传统联邦学习中存在的信息泄露问题。安全联邦学习通过软硬件结合的方式，仅分享经过加密的中间

250、统计值，不分享明文个体数据，同时也对模型本身进行保护，保证数据共享的全链路隐私安全，兼顾隐私保护和跨机构数据共享的双重目标。在多家医疗机构开展的面向隐私保护计算的 GWAS 研究中，iPRIVATES 框架在计算精度、算法时间方面都等价于数据物理集中的方式，同时其产生的研究结果，即特征靶点也与集中式计算结果一致。但在计算效率上，iPRIVATES 框架远优于传统计算方式，这意味着类似方法及理念在解决生物、医疗多中心数据协作方面，有着巨大的可行性和潜力。图 2-6-12 OpenFL 架构及工作流程运用 OpenFL 推动联邦学习方案落地医疗领域案例背景随着联邦学习方法在更多隐私保护计算场景中

251、获得应用，如何提升这一方案的可用性，使其与更多 AI 方法、框架和工具实施协同，更便捷有效地实现落地，也是包括英特尔在内的一系列前沿厂商所关注的问题。由英特尔开源的 OpenFL（开放联邦学习， python 的机器学习框架，其可以与TensorFlow 和 PyTorch 构建的训练管道（pipeline）配合使用。OpenFL 秉承联邦学习的思路，允许开发者在远端数据所有者（即合作者）的节点上训练机器学习/深度学习模型。由于模型是在合作者节点的硬件上训练的，因此训练模型的数据也不会被移动或复制，只有模型的权重更新和参数会分享给模型所有者，从而保证了数据具有“可用不可用”的安全特性。如图 2

252、-6-12 所示，与传统联邦学习流程一致，OpenFL 架构中参与协作的合作者（Collaborator）都需要导入预设的联邦学习计划、机器学习/深度学习模型代码，以及本地数据集，各个节点之间的协调和执行是由各节点间共享的联邦学习计划定义。此外，计划还会定义联邦学习流程中的各项设置，如IP 地址，训练中的 Batch 大小以及训练轮次等。在启动联邦学习之前，使用者可使用 OpenFL 的命令行界面（CLI），手动为每个参与者共享联邦学习计划和模型代码。当联邦学习启动后，OpenFL 后端允许合作者通过远程调用的方式向聚合服务器（Aggregator）发送请求，询问接下来应该执行哪个任务（如启动

253、某个机器学习模型的训练）。借助这种方式，聚合服务器可动态地选择将具体任务分配给每个合作者。当合作者完成当前任务后，其会将更新的模型权重（以及汇总的参数，如模型精度和本地数据集大小等）上报给聚合器。聚合服务器会将更新信息合并成一个统一共识模型（global consensus model），然后合作者再从聚合器服务中检索新的统一共识模型的权重，进行新一轮的任务，直至训练任务完成。Aggregated metricsCollaboratorLocal FilesystemFL PlansDL/ML ModelDatasetFL BackendFL Plan ParserFL Plan Parser

254、TCP ClientFL Plan ExecutorDL/ML ModelKeyOpenFL3rd PartyUserGenerated by CodeModel updates&metricsgRPC with TLSAggregated Model WeightsAggregatorFL BackendTCP ServerFL Plan ExecutorTask coordinationLocal FilesystemFL PlansInitial weightsModel updatesModel metricsAggregated models在解决了多数据源的协作模式之后，OpenF

255、L 中各类机器学习/深度学习模型就可以在分布式的环境中使用不同数据集开展训练。而对于关键的数据安全性问题，OpenFL 会通过各类安全设计，包括引入硬件可信执行环境（TEE）等方式来予以解决。这其中，OpenFL 架构中对英特尔 SGX 有着良好的支持。在 OpenFL 的工作流程中，英特尔 SGX 能够通过内存中的“飞地”对数据和模型 IP 提供有效保护。更多英特尔 SGX 工作方法，请参阅第 67 页“英特尔软件防护扩展”部分所述。案例描述与成效作为便捷可用的联邦学习落地方案，目前 OpenFL 正在全球各地的联邦学习方案的落地部署中获得重视，在医疗领域也同样如此。近年来，医疗领域运用

256、OpenFL 开展了一系列卓有成效的联邦学习方案落地，这里以辐射对宇航员的生理影响的评估为例：来自 NASA 前沿发展实验室（Frontier Development Lab，FDL）的科学家们正借助联邦学习方法来研究宇航员的健康，从而更好地了解空间辐射对人类的生理影响。由于啮齿动物的辐射数据可作为人类辐射数据的同源物，因此 FDL 的科学家们利用 OpenFL 框架提出了一个创新的病灶生物标志物检测算法。该算法利用辐射对小鼠的影响数据，来训练面向人类的模型，这个模型将更准确地预测受到辐射影响的基因，与免疫反应的相关性。研究中，借助 OpenFL 框架，部署在美国国家航空航天局、梅奥诊所和美国

257、国家航空航天局基因实验室等机构的 CRISP 2.0 模型（因果关系和推理搜索平台）得以实现联合训练，而无需将数据转移/共享到某个集中位置。这一点至关重要，原因在于，一方面每个机构的数据都是私有，且具有隐私风险；另一方面，在航天器上传输大量数据可能会带来高昂的成本。而通过 OpenFL，研究人员能用一个因果推理方法集合（预先在小鼠数据上训练得到）去初始化联合实验，并在各个合作者提供的数据集中，选择最高方差的人类基因和各自的小鼠同源物，进行 30 多轮的联合训练，最后使用 CRISP 2.0 输出结果，并进行进一步分析和洞察。通过对前 50 个具有强共性特征的分析，研究人员发现了以前未识别的基因

258、 SLC8A3，并将其作为进一步研究的潜在因果目标。小结作为医疗 AI 应用发展的重要“燃料”，更多高质量医疗数据无疑可以有力提升 AI 应用的性能，但如何解决其中的数据安全和隐私保护问题，一直是医疗行业推动 AI 发展时需要面对的挑战。而联邦学习方法，已被证明是应对这一挑战的良好方案。现在，英特尔正与众多医疗、科研机构展开合作，借助英特尔 SGX 以及基于英特尔架构的处理器等先进软硬件产品，使联邦学习方法在保证数据安全可信的情况下，有效解决医疗机构 AI 训练中面临的训练数据匮乏问题，进一步推动医疗 AI 应用的快速发展。7776英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI

259、实战手册实战篇实战篇AI 技术加速蛋白质结构预测AlphaFold2 实现蛋白质结构预测加速蛋白质结构预测的价值作为生物体中最重要的组成部分之一，蛋白质的结构揭示着生命中的许多本质问题。因此，在生物学、医学、药学乃至农业、畜牧业等领域中，通过对蛋白质三维结构的有效解析与预测，发现其中脱氧核糖核酸（DNA）、核糖核酸（RNA）以及蛋白质（包括多肽62、氨基酸）之间的“转录-翻译”关系，并清晰呈现生物体内的信息传递路径，一直是相关领域科研机构、实验室和企业开展探索，对生物体运行和变化的规律实施更深层次的诠释，进而推动各类技术创新和产品研发的重要方法。这些解析与预测工作传统上通常依赖基于实验方法的蛋

260、白质结构解析工具，包括 X-射线晶体衍射、冷冻电镜、核磁共振等来完成。但这些方法的效率已逐渐赶不上氨基酸序列的增加速度，后果之一便是海量待测样品/序列可能会在实验室中等待数月乃至数年才能得到解析。以 UniProtKB/Swiss-Prot 数据库搜集和整理的数据为例，单从实验获得的已知蛋白序列就已高达 57 万条之多63。AI 技术的高速发展正为破解上述效率问题带来新的思路。人们开始将 AI 中的深度学习等方法运用于蛋白质结构预测，例如经典的 ResNet 网络就曾被用来开展高水平的蛋白质结构预测64。而今天，由 DeepMind 在 2020 年 CASP 14 65上提出的AlphaFo

261、ld2方案尤其令人瞩目，它以惊人的92.4分（GDT_TS 分数）的表现实现了原子级别的预测精度，被认为“已可替代传统实验方法”66。基于AlphaFold2 的蛋白质结构预测方法 67得益于全新的设计思路，AlphaFold2 为人们提供了完整的端到端蛋白质三维结构预测流程。如图 2-7-1 所示，其工作流程大致可分为预处理（Preprocessing）、深度学习模型推理（DL Model Inference）以及后处理（Postprocessing）三个阶段，各阶段执行的功能如下：预处理：由于初始输入的氨基酸序列所含信息往往较少，因此 AlphaFold2 在预处理阶段会先利用已知信息（包

262、括蛋白质序列、结构模板）来提升预测精度。包括借助一些蛋白质搜索工具在特定序列数据库中使用多序列比对（Multiple sequence alignment，MSA）方法，以及在特定结构数据库中进行模板搜索，从而获得不同蛋白质之间的共有进化信息；深度学习模型推理：在该阶段中，AlphaFold2 首先会借助嵌入（Embedding）过程，将来自预处理阶段的模板MSA信息、MSA 和目标构成 MSA 表征（MSA representation）的三维张量，同时也将模板邻接信息和额外的 MSA 构成邻接表征（pair representation）的三维张量，随后两种表征信息会通过一个由 48 个块

263、（Block）组成的 Evoformer 网络进行表征融合。在这一进程中，模型将通过一种 Self-Attention机制来学习蛋白质的三角几何约束信息，并让两种表征信息相互影响来使模型推理出相应的三维结构，且循环三次；后处理：这一阶段，AlphaFold2将使用Amber力场分析方法，对获得的三维结构参数优化，并输出最终的蛋白质三维结构。76实战篇62肽是-氨基酸以肽键连接在一起而形成的化合物，是蛋白质水解的中间产物，由三个或三个以上氨基酸分子组成的肽叫多肽。63 数据援引自 UniProtKB/Swiss-Prot 数据库官网：https:/web.expasy.org/docs/reln

264、otes/relstat.html。64 信息援引自Improved protein structure prediction by deep learning irrespective of co-evolution information，Jinbo Xu,Matthew McPartlon&Jin Li，https:/ 65 CASP，即结构预测的关键评估竞赛（Critical Assessment of Structure Prediction），于 1994 年启动，是对蛋白质结构的计算预测进行基准测试的一种手段。DeepMind 在 2020 年的 CASP 14 上提出了 Alp

265、haFold2 算法。66 一般认为，AI 方法的预测精度（GDT_TS 分数）超过 90 分，可认为预测结果与实验方法得到的蛋白质结构基本一致。67本节中有关基于 CNN 及 M-CNN 的 HCS 的技术描述，详情请参阅：Godinez et al,A multi-scale convolutional neural network for phenotyping high-content cellular images.Bioinformatics,2017用 Amber 力分析行微嵌入外的MSA目MSA模板接信息接表征MSA 表征模板 MSA 信息MSA(jackhmmer,hhbl

266、its)模板索(hhsearch)入基酸序列序列数据数据Evoformer 网Structure Moduleunrelaxed StructureAmberpdb xerMaskedMSAPredicted LDDTExperimentallyResolvedDistogram循 3 次理后理深度学模型推理图 2-7-1 AlphaFold2 基本架构7978英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇软硬件配置建议对于利用 AlphaFold2 来开展蛋白质结构预测，可以参考以下基于英特尔架构平台的软硬件配置，来进行系统部署。预处理阶段-高通量优化预处

267、理阶段的高通量计算需求，使 AlphaFold2 在执行时面临巨大的并行计算压力。借助第四代或第三代英特尔至强可扩展处理器的多核优势，及内置的英特尔 AVX-512 技术，方案能实现针对预处理阶段的高通量优化。如前所述，AlphaFold2 会在预处理阶段对特定序列数据库和结构数据库中的已知序列/模板信息进行搜索，包括使用jackhmmer 等蛋白质搜索工具来执行 MSA 方法，即从数据库中抽取和输入与氨基酸序列相近的序列并进行对齐，其目的是找出同源的序列/模板组成表征信息，来为后续推理过程提供输入，由此提高预测精度。这一过程需要执行大量的向量/矩阵运算。以模板搜索为例，其本质为计算两个隐

268、马尔可夫模型（Hidden Markov Model，HMM）间的距离。当输入的氨基酸序列很长（例如执行中输入长度达数百的氨基酸序列）且需并行执行大量实例时，如果无法让处理器的算力“火力全开”去提升平台的并行计算效率性能，那么整个预处理过程的效率就会变得乏善可陈。在优化方案中，一方面英特尔至强可扩展处理器出色的微架构设计，尤其是多核心、多线程和大容量高速缓存，可以保模型推理阶段-深度学习模型迁移至面向英特尔架构优化的 PyTorch原始版本的 AlphaFold2 是基于 DeepMind 的 JAX 和 haiku-API 做的网络实现，但目前 JAX 上还没有面向英特尔架构平台的优

269、化工具。而 PyTorch 拥有良好的动态图纠错方法，与 haiku-API 有着相似的风格，并可以采用面向 PyTorch的英特尔扩展优化框架（Intel Extensions for PyTorch，IPEX，可由英特尔 oneAPI AI 工具套件提供）。为实现更好的优化效果，方案选择将深度学习模型迁移至面向英特尔架构优化的 PyTorch，并最终逐模块地从 JAX/haiku 上完成了代码迁移。模型推理阶段-引入 PyTorch JIT为提高模型的推理速度，便于利用 IPEX 的算子融合等加速手段，优化方案中还对迁移后的代码进行了一系列的 API 改造，在不改变网络拓扑的前提下，引

270、入 PyTorch Just-In-Time(JIT)图编译技术，将网络最终转化为静态图。名称规格处理器第四代英特尔至强可扩展处理器，或第三代英特尔至强可扩展处理器（例如英特尔至强铂金 8358 处理器）及以上超线程ON睿频加速ON内存16 x 32GB DDR4 3200MHz 及以上存储英特尔固态盘 S4510 系列及以上操作系统CentOS Linux 8 或最新版本Linux 核心4.18.0-240.22.1.el8_3.x86_64 或最新版本Python 版本基于英特尔架构优化的 Python 3.9.7 或最新版本PyTorch 版本IPEX-2.0.100+c

271、pu 或更高版本JAX 版本0.3.14 或最新版本基于英特尔至强可扩展处理器平台开展 AlphaFold2 优化各行业和领域内的使用者在借助 AlphaFold2 进行蛋白质结构预测时所面临的重大挑战之一，就是如何保证有充沛的算力去应对预测各环节中所需庞大的计算量，尤其随着预测蛋白质序列长度不断加长，计算复杂度也正变得越来越大。为此，使用者需要更加充分地挖掘硬件的计算潜力来提升执行效率；以及为缩短结构预测时间而利用更多计算节点，来构建效率更高的并行计算方案等。英特尔为这一工作提供了从算力平台、AI 加速能力到软件优化的全面支持。借助英特尔至强可扩展平台提供的内置 AI加速能力，对运算

272、和存储性能的均衡设计，以及对硬件和软件协同优化能力的兼顾，英特尔为 AlphaFold2 全流程提供了端到端的全面优化。针对 AlphaFold2 的设计特点，优化方案主要聚焦在预处理和模型推理两个层面，推出了 9 项优化措施。这些优化项可以分别作用于第四代或第三代英特尔至强可扩展平台上。优化项第四代英特尔至强可扩展平台第三代英特尔至强可扩展平台高通量优化深度学习模型迁移至面向英特尔架构优化的 PyTorch引入PyTorch JIT切分 Attention 模块和算子融合挖掘多核心优势借助 TPP 技术降低推理过程中的内存消耗提供对 DDR5 内存与大容量缓存的支持引入英特尔

273、AMX_BF16 在保证精度的前提下加速推理过程采用高带宽内存HBM2e增加访存通量表 2 基于英特尔至强可扩展处理器的优化证 AlphaFold2 获得充足的总体算力，满足整个结构预测过程所需；另一方面，内置的英特尔 AVX-512 也为方案提供了更进一步的性能调优空间。针对序列/模板搜索所需的大量向量/矩阵运算需求，英特尔 AVX-512 能以显著的高位宽优势（最大可提供 512 位向量计算能力），来提升计算过程中的向量化并行程度，有效提升向量/矩阵运算效率。实战中，使用者在预处理阶段可以参考以下代码示例进行调优（以下代码示例以第四代英特尔至强可扩展处理器为例）。在指令调用优化设定

274、阶段，代码示例如下：在使用英特尔 ICC 编译器进行代码优化编译设定阶段，代码示例如下：在预处理的 MSA 并行计算优化设定阶段，代码示例如下：8180英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇模型推理阶段-切分Attention 模块和算子融合AlphaFold2 的嵌入过程是构成 MSA 表征张量和邻接表征张量来作为 Evoformer 网络输入的关键步骤。从其算法设计可以获知，其注意力模块（attention unit）中包含了大量的偏移量（bias）计算。这种偏移量计算是通过张量间的矩阵运算来完成的，运算过程中会伴随张量的扩张。当张量达到一定规模后

275、，扩张过程对内存容量的需求就会变得巨大。以一个“5120 x 1 x 1 x 64”的张量为例，其初始内存需求为 1.25MB，但在扩张过程中，对内存容量的需求却可达 930MB。这就使 AlphaFold2 在嵌入过程中面临两个问题，一方面是巨大的内存峰值压力，其需求量会使内存资源在短时间耗尽，尤其是内存峰值在相互叠加之后，可能造成推理任务的失败；另一方面，大张量运算所需的海量内存也会带来不可忽略的内存分配过程，从而增加执行耗时。为此，英特尔提出了“对注意力模块进行大张量切分（tensor slicing）”的优化思路，即将大张量切分为多个较小的张量，来降低扩张中的内存需求。例如，将上述“5

276、120 x 1 x 1 x 64”的张量切分为“320 x 1 x 1 x 64”后，其扩张所需的内存就由930MB降至59.69MB，仅为未进行张量切分时的6.4%左右，模型推理阶段-借助 TPP 技术降低推理过程中的内存消耗在深度学习系统开发中，诸如算子（Operators）、算法概念（Algorithmic Concepts）以及计算模式（Computational Motifs）等编程范式（Programming Paradigm）通常会面向特定平台进行调优，这会对系统的构建便利性、性能调优以及可移植性造成障碍。为此，张量计算原语（Tensor Processing Primitive

277、s，TPP）技术是在 2D 张量上定义了一组低层级的基本算子，通过有效且可移植的张量级算子来应对这一问题。TPP 可被看成是一种虚拟的张量指令集架构，能将英特尔 AVX-512等物理指令集予以抽象，并生成经优化的平台代码。根据自身软硬件特性，英特尔面向 PyTorch 对 TPP 进行了扩展。面向 PyTorch 的英特尔 TPP 扩展（Intel Tensor 此外，英特尔发现，利用PyTorch 自带的 Profiler 对 AlphaFold2的 Evoformer 网络进行算子跟踪分析时，Einsum 和 Add 这两种算子占用了大部分的算力资源。因此，英特尔就考虑使用IPEX（建议版

278、本为 IPEX-2.0.100+cpu 或更高）提供的算子融合能力，来实现上述两种计算过程的融合。传统深度学习计算过程都是逐一操作，例如 Einsum 计算过程结束后，函数返回值需要在 Python 进程中建立一个临时缓存，然后通过调用 Add 算子，再次进入 oneDNN 完成第二个函数的运算，这中间来回折返的过程时间消耗不可忽略。如图2-7-3所示，算子融合带来的优势就在于，在前一操作结束后可以马上执行后一操作，节省了中间建立临时缓存数据结构的时间。同时，从时间轴上不难看出，经过融合后，两个连续的算子合并为一个，用时也显著缩短。有效消减了内存峰值压力。相关代码示例如下：模型推理阶段-挖掘多

279、核心优势为了让推理性能在多实例进程中获得更接近线性的增长表现，优化方案还借助英特尔至强可扩展平台提供的高效且更为均衡的计算和存储优势，实施了有针对性优化。首先，借助基于 NUMA 架构的核心绑定技术，来充分挖掘至强可扩展处理器的多核优势。得益于英特尔至强可扩展处理器在微架构设计上的优势，物理核与物理核之间的数据通信平均延时较短，每个 NUMA 在并行计算中的工作效率也会更高。如图 2-7-4 所示，这一技术可对处理器节点以及访问本地内存进程予以精确控制，让每个推理工作负载都能稳定地在同一组核心上执行，并优先访问对应的近端内存，从而提供更优也更稳定的并行算力输出。在执行中可使用以下

280、numactl 指令：图 2-7-2 Evoformer 模块的热点算子图 2-7-3 算子 Einsum+Add 融合效果图图 2-7-4 英特尔至强可扩展处理器提供多核并行算力输出2.750 ms2.800 ms98.469 msaten:einsumaten:reshapeaten:coloneaten:copy_After fusion(unit test)3.200 ms3.300 ms3.400 ms3.500 ms3.600 ms3.700 ms594.105 msmodel_inferenceaten:einsumaten:addforwardaten:bmmate.ate

281、.aten:.aten:.aten:.aten:.Before fusion(unit test)aten:bmm2.850 ms2.900 ms2.950 ms3.00 ms2.850ms2.900ms2.950ms3.00msmodel_inferenceforward8382英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇Processing Primitives Extension for PyTorch）不仅能让开发者直接使用 TPP 调用英特尔 oneAPI 等库来生成优化代码，也可利用面向 PyTorch 的 TPP 作为构建块，来表示底层张量计算

282、。引入 TPP 技术能让 AlphaFold2 在通用矩阵乘法（GEMM）等计算中获得优势，降低内存消耗并更好地利用第四代英特尔至强可扩展处理器所具备的大容量末级缓存优势，有助于加速诸如在 Evoformer 模块中需要进行大量的狭长矩阵乘法等运算。对于在处理器上执行的矩阵乘法计算，一般会采用两种重要的优化方式：以单指令多数据（SIMD）方式处理数据；优化内存访问模式，提升缓存命中率来提高数值计算和访存效率。通过引入面向 PyTorch 的英特尔 TPP 扩展，英特尔在AlphaFold2 实现了以上两种优化。如图 2-7-5 所示，一方面由 libxsmm(小矩阵乘法函数库)构建起来的

283、TPP BRGEMM（Batch Reduce General Matrix Multiplication）能最大化利用第四代英特尔至强可扩展处理所内置的SIMD 运算单元，同时小矩阵乘法也能有效提高缓存命中率，使处理器的大容量末级缓存优势在计算过程中获得更充分的利用。实战中，使用者可以参考以下代码示例来构建TPP BRGEMM，并替换原始的自注意力模块。内存XXGEMMBRGEMM TPPXX图 2-7-5 以 TPP 技术来充分利用处理器的缓存优势图 2-7-7 不同精度数据类型在 AlphaFold2 中表现对比图 2-7-6 TPP 技术带来所需内存峰值的大幅降低同时，TPP 技术

284、的引入，令狭长矩阵乘法的空间复杂度从O(n2)降为 O(n)，这使得运算过程中所需的内存峰值大幅降低，有效缓解长序列蛋白质结构预测工作中面临的“序列长度天花板”问题。如图 2-7-6 所示，在一项对比测试中，随着所预测蛋白质序列长度的增加，使用 TPP 技术的测试组（橙色线）所需内存峰值为线性增加，而未使用 TPP 技术的测试组（灰色线）所需内存峰值呈现指数增加状态，很快就攀升至TB 级（数据显示，当人们对 LRP2 蛋白进行结构预测时，其4700aa 的序列长度要求的内存容量就远大于 1.3TB），形成阻碍应用工作效能发挥的“峰值内存墙”。模型推理阶段-提供对 DDR5 内存与大容量缓存的支

285、持通过对算法架构的解析可知，AlphaFold2 中大量的矩阵运算过程都需要内存予以支撑，因此内存性能是影响 AlphaFold2性能的重要因素。而随着预测序列长度的增加，计算中所需的内存也会成倍增加，内存性能，尤其是内存带宽对系统整体性能的影响也会更为明显。与此同时，更优的缓存策略也能让 AlphaFold2 进一步发挥潜能。由于张量间的矩阵运算会涉及大量的内存数据访存，而更靠近处理器运算单元末级缓存在延迟性能上比内存高出一个数量级。因此在复杂的矩阵运算中，更多的热数据通过末级缓存访存而非内存可以带来显著的性能提升。第四代英特尔至强可扩展处理器对 DDR5 内存的支持，以及所具备的大容量

286、末级缓存，为张量吞吐量的提升提供了更佳途径。新一代 DDR5 内存不仅频率更高、工作电压更低，还具有远超 DDR4 内存的带宽速度。与 DDR4 内存25.6GBps（3,200MHz）的带宽相比，DDR5 内存带宽达到了38.4GBps（4,800MHz）以上，提升幅度超过了50%。同时，新处理器的末级缓存也由上一代的最高 60MB 提升至本代的最高 112.5MB，提升幅度达 87.5%68。性能更高的内存与容量更大的末级缓存，使 AlphaFold2 推理过程中关键的张量吞吐获得了显著提升。模型推理阶段-引入英特尔 AMX_BF16在保证精度的前提下加速推理第四代英特尔至强可扩展处理

287、器面向深度学习应用推出的“杀手锏”之一就是创新的 AI 加速引擎，即英特尔 AMX。作为矩阵相关的加速器，英特尔 AMX 能显著加速基于 CPU平台的深度学习推理和训练，提升 AI 整体性能。英特尔 AMX对INT8、BF16等低精度数据类型都有着良好的支持（通过 AMX_INT8、AMX_BF16 等不同指令集执行操作），如图2-7-7 最右侧所示，来自 AlphaFold2 的实际预测结果表明，BF16 数据类型在精度上有着不逊于 FP32 数据类型的表现。针对 AlphaFold2 推理过程所需的大量矩阵运算，AMX-BF16能在保持较高精度的同时，提高计算速度并减少内存占用。如图 2-

288、7-7 最左侧所示，在面向同一种蛋白质的结构预测工作中，BF16 占用内存明显低于 FP32，且这一趋势将随着所预测蛋白质序列长度的增加而愈发明显。究其原因，是因为英特尔 AMX在解决矩阵乘法问题时，直接采用了分块矩阵乘法的方式。其内部所定义的 Tile 矩阵乘法（Tile Matrix Multiply Unit，TMUL）加速模块，能直接对矩阵寄存器中的数据实施矩阵运算操作，由此运算效率可得到大幅提升。实践数据表明，AlphaFold2 在推理过程中使用 AMX_BF16 后，推理效率可提升数倍之多。而引入英特尔 AMX 带来的另一项优势，是使用者可以利用AlphaFold2 开展更大序列

289、蛋白质结构的预测。如图 2-7-7 中间所示，在总内存一致的情况下，基于第四代英特尔至强可扩展处理器的方案较第三代英特尔至强可扩展处理器有着更大的输入长度，可预测蛋白质序列更长。模型推理阶段-采用高带宽内存 HBM2e增加访存通量与第四代英特尔至强可扩展处理器一同发布、采用了相同微架构的英特尔至强 CPU Max 系列中，还加入了对 HBM的支持，这也能让运行在其上的 AlphaFold2 推理负载更进一步。作为一种采用 3D 堆叠技术的全新内存产品，HBM 能为68具体产品细节可参阅英特尔官网相关英特尔至强可扩展处理器产品介绍：https:/ 技术未使用TPP 技术TB 级

290、GB 级BF16 占用内存更低BF16 最大输入长度更大FP32 v.s.BF16 预测结构没有明显差异020004000输入长度(aa)BF16FP32内存占用越低越好总内存 512GB 条件下最大输入长度(越大越好)第四代英特尔至强可扩展处理器第三代英特尔至强可扩展处理器8584英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册实战篇实战篇AI 应用场景所需的各类计算负载提供更大的内存带宽支持。每个英特尔至强 CPU Max 系列都拥有 4 个基于第二代增强型高带宽内存（HBM2e）的堆栈，总容量为 64GB（每个堆栈的容量为 16GB）；由于能同时访问多个

291、DRAM 芯片，因此 HBM 在带宽方面相较 DDR 技术更具优势，其中 HBM2e 可提供高达 1TB/s 的带宽；HBM 内存可根据工作负载特性，以“HBM Only”、“HBM Flat”以及“HBM Cache”三种不同的模式，通过灵活的配置与 DDR5 内存一起协同工作。在实践中，HBM2e 内存能有效缓解 AlphaFold2 推理负载中，大张量运算带来的海量内存需求，并以高带宽特性带来大幅访存通量提升，从而有力降低整体推理时长。在实战中，使用者可以参考以下代码示例来配置使用 HBM（Flat 模式）：英特尔优化方案在 AlphaFold2上的实战基于英特尔至强可扩展平台开展的

292、 AlphaFold2 端到端优化，包括一系列并行计算能力优化举措的引入，使得整个AlphaFold2 端到端处理过程的性能获得了质的提升，这在连续两代英特尔至强可扩展平台的实战中都获得了验证。基于第三代英特尔至强可扩展处理器的AlphaFold2 端到端优化，通量提升 23.11 倍如图 2-7-8 所示，在基于第三代英特尔至强可扩展处理器的优化流程中，每个优化步骤获得的提升累积后，最后相比优化前通量提升可达 23.11 倍69。第四代英特尔至强可扩展处理器带来AlphaFold2 通量再提升 3.02 倍来自第四代英特尔至强可扩展处理器的优化加持，使AlphaFold2

293、的端到端通量获得进一步提升，如图 2-7-9 所示，与第三代英特尔至强可扩展处理器相比，融合 AMX_BF16、HBM 内存等技术的新平台能获得高达 3.02 倍的多实例通量提升71。得益于性能强劲的算力表现和卓有成效的优化提升，如图2-7-10 所示，已经有一系列不同序列长度的蛋白质已经基于第四代英特尔至强可扩展处理器进行了结构预测，并取得了令人满意的结果。图 2-7-8 基于第三代英特尔至强可扩展处理器的优化流程中多种优化措施带来的累计性能提升70图 2-7-9 第四代英特尔至强可扩展处理器带来多实例通量提升72图 2-7-10 基于第四代英特尔至强可扩展处理器开展的

294、蛋白质预测实例69测试配置：测试组：处理器：2 x 英特尔至强铂金 8358 处理器，内存：16 x 32GB DDR4 3200MHz RDIMM+16 x 256GB 英特尔傲腾持久内存200 系列(Intel Optane NMB1XXD256GPSU4 DCPMM)，I/O 扩展：Raid Cntrlr-Trinity Dunes RAID Adapter,Intel RSP3TD160F，存储：Solidigm Youngsville Refresh SSDSC2KB038T801 S4510 Series，网络：SND I350-AM2 RJ45 Dual Port PCI

295、-E4X_1KM，BIOS：Version:SE5C620.86B.01.01.0003.2104260124，Release Date:04/26/2021，Linux 系统和 Kernel：Ubuntu 20.04 kernel-5.5.0-81-generic，Python版本：基于英特尔架构优化的 Python 3.9.7，AI 框架：PyTorch 1.11.0+cpu,Intel PyTorch Extension 1.11.100 with oneDNN 2.6，其他工具和库：JAX 0.3.4,JAXlib 0.3.2+cuda11.cudnn82 ,HMMER 3.3.2,

296、HH-Suite 3.3.0,OpenMM 7.5.1；对比组：处理器：2 x 英特尔至强铂金 8358 处理器，内存：32 x 128GB DDR4 3200MHz RDIMM，I/O 扩展：Raid Cntrlr-Trinity Dunes RAID Adapter,Intel RSP3TD160F，存储：Solidigm Youngsville Refresh SSDSC2KB038T801 S4510 Series，网络：SND I350-AM2 RJ45 Dual Port PCI-E4X_1KM，BIOS：Version:SE5C620.86B.01.01.0003.21042

297、60124，Release Date:04/26/2021，Linux 系统和 Kernel：Ubuntu 20.04 kernel-5.5.0-81-generic，Python版本：基于英特尔架构优化的Python 3.9.7，AI框架：PyTorch 1.11.0+cpu,Intel PyTorch Extension 1.11.100 with oneDNN 2.6，其他工具和库：JAX 0.3.4,JAXlib 0.3.2+cuda11.cudnn82 ,HMMER 3.3.2,HH-Suite 3.3.0,OpenMM 7.5.1。70同脚注 6971 测试配置：测试组：处理器：

298、2 x 英特尔至强 CPU MAX 系列 1.90GHz，内存：128GB(8x16GB HBM2 3200MT/s，存储：1x 931.5G INTEL SSDPE2KX010T8，网络：1x Ethernet Controller X710 for 10GBASE-T，BIOS：SE5C7411.86B.8424.D03.2208100444，Linux 系统和 Kernel：CentOS Stream 8/5.19.0-rc6.0712.intel_next.1.x86_64+server，Python 版本：基于英特尔架构优化的 Python 3.9.7，AI 框架：PyTorch

299、 1.11.0+cpu,Intel Extension for PyTorch 1.11.200 special branch for AlphaFold2，其他工具和库：JAX 0.3.14；对比组：处理器：2 x 英特尔至强铂金 8360Y 处理器 2.40GHz，内存：512GB(16x32GB DDR4 3200MT/s)，存储：1x 894.3G INTEL SSDSC2KG96，网络：1x I210 Gigabit Network Connection,2x Ethernet Controller 10G X550T，BIOS Version：WLYDCRB1.SYS.0021

300、.P21.2106280839，Linux 系统和 Kernel：CentOS Linux 8/4.18.0-240.22.1.el8_3.x86_64，Python 版本：基于英特尔架构优化的 Python 3.9.7，AI 框架：PyTorch 1.11.0+cpu,Intel Extension for PyTorch 1.11.200 special branch forAlphaFold2，其他工具和库：JAX 0.3.14。72 同脚注 713.5 AlphaFold2(8)32.521.5113.020.50在探索和验证上述端到端 AlphaFold2 优化方案、步骤和经验的过

301、程中，英特尔也与同在寻求相关解决方案、专攻医药和生命科学研究和创新的产、学、研领域用户及合作伙伴们积极开展了广泛及深入的协作，这些协作起到了博采众长的效果，也为不断提升方案的普适性带来了助益。同样，在优化方案基本定型，并展现了显著的通量提升效果，以及能够担起更长序列蛋白质结构预测重任的能力后，众多合作伙伴与用户也第一时间参考和借鉴了方案中的方法、经验与技巧，并结合自身特定的环境、应用现状和需求，开展了实战验证和更进一步的探索。小结凭借自身在蛋白质结构预测上的高可信度，以及远优于传统实验方法的效率和成本表现，AlphaFold2 正在“AI for Science”领域树起全新的里程碑。它不仅在

302、生命科学领域掀起了颠覆式的革新，也成为了 AI 在生物学、医学和药学等领域落地的核心发力点。始终走在 AI 应用创新与落地一线的英特尔，也在这一过程中借助至强可扩展平台，包括其硬件层面的第三代英特尔至强可扩展处理器和第四代英特尔至强可扩展处理器，以及其软件层面的英特尔 oneAPI 工具套件等，基于这些软硬件之间的无缝组合与高效协作，以及多样化的 AI 优化方法，为AlphaFold2提供了端到端的高通量计算优化方案。面向未来，英特尔还将继续携手科学前沿领域的合作伙伴，推进更多英特尔产品、技术与 AlphaFold2 等新技术开展交互与融合，在更多层面助力和加速“AI for Sc

303、ience”技术创新，让AI应用为各类前沿科学研究和探索带来更多加速、助力与收获。某抗菌肽 90转录调控蛋白 210人造蛋白片段 300原核调控蛋白 800本体感受受体 1300刺突蛋白1400触觉受体 A 2200触觉受体B 2500huntingtin 3200技术篇86878988英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册技术篇技术篇第四代英特尔至强可扩展处理器第四代英特尔至强可扩展处理器旨在为人工智能、数据分析、存储和科学计算方面快速增长的工作负载提供性能加速。该处理器具备多种内置加速器，帮助客户将零信任安全策略付诸实践，同时利用先进的安全技术，即使面

304、对敏感或受监管的数据，也能解锁新的商业合作机会和洞察。使用这款处理器可跨多个云和边缘环境进行扩展，满足自身的部署需求。英特尔至强可扩展处理器具有很强的灵活性，可在其上选择不同的云服务，帮助企业顺利实现应用移植。基础性能进一步大幅提升第四代英特尔至强可扩展处理器采用全新架构，单核性能比上一代产品更高，每路配备多达 60 个内核。每个系统支持单路、双路、四路或八路配置。为了与内核数增加这种情况相匹配，该平台在内存和 I/O 子系统方面也做了相应改进。DDR5 内存提供的带宽和速度与 DDR4 相比提高多达1.5 倍，速率达到 4,800 MT/s1。此外，该平台还具有每路80 条 PCI

305、e Gen5 通道的特点，与之前的平台相比，I/O 得到显著提升。本代处理器还可提供 CXL 1.1 连接，支持高网络带宽并使附加加速器能够高效运行。第四代英特尔至强可扩展处理器支持的技术支持根据工作负载要求的变化灵活扩展和调整。此外，本代处理器还可助力实现以下优势:进一步提升网络、存储和计算性能，并通过将繁重的任务卸载到英特尔基础设施处理单元（Intel Infrastructure Processing Unit，英特尔 IPU）来提高 CPU 利用率；通过英特尔 UPI 2.0 提高多路带宽（高达 16 GT/s）；使用英特尔 Speed Select 技术（英特尔 SST）调整C

306、PU 配置，满足特定工作负载的需求；增加三级缓存（LLC）共享容量（所有内核共享多达 100 MB LLC）；通过硬件增强型安全功能加强对安全态势的掌控；使用英特尔 Virtual RAID on CPU（英特尔 VROC），从而无需再用单独的 RAID 卡。PCI Express Gen5（PCIe 5.0）带来全新的 I/O 速度，可在 CPU 和互联设备之间实现更高的吞吐量。第四代英特尔至强可扩展处理器具有多达 80 条 PCIe 5.0 通道，非常适合高速网络、高带宽加速器和高性能存储设备。PCIe 5.0 的 I/O 带宽是PCIe 4.0 的两倍，仍具备向后兼容性并提供用于 C

307、XL连接的基础插槽2。DDR5 以更高内存带宽克服数据瓶颈，提高计算性能。与DDR4 相比，DDR5 的带宽提高多达 1.5 倍，因此有机会提升性能、容量和能效并降低成本3。借助 DDR5，第四代英特尔至强可扩展处理器提供的速率可高达4,800 MT/s（1 DPC）或 4,400 MT/s（2 DPC）。CXL 借助面向下一代工作负载的 CXL 1.1，降低数据中心的计算时延并帮助减少 TCO。CXL 是另一种跨标准 PCIe 物理层运行的协议，可以在同一链路上同时支持标准PCIe 设备和 CXL 设备。CXL 可带来的一大关键能力是在 CPU 和加速器之间创建统一且一致的内存空间，它将

308、革新未来数年数据中心服务器架构的构建方式。第四代英特尔至强可扩展处理器的新特性或新功能1、2、3 https:/ https:/ 8 路的可扩展性4 个英特尔 UPI 端口，速率为 16 GT/s80 条 PCIe 5.0 通道+CXL支持 DDR5，速率高达 4,800 MT/s（每通道 1 个 DIMM）或 4,400 MT/s（每通道 2 个 DIMM）支持英特尔傲腾持久内存 300 系列英特尔 AVX-512（两个 512 位 FMA）英特尔超线程技术和英特尔睿频加速技术英特尔 AMX英特尔 SST先进的可靠性、可用性和可维护性(RAS)英特尔 SGX 最大飞地容量高达 1

309、28 GB（在特定型号的 SKU 上最大飞地容量高达 512 GB）可通过英特尔 QAT、英特尔 DLB、英特尔 DSA 和英特尔 IAA 加速工作负载多达 4 路的可扩展性3 个英特尔 UPI 端口，速率为 16 GT/s80 条 PCIe 5.0 通道+CXL支持 DDR5，速率高达 4,800 MT/s（每通道 1 个 DIMM）或 4,400 MT/s（每通道 2 个 DIMM）支持英特尔傲腾持久内存 300 系列英特尔 AVX-512（两个 512 位 FMA）英特尔超线程技术和英特尔睿频加速技术英特尔深度学习加速技术和英特尔 AMX英特尔 SST先进的 RAS英特尔 SG

310、X 最大飞地容量高达 128 GB可通过英特尔 QAT、英特尔 DLB、英特尔 DSA 和英特尔 IAA 加速工作负载多达 2 路的可扩展性2 个英特尔 UPI 端口，速率为 16 GT/s80 条 PCIe 5.0 通道+CXL支持 DDR5，速率高达 4,800 MT/s（每通道 1 个 DIMM）或 4,400 MT/s（每通道 2 个 DIMM）英特尔 AVX-512（两个 512 位 FMA）英特尔超线程技术和英特尔睿频加速技术英特尔深度学习加速技术和英特尔 AMX英特尔 SGX 最大飞地容量高达 64 GB可通过英特尔 QAT、英特尔 DLB、英特尔 DSA 和英特尔 IAA

311、加速工作负载第四代英特尔至强英特尔至强 8400 处理器AI 8400 8 I/O I/O 每个英特尔 60 8 条内存通道，速率高达 4,800 MT/s(1 DPC)英特尔 AMX AI 英特尔至强 6400 至强 5400 处理器11英特尔至强 4400 处理器和 CMYCMMYCYCMYK技术1.pdf 1 2023-07-31 14:07:46英特尔 Intel Advanced Matrix Extensions英特尔 AMX(NLP)(DL)vRAN 的英特尔 Intel Advanced Vector Extensions AVX(vRAN)2 4 英特尔 Int

312、el Data Streaming Accelerator英特尔 DSA英特尔 512Intel Advanced Vector Extensions 512 AVX-512(FMA)英特尔 Intel In-Memory Analytics Accelerator IAA CPU 英特尔 QAT可加速加英特尔 Intel Crypto Acceleration(SSL)Web 5G VPN/英特尔 Intel Dynamic Load Balancer英特尔 DLB CPU CMYCMMYCYCMYK3.pdf 1 2023/8/9 下午6:34内置众多加速引擎，重新定义性能与增加 CPU

313、内核数相比，内置加速器是一种提升性能更有效的方法。其不但可以提高 CPU 利用率，降低功耗，并提高投资回报率（ROI），同时还能帮助企业实现可持续发展目标。英特尔至强可扩展处理器支持广泛且独特的内置加速器，有助于提高性能和效率，减少另行添置专用硬件的需求。在云端和本地环境中，这些专用功能支持人工智能、安全性、科学计算、数据分析、存储和网络等目前最为常见的严苛工作负载。9190英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册技术篇技术篇 AI：凭借更优的矢量指令和矩阵乘法运算，第四代英特尔至强可扩展处理器展现出更为出色的 AI 推理和训练性能。英特尔 AMX 可以显

314、著提高推荐系统、NLP、图像识别、媒体处理和分发以及媒体分析等深度学习工作负载的性能。AI 性能数据请参考：英特尔 AI 数据中心产品的性能数据扫码了解更多第四代英特尔至强可扩展处理器详情扫码了解更多第三代英特尔至强可扩展处理器详情扫码了解第四代英特尔至强可扩展处理器的配置和 AI 调优指南访问链接了解更多第四代英特尔至强可扩展处理器详情https:/ 可扩展处理器详情英特尔至强铂金 8400 处理器是打造安全且敏捷的混合云数据中心的基石，专为高级数据分析、AI、高密度基础设施和多云工作负载而设计。这些处理器具备更高性能、强大的平台功能和出色的工作负载加速能力。它们具有更出

315、色的基于硬件的安全性和强大的多路处理性能特定型号的英特尔至强铂金 8400 处理器支持多达 8 路配置。借助值得信赖且经过硬件增强的数据服务交付以及全新的 I/O 和连接技术，这些处理器在 I/O、内存、存储和网络技术方面均实现提升，因而能够更好地在数据驱动程度日益加深的世界中挖掘可执行洞察。相关提升包括：每个英特尔至强可扩展处理器具备多达 60 个内核；每个处理器有 8 条内存通道，速率高达 4,800 MT/s(1 DPC)；英特尔 AMX 支持下的 AI 加速带来深度学习推理和训练性能的巨大飞跃第三代英特尔至强可扩展处理器英特尔对面向四路和八路的第三代英特尔至强可扩展处理

316、器（Cooper Lake）和面向单路和双路的第三代英特尔至强可扩展处理器（Ice Lake）在多样化的工作负载类型和性能需求方面进行了优化，并通过平衡的架构以及多种内置加速和先进的安全功能。基础性能第三代英特尔至强可扩展处理器基于平衡、高效的架构构建，该架构可提升内核性能、内存和 I/O 带宽，为处理从数据中心到边缘的各种工作负载提速。在单路和双路配置中，支持每处理器多达 40 个内核，在四路和八路配置中则支持每处理器达 28 个内核，在八路配置下，单平台支持多达 224 个内核；单个处理器支持 8 条 DDR4 内存通道（Ice Lake）或 6 条 DDR4 内存通道（Coop

317、er Lake），最高速率为 3,200 MT/s。同时每路多达 64 条 PCI Express Gen4 通道，实现更高的每核 I/O 带宽；多达 6 条英特尔超级通道互联（英特尔 UPI）通道有效提高了平台可扩展性以及 I/O 密集型工作负载的 CPU 间带宽，从而在提高吞吐量和能效之间达成平衡。增强的 AI 加速与安全能力第三代英特尔至强可扩展处理器加入了基于英特尔 AVX-512 的增强版英特尔深度学习加速技术，同时支持 16 位 Brain Floating Point(BF16)和矢量神经网络指令(VNNI)，有效加速人工智能推理和训练性能。其中 BF16 适用于特定型

318、号的第三代英特尔至强可扩展处理器，其在视觉、自然语言处理和强化学习等需要兼顾吞吐量和准确率的 AI 应用场景可以提供更有效的训练与推理加速能力。而矢量神经网络指令(VNNI)能够充分提高计算资源和缓存的利用率、减少潜在的带宽瓶颈，以此增强推理工作负载；单路和双路配置的第三代英特尔至强可扩展处理器对英特尔 SGX 提供支持，帮助用户无论是从边缘到数据中心还是到多租户公有云，都可以在确保数据和应用代码安全的前提下，采用联邦学习等方法，以多源数据加强 AI 应用的应用效能。自定义性能助推各种工作负载第三代英特尔至强可扩展处理器增强了英特尔 SST （英特尔 Speed Select

319、技术）功能，其可以对处理器性能实施精细控制，有助于优化 TCO。大部分第三代英特尔至强铂金和金牌处理器都支持英特尔 SST BF、英特尔 SST CP 和英特尔 SST TF 等不同模式的 SST，而第三代英特尔至强可扩展处理器 Y SKU 支持新的英特尔 SST-PP 模式，可以为用户提供更多内核、频率、外形尺寸和功率配置选择。适用于不同工作负载的第三代英特尔至强可扩展处理器英特尔至强铂金 8300 处理器是打造可靠、敏捷的混合云数据中心的基石。处理器具备增强型硬件安全功能以及出色的多路处理性能，适用于关键业务的实时分析、机器学习、人工智能、科学计算和多云工作负载。英特尔

320、至强金牌 6300 和 5300 处理器支持更高的内存速度、更大的内存容量以及多达四路的可扩展性，带来更出色的性能和内存功能、硬件增强型安全和工作负载加速。英特尔至强银牌 4300 处理器提供基本性能、更快的内存速度以及更高的能效，为入门级数据中心计算、网络和存储带来所需的硬件增强性能。https:/ 至强 CPU Max 系列第二代 Gaudi 深度学习加速器(Habana Gaudi 2)过去十年，随着人工智能技术的加入，峰值算力大幅增长，但由于在向内核传输数据时效率低，因此工作负载性能未能同步提升。英特尔至强 CPU Max 系列的诞生，使英特尔至强平台如虎添翼，它是英特尔唯

321、一一个基于 x86 架构并采用高带宽内存（HBM）的 CPU 系列，可释放和加速内存密集型科学计算和 AI 工作负载。更高带宽，更优性能英特尔至强 CPU Max 系列采用全新微架构，支持一系列可提升平台能力的特性，包括更多内核、先进的 I/O 与内存子系统，以及可加速重大发现的内置加速器。英特尔至强 CPU Max 系列具有以下特性：多达56个 P-core（性能核）：内核由4个小芯片构成，采用英特尔的嵌入式多芯片互连桥接（EMIB）技术连接，功耗为 350 W；64 GB高带宽封装内存及PCIe 5.0和CXL 1.1 I/O。英特尔至强 CPU Max 系列每核均具备 HBM

322、容量，可满足大多数常见科学计算工作负载的要求；与其他 CPU 相比，在使用 Numenta 的 AI 技术进行自然语言处理时，其 HBM 优势可带来高达 20 倍的性能提升5。加速科学创新英特尔至强 CPU Max 系列能够与英特尔至强平台实现轻松整合，不但可以获得处理要求严苛的工作负载所需的性能与能效，还可得到各种出色的内置加速器（包括英特尔 AMX，英特尔 DSA等，具体详见第*页详细介绍）的助力。利用面向科学计算和 AI 工作负载的关键加速器，提高 CPU使用效率、降低功耗、实现更高的投资回报率（ROI）。另外，由于处理器插槽（Socket）配置相同，可轻松将英特尔至强 CPU

323、 Max 系列处理器添加到第四代英特尔至强可扩展平台，并且在大多数部署方案中都无需更改代码。灵活应对各种科学计算和 AI 工作负载英特尔至强 CPU Max 系列处理器具备出色的灵活性，可根据工作负载的特性，在不同的内存模式或配置下运行:第二代 Gaudi 深度学习加速器(Habana Gaudi 2)专为数据中心实现大规模横向扩展而设计。该训练处理器基于第一代 Gaudi 的高效架构打造而成，目前采用 7 纳米制程工艺，在性能、可扩展性和能效方面均实现了飞跃。Habana Gaudi 2 处理器具备出色的 2.1 Tbps 网络容量可扩展性，原生集成 21 个 1 00 Gbps R

324、oCE v2 RDMA 端口，可通过直接路由实现 Gaudi 处理器间通信。Habana Gaudi 2 处理器集成了专用媒体处理器，用于图像和视频解码及预处理。SynapseAI 软件套件SynapseAI 软件套件旨在提高 Habana AI 处理器的易用性和支持高性能训练，能够将神经网络拓扑高效映射到 Gaudi 系列硬件上。该软件套件包括 Habana 的图编译器和运行时、经过性能优化的 TPC 算子库、固件和驱动程序以及开发工具，例如用于自定义核心开发的 TPC 编程工具套件和 SynapseAl 图编译器。SynapseAl 与 TensorFlow 和 PyTorch 等主流框架

325、集成，并已针对基于 Gaudi AI 处理器家族产品的训练进行了优化。数据科学家和开发人员对代码进行少量修改即可将现有模型迁移到 Gaudi2 上运行。Habana 开发人员网站是一个资源中心，开发人员在这里可以找到开始基于 Gaudi Al 处理器进行训练所需的各类信息资料，包括教程、参考模型、操作指南、文档等。此网站还不时举行 Habana 开发人员社区论坛。技术创新 Habana Gaudi 2 处理器是一款高性能、完全可编程的 AI处理器，它整合了多项技术创新，具有高内存带宽/容量和基于标准以太网技术的纵向扩展能力。它也支持使用外接网卡通过 PCle 接口实现横向扩展，满足多节点集群需

326、要。“仅 HBM”模式：该模式支持内存容量需求不超过 64 GB 的工作负载以及每核 1 至 2 GB 的内存扩展能力，同时无需更改代码和另购 DDR，即可启动系统；“HBM Flat”模式：该模式可为需要大内存容量的应用提供灵活性，它通过HBM和 DRAM提供一个平面内存区域（flat memory region），适用于每核内存需求大于 2 GB 的工作负载。使用该模式时可能需要更改代码；“HBM 缓存”模式：旨在提升内存容量需求大于 64 GB 或每核内存需求大于 2 GB 的工作负载的性能。使用该模式时，无需更改代码，且 HBM 可缓存来自 DDR 的事务。跨多架构加速科学计算和 AI

327、工作负载整个英特尔至强 CPU Max 系列的产品均得到 oneAPI的支持。oneAPI 是一个统一的、基于标准的开放式通用编程模型，可释放生产力并解锁性能。开发人员可利用英特尔 oneAPI 工具套件以及面向特定领域的专用工具套件，打造跨多种架构运行的通用计算、科学计算和 AI 应用，并对其进行分析、优化和扩展。这些资源包括矢量化、多线程、多节点并行和内存优化方面的前沿技术，可轻松构建随时能为科学计算所用的高性能、多架构软件。扫码了解更多英特尔至强 CPU Max 系列详情扫码了解英特尔至强 CPU Max 系列配置和调优指南英特尔至强 CPU Max 系列内核数32-56HB

328、M2e 内存64 GBHBM 最大传输速率3200 MT/sDDR5最大传输速率4800MT/s（1 个 DPC）4400 MTs（2 个 DPC）加速器AMX，4 个英特尔 DSAAI/ML指令INT8 和 BFLOAT165 https:/ HL-225B 夹层卡处理器技术Gaudy HL-2080主机接口和横向扩展PCle Gen 4.0 x16内存96 GB HBM2eTDP600 瓦纵向扩展互联21 个 100Gbps RoCE v2 RDMA 端口外形规格兼容 ocp 加速器模块 V1.1计算架构内存通过集成RDMA实现纵向扩展Habana Gaudi 2 采用经过验证的高性能深度

329、学习 AI训练处理器架构，利用 Habana 完全可编程的 TPC 和GEMM 引擎，支持面向 AI 的高级数据类型：FP8、BF16、FP16、TF32 和 FP32。TPC 核心旨在支持深度学习训练和推理工作负载。TPC 是一款 VLIWSIMD 矢量处理器，其指令集和硬件经过定制，可高效处理上述工作负载。内存带宽和容量与计算能力同样重要。Habana Gaudi 2 采用先进的 HBM 内存技术，内存容量高达 96GB，内存带宽高达 2.4TB/s。Gaudi 先进的 HBM 控制器已针对随机访问和线性访问进行了优化，在各种访问模式下均可提供高内存带宽。GaudiAl训练处理器在芯片上集

330、成了RDMA(RoCEv2)，可与成熟且广泛使用的以太网进行连接。HL-2080 芯片互连技术基于 42 对 56GbpsTx/Rx PAM4SerDes(配置为 21 个 100GbE 端口)发挥作用。9594英特尔中国医疗健康行业AI实战手册英特尔中国医疗健康行业AI实战手册技术篇技术篇英特尔高级矢量扩展 512（英特尔 AVX-512）英特尔高级矩阵扩展（英特尔 AMX）快速分析日益增多的数据，并将其转化为有价值的洞察力，这种能力将为商业味、科学研究乃至人们的日常生活创造新的机遇。英特尔至强可扩展处理器和英特尔至强融核处理器产品家族，增添了旨在加速数据分析的创新功能。当前的工

331、作负载，通常需要在多个数据元素上执行同样的操作，在传统的“标量处理”时代，指令在同一时间，只能在一个单一数据元素上执行，以致在处理海量数据时极为耗时。认识到标量处理的不足之后，从上世纪 90 年代后期开始，英特尔开始将单指令多数据流（Single Instruction,Multiple Data，SIMD）矢量功能整合到英特尔处理器中。英特尔 SSE 技术刚推出时，提供了 128 位寄存器和 SIMD 指令，可同时处理多达 4 个 32 位数据元素，大大加快了相关操作的处理速度。在此之后，英特尔 AVX 指令集和英特尔 AVX 2 指令集又将寄存器宽度扩展了一倍，使相关操作的处理性能实现近

332、乎翻倍的提升。第四代英特尔至强可扩展处理器内置 AI 加速器英特尔 AMX，是企业和机构优化 AI 流水线的理想选择。平衡推理是 CPU 在 AI 应用中的主要用例，英特尔 AMX 专为该用例设计并且具备更多训练能力。目前，在所有运行 AI 推理工作负载的已装机数据中心处理单元中，英特尔至强可扩展处理器的占比高达 70%6；因此，为新的 AI 部署选择内置英特尔 AMX 的第四代英特尔至强可扩展处理器，是一种既高效又具有成本效益的 AI 工作负载加速方式。英特尔 AMX 是什么？英特尔 AMX 是内置于第四代英特尔至强可扩展处理器中的加速器，可优化深度学习(DL)训练和推理工作

333、负载。借助英特尔 AMX，第四代英特尔至强可扩展处理器可在优化通用计算和 AI 工作负载间快速转换。开发人员可以编写非 AI 功能代码来利用处理器的指令集架构(ISA)，也可编写 AI 功能代码，以充分发挥英特尔 AMX 指令集的优势。英特尔已将其 oneAPI DL 引擎英特尔 oneAPI 深度神经网络库(Intel oneAPI Deep Neural Network Library，英特尔 oneDNN)集成至包括 TensorFlow、PyTorch、PaddlePaddle 和 ONNX 在内的多个主流 AI 应用开源工具当中。英特尔 AMX 架构英特尔 AMX 架构由两部分组件构成：第一部分为 TILE，由 8 个 1 KB 大小的 2D 寄存器组成，可存储大数据块；第二部分为平铺矩阵乘法(TMUL)，它是与 TILE 连接的加速引擎，可执行用于 AI 的矩阵乘法计算。当

上海品茶

英特尔：2023中国医疗健康行业AI实战手册（55页）.pdf

英特尔：2023中国医疗健康行业AI实战手册（55页）.pdf

报告推荐

相关图表

相关报告

热门报告