《朱雀图计算平台与大模型-0908.pdf》由会员分享,可在线阅读,更多相关《朱雀图计算平台与大模型-0908.pdf(48页珍藏版)》请在三个皮匠报告上搜索。
1、 之江朱雀图科学计算平台之江朱雀图科学计算平台陈红阳陈红阳之江实验室之江实验室2023-9-7之江图计算中心定位、目标之江图计算中心定位、目标图计算理论与模型、图计算加速器架构及编译环境、单机图计算系统软硬件环境基础理论及软硬件层面基础理论及软硬件层面高并发分布式图计算系统数据存储、任务调度与高效通信、高吞吐图计算引擎、统一编程框架和支撑库高性能高可用系统层面高性能高可用系统层面图计算算法库、图数据管理与应用等大规模高效应用支撑层面大规模高效应用支撑层面2022年6月7日,之江-华科大图计算联合研究中心正式成立。研发全球领先的图计算机系统,全力打造国际一流的图计算创新中心,为实验室打造智能计算
2、国家战略科技力量提供支撑 科研总体规划科研总体规划图计算加速器图计算加速器单机图计算系统单机图计算系统分布式图计算系统分布式图计算系统高并发图计算系统高并发图计算系统面面向向图图计计算算的的通通用用计计算算系系统统(灵活定制)(灵活定制)(高效调度)(高效调度)(超高并发)(超高并发)(高可扩展)(高可扩展)大规模多样化图计算应用大规模多样化图计算应用(以数字反应堆图为牵引以数字反应堆图为牵引)PART 01PART 01第一部分第一部分朱雀图计算平台朱雀图计算平台研究背景与现状研究背景与现状以支付交易图为例,大规模异构图结构十分常见(十亿以上级别的节点,百亿以上级别的边及多维度属性)。辅助E
3、DA设计:将芯片中的电路拓扑抽象为图结构,转化为图计算任务辅助电路缺陷检测,具有高并发计算的挑战性。Gartner Gartner 在在2021 2021 年十大数据和分析技术趋势年十大数据和分析技术趋势报告中预测,到报告中预测,到 2025 2025 年图技术将应用于年图技术将应用于 80%80%的数据和分析创新。的数据和分析创新。图论的起源图的应用图数据:连接的数据分子虚拟筛选:利用图结构表示目标靶点与候选药物之间的相互作用,计算两者之间的亲和力大小,以降低实际筛选化合物数目,同时提高先导化合物发现效率。1现状:业界缺乏科学计算领域的图计算支持业界图计算平台子系统间缺乏协同性大规模图学习的
4、性能较差国产硬件适配度低图计算:下一代人工智能的基石图计算:下一代人工智能的基石图计算是推动人工智能从“感知智能”阶段迈入“认知智能认知智能”阶段的核心要素核心要素;应用场景多样,包括社交网络分析、生物信息领域、道路规划、金融风控、推荐系统等。欧式数据分布规整、结构固定,无法无法灵活的表示事物间的复杂关系事物间的复杂关系;非欧几里得空间非欧几里得空间中的图结构能表征图结构能表征世间万物的复杂关系,具有强大的数据表达能力;图学习算法图学习算法使得机器学习能够应用于非欧几里得空间的图结构中,具备对图进行学习的能力具备对图进行学习的能力。图学习算法包括经典图算法(PageRank、最短路径等),社区
5、检测算法(最大团/clique、联通量计算等),图挖掘算法(频繁集挖掘、图的模式匹配等);近年来提出的图神经网络(GNN),更是将图中的结构和属性信息与深度学习中的特征相结合与深度学习中的特征相结合。图计算已经成为大数据和人工智能领域的主旋律之一2研究背景与现状研究背景与现状驱动和环境适配编译器与支撑库开发工具套件存算一体化算子加速优化分布式内存池化近内存计算图划分图表示元数据图建模图可视化查询与分析开放式编程框架图神经网络训练图模型部署与推理图查询引擎图查询引擎图分析引擎图分析引擎图学习引擎图学习引擎多语言解析执行内存配额优化图分析算法库图分析执行引擎图算法算子库图训练引擎计算育种生物制药交
6、通网络社交网络科学计算集成框架计算资源计算资源硬件适配硬件适配图存储图存储计算引擎计算引擎开发工场开发工场领域应用领域应用之江朱雀:面向科学计算领域的高性能大规模图计算平台之江朱雀:面向科学计算领域的高性能大规模图计算平台平台特色国产硬件适配;内存池化数据直访技术;软硬件协同加速;高效的自研算法;多种GNN框架支持;图神经网络架构搜索;图开发一站式解决方案;名称起源朱雀:南方之神,于八卦为离,于五行主火,取图计算领域大展宏图之寓意。之江朱雀图计算平台之江朱雀图计算平台3 平台演示平台演示 功能模块数据集Schema定义与管理;图数据可视化查询与分析;异构计算集群任务调度;图神经网络训练与调参;
7、模型部署与在线推理;知识图谱领域应用;4之江朱雀图计算平台之江朱雀图计算平台经典图神经网络算法经典图神经网络算法平台提供丰富的图神经网络实现,即平台提供丰富的图神经网络实现,即提供了传统的算法如提供了传统的算法如GINGIN,GCNGCN,GATGAT,GraphSageGraphSage等。等。图神经网络架构搜索算法图神经网络架构搜索算法平台支持图神经网络架构搜索,来平台支持图神经网络架构搜索,来智能智能化地搜索出最优的化地搜索出最优的GNNGNN架构,以增强架构,以增强GNNGNN模型在不同环境下的自适应性。模型在不同环境下的自适应性。前沿图学习算法前沿图学习算法平台同时提供了相关研究领域
8、(计算平台同时提供了相关研究领域(计算制药、生物统计等)最前沿的算法如制药、生物统计等)最前沿的算法如PSGPSG,scGraphscGraph,scDECscDEC等。等。药物数据药物数据育种大数据育种大数据单细胞测序数据单细胞测序数据图数据图数据模型与算法模型与算法GCN(Kipf et al.)GCN(Kipf et al.)GAT(VeliGAT(Velikovikovi et al.)et al.)GIN(Xu et al.)GIN(Xu et al.)GraphSAGE(Hamilton et GraphSAGE(Hamilton et al.)al.)GSSNN(Zhu et a
9、l.)GSSNN(Zhu et al.)GSNN(Wang et al.)GSNN(Wang et al.)经典图神经网络算法经典图神经网络算法HGNAS(Gao et al.)HGNAS(Gao et al.)GraphNASGraphNAS(Gao et al.)(Gao et al.)图神经网络架构搜索图神经网络架构搜索PSG(Lv et al.)PSG(Lv et al.)scGraphscGraph(Yin et al.)(Yin et al.)scDECscDEC(Liu et al.)(Liu et al.)前沿图学习算法前沿图学习算法图下游任务图下游任务节点分类节点分类图交互式
10、查询图交互式查询链接预测链接预测图表示学习图表示学习图分类图分类图生成学习图生成学习药物研发药物研发育种研发育种研发测序数据分析测序数据分析应用应用底层框架底层框架 图数据驱动的算法库图数据驱动的算法库5问题背景问题背景算法算法创新创新登顶模型架构登顶模型架构DDIDDI药物交互关系图链接预测示意图药物交互关系图链接预测示意图在药物-药物作用关系网络图中,在给定部分药物-药物反应关系的情况下,如何预测未知药物-药物反应关系的任务可加速药物研发的进展,对老药新用和药物性质研究老药新用和药物性质研究具有指导性的作用。提出基于路径感知的孪生图神经网络孪生图神经网络 PSG PSG 算法算法,利用多次
11、中继路径采样中继路径采样生成多条中继路径感知的药物间最短反应路径距离的边特征张量,融合孪生图神经网络进行图表示图表示学习和图对比学习学习和图对比学习,从而提高药物-药物反应关系的预测准确度。自研算法自研算法PSGPSG刷新刷新OGBOGB图学习挑战赛记录图学习挑战赛记录6 图数据驱动的算法库图数据驱动的算法库性能效果性能效果公众号发布公众号发布OGBOGB挑战赛冠军新闻挑战赛冠军新闻 准确率相对原冠军模型提升准确率相对原冠军模型提升2%2%团队提出的基于路径感知的孪生图神经网络PSG算法,最终获得92.84%92.84%的预测准确率,将预测误差的小数点从百分位又移动了一位,降低到了千分位,大幅
12、提升了算法稳定性。而知名的知名的图卷积神经网络算法图卷积神经网络算法GCNGCN预测准确率仅预测准确率仅37%37%。刷新了保持近一年的世界纪录刷新了保持近一年的世界纪录朱雀平台算法团队夺冠的药物关系(DDI)预测挑战赛属于边性质链接预测,这项任务需要在130130多万多万个药物-药物相互作用中,精准预测具有联合作用的药物。实验结果对比实验结果对比 自研算法自研算法PSGPSG刷新刷新OGBOGB图学习挑战赛记录图学习挑战赛记录7 图数据驱动的算法库图数据驱动的算法库面向不确定图数据的高效团挖掘面向不确定图数据的高效团挖掘通用的通用的PivotPivot理论理论新的图剪枝技术新的图剪枝技术面向
13、大图数据的高效面向大图数据的高效PageRankPageRank计算计算提出基于擦圈的随机游走的随机支撑森林采样提出基于擦圈的随机游走的随机支撑森林采样PageRankPageRank矩阵森林定理矩阵森林定理+基于支撑森林采样基于支撑森林采样的高效计算方法(的高效计算方法(SPEEDLSPEEDL)快如闪电与空间高效的快如闪电与空间高效的k-k-团计算团计算立足真实图数据的非均匀性,根据平均度数立足真实图数据的非均匀性,根据平均度数将图划分为稠密和稀疏部分,稀疏部分精确将图划分为稠密和稀疏部分,稀疏部分精确采样,稠密部分着色采样。采样,稠密部分着色采样。比现有最快的算法快比现有最快的算法快1
14、1个数量级,估计错误个数量级,估计错误低低3-53-5倍。倍。DatasetDatasetStandStandfordfordDblpDblpBerkstanBerkstanGoogleGoogleSkitterSkitterOrkutOrkutLiveJourLiveJournalnalNodesNodes89.989.93%3%99.5999.59%84.88%84.88%98.1598.15%98.69%98.69%87.6987.69%97.86%97.86%8-cliques8-cliques0.010.01%0.00%0.00%0.00%0.00%6.47%6.47%0.03%0.
15、03%0.07%0.07%0.00%0.00%提出了提出了(TopkTopk,)-)-三角形的概念三角形的概念并证明了所有的并证明了所有的(k,(k,)-)-极大团极大团都包含在都包含在(TopkTopk,)-)-三角形中三角形中 面向大图的高效图表示学习与图生成方法面向大图的高效图表示学习与图生成方法SPEEDLSPEEDLSPEEDL/SPEEDLV SPEEDL/SPEEDLV 优于现有算法优于现有算法SPEEDLSPEEDLSPEEDL/SPEEDLV SPEEDL/SPEEDLV 优于现有算法优于现有算法8 图数据驱动的算法库图数据驱动的算法库提出了自动设计最佳图神经网络结构提出了自
16、动设计最佳图神经网络结构的的GraphNASGraphNAS基于强化学习的图神经网络结构搜索方法,基于强化学习的图神经网络结构搜索方法,递归网络递归网络描述可变长度字符串,策略梯度对递归网络进行训练,描述可变长度字符串,策略梯度对递归网络进行训练,初步实现了图神经网络架构的自动优化设计。初步实现了图神经网络架构的自动优化设计。升级版升级版 GraphNASGraphNAS+每次生成一个候选架构每次生成一个候选架构 每次生成一小批候选架构每次生成一小批候选架构分布式环境,大幅提升搜索效率;分布式环境,大幅提升搜索效率;在真实世界数据集上的实验表明,在真实世界数据集上的实验表明,GraphNASG
17、raphNAS/GraphNASGraphNAS+可以设计出新颖的神经网络架可以设计出新颖的神经网络架构,在精度方面可以与人类设计的最佳神经网络结构构,在精度方面可以与人类设计的最佳神经网络结构相媲美。相媲美。模型框架图模型框架图分布式训练框架分布式训练框架 面向大图的图神经网络架构搜索面向大图的图神经网络架构搜索GraphNAS/GraphNAS+GraphNAS/GraphNAS+精度优于传统算法精度优于传统算法9 图数据驱动的算法库图数据驱动的算法库 算法目标:识别大规模的图数据集中存在的异常图,且该图在结构信息和图节点特征两方面与其他的图存在明显的差异。算法应用:例如,在化学分子数据集
18、中,当我们人为地构造一些化学分子,但是无法区分这些化学分子与正常分子是否具有相同的特性,此算法便能有效的进行识别。此外,在网络舆情监控中,此算法可以有效识别某个区域的网络是否存在异常等应用。算法实现:主要思想:提出一个新的图级别异常评估策略,通过对比学习机制学习不同级别的正常图表示,然后利用生成的重构图表示去推理输入图是否为异常图。算法性能:相较于传统的图级别异常检测算法,有了很大的性能提升,并且在AIDS数据集上达到99.3%精度。基于对比学习的深度图级别异常检测算法基于对比学习的深度图级别异常检测算法10Deep Graph Level Anomaly Detection with Con
19、trastive Learning.Scientific reportsDeep Graph Level Anomaly Detection with Contrastive Learning.Scientific reports 图数据驱动的算法库图数据驱动的算法库06异构处理器硬件和系统异构处理器硬件和系统异构数据流大数据编程框架异构数据流大数据编程框架Native 加速库新型大数据编程框架大数据开发套件数据流异构核及其融合架构稀疏/稠密数据算子运行时接口标准化算子与硬件解耦数据直通全局共享访存算子拆分与融合负载均衡算法异步更新机制图计算编程框架图计算编程框架图神经网络框架图神经网络框架数
20、据传输零拷贝异构数据流大数据加速异构数据流大数据加速异构硬件系统适配异构硬件系统适配模型加速模型加速 全局共享数据直通访存系统全局共享数据直通访存系统 处理器异构协同计算架构处理器异构协同计算架构 硬件级异构调度硬件级异构调度 新型增量计算和动态采样技术新型增量计算和动态采样技术 大数据专用加速库大数据专用加速库 通过全局共享访存以及通过全局共享访存以及xPUxPU与内存池化间的数据与内存池化间的数据直通,降低数据拷贝开销直通,降低数据拷贝开销 稀疏稀疏/稠密数据存算优化稠密数据存算优化 高效负载均衡算法与异步模型更新机制高效负载均衡算法与异步模型更新机制 软硬件协同式算子库优化软硬件协同式算
21、子库优化 软硬件协同加速软硬件协同加速 异构协同计算及加速异构协同计算及加速11图算融合:图算融合:识别 GNN 特有执行模式进行图算融合,减少内存搬运。PolyPoly编译优化:编译优化:采用 polyhedral 技术进行自动的算子优化和生成。反向重计算:反向重计算:反向采用重计算,减少前向输出结果读取和内存占用。通过减少张量在显存内的实例化,相比于现有框架性能提升3-43-4倍倍2.6282.8382.74.6622.95611.0099.43510.78214.4610.85416corapubmedciteseeraz_computersaz_photosZhu
22、que Graph Learning现有框架 软硬件协同加速软硬件协同加速 联合华为联合华为MindSporeMindSpore进行深度编译优化进行深度编译优化12 药物知识图谱及应用药物知识图谱及应用13药物知识图谱构建(实体关系构建、多源异构数据融合)基于药物知识图谱的应用(老药新用、靶点发现、药物性质预测等)药物知识图谱构建(实体关系构建、多源异构数据融合)药物知识图谱知识表征(提出MGCL、KGAT、TransferGAT等算法)领域应用与创新领域应用与创新药物癌症相关性预测药物癌症相关性预测DeepCDRDeepCDR:药物癌症相关性预测准确药物癌症相关性预测准确率达到率达到92%9
23、2%DeepCDRDeepCDRDualGCNDualGCN用于药物相互作用预测的用于药物相互作用预测的通用框架通用框架DualGCNDualGCN:统一的双图卷积网络模型,统一的双图卷积网络模型,具有强大的预测性能具有强大的预测性能领域应用与创新领域应用与创新 计算制药计算制药1415领域应用与创新领域应用与创新-药物发现可视化系统药物发现可视化系统药物发现可视化操作演示药物分子性质预测及蛋白亲和力模型基于基因组的蛋白质基于基因组的蛋白质表型预测图神经网络表型预测图神经网络育种机理驱动和大数据驱动方法的深度融合大豆蛋白质含量预测指标提升15%以上助力解决大豆育种种质资源的“卡脖子”问题基因测
24、序表型采集数据采集基因组功能性分析基因系谱基因组关联分析基因重要性基因相关性表型预测建模模型架构图预测值和真实值的比较大豆智能计算育种大豆智能计算育种高蛋白大豆品种高蛋白大豆品种室内验证试种室内验证试种领域应用与创新领域应用与创新16 大脑疾病的致病分析大脑疾病的致病分析17背景:先进的神经影像技术给脑疾病诊断提供了极大的便利,如fMRI和DTI,然而如何利用人工智能技术提升诊断效率和分析脑疾病的致病机制是一个值得探索的问题。研究方法:将传统的神经影像数据建模成脑图,其中节点为不同的脑区,边为脑区之间的功能连接或者结构连接。然后,从图的视角来分析,将脑疾病的智能化诊断看成脑图分类的问题,并且通
25、过研究不同脑图之间的差异来探索脑疾病的致病机制。基于fMRI数据的脑图建模过程:首先按照医学给定的大脑图谱将大脑划分成不同的脑区,即为脑节点;然后提取对应脑区的血氧浓度(BOLD)的信号序列;再分别计算不同脑区信号序列的皮尔逊相关系数,其系数值为脑图的功能连接权重。算法实现:我们提出脑子图神经网络去挖掘具有判别性的脑子图来区分正常被试者和患病被试者的脑图,一方面,通过聚合这些脑子图信息学习高效的脑图表征来提升脑疾病的诊断效率,另一方面,依据这些差异性的脑子图来分析某种疾病的突出脑区和存在的异常脑区活动连接,为脑疾病深入研究提供新的思路。领域应用与创新领域应用与创新大脑疾病的致病分析大脑疾病的致
26、病分析18结果分析:在小规模的PD疾病数据集上,也取得显著的脑图分类效果;我们方法得出的致病脑区与传统的统计分析方法高度吻合,并且与现在的PD脑疾病的医学研究结论也保持一致。领域应用与创新领域应用与创新领域应用与创新领域应用与创新19原理:通过广泛埋设的地面传感器网络估计地震信息,在破坏性地震波到达重要区域之前,发布预警信息。动机:快速准确的计算出震源的时间、地点、深度、震级等信息是地震预警系统的关键。1.传统方法包含信号检测、相位拾取、相位关联、区域速度模型定位等一系列过程得到地震的关键参数,过程多,速度慢,偏差大。2.而现有的端到端的深度学习方法大多只针对单一或少量参数进行预测,难以直接应
27、用于地震预警系统。3.同时,现有的深度学习模型忽视了局部地质信息对地震波形的影响,难以达到最优的预测结果。地震预警原理地震预警示例领域应用与创新领域应用与创新20方法:通过图神经网络对历史地震记录进行建模,得到地震台站的局部特征,与地震波形特征融合后进行预测。局部地震历史分布图示例,KNN=2KNN=2地震台站地震发生点地震发生点基于图神经网络的单站点震源参数估计模型基于图神经网络的单站点震源参数估计模型构图方法构图方法历史震中使用KNN连接成图台站位置与历史震中位置相连结果分析:与现有方法对比,可以得到更好的预测结果结果分析:与现有方法对比,可以得到更好的预测结果领域应用与创新领域应用与创新
28、21背景:研究比原子核更深层次的微观世界中物质的结构性质,和在很高的能量下,这些物质相互转化的现象,以及产生这些现象的原因和规律粒子物理标准模型粒子物理标准模型研究方法:利用粒子加速器和对撞机进行实验,获取海量的实验数据,从中总结和发现规律,进行粒子性质的精确测量、物理常数的精确测量甚至是新粒子的发现等等物理学最前沿的基础研究之一:大装置+大数据+大算力:欧洲核子中心的大型强子对撞机LHC每年产生约15PB数据北京正负电子对撞机已积累10PB+数据我国正在建设中的江门中微子实验预计每年产生3PB数据美国费米国家实验室缪子反常磁矩实验已积累20PB+数据高海拔宇宙线实验LHAASO每年产生约10
29、PB的数据LHCLHC上的上的AtlasAtlas探测器,长探测器,长4646米,直径米,直径2525米米领域应用与创新领域应用与创新22繁杂的数据处理流程:粒子真实对撞/衰变模拟对撞/衰变探测器信号捕捉模拟探测器响应事例重建事例选择统计分析事例重建:径迹重建,量能器簇团重建等事例选择:喷柱鉴别、稀有事例寻找等统计分析:最终的物理结果构图方法构图方法每个粒子构成图上的节点,相互作用粒子之间构建边粒子性质,相互作用强度等构成节点和边特征领域应用与创新领域应用与创新23径迹重建:喷柱鉴别:基于GNN的重建方法:a)根据径迹探测器几何结构构建图b)利用GNN进行边分类预测c)根据边得分重建粒子径迹在
30、美国费米实验室缪子反常磁矩实验的合成数据集上,相比现有方法,GNN在边分类任务上达到了0.999的AUC,提高约15%的重建效率基于GNN的鉴别方法:a)基于量能器和径迹探测器原始信息,构建异构图量能器类型的节点和边径迹探测器类型的节点和边b)基于GNN的消息传递机制,进行图分类任务在未来轻子对撞机上(以我国正在预研的环形正负电子对撞机CEPC为例)进行长寿命新粒子的寻找,最高可实现约97%的信号效率,相比selection-based方法,可以将探测灵敏度提高2个数量级左右领域应用与创新领域应用与创新21背景:量子计算是一个多学科领域,涵盖计算机科学、物理学和数学的各个方面,它利用量子力学定
31、律来更快地解决某些类型的问题(相对于经典计算机)。尽管量子图机器学习的研究尚处于初期阶段,但是已经有研究结果表明,量子计算在加速图机器学习的计算过程和提升计算效果上都有潜在优势。目前,图机器学习遇到的诸多瓶颈问题都有望通过引入量子计算得到解决:长距离信息聚合:量子纠缠、量子干涉大规模图处理:量子硬件、高性能模拟框架、量子编码可解释性:量子理论领域应用与创新领域应用与创新21介绍:经典随机游走是一种概率分布,而量子游走被描述为量子状态的叠加。量子游走作为一种通用模型已经被广泛应用于数据库搜索、图同构、网络分析、量子模拟等。基于量子游走的图表示学习利用量子游走在节点之间传递信息,在点分类等任务上取
32、得优于GCN/GAT的效果。介绍:由于NISQ(noisy intermediate-scale quantum)设备的发展,越来越来的研究聚焦于量子图神经网络,而PQC(Parameterized quantum circuit)是实现量子神经网络的一种重要方式。基于量子电路的图神经网络通过将图数据编码成量子振幅和量子门等方式,达到对图分类的目的。PART 02PART 02第二部分第二部分朱雀图预训练大模型朱雀图预训练大模型 生物制药GPT技术挑战技术挑战问题问题应对方法应对方法如何应对如何应对生物领域的生物领域的非欧结构数据非欧结构数据 在生物领域,数据往往呈现出“排列不整齐”的非欧式结
33、构,无法使用常规的欧式结构算法进行处理。采用图神经网络,通过消息传递机制聚合领域节点的特征,挖掘实体之间的关联信息。如何解决图神经网络中的过平滑问题在图神经网络训练过程中,随着网络层数的加深,会引起过平滑问题,导致不同节点之间的区分度和节点自身的特征表达下降,效果反而不如浅层网络。使用Transformer+图的架构 Skip Connection如何解决如何解决数据数据标签稀标签稀缺问题缺问题生物数据的标签获取非常困难,通常需要经验丰富的专家对数据进行人工标注,或者通过昂贵的湿实验得到。对大量无标记数据,使用无监督预训练策略如何如何在模型中在模型中融入领融入领域知识域知识科学领域和计算机领域
34、存在着明显的知识鸿沟,目前的交叉研究往往采用简单的建模方式,缺少领域知识。结合分子轨道理论、表面静电势、自旋密度等值面等最前沿的科学领域知识。如何解决大模型的工如何解决大模型的工程问题程问题大规模图数据中存在百万节点上亿边,对设备的计算和存储提出了更高的要求,其分布式工程实践面临巨大的压力。图分割策略 并行策略:自动并行策略 训练策略:压缩策略,自动网络架构搜索压缩策略,自动网络架构搜索 算子库优化策略:融合算子,拆分复杂算子 为什么要做图预训练大模型?节点-节点关系建模节点 Self-Attention虚拟节点、虚拟边集成子图信息边-边关系建模节点-边关系建模拓扑结构建模Cross-Atte
35、ntionGCN边 Self-Attention药物设计靶点发现背景:如何融合分子图相关领域知识,利用大规模的分子数据构建分子预训练大模型,学习分子的语义信息和结构信息,为分子结构理论等研究提供基础支撑。研究目标:构建融合领域知识的大规构建融合领域知识的大规模分子图预训练模型模分子图预训练模型,应用于药物设计、靶点发现等生物制药领域,并将其作为生物制药GPT的核心基础核心基础。潜在应用方向药物分子生成药物结构预测药物性质预测药物靶点发现 为什么要做图预训练大模型?Recent progress of pre-training models in NLP&CVRecent progress of
36、 pre-training models in NLP&CV(一维序列大模型一维序列大模型)代表模型:ELMO,BERT,XLNet,MoCo,GPT3.5(chatGPT)etc.主要模型结构主要模型结构:Transformer预训练范式:自监督任务预训练预训练范式:自监督任务预训练+下游任务精调下游任务精调预训练任务:masked language modeling&next sentence prediction下游任务.GPT:classification/entailment/similarity/multiple choicechatGPT:chatbots/language tr
37、anslation/text summarization/text completion/content creation,etc.GPT pretrainingBert pretraining 为什么要做图预训练大模型?MPNN模型架构模型架构图预训练和精调图预训练和精调 About pre-training models in GNNAbout pre-training models in GNN(非欧二维图大模型)(非欧二维图大模型)代表模型:GPT-GNN,GraphMAE,Pangu Drug Model,Unimol/Unimol+etc.主要模型结构主要模型结构:MPNN预训练任
38、务:Graph Information Completion(GIC)、Graph Consistency Analysis、Graph Property Prediction、Masked AutoEncoder下游任务:节点预测、边预测和图性质预测下游任务:节点预测、边预测和图性质预测 AI制药技术路线基于多模态的分子生成 大模型训练SMALLMEDIUMLARGEEXTRALARGELARGER预训练预训练预训练预训练预训练权重变换权重变换权重变换权重变换渐进式大模型训练 大模型训练Operator Parallelism多种并行策略Data ParallelismZeRO Optimi
39、zerPipeline Parallelism并行策略搜索GPU互联的NVLink混合精度训练 大模型训练参数量参数量0.50.5亿亿5 5亿亿2020亿亿训练时间(10epoch)5.5h2.5d7dBatch SizeBatch Size02481928192训练时间(10epoch)15d2d5.5h下游任务指标0.00460.00440.0042曙光乌镇集群:已进行128DCU的稳定性实验,计算性能约为A100的一半。正在扩展至1024以上DCUA100集群(8卡):AI药物研发流程 AI制药技术路线 蛋白质靶点口袋结构预测 模型流程模型流程 蛋白质靶点口袋结构预
40、测预测结果可视化 基于扩散模型的分子生成近年来基于深度学习的生成模型也在多领域有成功应用,其中扩散模型因其优异性能和高效学习能力获得广泛关注。在三维构型生成研究中,其生成去噪过程可用下图示意1。此方法基于扩散模型,设计了一个等变去噪内核,实现对原子和原子对特征的有效学习。在原子层面,融合原子与原子对特征,利用全局注意力机制实现原子特征学习,并更新原子坐标。在原子对层面,统合原子对特征与扭转角等三元组间空间几何信息,实现原子对特征学习。1 Xu M,Yu L,Song Y,et al.GeoDiff:A Geometric Diffusion Model for Molecular Confor
41、mation GenerationC.International Conference on Learning Representations,2022.分子生成 下图为生成过程可视化,以分子“NC1(C2COC2)CC1”为例:基于扩散模型的分子生成分子生成PART 03PART 03第三部分第三部分未来展望未来展望支持开放式图算法编程支持开放式图算法编程框架框架多方面深入优化提升软多方面深入优化提升软硬件协同能力及异构系硬件协同能力及异构系统计算能力统计算能力更多的国产软硬件适配更多的国产软硬件适配及算子加速及算子加速深耕图计算技术及领域深耕图计算技术及领域应用场景应用场景 E D A芯片设计多尺度模型计算高能物理实验非平衡态计算量子图机器学习量子化学Graph4SCIGraph4SCI23 开放平台科研机构高校企业 数据 平台 算力 平台 算力 创新 创新 人才 通过产学研合作模式,打造生物GPT,提升药物相互作用、分子生成和分子性质预测等任务的效果,助力药物研发。在自研的朱雀平台上开放该模型的接口,为生物制药领域的专业人士提供一个一站式的平台和充足的算力资源,供他们展开科学研究。感感 谢谢 聆聆 听听 !致谢:朱雀致谢:朱雀团队成员吕劲松,杨林瑶,戚耀团队成员吕劲松,杨林瑶,戚耀