上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

阿里云:2022阿里云生命科学与智能计算峰会演讲合集(68页).pdf

编号:106907 PDF 68页 38.96MB 下载积分:VIP专享
下载报告请您先登录!

阿里云:2022阿里云生命科学与智能计算峰会演讲合集(68页).pdf

1、封面页(待分享)卷首语 近年来,随着云计算技术的普及与深度应用,生命科学行业在基因科技、AI 辅助药物研发等方向取得了新的突破。特别是高性能计算(High Performance Computing)在辅助药物设计、研发、基因测序、产前筛查等具有明显的高数据量、大计算量的场景应用中扮演了十分重要的角色。2022 阿里云生命科学与智能计算峰会邀请了多位来自学术界、产业界的专家学者、创新企业高管等发表主题演讲、开展圆桌讨论,旨在探讨生命科学领域高性能计算技术的应用场景与发展方向,促进生命科学与云计算技术的深度融合与创新。此外,此次峰会还发布了天池大赛全球冷冻电镜蛋白质结构建模大赛的决赛结果。大赛由

2、阿里云与国家蛋白质科学中心(上海)在 2021 年共同发起,探索基于冷冻电镜在 AI 技术加持下获取蛋白质结构模型的潜力,吸引了全球近 2000 支队伍参赛,得到了广泛的关注。目录 阿里云大计算加速 HPC 与 AI 融合.5 多元科学计算系统在药物研发管线中的搭建与实践.20 AI+分子模拟,赋能药物发现新源头.34 AI 制药工业落地的痛点与前进方向.39 高通量基因测序在药物研发和靶向治疗中的应用.56 阿里云大计算加速 HPC 与 AI 融合 5 阿里云大计算加速 HPC 与 AI 融合 作者:何万青,阿里云高性能计算负责人 摘要:2022 年 8 月 5 日,2022 阿里云生命科学

3、与智能计算峰会在北京望京昆泰酒店举行,阿里云高性能计算负责人何万青博士,带来了题为阿里云大计算加速HPC 与 AI 融合的分享,以下是他的演讲内容整理,供阅览。阿里云高性能计算负责人何万青 人类历史上各种广谱药的发现,是一个漫长且靠运气的过程。新药的发现和制造往往需要十多年的时间,每年 FDA 能够批准上市的新药少之又少。阿里云大计算加速 HPC 与 AI 融合 6 而新冠的爆发带来了一个重要契机,我们通过整合云上计算资源,第一时间帮到科研机构开展新冠研究,从而发现了云计算具备的独特优势。据报道,世界上前 20 大药厂 70%的算力和研发都在往云上迁移。在新冠疫情爆发初期,阿里云第一时间免费开

4、放 AI 算力支持抗疫研发,支持科研人员围绕新冠病毒进行药物研究;其次,通过大数据进行公共医疗政策的研究,助力大数据系统、追踪系统以及决策系统;另外,向全世界开放阿里的科研抗疫平台,对接了来自 50 个国家&地的 33 个需求。阿里云大计算加速 HPC 与 AI 融合 7 而这个契机也让我们意识到,AI 是一种即将爆发的新的 IT 技术、新的计算平台。过去,高性能计算支持生命科学的发展,主要着力于科研和科研团队的培养,但并不明确会导向何种药物、何种结果。而现如今,此类需求非常明显,我们面对大量的数据库和化合物,需要对疾病和样本做分析、基因测序。过去的应用分为两大类:第一类是基于第一性原理的分子

5、动力学、量子色动力学等,比如分析细胞组成的分子之间的作用力、化合物之间的作用;第二类是面向精准治疗时的基因测序,同样需要非常大的算力,科学家需要解决的是机理和算法问题,但大规模的实现需要工程人员来解决,比如高通量测序。最近几年发展最快的是 AI 算法,通过 AI 对大量数据进行筛查。而此过程需要解决的问题有:如何将 AI 算法和技术放在云超算平台上?大量的数据如何在云上进行传输?总结来说,高性能计算在云上进行服务,需要解决以下线下超算的痛点:阿里云大计算加速 HPC 与 AI 融合 8 弹性扩展难:实际业务中,往往难以预测突发情况的需求,因此,弹性伸缩十分必要;可靠性不高:计算中心或物理集群规

6、模扩大之后,无法保证百分百的稳定性,因此必然会出现重新计算的需求,针对此需求,云计算稳定的 SLA 之外,还实现了断点续算技术;性能瓶颈:云上计算突破了海量数据进行机器学习或筛查的 GPU 瓶颈,过去花费数周数月才能够完成的计算,如今可缩短为几天;成本挑战:过去,成本和算力难以兼得,自建超算中心往往 CAPEX 不低,且后续运维成本 OPEX 更大,难以实现。阿里云大计算加速 HPC 与 AI 融合 9 借助云平台,科学家和科研人员能够专心于自己专业内的工作,聚焦于应用。而应用这一层,科研人员将它作为软件放至云上,让更多的科研人员实现科研合作和服务共享。阿里云最基本的能力是提供弹性的伸缩算力,

7、在此之上,高性能计算最核心的部分是与伸缩算力耦合的并行作业调度,还需要支持 AI Framework。用户如果有自己的计算资源,可以通过混合调度在云上利用原有的计算资源。大部分科研人员对本地环境最熟悉,需要将它们的能力迁移至云上。此外,生命科学领域非常依赖于全世界的 NH 数据库,且需要高速互联,也可以通过阿里云的高速来实现。HPC 应用是 Data go to compute,但 AI 是分布式、数量极大的 compute go to data计算模式,有自己的生态,如何对两者进行结合?中国的软件公司依然不够发达,新产品、新发现难以在短时间内为人所知,受限于盗版问题和推广问题。但在云上可以实

8、现 SaaS 化,通过 OpenAPI 将产品变为云上的服务。高性能计算里有两个很大的领域需要无限的算力,分别是地球物理气象和生命科学。这就需要基于神龙的弹性裸金属超级计算集群 SCC 来提供了低延迟网络和并行文件系统的高性能集群。阿里云大计算加速 HPC 与 AI 融合 10 通过高性能计算推动实现了阿里云 CPFS 并行文件系统,提供了云上大数据类型的HDFS 分布式存储,能够实现了大批量并行吞吐的需求。通过阿里提供的“无影”,可以访问任何端和云上的计算资源,包括但不限于 PC、手机、屏幕等,可以将公共云的操作、应用入口以及背后的集群资源管理整合在一处。一方面可以作为虚拟的桌面,另一方面也

9、可以作为应用入口。阿里云大计算加速 HPC 与 AI 融合 11 我们打通了云上云下,云下可以通过专线连至云上,头节点在线下,然后在云上安装 E-HPC agent 即可通过 job scheduler 调度资源。大部分情况下,任务数据需要进行两边的传输,因此可以充分利用线上线下的高峰低谷。此外,NAS 异步存储的数据可以在作业执行时从线下拉取,这在高通量计算场景下非常必要。另外,也可以将计算的管理埋在头节点,即使用 E-HPC 作为管控,自己的管控通过在云下接收 agent 进行计算来实现。阿里云大计算加速 HPC 与 AI 融合 12 E-HPC+AI 是当前的热门趋势。各种 AI fra

10、mework 最初的目的不是为了解决科学机理性的问题,而是为了解决搜索、推广、广告等与群体思维有关但缺乏机理模型的问题。而如今,我们将高性能计算容器做成镜像,在部署和计算过程中快速展开,使其也能用于科学研究,比如在拥有大量数据的情况下,将人的经验作为模型注入AI,然后通过机器将问题空间降低。此外,为了方便科研人员的使用,我们增加了 E-HPC 用户入口,整个开发和业务流程都可以从用户视角进行查看。阿里云大计算加速 HPC 与 AI 融合 13 平台集成了众多可视化软件,科研人员可以通过客户端(无影+Win&Mac)直接进入,底层提供了所有服务。无影是软件定义的云原生电脑,相当于一个入口,它可以

11、是任何设备或屏幕。云上数据中心的规模远小于端的规模,而端侧受限于 CPU 的能力往往无法实现太多能力。但是如果通过 VID 或自己的协议,能够将云上的可视化部分利用起来,则可以实现非常多的访问。阿里云大计算加速 HPC 与 AI 融合 14 过去传统的计算结构的交互为显示器、键盘鼠标、打印机等与一台计算存储网络。而未来,只需要通过无影,它可能是一个盒子,可能是一个电脑上的应用入口,即可访问所有云上的可视化软件以及计算资源。无影很可能成为将来元宇宙的入口,因为所有 GPU、DPU、XPU 将来都是通过服务的模式进入数字世界。此外,用户完全可以控制信息不被泄露。过去,我们通过一台全功能的机器上网,

12、病毒可以通过机器入侵电脑。而无影可以配置为是单向的,避免了病毒入侵。阿里云大计算加速 HPC 与 AI 融合 15 无影可以作为云产品放在任何机器上,比如过时的手机,随时随地用云电脑办公。如今很多科研产品是软件,需要更多地服务广大科研工作者。而在自己的机器安装和使用,运维和 OPEX 都非常高,也难以调用更多资源。因此,我们推出了计算巢,可以通过它快速将云计算本身的运维、资源调度、资源计费等所有资源管理透明地开放给用户,用户只需考虑安装类工作,剩下的都可以交由计算巢来完成。阿里云大计算加速 HPC 与 AI 融合 16 阿里云今天发布生命科学行业云上解决方案与最佳实践白皮书,主要包含三部分:云

13、能解决生命科学领域的哪些问题、五大解决方案以及三大最佳实践。高性能计算本质上希望能够帮助科研人员将精力集中于专业领域,而无需耗费精力在处理器结构等非专业领域的问题上。E-HPC 与 MemVerge 的集成解决方案主要助力于 HPC 基因测序及芯片设计大内存算例的性能优化,可以将常规内存与持久性内存全部虚拟化成一个大池,根据具体需求进行伸缩。阿里云大计算加速 HPC 与 AI 融合 17 GHDDI 在新冠期间研发作业量大增,面临资源紧急需求,需要快速启用一批计算资源支撑新冠病毒分析、病理分析等业务,同时 GHDDI 是一家全球化的研究机构,需要打通国内海外数据,完成全球合作研究。比如会有 w

14、eb service,需要通过 OSS将数据拉上来,另外需要能够实现异步的数据拉取以及异步缓存。我们为其提供的解决方案如下:利用 AutoDock Vina/NAMD/AI 技术通过 docking 和分子动力学模拟进行药物筛选,并将计算成果直接通过阿里云对外公布和共享;E-HPC:创建 HPC 应用运行环境;NAS:提供数据存储;ECS/EGS:提供计算能力&wiki 服务;8 台 8 卡 A100 算力支撑;OSS+EIP:计算成果存储和对外共享。药物研究企业的需求往往是低成本、弹性伸缩,能够很清楚地跟踪每一个 workload。我们针对某药企的需求,开发了抢占式实例,抢占到实例后存在限定

15、的时间,超时后不做任何清理则对资源进行释放,极大降低了成本。阿里云大计算加速 HPC 与 AI 融合 18 逆转录的研究需要将数据库与海外的数据库通过阿里的高速网络打通,实现异步复制和高通量的计算。通过多 CPU 并行利用 AlphaFold2 可以预测单链结构模板。我们希望能够在云上开放 AlphaFold2 服务,为院校的日常课程、培训提供更大的支持。阿里云大计算加速 HPC 与 AI 融合 19 科研类单位、制药企业的业务存在极大的随机性,因此对于资源的利用率需要更精细化的管理。阿里云高性能计算的目标是为科研行业提供更高的算力和更高的资源利用率,服务更多科研人员,让科学家们将更多的精力投

16、入于专业领域当中,为科研行业助力!多元科学计算系统在药物研发管线中的搭建与实践 20 多元科学计算系统在药物研发管线中的搭建与实践 作者:郭晋疆,全球健康药物研发中心数据科学部负责人 摘要:2022 年 8 月 5 日,2022 阿里云生命科学与智能计算峰会在北京望京昆泰酒店举行,全球健康药物研发中心数据科学部负责人郭晋疆博士,带来了题为多元科学计算系统在药物研发管线中的搭建与实践的分享,以下是他的演讲内容整理,供阅览。全球健康药物研发中心数据科学部负责人郭晋疆 一、科学计算驱动药物研发的趋势 下图摘自 2022 年初的 Nature Reviews,可以看到以科学计算或人工智能驱动的药物研发

17、项目由 2010 年的 6 个增至 2021 年的 158 个,11 年增长超 28 倍。而传统药物研发项目从 705 个降至 333 个,虽然它依然是主要的药物研发模式,但已呈现下降趋势。多元科学计算系统在药物研发管线中的搭建与实践 21 传统药物研发管线需要涉及大量湿实验环节,且多数基于科学家的个人经验和实验结果来进行优化,优化路径长,研发成本高昂,周期也长。与之形成对比的是以计算驱动的药物研发管线,它是一种干湿结合的形式,减少了湿实验环节。并且很多数据驱动的方法学习了历史或全球范围内的实验数据,在优化化合物时更倾向于全局的优化,优化过程更快,成本更低,迭代速度也更快。多元科学计算系统在药

18、物研发管线中的搭建与实践 22 上图为全球 24 家以科学计算/AI 驱动的生物制药公司在研药物情况,其中有 15 款计算驱动的药物已经进入临床实验阶段。相信在不久的将来,会有更多计算驱动的药物成功上市,惠及更多病患。二、药物研发管线不同阶段的特质与问题 全球健康药物研发中心作为创新型的小分子药物研发机构,也在使用多种计算方法解决药物研发早期阶段不同的问题。药物研发早期阶段的一般流程如下:Stage1:疾病生物学,即疾病的确立;疾病可以粗略地分为外源性疾病和内源性疾病,其中外源性疾病指外来生物体或非生物体侵入人体造成的一些组织性病变,比如有害微生物、病菌、病毒、疟原虫或粉尘等非生物体;内源性疾

19、病指人体基因变异或机能失调造成的组织性病变,比如各类肿瘤、心脑血管疾病、慢性病和罕见病。多元科学计算系统在药物研发管线中的搭建与实践 23 全球健康药物研发中心聚焦于全球健康的公共领域,我们不仅关注外源性的传染性疾病比如结核病、冠状病毒、疟疾和寄生虫感染,也关注内源性疾病,比如一些肠道类疾病 EED 等。Stage2:靶标确立与验证,即与疾病强相关的蛋白或生物标记物;此阶段会面临纷繁多样的异质化数据,研究人员需要分析疾病机制、疾病在生物网络通路中的表现,也会包含一些基因变异以及表达等多组学信息。Stage3:苗头化合物确立,筛选或设计能够与蛋白产生相互作用的分子,即苗头化合物;目标是一方面在分

20、子化合库中筛选可能产生活性的小分子,另一方面也需要设计创新型的活性分子。该阶段存在并可以获得大量实体或虚拟的化合物库数据,数量可达亿级,例如 Chemdiv,Zinc 等。但是针对靶标蛋白的活性化合物分子比较稀少,尤其是一些罕见性疾病或人类不是特别关注的疾病。Stage4:苗头先导化合物优化;Stage5:临床前候选药物。多元科学计算系统在药物研发管线中的搭建与实践 24 此两阶段需要考量的不仅仅是化合物与靶标蛋白的相互作用,也要综合药代动力学、合成工艺、可成药性,如分布代谢、毒理等,在平衡各项性质之后,优化设计出一种真正有效且安全的药物。这是一个综合优化的过程,涉及到大量 ADMET 数据的

21、收集以及训练建模。与此同时,也会有少量研发管线项目的实验数据。三、多元科学计算系统的构建 疾病的选择到靶标确立阶段,数据纷繁多样且异质化。针对内源性疾病,通常会进行多组学的分析。通过分析正常人和病患的代谢组学、基因组学或蛋白组学等多组学信息,找到与疾病强相关的 Hub 基因/蛋白或关键基因/蛋白,作为靶标的候选。得到蛋白序列之后,使用结构预测模型预测其 3D 结构。结构预测模型中,Alphafold 是近年的创新型深度学习方法,还有此前的传统机器学习、物理建模等方法也可以得到候选靶标结构。针对外源性疾病:可以通过分析人体免疫机制,比如融合机制来研究人体的多组学信息,找到人的关键性靶标;也可以直

22、接分析菌落的多组学情况,确定关键通路中的蛋白作为靶标的候选;多元科学计算系统在药物研发管线中的搭建与实践 25 对于一些相对比较简单的病原体,例如病毒,可以直接获取它在侵入人体融合或转录过程中的蛋白序列,进行所有相关蛋白结构预测并提供给生物学家或化学家分析,用于确定靶标。结构生物学将需要确定的蛋白的真实结构进行解析、并对预测的 3D 结构验证与校准,以便后续阶段的分析与预测。确定靶点蛋白后,接下来需要在靶点上找到可能的与分子结合的口袋,结合口袋指分子化合物可以与之产生相互作用的结合位点。通过计算来判断化合物能否与靶标产生相互作用,即是否有潜在活性,主要有两大类计算方法:使用分子力学或量子力学等

23、物理学模拟的方法;使用机器学习或深度学习的方法。利用这两类方法在已知/虚拟生成化合物库中虚拟筛选出与靶标相互作用可能性较高的化合物,作为候选苗头化合物。多元科学计算系统在药物研发管线中的搭建与实践 26 除了使用虚拟筛选化合物库的方式,越来越多的研究人员试图采用端到端的方式从口袋理化性质直接设计苗头化合物,这样可以跳过物理模拟或机器学习虚拟筛选化合物库的部分,用 AI 直接生成有潜在活性的苗头化合物,相信这也会成为未来的重点研究方向之一。获取到候选苗头化合物之后,将由生物、化学方面的专家进行湿实验验证或者结构生物学进行化合物靶点共晶结构的解析验证,确认其是否符合预测的结果,并用于下阶段的化合物

24、优化。对物理模拟与机器学习方法进行比较,物理模拟是目前很多药企较常使用的一类方方法,其优势在于 MD 对接姿态估计较为精确,FEP+亲和力预测较准确。且采用 3D建模,可以直观地看到小分子和口袋的结合情况,可解释性也较强;而劣势在于需要的算力非常高,有弹性超算的需求。此外,它基于物理假设,能够适用的范围较窄,无法应对一些复杂的机制,比如多靶点或蛋白变构现象的预测,或更高层级的比如化合物在细胞、类器官或人体组织层级的性质预测等。机器学习方法主要通过已知数据训练优化给定数学模型的参数,因而经过数据训练产生的模型大小是固定的,可用模型快速筛选超大型的化合物库。其次,它基于经 多元科学计算系统在药物研

25、发管线中的搭建与实践 27 验数据或实验数据,不依赖于物理假设,能够应对复杂机制或更高层级的性质进行数学建模和预测;其劣势在于它很大程度上依赖于数据的质量以及数据空间的分布情况。数据储量大质量高,则机器学习或深度学习的表现好,反之则可能表现较差。此外,其泛化能力也非常受限于它能够看到的数据空间,而且机器学习是一种黑箱方法,科学家很难明确其判断依据。以虚拟筛选 100 万个小分子化合物为例,使用物理模拟方法 docking 大概需要148,600 秒,而在 v100 的 GPU 上使用深度学习方法只需 107 秒,速度相差 1000多倍。另外,通过精度更高的分子动力学方法在机器上模拟一个化合物与

26、靶标蛋白位点的结合,在 6 万-9 万原子体系中模拟 200 纳秒时长,在 v100 的 GPU 上大概需要86,400 秒,由此可见基于物理模拟的方法要求很高的算力。在早期苗头化合物的发现和确立过程中,研究人员通常能够获得针对靶点的实验数据非常少。如果直接用这些数据来做深度学习算法的建模,机器只能看到非常有限的化学空间,训练出的模型的泛化能力与预测鲁棒性较差,因此我们采用了主动学习的方式,使用专家经验或一些物理函数校准 AI 模型,不停地增广训练集,迭代几轮之后模型即可投入使用。多元科学计算系统在药物研发管线中的搭建与实践 28 此外,由于很多 AI 模型本身是黑箱模型,生物学家或化学家可能

27、无法完全信任它给出的结果。为此我们自研了基于 self-attention 机制的深度学习算法 Ligandformer,模型能够在给出化合物的性质或活性预测分值的同时,也会给出分子片段对活性/性质的贡献解释,供科研人员参考和借鉴。从苗头化合物到先导化合物,再到临床前的候选药物过程中,需要将苗头化合物进行一系列优化改造。优化过程中,计算层面一般流程是采用大数据对不同性质的模型进行预训练,得到 pretrained model,并通过实际研发管线中的实验数据对pretrained model 进行微调,然后用微调后的模型大批量筛选各种改造的先导化合物结构。最终在平衡多种性质之后,得到候选药物列表

28、,提供给生物学家或化学家参考选择并进行下一步的湿实验验证。多元科学计算系统在药物研发管线中的搭建与实践 29 上图可见,计算过程贯穿整个药物研发的早期阶段。四、多元科学计算系统 E-HPC 平台实践 2020 年新冠肺炎爆发初期,阿里云团队与我们合作搭建了抗击新冠肺炎的公共信息平台,搜罗来自全球信息源的关于病毒研究。与此同时,我们也搭建了预测性的服务平台,这是在超算平台上搭建的对外服务,免费开放给科学家们使用。目前已对服务进行升级和优化,在 20 余个内外部合作项目中广泛使用。多元科学计算系统在药物研发管线中的搭建与实践 30 此外,我们收集整理了大量来自全世界商业和非商业数据库的数据,建立了

29、可视化结构性质数据分析工具,帮助科学家更好地进行研究。在此前的一次苗头化合物发现的项目中,当时我们需要将 PubChem40 万化合物库的化学空间较好地进行表征与筛选。我们使用主动学习策略训练深度学习模型并筛选化合物库,在主动学习进行 5 轮迭代后,错误率由最初的 7.98%下降到了不足万分之一。与此同时,依靠专家经验不停地增广训练数据样本,训练数据样本仅增加了 1500 余个。总共 2800 多个的训练数据量并不是很大,但它使得机器学习模型表现出比较强的辨别能力,可以辨别 40 万化合物库中化学空间的情况。同时,我们对项目中 37 个实验数据进行回溯性验证。从最初的模型到第五个模型,准确率由

30、 75%提升至 86%。多元科学计算系统在药物研发管线中的搭建与实践 31 我们与北京协和医院进行了罕见病相关研究工作,使用了内部自研的生物信息网络相互作用关系算法来重新校准蛋白蛋白相互作用网络。通过校准后的网络再综合生物信息统计学方法找到了 ATTR 罕见病的新药物,与此同时也重新定位到了一款淋巴性白血病的药物。这项工作已被某医学期刊收录。总的来说,基于分子力学的方法主要应用于已知靶点或需要确定靶点的任务上,比如早期的靶点确立、苗头化合物确立与苗头先导化合物优化阶段;基于机器学习/深度学习的方法可以应用于苗头化合物确立、苗头先导化合物优化阶段以及临床前候选药物优化阶段,除此之外还可应用于未知

31、靶点的场景,比如只有一些表型数 多元科学计算系统在药物研发管线中的搭建与实践 32 据需要通过数据驱动建模,比如药物研发后期对细胞、组织类器官或人体层级性质的预测、可成药性分析等。五、挑战与机遇 未来,我们将在以下几个方面进行深入研究:第一,复杂治病机制和靶点研究 比如细菌的耐药性研究、蛋白变构现象的预测等;第二,靶点活性位点的突变预测 比如冠状病毒会持续变异,药物在变异的位点的有效性,可以通过计算分析判断;第三,创新药物的分子设计 越来越多的研究人员聚焦在基于蛋白靶点口袋的活性分子进行生成和设计,同样也可以基于表型数据端到端地生成和设计分子化合物。多元科学计算系统在药物研发管线中的搭建与实践

32、 33 那么,如何解决或突破问题?首先,数据必不可少。除了分子化合物的理化性质的数据以外,可以将更多的横向数据比如生物信息网络或通路中的网络信息数据融合进来,也可以将更低层级的数据比如电子云密度数据融合进来。而庞杂、多元化、异质化的数据需要强有力的算法能够融合不同层级、不同尺度的数据,并且能够在数据上提取出模式特征做最终任务的预测。而这一切必然离不开超算平台,因此我们对于超算平台的需求也逐渐增大,我们需要有更大规模的数据承载以及处理能力,需要有更快的速度与进度。相信结合数据、算法和超算平台的通力合作,再加上跨专业、跨行业领域人才的共同努力下,药物研究行业即将取得更大的突破。AI+分子模拟,赋能

33、药物发现新源头 34 AI+分子模拟,赋能药物发现新源头 作者:张林峰,深势科技创始人&首席科学家、北京科学智能研究院研究员 摘要:2022 年 8 月 5 日,2022 阿里云生命科学与智能计算峰会在北京望京昆泰酒店举行,深势科技创始人&首席科学家、北京科学智能研究院研究员张林峰,带来了题为AI+分子模拟,赋能药物发现新源头的分享,以下是他的演讲内容整理,供阅览。深势科技创始人&首席科学家、北京科学智能研究院研究员张林峰 一、当 AI 能力深入流向千行百业 AI 带给我们的能力,不只是处理大规模的生活数据,也包括科学数据,其本质是表达高维复杂的函数,能够让我们更好地利用科学规律,利用量子力学

34、方程、分子力学方程,能够更高效、更准确地求解物理方程做模拟。比如在药物或材料的设计过程中,在制造飞机、大坝、桥梁等大型工程的过程中,可以先进行计算模拟,在计算机仿真过程中确保没问题再真正进行实验和实体的设计。AI+分子模拟,赋能药物发现新源头 35 而这一系列新技术的突破,将为微观世界工业化的设计和生产带来新的突破。这样一个底层范式驱动的一系列微观世界计算与设计新工具,将为药物研发、材料研发以及很多行业的方方面面带来更多不同。当今计算生物或药物设计、材料设计、化工设计等场景中,往往期望用计算模拟解决一些问题,但是实现起来非常困难。原因在于解决这些问题的本质,需要有效地描述微观粒子之间的复杂多体

35、作用,最终对应的是求解一些高维复杂的微分方程。而这些方程可能在 100 多年前就已经存在,但一直以来都缺乏有效的计算工具和算法工具来克服维数灾难。维数灾难指求解已经熟知的方程所需要的计算复杂度指数依赖于输入的个数。比如蛋白质体系的输入为几十万起步,而计算的算力需求指数依赖于输入,这也意味着完全不可解。因此我们真正利用计算仿真做进一步计算的时候,需要引入大量的人为近似和人为建模。建模过程使得仿真的精度难以达到现实的需求,这是长期以来我们面临的最大难题。而 AI 的作用是有效地表示电子、分子、原子的相互作用,从而能够克服维数灾难,更高效、更准确地进行模拟,使模拟的准确性能够符合现实要求,能够真正指

36、导实验。AI for Industry 是将行业发展积累下来的海量数据进行直接的模型训练,并期待它能够解决实际问题。但此处存在数据稀缺的问题,很多行业的数据往往具有一些不利于 AI 使用的特点,比如数据样本量非常少,比如数据 label 非常杂,比如数据里的信息与目标之间的依赖关系非常复杂。而 AI for Science 带来的机会远不只是对科学数据的直接拟合。科学行业的发展是将科学原理表述为熟知的一系列物理定律和科学方程,AI 能够带来的可能性是学习一些科学原理或物理模型,从而有效地求解物理方程,进一步可用于解决实际问题,能够克服很多数据稀缺导致的问题。在生物医药行业,往往越有价值的靶点、

37、体系,其数据的稀缺程度越高。因此,计算模拟能够带来很多新的可能性,而 AI 则能够让计算模拟变得更快、更准。AI+分子模拟,赋能药物发现新源头 36 二、生物医药拥抱 AI,为领域创造更多可能 基于 AI 为科学应用尤其药物设计领域带来的能力,也逐步发展出了一系列新工具。药物研发需要的并不是一两个核心的计算工具或一两个重磅功能,而是一个解决方案体系。同时通过不断地迭代,才能真正形成面向行业的可落地解决方案。蛋白结构预测是药物研究领域的常见场景。目前在药物设计领域,一些较为少见的比如 RNA 相关的药物研发等数据丰富程度不高,因而模型效果不够好。一方面,我们需要持续地改进模型,另一方面也需要一些

38、解决方案能够更好地将实际的模拟以及实验相结合。Uni-Fold 重现了整个蛋白结构预测从 training 到 prediction 到产品化的过程,并在某些 metric 之下取得了更好的成果。此外,我们已经将聚合物、很多复杂情况下所需要的训练代码以及需要的数据和相应的模型都已释放到开源社区,期望进一步地推动药物研究领域的发展。此外,位点也是药物设计比较关心的维度。尽管整体从 AI 模型预测得到的结果已经非常不错,但是一些局部依然存在一些不足。因此需要结合模拟的手段来进一步refine,而模拟最常面临的问题是时间尺度。蛋白的大的构象变化往往需要很长的模拟时间,因此我们通过 RiD 方法,用神

39、经网络表示高维的集合变量所对应的自由能,然后用自由能来加速模拟,再结合 AI 的预测,可以进一步对蛋白的构象进行 refine 并得到更好的结构。药物设计很多情况下需要考虑别构,AI 的模型预测能够为我们提供正构的构象,而我们还需要增强的采样来帮助发现别构的位点。比如在某个案例中,别构的位点位于左下角。而传统的模拟手段由于 barrier 非常高,因此在比如 50 个纳秒的模拟时间里,大多时候体系的 confirmation 卡在正构的位点下。但是结合 AI 的增强采样,能够很快大范围采集到体系的别构位点。在药物研发的案例中,我们发现体系正构位点下有共价结合的药物,但共价药物往往选择性比较差,

40、因为它比较活泼,经常容易位移到不同类型的其他不相关位点上。AI+分子模拟,赋能药物发现新源头 37 针对该问题,我们找到了比较合适的别构位点,并且针对别构位点进行非共价的药物设计,活性更强。以上实现同样需要有效地结合 AI 的结构预测以及进一步增强采样的模拟。冷冻电镜结构的解析除了 AI 的模型结合之外,与模拟手段相结合也非常关键。比如给定电镜密度图,它对于最后确定蛋白体系的结构而言,就是一个电子的 constrain。再结合模拟达到的效果,该体系即可很好地贴合到密度图的 constrain。直接的 Uni-Fold 结构预测是结构确定的 initial condition,再结合实验数据,最

41、终得到的constrain 下的 MD 能够带给我们最理想的结构。确定结构和靶点之后,需要大规模的虚拟筛选。Docking 方案在过去的十几年前被众多领域频繁使用。但在如今在高性能的计算背景之下,需要对它进行极致的优化将所有部分都搬到 GPU 上。利用 GPU 的特点对 docking 构象进行 global 搜索,加上局域的优化,可以进行进一步调整,比如 global 的探索参数可以更大,局域的优化可以更并行。经过一系列针对 GPU 特点的优化,同样精度下的性能得到了巨大提升。并行调度100 卡 NVDIA V100 GPU 情况下,完成 38million 分子数据库的多级分子对接仅需11

42、.3 小时。血脑屏障等类型的疾病需要的分子比较小。而对于一些特定的疾病类型,分子的可能性已经无需尝试,基本可以枚举地做筛选,这也是极致算力和相应算法的结合带来的新的可能。完成大规模的筛选以及活性的确认后,需要对药物进行进一步改造,以使其符合ADME/T 等方面的优化需求,同时需要保持其活性。Uni-FEP 的解决方案能够为药物变化前后结合自由能的改变做定量计算。该计算能力目前已经能够达到化学精度以内的标准,因此大幅节约了合成分子所需的实验成本和时间成本。三、AI+算力场景需求叠加,上云是大势所趋 AI+分子模拟,赋能药物发现新源头 38 药物研发的各个环节已经形成了一整套的计算解决方案。计算的

43、解决方案随着应用场景的深入,会出现很多复杂场景,而场景的复杂度使得解决方案最后的工业化程度上有了新要求。与此同时,算力的基础设施在快速变化,底层的性能特点、是否选择性能优化、是否选择迁移等,在大规模需求之下也会是成本上非常重要的考虑。基于一些解决方案,药物研发领域形成了 pipeline,它是从结构到动力学、药物的发现、高效关系的建立等一系列环节上形成的计算解决方案。其逻辑也非常简单,主要分为 data driven 和 simulation driven。一系列解决方案都有高弹性的需求。在高弹性的基础之上,不同的方案对于数据的使用需求非常不一样。比如大部分时候模拟需要的是高算力,而冷冻电镜的

44、数据非常大,这样的灵活性和弹性是过去的计算解决方案难以实现的。因此,上云是大势所趋。随着深度的业务发展,比如客户使用深势科技的药物研发平台时,私有化的需求非常典型且极具规模。而结合计算巢的方案,使得用户能够更加聚焦于业务需要的软件解决方案,而将私有化部署等交给云来实现。算力和数据算法的发展催生了 AI,而伴随着 AI 的逐步发展,它需要能够真正有效地利用物理规律带来更多来自底层的可能性。以上就是我今天的分享,谢谢大家。AI 制药工业落地的痛点与前进方向 39 AI 制药工业落地的痛点与前进方向 作者:Dr.Lurong Pan 潘麓蓉,Ainnocence 圆壹智慧 Founder&CEO 摘

45、要:2022 年 8 月 5 日,2022 阿里云生命科学与智能计算峰会在北京望京昆泰酒店举行,圆壹智慧创始人兼首席执行官潘麓蓉博士,带来了题为 The Challenges and Future Directions of AI in pharmaceutical industry的分享,以下是她的演讲内容整理,供阅览。圆壹智慧创始人兼 CEO 潘麓蓉 美国 NIH 的 4D map 是全球制药行业的行业金标准。以小分子为例,从靶点的识别到先导化合物的发现、优化,从 early discovery 到 development 再到最终的 clinical trial,中间的每一步都已经有非常

46、成熟的方法论、实验平台、理论指导以及监管标准。AI 制药工业落地的痛点与前进方向 40 然而,该系统的数字化程度非常低,制药行业也是所有行业中数字化程度相对较低的行业。转化医学、生物标志化合物相关的数据、临床数据、监管数据、医保数据以及临床采样和体外采样的信号数据,都需要有不同的机构和科研人员负责。基于此,制药工业想要在系统上提效,只有两个方法:第一,将整个系统进行重新定义;第二,从过去的历史数据中去掉杂音、找到信号,并用最先进的方法论取代过时的方法论。AI 制药工业落地的痛点与前进方向 41 上图为药筛流程。从第一步到最后一步需要进行的实验数量决定了最终的系统效率。传统流程基本需要从 2 万

47、个分子筛至一个分子,盲筛则基本需要 200 万个分子作为起点。而如果能实现以 100 个分子作为起点,则整个行业的投入和耗时将得到 80%以上的节省。以上筛选流程已经沿用多年,但过去 10 年的投入产出比在逐年下降。因此我们需要考虑:如何突破现有的筛选流程?能否通过 AI 帮助提升效率?严格意义上来说,AI 并不是一种工具,因为工具需要人来使用,而 AI 可以进行自优化,不需要人类帮助也能实现目的。在 AI 的学科定义里,它需要具备像人一样的思考和行为能力,最后还需经过图灵测试等方式的确认。但将 AI 应用于制药行业,最大的难点在于如何为 AI 定义目标。比如制药问题上,目标可以是优化选择性,

48、也可以是优化整体的体内药效,还可以是优化最终的适用病人群体。如果给予 AI 足够的数据,实际上它可以通过自己的办法实现目标。因此,人需要做两件事:首先,明确目标;其次,明确需要喂给 AI 什么样的数据和规则。最终由 AI 负责实现目标。AI 制药工业落地的痛点与前进方向 42 人工智能本身是一个交叉学科,而制药也是涉及到生物化学、细胞生物学、生理学等多维度信息的学科。如何将众多庞大的学科体系进行高效地融合,是我们面临的最大挑战。上图涵盖的数据基本涵盖了制药行业所有计算的输入。QM(量子力学)DFT(Density Functional Theory,密度泛函理论)、Molecular Mech

49、anics(分子力学)和 Molecular dynamics(分子动力学)是纯物理的方法,DFT 和 Molecular Mechanics 里也存在一些实验参数用于进行校准,而 QM 完全只取决于输入的分子的原子组成。他们在不同的精度进行计算,但精度和准度是完全两个不同的统计学参数,我们不一定需要最高的精度,但是需要最高的准确度,这样对于下一步的判断才能更完整。而此前的方法论或多或少存在局限。比如 QM 计算的是电子精度,只能在材料和一些小型溶液化学体系里进行计算。想要扩到生物体,则需要做更多的近似和牺牲一定的精度,因此有了 DFT 方法。分子动力学方法相当于借用一些经典力学和经验参数,模

50、拟量子力学的输出,可以将计算尺度拉到单蛋白的程度,精度从电子省略到了原子。AI 制药工业落地的痛点与前进方向 43 但是,后续需要对蛋白之间的相互作用进行计算,以及更高的体系比如细胞里有4200 万个蛋白,如果使用 MD 进行计算,则全世界的计算机加起来都无法实现。人体需要计算生理学的结果,如果从原子开始,需要进行 4200 万*30 万亿的计算才能真正从分子层面映射到人体。受限于计算能力,从分子动力学之后,基于原子为单位对生物学的模拟随即陷入困境,且不论基于原子为基础的 3D 结构本身解析的精准程度。而随着信息学的介入,我们又看到了希望的曙光。信息学是基于信号的读取,信号可以分为两层:一层是

51、分子本质的信号,比如蛋白质、DNA、小分子等都是序列,序列是确定的、没有任何噪音的;另一层是宏观层面,将分子放到体系里,可以观测到电信号、荧光信号得到各种对生物事件间接的理解。得益于信息学的手段,过去 40 年前,化学信息学和生物信息学得到了长足发展。在此之前,我们只能用一些简单的统计学方法来实现从微观到宏观的映射。而此后的多组学能够将所有物种的 DNA 进行解析,得到多层面的数据。QM 的计算复杂度大约为 O(N)4-O(N)7,N 为电子最大的体系约几百个原子;Molecular Mechanics 的计算复杂度降至 23,最大的体系约 100 万个原子,即接近一个单病毒。但是计算复杂度再

52、统计学或机器学习的预测场景下接近于线性,因此相当于又将计算效率节省了 106-107 倍。当前深度学习大行其道,根本原因是我们无法通过物理学模型计算更大的生物体系,需要通过历史数据的学习来换取产生这一部分数据层投入的算力和实验资源。DNA 是静态的,因为 DNA 的序列一般不会有太多变化。而生物是动态的,RNA、蛋白质和代谢的测量会伴随人的年纪、饮食、身体状况而动态变化。此外,当前对生命的过程模拟,从单原子角度而言大概只能达到微秒级,酶反应也大约为微秒到毫秒级,因此无法实现真正的过程模拟。而借助信息学,我们可以实现端到端的黑盒子模拟,即端到端模拟。AI 制药工业落地的痛点与前进方向 44 物理

53、学家不断地简化物理公式和计算复杂度,使得最小的药物分子到体系观、不同的理论基础都可以从物理层面进行模拟。但这也意味着需要重新计算实验条件,重新发展单独的工具和物理范式,而这是一种比较笨拙的方法。我们期望能够找到精度可调、通用的模型,可以用同一个模型来解决所有问题。深度学习就是我们的第一次尝试。只需要每个维度的数据足够多,即可用黑盒子来预测每个维度的问题,不需要考虑底层的物理原理。深度学习也在过去的实践中被证明非常有效,但它依然不是最完美的,因为它对数据过于依赖。我们更期望的完美方式是找到一个通用型的、动态的、跨多尺度的数学公式,能够从根本上观察生物学,并且不依赖任何数据。AI 制药工业落地的痛

54、点与前进方向 45 上图为具体的数据公式。传统的一个小分子在 QM 计算一个 GPU 大概花费几个小时至几天(取决于具体任务),FEP 大概为一天,Docking 为几分钟。而机器学习场景下,在一个 CPU 上计算几千到几百万分子只需一分钟。上图为阿里云上测试的若干算力。AI 制药工业落地的痛点与前进方向 46 QM 计算几个氨基酸的互相作用,一个 CPU 大概需花费半小时。MD 预测大型的膜蛋白每纳秒的行为需几个小时,而微秒或毫秒级所需时间则需乘以 103 或 106。深度学习模型经过训练,预测所需时间更短,一个小时即可实现百万级的筛选。机器学习已经广泛应用于制药领域,比如蛋白质的结构预测、

55、功能预测、基因编辑、系统生物学以及更大生理性多组学等。而最终的瓶颈在于对生物大数据的理解和清洗。AI 制药工业落地的痛点与前进方向 47 药物领域的 AI 发展主要分为上图四个阶段,到目前已经拥有完善的数据驱动方法。一直以来,我们都希望能够将整个流程里的所有数据全部打通,得到最高效的方法。那么,从学科层面还值得继续突破的方面有哪些?我们利用 AI,并不是只希望它做得更快,而是希望它做得更好,能实现一些人类无法突破的挑战。AI 能超越人的两个方面在于:AI 制药工业落地的痛点与前进方向 48 第一,它不需要休息,而且可以有几千个 AI agent 同时做一项工作,这是能力上的突破;第二,AI 对

56、于世界的认知是多维的,人只能从 3D 维度以及时间维度来认知世界,而 AI 可以在几千个维度或一维、零维这样人类无法认知的维度下认识世界,然后获得更好的答案。制药领域存在一个很有意思的现象:二维的认知与一维的认知完全相反。如上图,PK 是影响生理指标的重要因素,不同情况下它会存在巨大反差,从人的角度看它们可能非常相似,但 AI 可以从二维以外的一些维度识别到更大的区别。此外,专家进行优化,往往一次只能在一个维度上优化一个问题,因此一个项目会产生无限多的迭代。而如果采取人工智能最典型的 Multi-objective optimization 多目标优化方式,可以一次从多个维度实现多种优化。在过

57、去的实践中我们已经验证,使用 AI 比如在 30 个维度里同时打分再做实验相较于人工思考再做实验的命中率要高很多。因此我们也坚信,在此领域,AI 能够比专家做得更好。AI 制药工业落地的痛点与前进方向 49 新项目一般从表型筛选开始,从表型直接预测潜在的假设,将涉及到黑盒子问题,而这正是 AI 擅长之处。过去大部分原创新药都属于 Phenotypic Screening,而大部分 Follower drug 属于 Target-based Screening。AI Phenotype Screening 已经进行非常多尝试,比如我们过去在 GHDDI 曾对 3000个 cell based a

58、ssay 逐一进行了 AI 模型的建立,然后进行 retrospective 和prospective 两种大规模验证,最终发现过去 30 年的数据里,只有 5%的数据能够基本接近真实的 cell-based 结果。但这已经是一个不错的结果,至少证明了该数字保持着增长的趋势。AI 制药工业落地的痛点与前进方向 50 合成问题一直是小分子药物的瓶颈。而 Science 杂志的上海品茶相关的文章表明:AI passed the Turing test,意味着天然产物的全合成路径都已可预测。只是合成问题的瓶颈并不在于路线预测,而在于反应条件预测。AlphaFold 饱受关注,它被认为是划时代的壮举。但我们需要

59、先确认三个问题:第一,制药领域是否需要知道结构?正常的 Biology discovery 可以直接在细胞上筛选或直接纯化蛋白筛。已知的只是序列和 binding affinity,不需要过程模拟,但过程模拟的好处在于可以对一些关键位点进行改造;第二,AlphaFold 预测的结果和传统的同源建模相比,传统的同源建模在有已知模板的情况下表现更好。其中涉及 AlphaFold 里深层次算法的 flow 使用了Multisequence alignment,是借用其他所有物种的所有蛋白质 family 的信息去预测高等生物的信息,而这在很多核心区域会出现问题。如果是传统的同源建模一般是更接近的物种

60、或者同一物种的同一个蛋白组族,在已知的模型上即可直接预测,因此在真实的制药过程中,传统的同源建模置信度更高。而针对没有模板的蛋白,则需要采取其他办法;AI 制药工业落地的痛点与前进方向 51 第三,我们采取的办法是直接从一级结构去预测生物活性,完全跳过了 structure biology 的过程,也就避免了这一过程中的误差。2013 年,我曾花费两个月调用了 1024 个 CPU,得到约一微秒的膜蛋白、磷脂蛋白、小分子三元体的 simulation,当时已经是全球最大的可计算膜蛋白体系,涉及上百万原子。而在当今的超级计算机同等硬件配置下,以上时间花费可减少至 2-3 天,但这也仅仅是 30

61、倍的增长,意味着真正系统性地计算动态过程依然非常困难。因此,我们必须全方位利用 Data Driven AI 模型。点击 http:/greenelab.github.io/deep-review/,可查看这一篇滚动更新的 review相关内容,里面提供了解决 data limitation 问题以及如何建模等方案。AI 制药工业落地的痛点与前进方向 52 生物大数据里的噪音非常多,如何从噪音里提取信号、集成干净的数据集也尤为重要。业内提供了非常多方法论层面、工程层面以及算法层面的解决方案,比如Multimodal 方法,如果一个尺度上的数据量很少,则可以从其他尺度上迁移,比如multi-ta

62、sk 方法,如果一个靶点的数据很少,则将其 family 或相似的所有 pocket 数据都找出来用于做迁移学习,以弥补其数据的限制。最有用的 AI 模型一定是泛化能力很强的模型,一定能够从已知的事物预测未知的事物,这才是最有意义的 AI。因此,从根本上来说,迁移学习(transfer learning)的方法最为有效。如果要做 target specific 预测,专家只需反馈少量结果或几个到几十个数据,即可进行 fine-tuning,而后一般只需进行五轮以内的主动学习即可达到想要的结果,效率远远优于此前的盲筛。另外,生成数据一般有三种方法:第一,从现有数据里挖掘,我们曾经汇总了全球所有的

63、商业数据库以及 100+开源数据库,最后淘汰掉了 95%的数据,这也属于对历史的重新审视;AI 制药工业落地的痛点与前进方向 53 第二,自己做实验,有针对性地补足一些数据,需要明确数据的化学、生物空间分布,以最少的数据点推动最优的模型表现;第三,模拟数据,比如 QM 的计算最准,则先用物理的底层采样,最后用这些数据去换已经耗费的算力,无需再重新进行计算。当前我们圆壹智慧的一体化解决方案如图有一个抽象的展示,具体内容参见官网,从 target 序列开始,在几个小时内通过几十个 AI 模型同时打分,可以 propose 10-20 个新分子,基本只需 2-3 轮、在 100 个分子以内即可得到目

64、标化合物。AI 制药工业落地的痛点与前进方向 54 另外,在算力方面,我们从 training、调用、GPU 和 CPU 的分配等方面都做了非常灵活的方案,已经是一个成熟的自动化平台。今年 6 月,圆壹智慧在生物国际大会(Bio International)上首次发布了多目标 AI模型,对于生物药、化学药以及核酸药都提供了自动化设计的能力,并且与全世界的多家 CRO、CDMO、药企都有紧密合作,公司成立一年至今已获得 300 万美金订单。AI 制药工业落地的痛点与前进方向 55 在未来,我们也希望化学药、生物药(核酸药,蛋白药,细胞治疗)等以及各医疗产业链能够在多目标 AI 模型的加持下,更加

65、高效地解决临床的问题。我的分享就到这里,谢谢大家。高通量基因测序在药物研发和靶向治疗中的应用 56 高通量基因测序在药物研发和靶向治疗中的应用 作者:谷红仓,杭州圣庭医疗联合创始人&首席科学家 摘要:2022 年 8 月 5 日,2022 阿里云生命科学与智能计算峰会在北京望京昆泰酒店举行,圣庭医疗联合创始人&首席科学家谷红仓博士,带来了题为 高通量基因测序在药物研发和靶向治疗中的应用,以下是他的演讲内容整理,供阅览。杭州圣庭医疗联合创始人&首席科学家谷红仓博士 一、高通量测序技术(NGS)背景介绍 高通量基因测序在药物研发和靶向治疗中的应用 57 人们对基因作为遗传物质的研究历史可以追溯到上

66、个世纪中叶:1944 年,Avery 博士等年首次证实 DNA 是遗传物质;1953 年,James Watson 和 Francis Cricket 发现了 DNA 双螺旋结构,因此两位科学家也常常被称为分子生物学之父;1977 年,Allan Maxam 和 Walter Gilbert 发现了化学降解测序方法,由于化学降解测序操作流程复杂和使用大量的放射性物质,很快被弃用。同期,Fredirich Sanger 报道了双脱氧链终止法测序法又称 Sanger(桑格)测序法。与化学测序法相比,桑格测序简单快捷和准确性高,应用越来越广泛。两种测序法共同被称为一代测序;1990 年,美国的科学家

67、们提出人类基因组计划。当时尚处于一代测序技术刚刚兴起,一次测序的长度很短,一般只有 500BP;2003 年,人类基因组计划历时十多年完全采用桑格测序仪完成,总计耗费 30+亿美金。中国于 1999 年加入人类基因组计划,贡献 HPG-1%,这对于当时改革开放初期的中国已是非常了不起的贡献。我国许多著名的科学家包括杨焕明院士和陈润生院士都参与了该计划。高通量基因测序在药物研发和靶向治疗中的应用 58 人类基因组计划催生了高通量测序的发展。业内人士看到了测序的巨大商业价值,许多生产测序仪的公司应运而生,从 2005 到现在不到 20 年的时间,大约出现了十几家测序仪公司,它们中的大部分在成立后的

68、十年之内破产,目前 lllumina 占据最大市场份额。华大在收购美国 Complete Genomics 公司之后,对其技术进行改造,测序结果越来越好,目前市场份额越来越大。2001 年至 2021 年,基因测序费用迅速降低,每百万碱基对测序费用由 2001 年的一万美元降低到 2021 年的一美分,每个人的基因组测序费用由 2001 年的一亿美元降低到 2021 年的 1000 美元,二十年降低了 100 万倍。高通量基因测序在药物研发和靶向治疗中的应用 59 测序技术是 21 世纪对生命科学领域影响最大和发展最快的技术。生命科学的最重要的理论是中心法则,中心法则的核心内容是 DNA 可以

69、通过复制的方式传递信息到 DNA,DNA 通过转录的形式把遗传信息传递给 RNA,RNA 经过翻译将遗传信息传递到蛋白质。这个链条上的 DNA 和 RNA 均可进行测序发现其携带的信息。此外,可以通过Ribosome profiling 和表观遗传推测蛋白相关信息,这也意味着 DNA 测序技术几乎涵盖了生命科学的各个层面。高通量基因测序在药物研发和靶向治疗中的应用 60 一代测序采用逐段测序的方式,二代测序又称散弹枪测序。就是通过超声或者是酶切的方式将基因组打成很小的片段。然后将小片段 DNA 的两端各加上一段叫接头的序列,这样可以一次性可对成千上万个 DNA 小片段进行测序,这也是二代测序费

70、用降低、测序速度加快的重要原因。但因为二代测序较一次性测序数据量太大,传统的一代测序软件无法分析二代测序结果。对比一代测序,二代测序结果分析流程比较复杂,最初测序的结果是影像文件,影像文件非常大,首先需要转还成包括核苷酸序列和质控信息的 FASTQ 文件,然后 FASTQ 文件再转成 BAM file 等,经过一系列转换才能进行最终测序结果的分析。如右上图所示,全基因测序会首先产生 250Gb(1Gb=千兆字节)FASTQ 数据,再加上后续每一步产生的数据转换都会产生海量次级数据,自建服务器必须不停的更新和扩容,否则难以满足计算和数据存储的需求。此外,生物信息分析中还需面临以下关键挑战:如何高

71、效传输基因测序数据?如何高安全、低成本地存储?高通量基因测序在药物研发和靶向治疗中的应用 61 如何应对海量数据的分析需求以及突发的分析任务,自建服务器算力不够强大,导致进程缓慢?如何构建高效、敏捷、弹性的基因分析平台?随着样本数量增多,外加国家相关法规规定必须对病人的数据存储若干年限,这意味着服务器不能出现任何问题,而地震、火灾等意外对服务器的打击是致命的。因此,我们期望借助阿里云的强大能力,帮助解决生物信息分析中面临的诸多痛点。云计算强大的算力能够大幅提高计算速度,云上提供了超大安全存储容量,满足了爆发式增长数据动态扩容的需求,且将数据存储于云上能够保障数据安全。此外,它提供了弹性公网 I

72、P,即开即用,无须复杂配置,遇突发流量可实现秒级扩缩容。作为临床基因测序行业负责任的公司,圣庭医疗这两年通过和阿里云合作,解决了我们依靠自建服务器不能解决的许多棘手问题。二、高通量测序技术(NGS)在靶向治疗上的应用 高通量基因测序在药物研发和靶向治疗中的应用 62 基因检测目前主要应用于以下四个方面:肿瘤易感、早筛与用药检测;慢性病遗传病基因检测;产前产后检测与母婴诊断;健康管理基因检测。其中肿瘤易感基因检测,早期筛查和伴随诊断占据 NGS 检测的大部分业务。高通量基因测序在药物研发和靶向治疗中的应用 63 当前,肿瘤研究领域投入力量极大,研究相对比较透彻。对来自 66 种癌症的约 2800

73、0个肿瘤的基因组进行分析后鉴定出 568 个癌症驱动基因。大多数驱动基因具有高度的癌种特异性,不同癌种之间驱动基因图谱差异巨大。不到 2%(10 个)驱动的基因作用广泛,可以导致 20 种以上不同类型的癌症。当然,并不是所有靶点基因都可以做药。近 5 年,肿瘤靶向治疗已经发展得非常成熟。科学家通过对各个不同基因的基因突变和基因重排研究出了各种药物,且明确了药物的作用机理。在医院,肿瘤科医生会根据病人的基因检测结果来给予对应的药物治疗。疗效相对于传统的化疗药物,效果非常明显。高通量基因测序在药物研发和靶向治疗中的应用 64 上图为 2018 年美国国立健康研究院(NIH)的统计数据,数据显示在美

74、国有 75.6%的肿瘤医生在治疗病人过程中使用了基因检测来指导用药,而目前我们国内大型三甲医院的医生使用基因检测结果来决定病人用药的数据应该不落后该百分比。无论是欧盟、美国还是中国,都使用高通量测序进行基因检测,而且这些国家包括中国都出台了相应的临床指南。指南对如何进行基因测序、如何对测序结果进行分析、如何保存数据和如何解读测序结果等进行了详细的描述。NGS 的指导的肿瘤精准用药主要体现在三个层面:高通量基因测序在药物研发和靶向治疗中的应用 65 靶向治疗的精准选择:目前已有多种已被 FDA/NMPA 批准上市的抗肿瘤靶向药物,另外还有许多在研的抗肿瘤的靶向药物。NGS 可以对靶向突变基因信号

75、通路进行精准的解析,还可以发现为什么有些病人对靶向药敏感而另外一些人呈现耐药;免疫治疗综合指导:通过肿瘤免疫负荷(TMB)、微卫星不稳定(MSI)、人类白细胞抗原(HLA)检测结果等区分哪些病人适合免疫治疗,哪些病人不适合免疫治疗,实现对病人的精准用药;分子分型与预后分析:结合基因组突变特征,多因素提示肿瘤分子分析分型,帮助医生确定治疗方案以及进行预后评估。目前,业内针对对非小细胞肺癌的信号通路、常见突变等研究已经较为透彻,已上市了众多对应靶上药物。高通量基因测序在药物研发和靶向治疗中的应用 66 另外,肿瘤治疗前后,肿瘤的基因组并不是一成不变的。可能用药一段时间以后肿瘤细胞中的突变类型和突变

76、频率都会发生改变,因此需要通过对肿瘤病人治疗一段时间后进行基因测序,重新分析肿瘤细胞的突变类型,并制定新的治疗方案。免疫治疗也是目前比较流行的治疗方式,该方式能够通过激发病人自身的免疫力消灭肿瘤。多项独立的临床研究表明不同类型的癌症免疫治疗中,患者的 OS(生存期)和 PFS(无恶化生存期)均有显著的提高。通过对肿瘤标识物,如肿瘤突变负荷(TMB)进行 NGS 检测可以有效的发现那些病人可以采用免疫治疗。对适于免疫治疗的病人,其效果可能远优于传统的化疗、靶向治疗。高通量基因测序在药物研发和靶向治疗中的应用 67 另外,可以通过基因高通量测序的方式对疾病进行分型。比如对结直肠癌可以通过基因检测,

77、可分为高突变、非高突变,之后还可进行各类型的细分,以进行精准治疗。循环肿瘤 DNA(ctDNA)基因检测是一种新兴的监测肿瘤治疗效果的方式。其原理是肿瘤细胞在生长过程中会凋亡或坏死,这些死亡的的肿瘤细胞 DNA 会进入血液循环系统中。高通量基因测序在药物研发和靶向治疗中的应用 68 因此可以通过检测病人的外周血的 ctDNA 有无,在外周血中的含量及 ctDNA 突变类型,从而对治疗效果进行监测和指导用药。右图展示的是肺癌、结直肠癌、乳腺癌等疾病,通过 ct-DNA 的监测并采用适合的治疗方案,能够显著延长病人的生存期。三、高通量测序技术(NGS)在药物研发上的应用 药物研发流程如上图左侧所示

78、,高通量测序技术既可以应用于前期的靶点发现、也常用于临床一期、二期、三期治疗效果观察或对药物作用的分子的机理进行探索。高通量基因测序在药物研发和靶向治疗中的应用 69 该图展示 NGS 如何帮助发现新的药物靶点。在靶点发现上,通常可以通过对大量正常人和病人的基因进行测序、对比,然后对结果进行分析,发现仅在病人中共同存在的基因突变,这些突变是药物作用的潜在靶点。利用计算机和人工智能等手段对靶点进行系统评估,接下来通过一系列体外、体内实验对药物潜在靶点进行验证,最终确立药物靶点,这就是基因测序在药物靶点选择中的应用场景。上图为 2016-2021 年期间新药设计靶点的 TOP30。高通量测序投入实际应用的四五年间已经发现很多靶点,我们也可以乐观地预期,将来会有更多靶向药,新药的研发也一定更快速,更高效!

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(阿里云:2022阿里云生命科学与智能计算峰会演讲合集(68页).pdf)为本站 (渔人也) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部