《2-4 隐私计算在医疗大数据共享中的探索实践.pdf》由会员分享,可在线阅读,更多相关《2-4 隐私计算在医疗大数据共享中的探索实践.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、隐私计算在医疗大数据共享中的探索实践包仁义 医渡云 安全计算架构师|机遇与挑战01|医疗领域多个方向需要数据驱动的高质量研究各类医学研究及AI模型训练需要数据支撑,研究者正在进行各种形式的数据合作版权 2022医渡云保留所有权利落地层面的两大挑战跨机构数据整合机构内数据治理|版权 2022医渡云保留所有权利缺少数据用于研究的可行性评估 数据是否包含研究所需要的全部结局和影响因素?缺失数据的发现与处理方法大量研究人群如何精确定位 需要从海量人群中精准定位到研究的目标研究对象现有数据标准不统一 多种数据来源的数据库系统架构不同,传输与技术标准需要统一 各数据源的数据医学含义和认知需要统一如何应对挑
2、战缺少数据质量监控 相关性:是否包含研究的重要变量和信息、临床结局定义是否标准 可靠性:缺失比例有一定限度、数据来源有参照、各个环节数据质控统计分析方法繁多 传统统计分析以外的机器学习预测模型方法 控制偏移和混杂多种数据来源结构各异 数据来源繁多且数据量巨大 人工整合几乎不可能?机构内数据治理面临的挑战|版权 2022医渡云保留所有权利跨机构数据整合的挑战数据隐私数据孤岛国内法规网络安全法数据安全法个人信息保护法国际法规GDPR(EU)CCPA(USA)PDPA(SG)LGPD(Brazil)不敢共享、不能共享、不愿共享|版权 2022医渡云保留所有权利场景与解决方案02|多中心研究的应用场景
3、与方案|HIS电子病历检验检查放疗ICU手麻护理临床数据中心(DPAP)随访记录疾病转移康复情况疾病复发随访中心组学数据管理专病库分中心机构1分中心机构2分中心机构3主中心NGS分析WGS分析HLA分型生物信息中心基于区块链的可信多中心专病科研平台公有云4大应用场景CRF录入DPAP接入多方安全计算,联邦学习,计算汇交数据中心汇聚,数据汇交临床研究开展n数据分析平台n临床研究平台n生信分析平台n临床与生信知识库nEDC与IWRS平台n临床试验数字化提效赋能n临床试验CRO/SMOn真实世界研究服务n疾病预测模型nCDSS与MDT平台n诊疗能力评价n患者随访平台n患者健康教育n患者风险评估I-I
4、V期药械试验与研究技术开放推广患者管理私有云1套疾病标准3种接入形式多种形式协作肺癌肺癌肺癌肺癌联盟链联盟链确保多中心科研全程可信数据可溯源确保多中心科研全程可信数据可溯源版权 2022医渡云保留所有权利专病库数据智能医疗知识图谱结构化标注平台训练数据评估数据医学专家标注基于主动学习筛选训练样本提升标注效率资深医学专家定义任务和标注结构化抽取平台实体-时间属性实体-数量属性实体-逻辑判别实体-实体关系字段标签分类和映射影像报告病理检查放化疗方案一诉五史诊断记录手术记录多源信息融合超大规模临床数据ETLETLETL医渡自然语言处理平台海量医疗词库多粒度医学分词句法和语义分析医学命名实体识别诊断手
5、术症状解剖药物基因时间逻辑词体积浓度血型分期基础表达式识别医渡医学翻译结构化质控平台n大幅节省人力和时间成本n总体召回率92%n总体准确率95%n资深医学专家支持n可深度定制服务n准确高效高速n自适应挖掘适配不同数据分布n基于迁移学习领域推广性更好n比人力可处理更大规模数据支撑科研结论显著性统计机器学习平台深度学习特征表示和特征选择序列标注结构预测迁移学习主动学习分类聚类规则学习引擎|机构内数据接入到认知能力的建设版权 2022医渡云保留所有权利机构间隐私计算技术路线|理想态y=f(x1,x2,x3,x4)无可信第三方可信第三方x1x2x3x4yx1x2x3x4可以用于实现多方安全计算的密码学
6、协议:秘密分享,不经意传输,混淆电路等支持医学科研常用的统计分析算法25+按照医疗数据异构程度分为:横向联邦和纵向联邦 联邦学习的隐私保护方案安全聚合|同态加密|多方安全计算 落地方案:前期FATE+自研的YIDUMANDA框架多方安全计算(MPC)联邦学习(FL)联盟链技术 以Hyperledger Fabric为联盟链基础 搭建可扩展医疗联盟链服务平台接口数据|行为上链、链上信息查看溯源 区块链BaaS平台建设节点管理、智能合约管理、链运维版权 2022医渡云保留所有权利隐私计算平台核心架构YIDUMANDA(醍醐)|版权 2022医渡云保留所有权利医院端数据不出医院,各节点对其拥有的数据
7、有绝对控制权,所有数据调用经过多方安全计算框架可审计平台端基于密码学的多方安全计算技术,传输中间参数,安全性得到密码学论证,无患者隐私、医院敏感数据泄露联邦学习探索03|主要探索的联邦学习问题探索 联邦学习异构数据源问题探索探索联邦学习可审计与贡献探索探索 联邦学习隐私保护问题探索来自不同参与方的异构数据源如何在异构数据上实现有效的联邦学习?成员推断&医疗数据重建如何防止数据泄露?如何预防搭便车,管理数据的贡献以及知识产权等问题?数据访问与使用的透明性受限|版权 2022医渡云保留所有权利联邦学习异构数据源问题动机 建立在本地数据源的流程一般只有本地信息,缺少对全局的洞察。跨组织、地域甚至国家
8、对于医学科研是非常必要的。联邦学习一般需要多个参与方共同构建一个AI平台。由于人口分布和生活习惯的差异,一般底层的医疗数据在分布和数据规模上都会有不同。!数据源的异构会影响联邦学习的性能,降低收敛的速度。多个参与方具有不同的计算性能,有效的聚合模式和恰当的纠偏是提升整体性能的关键。异构数据源AAABBBCCC性能差距|版权 2022医渡云保留所有权利实验表明:数据越“偏”,FedGFO性能越好FedAvg 在Non-IID的场景下存在 client drift 问题。利用动态权重调整的思路,学到client端模型的“偏向”信息,得到一个全局更优的联邦模型。FedGFO:A Novel Sche
9、me for Global Federated Optimization on Non-IID Data from Multiple Clinical Centers CHIP 2021|提出FedGFO算法:优化联邦数据Non-IID场景版权 2022医渡云保留所有权利 FedSSO:A Federated Server-Side Second-Order Optimization Algorithm arXiv:2206.09576|提出FedSSO算法:服务端二阶优化提升学习效率版权 2022医渡云保留所有权利 基于Server端的历史梯度,提出了基于服务侧 更新的优化方法。解决了联邦中
10、,局部更新和二阶优化 的结合。在不改变通信量的情况下,提高了收敛速度。基于二阶的算法收敛效率更高,联邦场景难控制的是步长,进而是因此带来的通信成本BFGS拟牛顿法最优解:估计全局梯度:|提出FedSSO算法:服务端二阶优化提升学习效率版权 2022医渡云保留所有权利联邦学习可审计与贡献问题版权 2022医渡云保留所有权利|动机 联邦学习一项单一的技术无法实现验证和审计,不同的参与方持有不同数据集,并且对最终模型的贡献也是有巨大差异的。搭便车问题会影响联盟的建立,导致组织的持续性降低。挑战 如何自动监测搭便车?如何根据数据的贡献使得联邦学习变的可计量?n数据数量n标签质量n数据质量n参与者上报n
11、参与者相似度n基于效用博弈传统:数据可见n优势:保护隐私、公平、可解释n劣势:计算复杂(需从头训练至少2n个模型)现有联邦:不公平不可解释基于Shapley Value方案:满足公平、可解释,但是不高效算法基础GTG Shapley 算法基于模型参数子模型重组,只训练一次基于Monte-Carlo的近似算法配合引导采样两个维度的可调节剪枝优化全链路工程落地整合联邦学习和贡献度评估服务全流程真实场景验证在医渡云医疗科研场景进行验证白血病、前列腺活检、肺炎三个病种的真实数据中验证评估研究方案现有方案和痛点人工智能创新应用奖(2022AAAI-IAAI,1/8全球)版权 2022医渡云保留所有权利|
12、面向智能医疗的贡献感知联邦学习(CAFL)Contribution-Aware Federated Learning for Smart Healthcare版权 2022医渡云保留所有权利|面向智能医疗的贡献感知联邦学习(CAFL)执行贡献评估的效率是现有最好算法的2.84倍 与未加入贡献评估的系统相比模型平均精度提高2.62%(工业环境非常重要)实验数据验证业务真实数据验证区块链确保联邦学习全流程可信区块链具有可溯性、去中心化和防篡改等特性。我们将其用于联邦学习和多方安全计算的的全程审计(包括数据/行为)以Hyperledger Fabric作为基础设施。数据和行为签名会被记录在链上。支持
13、医学研究中常用行为及数据变换的智能合约。自己基于DAG的复杂溯源机制。Hu,C.,Li,C.,Zhang,G.et al.CrowdMed-II:a blockchain-based framework for efficient consent management in health data sharing.World Wide Web(2022).版权 2022医渡云保留所有权利|区块链应于医学研究的建模和统计过程清华-医渡云 智慧自主医疗系统联合研究中心动机存在利用模型参数/梯度重构原始医疗数据的潜在风险,这种情况下如何保证数据隐私的前提促进共享?机构间串通可能会导致数据模型的泄露。
14、如何保证数据和模型的机密性,防止包括中央服务器/聚合器(对手)在内的合谋方?挑战发现并对各机构中的敌手进行防御。防止数据重构。不影响数据准确性的前提下,保护数据隐私。DataData医院 1医院 2节点 2节点 1联邦学习的梯度泄露问题InitLeakingLeakedOriginal Data梯度泄露平扫CTMedical MNISTSource:https:/deepai.org/publication/precode-a-generic-model-extension-to-prevent-deep-gradient-leakage 联邦学习隐私保护问题|版权 2022医渡云保留所有权利
15、通过MPC提升联邦学习安全性|版权 2022医渡云保留所有权利Aggregated ModelModel updateLocal TrainingLocal TrainingLocal TrainingGlobal ModelModel updateMPCMulti-party ComputationMPCMPC优势聚合节点降低节点(主动/被动)作恶险相半同态加密具有更全的算通性相全同态加密具有更低的计算成本劣势络负载奇中节点的计算流,需要更的容错能MPC parties(Leaders)通过MPC提升联邦学习安全性|版权 2022医渡云保留所有权利.MPC without LeadersMP
16、C on Leaders通信成本下降选举策略 VS 业落地按照随机策略选举按照节点计算存储资源络延迟数据规模评估选举周期配置Two-Phase Multi-Party Computation Enabled Privacy-Preserving Federated Learning CCGrid,2020Data Providers Election Aaggregation Model Parameters Sharing Model Parameters Update实践与案例04|基于隐私计算技术的多中心科研平台|版权 2022医渡云保留所有权利平台上海品茶数据洞察指标自动计算人群筛选数据处
17、理统计分析预测模型多种搜索纳排方式漏斗式节点人数统计批量快速纳入项目支持拖拽选取指标设定指标计算规则指标自动计算数据处理规则设定缺失值、异常值、分段处理多种统计分析方法秒级分析结果产出辅助解读分析结果疾病风险因素分析诊断预测分析治疗方式推荐预后生存分析已在*医院PoC并落地平台完成围术期专病库业务验证撑年病多中科技部项基于区块链多中心科研平台建设|版权 2022医渡云保留所有权利基础设施层网络服务安全服务CA服务原始数据库专病数据库支撑层数据展现层异构数据异构数据接入接入HISPACS按需抽取标准化治理数据使用方数据提供方平台支撑方!#$%&()*+%&消息引擎集群管理安全计算引擎ETL数据流
18、编排统一用户认证用户层可信流通层原始数据中间数据多中心科研数据多中心科研行为上链多中心专病数据集存储服务计算服务!#$%&()*+,(-./0(抽取行为上链多中心科研查询溯源溯源移动端123456789:67;12?ABC监管方念珠菌血症感染预测的多中心研究|版权 2022医渡云保留所有权利背景:约45%的念珠菌血流感染发生在重症监护病房,并已成为重症监护病房患者的主要死亡原因。贡献:开发了种机器学习算法,于预测新发全身炎症反应综合征(SIRS)患者是否会患念珠菌症,论XGBoost模型输出作为最终模型选择。临床样本来源如下,时间:2013年1-2017年12结论概述:Xgboost效果最好北京*节点(主中心)青岛*节点福建*节点目标:以念珠菌血症回顾性研究为例,验证联邦学习算法可以支撑无原始数据传输情况下的多中心研究将论文中研究的数据按照原始场地分布情况,以北京*节点为主节点,负责聚合相关加密信息。完成横向联邦学习。结论:在联邦模式下实现的XGBoost,RF,SVM,LR等算法可以支撑无隐私数据交互的多中心研究,并且模型调优后的参数与集中式模型效果差异很小。数据汇交的多中心回顾性研究算法和计算汇交的多中心回顾性研究我们的使命:使价值导向的精准医疗惠及每一个人版权 2022医渡云保留所有权利非常感谢您的观看|