《2019年医学自然语言处理.pdf》由会员分享,可在线阅读,更多相关《2019年医学自然语言处理.pdf(33页珍藏版)》请在三个皮匠报告上搜索。
1、Medical Natural Language Processing医学自然语言处理解放军总医院医疗大数据中心2019年7月4日CHIMA 2019医学自然语言处理的基本任务目录1医学自然语言处理的基本技术2医学自然语言处理的典型问题3我院的实践与总结4CHIMA 2019主要用途、基本任务01医学自然语言处理的基本任务CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的基本任务 主要用途 病历文本数据挖掘 医疗知识库构建 病历检索 NLP技术 电子病历 医学文献 临床指南 健康档案 结构化、标准化数据分析 统计分析 机器学习 疾病诊断模式 药物治疗模式 预后评价模式 可
2、分析的医疗数据 标准化的电子病历 医学知识库 整合后的健康档案 临床应用 辅助诊疗系统CDSS 药物安全性检测 医疗政策决策支持 相似病历检索应用实践CHIMA 2019中国人民解放军总医院医疗大数据中心例:可见多发结节影,大小约1.16X0.98厘米例:在“肌力4+级”中“+”表示“强”“头MRI+MRA示”中“+”表示“和”医学自然语言处理的基本任务例:胃胀反酸、泛酸、返酸例:“无意识障碍”无|意识|障碍无|意识障碍例:“细菌性痢疾”细菌/n 性/ng 痢疾/n名词名词性语素例:可见多发结节影,大小约1.16X0.98厘米0语义分析06分词01词性标注02实体识别03
3、实体关系抽取05实体标准化04CHIMA 2019分词、词性标注、实体识别、实体关系抽取、语义分析02医学自然语言处理的基本技术CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的基本技术 分词 分词是将一句话切分成一个个单词的过程 分词工具 结巴(jieba)分词工具、NLPIR汉语分词系统、IKAnalyzer开源分词软件 关键技术 基于词典的分词方法(机械分词法)按照一定策略,将待分析的汉字串与一个充分大的机器字典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功逆向最大匹配法正向最大匹配法双向匹配法 基于机器学习的分词方法例:“无意识障碍”无意识|障碍()无|意
4、识障碍()CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的基本技术 基于词典的分词方法设词典中词语长度的最大值为M开始从文档末尾开始扫描,取最末端的M个字符作为匹配字段,查找字典匹配成功记录分词结果,对剩余的字符串继续重复以上步骤是否将字符串长度减少1剩余字串的长度为零是输出例:“南京市长江大桥”1.设最长词为52.在词典中匹配“市长江大桥”3.匹配失败,去掉最前面一个字“市”4.匹配“长江大桥”,匹配成功5.在词典中剩余字符“南京市”,匹配成功6.输出结果:南京市/长江大桥CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的基本技术 词性标注 在给
5、定句子中判定每个词的词性加以标注,如将词分为名词、形容词、动词等 关键技术 基于词典的标注方法先对语句进行分词,然后从字典中查找每个词语的词性,对其进行标注 基于规则的标注方法简单处理,得到初标注结果建立转换规则,修正错误得到标注结果例:细菌性痢疾细菌/n 性/ng 痢疾/n胆囊壁明显增厚胆囊/n 壁/ng 明显/a 增/v 厚/a 名词名词性语素例:1.初标注:“他/r做/v了/u一/m个/q报告/v”2.转换规则:激活环境:该词左边第一个紧邻词的词性是量词(q),左边第二个词的词性是数词(m)改写规则:将该词的词性从动词(v)改为名词(n)3.得到标注结果:“他/r做/v了/u一/m个/q
6、报告/n”CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的基本技术 实体识别 医学领域的实体抽取是从医学数据源中提取出特定类型的命名实体,主要有疾病、药物、症状、检查、手术操作、器官部位等 关键技术 基于规则的方法 正则法例:清扫第1组,2组,3组淋巴结正则表达式:“%/d+组淋巴结”1组淋巴结、2组淋巴结、3组淋巴结 基于机器学习的方法 词向量表示将自然语言处理问题转化为机器学习问题,首先在于采用一种词表示方法将文本中的单词和符号数学化,即用一个数学向量表示。常用的词向量表示方法:独热码表示、Word2vec算法例:“乙肝”表示为 0 0 0 1 0 0 0 0 0
7、0 0 0,“肝硬化”表示为 0 0 0 0 0 0 0 0 1 0 0 0CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的基本技术 基于机器学习的实体识别方法例:头颅CT检查显示腔隙性脑梗死1.人工特征标注:头颅CT检查手段;腔隙性脑梗死疾病;2.训练:将字符转为向量表示,将分类标签id化,并进行特征提取,构建训练集特征向量 0 0 0 0 0 1 0 0 0 0 0 0“TES”,0 0 0 0 0 0 0 0 0 0 0 0 1 0“DIS”3.模型进行训练,训练完成后对测试文本进行识别,得到机器标注结果:平扫见右侧脑室体旁 已标注数据人工特征标注原始文本训练集构
8、建机器学习模型测试集测试的未标注文本输入输出机器标注结果训练特征提取CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的基本技术 实体标准化 医学实体在不同的数据源中存在严重的多元指代问题 关键技术 基于医学标准术语库匹配的方法 医学知识图谱如两个实体被多个相同实体以相同关系指向,则二者为同一实体的概率较高 基于机器学习的方法用Word2vec模型对上下文取窗口进行训练,求解最大似然的共现概率。训练完成后,使用向量余弦相似度计算实体相似性。对于训练充分的词表示向量而言,一组相似词的向量语义距离更近。如“首都”和“北京”的语义距离要比“上海”更近CHIMA 2019中国人民解
9、放军总医院医疗大数据中心医学自然语言处理的基本技术 实体关系抽取 发现文本中实体对间的各种语义关系 实体关系可以用于构建知识框架,如疾病与药物的关系、症状与疾病的关系、基因与疾病的关系等 关键技术 实体共现法认为两个相距很近的实体如果以一定的顺序在一个文本语料库中高频率地重复,那么这两个实体相关的可能性很大 机器学习方法将关系抽取看作是一个分类问题,通过具体的学习算法,在人工标引语料的基础上构造分类器,再用训练得到的分类器抽取测试文本中的实体关系 深度学习例如:患者3天前受凉后出现咳嗽、咳痰高血压病史40年,口服厄贝沙坦控制可诱因CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语
10、言处理的基本技术 基于深度学习的实体关系抽取输入层编码层卷积层池化层输出层(1)输入层:需要判别关系类别的实体文本(2)编码层:预处理,使用Word2vec训练的向量模型表示实体文本对于一句话中每个单词均为 k 维的词向量,因此对于长度为 n的一句话则可用维度为 n*k的矩阵(3)卷积层:设计一个过滤器窗口W,其维度为hk,h表示窗口所含的单词个数,不断地滑动该窗口,每次滑动一个位置时,完成非线性激活函数的计算(4)最大池化层:为了得到最大特征,进行max-over-time操作,取出最大值(5)输出层:通过向量映射,得到待预测的类别结果CHIMA 2019中国人民解放军总医院医疗大数据中心医
11、学自然语言处理的基本技术 语义分析 在词的层次上,语义分析的基本任务是进行词义消歧 在句子层面上是语义角色标注 在篇章层面上是指代消歧,也称共指消解 基于机器学习的消歧方法 有监督:通过建立分类器,根据上下文和标注结果完成分类任务,用划分多义词上下文类别的方法来区分多义词的词义贝叶斯模型、最大熵模型、支持向量机模型、深度神经网络模型 无监督:使用聚类算法对同一个多义词的所有上下文进行等价类划分,在词义识别的时候,将该词的上下文与各个词义对应上下文的等价类进行比较,通过上下文对应的等价类来确定词的词义聚类算法例:病毒(计算机病毒、生物病毒)打球、打电话、打毛衣CHIMA 2019中国人民解放军总
12、医院医疗大数据中心医学自然语言处理方法总结 基于词典和规则的处理方法 词典匹配 正则表达式 基于统计的处理方法 支持向量机(Support Vector Machine,SVM)隐马尔可夫(Hidden Markov Model,HMM)条件随机场(Conditional Random Fields,CRF)长短时记忆网络(Long Short Term Memory,LSTM)卷积神经网络(Convolutional Neural Network,CNN)两者融合的方法CHIMA 201903医学自然语言处理的典型问题CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的典
13、型问题 问题一 有瑕疵的或不规范的输入 不同的数据来源(如病历、医学论文等)或不同的人员(如科研人员、临床医生、病人等)在表达相同或相似概念时其描述方式多种多样例:2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病冠状动脉支架置入术、冠状动脉支架植入术胃胀反酸、泛酸、返酸例:冠心病、冠状动脉粥样硬化性心脏病、CAD上述现象本质上是归属于同一类问题,这类问题在通用领域称为实体对齐、实体标准化CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的典型问题 解决方法 采用规则的方法,将实体描述经过一系列规则变换(如,简写转全称)后进行匹配 采用机器学习方法,基于向量空间模型将实体表示
14、为词向量再学习向量之间的相似性关系例:冠心病、冠状动脉粥样硬化性心脏病、CAD例:2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病冠状动脉支架置入术、冠状动脉支架植入术胃胀反酸、泛酸、返酸冠状动脉粥样硬化性心脏病2型糖尿病冠状动脉支架置入术胃胀反酸CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的典型问题 问题二 病历文档经常需要对某些概念进行否定性质的描述,因而要在病历中单纯地依赖文中有没有出现术语作为信息检索的依据并不能取得好的结果 解决方法 正则表达式 实体关系抽取问题判断概念是否具有“否定”的上下文环境例:“否认手术史”、“未触及质硬结节”、“支气管断端未见癌”实
15、体识别确定实体关系共现法寻找距离相近的实体抽取目标实体前后出现的否定词CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的典型问题问题三医学领域相关实体和实体之间的关系比较复杂,例:蛋白质之间相互作用关系、药物之间相互作用关系、药物疾病对应关系等解决方案建立完备的医学知识库、知识图谱LSTM、CNN等算法,建立学习模型,识别疾病药物之间的关系相对规范的文本记录(病理报告),可考虑基于规则的方法提取,如正则表达式例:既往史:否认肝炎、肺结核、疟疾病史,高血压10年余,糖尿病7年,口服二甲双胍治疗,血糖控制可,口服硝苯地平,血压维持在130/70mmHg左右属于实体关系抽取的一
16、类典型问题例:送检(右肺中叶结节)淋巴结见转移癌(1/1),送检(第2组、第4组、第7组、第11组)淋巴结未见转移癌(分别为0/1、0/2、0/1、0/1)淋巴结阳性数清扫数第2组01第4组02第7组01第11组01右肺中叶结节11病史病程药物治疗高血压10年硝苯地平糖尿病7年二甲双胍CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的典型问题问题四 电子病历中出现大量长句,需要做语义识别解决方案 对于长句语义识别,适合用LSTM网络模型,通过搭建多层复合LSTM网络,将原语料反向输入生成反向LSTM层,与正向LSTM层相结合,加强关键成分与上下文的关联度例:食管胃交界部小
17、弯侧溃疡型中-低分化腺癌,部分为粘液腺癌,肿瘤大小为5x3.5x1.5cm,癌组织侵及胃壁全层,并侵犯神经,检出之上下切缘及送检(食管切缘)均未见癌keyvalue组织学类型腺癌、粘液腺癌分化程度低分化肿瘤大小5x3.5x1.5cm肿瘤部位胃食管结合部胃小弯CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的典型问题 难点问题 相同的医学问题、不同的研究目的,提取规则不一样例:糖尿病提取药物史 降压药、降糖药侵袭性真菌病提取抗菌药物史 病前30天内使用抗菌药物、长期(超过2周)使用抗菌药物 病历结构化后,抽取出的信息是孤立的,丢失了大量的时间信息和因果逻辑关系例:入院记录会
18、描述患者病情的发展情况,包含了大量时间信息,以及前后、因果逻辑关系缘于2012年4月24日车祸后出现左腕及左眼眶骨折左腕及左眼眶骨折左眼眶骨折,在当地医院住院手术治疗,出院后因左腕疼痛辗转于各诊所肌肉注射或静脉滴注各种抗生素(隔2-3天应用3-5天),达3个月;于2012年8月出现高热,口腔内白斑,体温达40,伴发冷,在某医院诊断为“真菌感染”,打针治疗后症状无明显好转,后转至某医院呼吸科,诊断为“成人Still病”,接受“氟康唑、免疫球蛋白、甲泼尼龙40mg 1/日”等治疗,体温降至正常,出院口服“甲泼尼龙6片 1/日,硫酸羟氯喹0.2g 2/日;来氟米特 20mg 1/日”。于2013年1
19、2月出现左侧髋关节疼痛,下蹲困难(蹲起时自觉双侧腘窝疼痛),于某医院行髋关节核磁检查,示:左侧髋臼信号异常并左侧髋关节腔积液从文本中直接抽取实体即可不是在文本中直接体现,需要添加复杂的语义分析CHIMA 201904我院的实践与总结CHIMA 2019中国人民解放军总医院医疗大数据中心病案纸解放军总医院电子病历文本结构化进展 全院电子病历文本清洗治理 原始病历零散的文件存储、纯文本格式、信息不易查询提取 清洗治理后的病历数据库形式存储、半结构化格式、显著提高电子病历利用率患者基本信息患者ID入院记录主诉既往史婚育史现病史个人史家族史体格检查首次病程记录病例特点拟诊讨论诊疗计划日常病程记录查房记
20、录病历数据库存储查询提取统计CHIMA 2019中国人民解放军总医院医疗大数据中心解放军总医院电子病历文本结构化进展 全院电子病历文本清洗治理 平台界面展示CHIMA 2019中国人民解放军总医院医疗大数据中心解放军总医院电子病历文本结构化进展 基于专病的病历文本结构化处理平台 不同病种需要提取的医学问题有较大差异,需要个性化定制例:胃癌手术报告需要提取:切除范围、根治度、消化道重建方式等肺癌手术报告需要提取:切口类型、切除部位、是否可见胸腔积液、胸腔粘连等1建立标准化的语料库2辅助建立专病数据库3建立专病知识图谱4数据挖掘、辅助临床科研 胃癌手术报告、病理报告、病程记录的结构化处理 肺癌手术
21、报告、病理报告、CT报告的结构化处理 乳腺癌病理报告、超声报告的结构化处理 侵袭性真菌病的入院记录结构化处理CHIMA 2019中国人民解放军总医院医疗大数据中心解放军总医院电子病历文本结构化进展 病历文本结构化平台AI辅助的可配置规则抽取框架医疗文本结构化平台基于深度网络的信息抽取模型可定制抽取字段、精细化要素提取标准化归一映射、智能化技术框架CHIMA 2019中国人民解放军总医院医疗大数据中心解放军总医院电子病历文本结构化进展 AI辅助的可配置规则抽取框架,高效地应对个性化提取需求AI预处理深度理解医疗文本要素及属性分析定位候选句字段值抽取归一化/标准化字段配置结构化输出字段名值肿瘤部位
22、胃小弯,胃体组织学类型腺癌分化程度低分化肿瘤大小8x8x1.8cmBorrmann分型局限溃疡型T分期T4a切缘阴性病历文本胃小弯及胃体后壁溃疡型低分化腺癌,肿瘤大小约为8 81.8cm。癌组织侵及胃壁全层、神经伴脉管内癌栓,再取上、下切缘及送检(食管下切縁)均未见癌。病历相似句扩展同义要素扩展医生AI辅助AI辅助指导CHIMA 2019中国人民解放军总医院医疗大数据中心解放军总医院电子病历文本结构化进展 基于深度网络的信息抽取模型,精准理解病历文本基于序列到序列的深度神经网络模型,不但可以在原文中精确定位结果,还可以对文本进行推理总结结构化输出字段名值肿瘤部位胃小弯,胃体组织学类型腺癌分化程
23、度低分化肿瘤大小8x8x1.8cmBorrmann分型局限溃疡型T分期T4a切缘阴性病历文本胃 小 弯 及 胃 体 后 壁 溃 疡 型 低 分 化 腺 癌,肿 瘤 大 小 约 为 8 8 1.8 c m。癌组 织 侵 及 胃 壁 全 层、神 经 伴 脉 管 内 癌栓,再 取 上、下 切 缘 及 送 检(食 管 下切 缘)均 未 见 癌。结果归一拷贝结果拷贝结果CHIMA 2019中国人民解放军总医院医疗大数据中心总结与展望 医学自然语言处理技术的发展水平 在词法分析层面,医疗实体识别以及实体关系的抽取技术已经比较成熟,在此基础上可实现电子病历文本数据的特征提取、病历检索例:检索条件:既往病史中
24、有肺结核的患者特征提取需求:提取肺癌患者的吸烟史、饮酒史等 在语义分析层面,NLP技术还无法实现完全理解病历中隐含的知识,难以像医生一样去理解病历例:检索条件:提取长期使用抗菌药物史、化疗后肿瘤尺寸变小的患者“长期使用抗菌药物”“肿瘤变小”不是在文本中直接体现的,需要通过复杂的语义理解去判断 难以利用一种通用模型解决所有的医学问题现阶段医疗文本结构化应用模式,大部分是带着医学问题去抽取知识,很大程度上依赖于医生对医学问题的归纳和总结相同的医学问题,在不同应用场景下,知识抽取模型不同CHIMA 2019中国人民解放军总医院医疗大数据中心总结与展望 自然语言处理未来在医疗行业的应用模式 通用化模型与个性化定制相结合的医疗文本结构化工具通用化模型解决医疗实体识别、实体关系抽取的问题个性化定制解决特定条件、特定病种的信息抽取问题,辅助临床科研人员、数据分析人员提取文本特征,进行数据挖掘 智能化的病历检索系统支持多种形式的高精度检索CHIMA 2019谢 谢解放军总医院医疗大数据中心CHIMA 2019