上海gm论坛(一品香论坛/上海mm自荐)

《2019年医学自然语言处理.pdf》由会员分享，可在线阅读，更多相关《2019年医学自然语言处理.pdf（33页珍藏版）》请在三个皮匠报告上搜索。

1、Medical Natural Language Processing医学自然语言处理解放军总医院医疗大数据中心2019年7月4日CHIMA 2019医学自然语言处理的基本任务目录1医学自然语言处理的基本技术2医学自然语言处理的典型问题3我院的实践与总结4CHIMA 2019主要用途、基本任务01医学自然语言处理的基本任务CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的基本任务主要用途病历文本数据挖掘医疗知识库构建病历检索 NLP技术电子病历医学文献临床指南健康档案结构化、标准化数据分析统计分析机器学习疾病诊断模式药物治疗模式预后评价模式可

2、分析的医疗数据标准化的电子病历医学知识库整合后的健康档案临床应用辅助诊疗系统CDSS 药物安全性检测医疗政策决策支持相似病历检索应用实践CHIMA 2019中国人民解放军总医院医疗大数据中心例：可见多发结节影，大小约1.16X0.98厘米例：在“肌力4+级”中“+”表示“强”“头MRI+MRA示”中“+”表示“和”医学自然语言处理的基本任务例：胃胀反酸、泛酸、返酸例：“无意识障碍”无|意识|障碍无|意识障碍例：“细菌性痢疾”细菌/n 性/ng 痢疾/n名词名词性语素例：可见多发结节影，大小约1.16X0.98厘米0语义分析06分词01词性标注02实体识别03

3、实体关系抽取05实体标准化04CHIMA 2019分词、词性标注、实体识别、实体关系抽取、语义分析02医学自然语言处理的基本技术CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的基本技术分词分词是将一句话切分成一个个单词的过程分词工具结巴（jieba）分词工具、NLPIR汉语分词系统、IKAnalyzer开源分词软件关键技术基于词典的分词方法（机械分词法）按照一定策略，将待分析的汉字串与一个充分大的机器字典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功逆向最大匹配法正向最大匹配法双向匹配法基于机器学习的分词方法例：“无意识障碍”无意识|障碍（）无|意

4、识障碍（）CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的基本技术基于词典的分词方法设词典中词语长度的最大值为M开始从文档末尾开始扫描，取最末端的M个字符作为匹配字段，查找字典匹配成功记录分词结果，对剩余的字符串继续重复以上步骤是否将字符串长度减少1剩余字串的长度为零是输出例：“南京市长江大桥”1.设最长词为52.在词典中匹配“市长江大桥”3.匹配失败，去掉最前面一个字“市”4.匹配“长江大桥”，匹配成功5.在词典中剩余字符“南京市”，匹配成功6.输出结果：南京市/长江大桥CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的基本技术词性标注在给

5、定句子中判定每个词的词性加以标注，如将词分为名词、形容词、动词等关键技术基于词典的标注方法先对语句进行分词，然后从字典中查找每个词语的词性，对其进行标注基于规则的标注方法简单处理，得到初标注结果建立转换规则，修正错误得到标注结果例：细菌性痢疾细菌/n 性/ng 痢疾/n胆囊壁明显增厚胆囊/n 壁/ng 明显/a 增/v 厚/a 名词名词性语素例：1.初标注：“他/r做/v了/u一/m个/q报告/v”2.转换规则：激活环境：该词左边第一个紧邻词的词性是量词（q）,左边第二个词的词性是数词（m）改写规则：将该词的词性从动词（v）改为名词（n）3.得到标注结果：“他/r做/v了/u一/m个/q

6、报告/n”CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的基本技术实体识别医学领域的实体抽取是从医学数据源中提取出特定类型的命名实体，主要有疾病、药物、症状、检查、手术操作、器官部位等关键技术基于规则的方法正则法例：清扫第1组，2组，3组淋巴结正则表达式：“%/d+组淋巴结”1组淋巴结、2组淋巴结、3组淋巴结基于机器学习的方法词向量表示将自然语言处理问题转化为机器学习问题，首先在于采用一种词表示方法将文本中的单词和符号数学化，即用一个数学向量表示。常用的词向量表示方法：独热码表示、Word2vec算法例：“乙肝”表示为 0 0 0 1 0 0 0 0 0

7、0 0 0，“肝硬化”表示为 0 0 0 0 0 0 0 0 1 0 0 0CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的基本技术基于机器学习的实体识别方法例：头颅CT检查显示腔隙性脑梗死1.人工特征标注：头颅CT检查手段；腔隙性脑梗死疾病；2.训练：将字符转为向量表示，将分类标签id化，并进行特征提取，构建训练集特征向量 0 0 0 0 0 1 0 0 0 0 0 0“TES”，0 0 0 0 0 0 0 0 0 0 0 0 1 0“DIS”3.模型进行训练，训练完成后对测试文本进行识别，得到机器标注结果：平扫见右侧脑室体旁已标注数据人工特征标注原始文本训练集构

8、建机器学习模型测试集测试的未标注文本输入输出机器标注结果训练特征提取CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的基本技术实体标准化医学实体在不同的数据源中存在严重的多元指代问题关键技术基于医学标准术语库匹配的方法医学知识图谱如两个实体被多个相同实体以相同关系指向，则二者为同一实体的概率较高基于机器学习的方法用Word2vec模型对上下文取窗口进行训练，求解最大似然的共现概率。训练完成后，使用向量余弦相似度计算实体相似性。对于训练充分的词表示向量而言，一组相似词的向量语义距离更近。如“首都”和“北京”的语义距离要比“上海”更近CHIMA 2019中国人民解

9、放军总医院医疗大数据中心医学自然语言处理的基本技术实体关系抽取发现文本中实体对间的各种语义关系实体关系可以用于构建知识框架，如疾病与药物的关系、症状与疾病的关系、基因与疾病的关系等关键技术实体共现法认为两个相距很近的实体如果以一定的顺序在一个文本语料库中高频率地重复,那么这两个实体相关的可能性很大机器学习方法将关系抽取看作是一个分类问题，通过具体的学习算法，在人工标引语料的基础上构造分类器，再用训练得到的分类器抽取测试文本中的实体关系深度学习例如：患者3天前受凉后出现咳嗽、咳痰高血压病史40年，口服厄贝沙坦控制可诱因CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语

10、言处理的基本技术基于深度学习的实体关系抽取输入层编码层卷积层池化层输出层（1）输入层：需要判别关系类别的实体文本（2）编码层：预处理，使用Word2vec训练的向量模型表示实体文本对于一句话中每个单词均为 k 维的词向量，因此对于长度为 n的一句话则可用维度为 n*k的矩阵（3）卷积层：设计一个过滤器窗口W，其维度为hk，h表示窗口所含的单词个数，不断地滑动该窗口，每次滑动一个位置时，完成非线性激活函数的计算（4）最大池化层：为了得到最大特征，进行max-over-time操作，取出最大值（5）输出层：通过向量映射，得到待预测的类别结果CHIMA 2019中国人民解放军总医院医疗大数据中心医

11、学自然语言处理的基本技术语义分析在词的层次上，语义分析的基本任务是进行词义消歧在句子层面上是语义角色标注在篇章层面上是指代消歧，也称共指消解基于机器学习的消歧方法有监督：通过建立分类器，根据上下文和标注结果完成分类任务，用划分多义词上下文类别的方法来区分多义词的词义贝叶斯模型、最大熵模型、支持向量机模型、深度神经网络模型无监督：使用聚类算法对同一个多义词的所有上下文进行等价类划分，在词义识别的时候，将该词的上下文与各个词义对应上下文的等价类进行比较，通过上下文对应的等价类来确定词的词义聚类算法例：病毒（计算机病毒、生物病毒）打球、打电话、打毛衣CHIMA 2019中国人民解放军总

12、医院医疗大数据中心医学自然语言处理方法总结基于词典和规则的处理方法词典匹配正则表达式基于统计的处理方法支持向量机（Support Vector Machine，SVM）隐马尔可夫（Hidden Markov Model，HMM）条件随机场（Conditional Random Fields，CRF）长短时记忆网络（Long Short Term Memory，LSTM）卷积神经网络（Convolutional Neural Network，CNN）两者融合的方法CHIMA 201903医学自然语言处理的典型问题CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的典

13、型问题问题一有瑕疵的或不规范的输入不同的数据来源（如病历、医学论文等）或不同的人员（如科研人员、临床医生、病人等）在表达相同或相似概念时其描述方式多种多样例：2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病冠状动脉支架置入术、冠状动脉支架植入术胃胀反酸、泛酸、返酸例：冠心病、冠状动脉粥样硬化性心脏病、CAD上述现象本质上是归属于同一类问题，这类问题在通用领域称为实体对齐、实体标准化CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的典型问题解决方法采用规则的方法，将实体描述经过一系列规则变换（如，简写转全称）后进行匹配采用机器学习方法，基于向量空间模型将实体表示

14、为词向量再学习向量之间的相似性关系例：冠心病、冠状动脉粥样硬化性心脏病、CAD例：2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病冠状动脉支架置入术、冠状动脉支架植入术胃胀反酸、泛酸、返酸冠状动脉粥样硬化性心脏病2型糖尿病冠状动脉支架置入术胃胀反酸CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的典型问题问题二病历文档经常需要对某些概念进行否定性质的描述，因而要在病历中单纯地依赖文中有没有出现术语作为信息检索的依据并不能取得好的结果解决方法正则表达式实体关系抽取问题判断概念是否具有“否定”的上下文环境例：“否认手术史”、“未触及质硬结节”、“支气管断端未见癌”实

15、体识别确定实体关系共现法寻找距离相近的实体抽取目标实体前后出现的否定词CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的典型问题问题三医学领域相关实体和实体之间的关系比较复杂，例：蛋白质之间相互作用关系、药物之间相互作用关系、药物疾病对应关系等解决方案建立完备的医学知识库、知识图谱LSTM、CNN等算法，建立学习模型，识别疾病药物之间的关系相对规范的文本记录（病理报告），可考虑基于规则的方法提取，如正则表达式例：既往史：否认肝炎、肺结核、疟疾病史，高血压10年余，糖尿病7年，口服二甲双胍治疗，血糖控制可，口服硝苯地平，血压维持在130/70mmHg左右属于实体关系抽取的一

16、类典型问题例：送检（右肺中叶结节）淋巴结见转移癌（1/1），送检（第2组、第4组、第7组、第11组）淋巴结未见转移癌（分别为0/1、0/2、0/1、0/1）淋巴结阳性数清扫数第2组01第4组02第7组01第11组01右肺中叶结节11病史病程药物治疗高血压10年硝苯地平糖尿病7年二甲双胍CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的典型问题问题四电子病历中出现大量长句，需要做语义识别解决方案对于长句语义识别，适合用LSTM网络模型，通过搭建多层复合LSTM网络，将原语料反向输入生成反向LSTM层，与正向LSTM层相结合，加强关键成分与上下文的关联度例：食管胃交界部小

17、弯侧溃疡型中-低分化腺癌，部分为粘液腺癌，肿瘤大小为5x3.5x1.5cm，癌组织侵及胃壁全层，并侵犯神经，检出之上下切缘及送检（食管切缘）均未见癌keyvalue组织学类型腺癌、粘液腺癌分化程度低分化肿瘤大小5x3.5x1.5cm肿瘤部位胃食管结合部胃小弯CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的典型问题难点问题相同的医学问题、不同的研究目的，提取规则不一样例：糖尿病提取药物史降压药、降糖药侵袭性真菌病提取抗菌药物史病前30天内使用抗菌药物、长期（超过2周）使用抗菌药物病历结构化后，抽取出的信息是孤立的，丢失了大量的时间信息和因果逻辑关系例：入院记录会

18、描述患者病情的发展情况，包含了大量时间信息，以及前后、因果逻辑关系缘于2012年4月24日车祸后出现左腕及左眼眶骨折左腕及左眼眶骨折左眼眶骨折，在当地医院住院手术治疗，出院后因左腕疼痛辗转于各诊所肌肉注射或静脉滴注各种抗生素（隔2-3天应用3-5天），达3个月；于2012年8月出现高热，口腔内白斑，体温达40，伴发冷，在某医院诊断为“真菌感染”，打针治疗后症状无明显好转，后转至某医院呼吸科，诊断为“成人Still病”，接受“氟康唑、免疫球蛋白、甲泼尼龙40mg 1/日”等治疗，体温降至正常，出院口服“甲泼尼龙6片 1/日，硫酸羟氯喹0.2g 2/日；来氟米特 20mg 1/日”。于2013年1

19、2月出现左侧髋关节疼痛，下蹲困难（蹲起时自觉双侧腘窝疼痛），于某医院行髋关节核磁检查，示：左侧髋臼信号异常并左侧髋关节腔积液从文本中直接抽取实体即可不是在文本中直接体现，需要添加复杂的语义分析CHIMA 201904我院的实践与总结CHIMA 2019中国人民解放军总医院医疗大数据中心病案纸解放军总医院电子病历文本结构化进展全院电子病历文本清洗治理原始病历零散的文件存储、纯文本格式、信息不易查询提取清洗治理后的病历数据库形式存储、半结构化格式、显著提高电子病历利用率患者基本信息患者ID入院记录主诉既往史婚育史现病史个人史家族史体格检查首次病程记录病例特点拟诊讨论诊疗计划日常病程记录查房记

20、录病历数据库存储查询提取统计CHIMA 2019中国人民解放军总医院医疗大数据中心解放军总医院电子病历文本结构化进展全院电子病历文本清洗治理平台界面展示CHIMA 2019中国人民解放军总医院医疗大数据中心解放军总医院电子病历文本结构化进展基于专病的病历文本结构化处理平台不同病种需要提取的医学问题有较大差异，需要个性化定制例：胃癌手术报告需要提取：切除范围、根治度、消化道重建方式等肺癌手术报告需要提取：切口类型、切除部位、是否可见胸腔积液、胸腔粘连等1建立标准化的语料库2辅助建立专病数据库3建立专病知识图谱4数据挖掘、辅助临床科研胃癌手术报告、病理报告、病程记录的结构化处理肺癌手术

21、报告、病理报告、CT报告的结构化处理乳腺癌病理报告、超声报告的结构化处理侵袭性真菌病的入院记录结构化处理CHIMA 2019中国人民解放军总医院医疗大数据中心解放军总医院电子病历文本结构化进展病历文本结构化平台AI辅助的可配置规则抽取框架医疗文本结构化平台基于深度网络的信息抽取模型可定制抽取字段、精细化要素提取标准化归一映射、智能化技术框架CHIMA 2019中国人民解放军总医院医疗大数据中心解放军总医院电子病历文本结构化进展 AI辅助的可配置规则抽取框架，高效地应对个性化提取需求AI预处理深度理解医疗文本要素及属性分析定位候选句字段值抽取归一化/标准化字段配置结构化输出字段名值肿瘤部位

22、胃小弯,胃体组织学类型腺癌分化程度低分化肿瘤大小8x8x1.8cmBorrmann分型局限溃疡型T分期T4a切缘阴性病历文本胃小弯及胃体后壁溃疡型低分化腺癌，肿瘤大小约为8 81.8cm。癌组织侵及胃壁全层、神经伴脉管内癌栓，再取上、下切缘及送检（食管下切縁）均未见癌。病历相似句扩展同义要素扩展医生AI辅助AI辅助指导CHIMA 2019中国人民解放军总医院医疗大数据中心解放军总医院电子病历文本结构化进展基于深度网络的信息抽取模型，精准理解病历文本基于序列到序列的深度神经网络模型，不但可以在原文中精确定位结果，还可以对文本进行推理总结结构化输出字段名值肿瘤部位胃小弯,胃体组织学类型腺癌分化程

23、度低分化肿瘤大小8x8x1.8cmBorrmann分型局限溃疡型T分期T4a切缘阴性病历文本胃小弯及胃体后壁溃疡型低分化腺癌，肿瘤大小约为 8 8 1.8 c m。癌组织侵及胃壁全层、神经伴脉管内癌栓，再取上、下切缘及送检（食管下切缘）均未见癌。结果归一拷贝结果拷贝结果CHIMA 2019中国人民解放军总医院医疗大数据中心总结与展望医学自然语言处理技术的发展水平在词法分析层面，医疗实体识别以及实体关系的抽取技术已经比较成熟，在此基础上可实现电子病历文本数据的特征提取、病历检索例：检索条件：既往病史中

24、有肺结核的患者特征提取需求：提取肺癌患者的吸烟史、饮酒史等在语义分析层面，NLP技术还无法实现完全理解病历中隐含的知识，难以像医生一样去理解病历例：检索条件：提取长期使用抗菌药物史、化疗后肿瘤尺寸变小的患者“长期使用抗菌药物”“肿瘤变小”不是在文本中直接体现的，需要通过复杂的语义理解去判断难以利用一种通用模型解决所有的医学问题现阶段医疗文本结构化应用模式，大部分是带着医学问题去抽取知识，很大程度上依赖于医生对医学问题的归纳和总结相同的医学问题，在不同应用场景下，知识抽取模型不同CHIMA 2019中国人民解放军总医院医疗大数据中心总结与展望自然语言处理未来在医疗行业的应用模式通用化模型与个性化定制相结合的医疗文本结构化工具通用化模型解决医疗实体识别、实体关系抽取的问题个性化定制解决特定条件、特定病种的信息抽取问题，辅助临床科研人员、数据分析人员提取文本特征，进行数据挖掘智能化的病历检索系统支持多种形式的高精度检索CHIMA 2019谢谢解放军总医院医疗大数据中心CHIMA 2019

上海品茶

2019年医学自然语言处理.pdf

报告推荐

相关图表

相关报告

热门报告