《imit白皮书:如何推进医疗健康信息互联互通之数据质量管理与控制(24页).pdf》由会员分享,可在线阅读,更多相关《imit白皮书:如何推进医疗健康信息互联互通之数据质量管理与控制(24页).pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、2022 年 9 月 2 日,国家卫生健康委员会新闻发布会介绍了党的十八大以来我国全民健康信息化建设取得的显著成效,但也强调了由于医疗服务的复杂性、服务流程的多样性、服务对象的广泛性、医疗数据的敏感性,医疗健康信息的互通共享应该说仍然还是一个有待攻克的难题,我国目前仍处在探索发展、摸索经验的关键时期。在推进医疗健康互联互通建设发展上,既要有前沿趋势探索,新的机制建设、共享模式研究,也应切实关切行业的应用实践总结。而其中,务实管理和控制数据质量是提升医疗健康信息互联互通水平的重要内容。本期白皮书以凝练了钱子来老师多年医疗信息化实践经验与深刻认识形成的有关健康医疗数据质量管理与控制关键问题讨论的一
2、系列小短文为基础,在不改变钱子来老师本义的基础进行了结构上的汇编,重点从钱子来老师对医院信息化建设历史经验分享、对于健康医疗数据质量管理关键问题的认识以及关于健康医疗数据质量控制的思考三个方面展开,并补充了一些医疗信息化的概念释义与基础信息帮助读者更好的理解相关内容。期望通过本期白皮书,以亲历者的“经验之谈”,能给读者在解决健康信息互联互通实际工作中面临的问题提供参考与启发。编者按经验之谈:原南京市第一医院院长钱子来:如何推进医疗健康信息互联互通之数据质量管理与控制第25期本期专家介绍本期专家介绍致谢致谢本期专题策划本期专题策划钱子来:国内资深医疗信息化专家,医院管理专家,江苏省卫健委咨询专家
3、,曾任南京市第一医院院长、南京市胸科医院院长、南京市医学研究所所长、南京医学情报研究所所长。特向以下人员致谢,感谢他们对本期内容作出的贡献:汤娟华,常州市卫生健康数据管理中心,高级工程师李莹莹,浙江数字医疗卫生技术研究院,高级咨询顾问浙江数字医疗卫生技术研究院 战略咨询与研究中心策划:朱烨琳,编辑:李莹莹,设计:蔡园婷,宣发:朱歆旖经验之谈:如何推进医疗健康信息互联互通之数据质量管理与控制1前言“十四五”已开启我国发展新征程,医疗信息化发展也正在走向高质量发展阶段。高效的数据治理是医疗信息互联互通与医疗数据价值有效挖掘的重要基础。“数据治理”是一个非常大的话题,其中数据确权是国家立法层面的工作
4、;数据安全则既有底层技术也有国家安全问题,恐怕得由权威部门作为法制法规建设来考虑。本文仅就卫生信息化建设过程中大家都可能会遇到的一些令人困惑的关于数据质量管理与控制的问题,谈谈个人的看法,希望能够作为引玉之砖,引起大家的重视、思考与实践,以求得真知灼见。需要特别说明,其中许多是我个人的观点,错误难免,诚恳希望能够得到大家的指正。本文以面向应用为主,主要谈一些我们能够谈的实际问题,尤其是在工作实际中大家都会遇到的一些问题。国家医疗健康信息互联互通建设现状2022 年 9 月 2 日,国家卫生健康委员会新闻发布会重点介绍了党的十八大以来卫生健康信息化工作进展成效,这也是国家卫生健康委“一切为了人民
5、健康我们这十年”系列新闻发布会的第 16 场。会上,国家卫生健康委规划司司长毛群安表示:“总体来看,党的十八大以来,我国全民健康信息化建设成效显著。”其中,互联互通的平台基础逐步夯实。国家全民健康信息平台初步建成,省统筹区域全民健康信息平台不断完善,实现各级平台联通全覆盖。建立健全全员人口信息、居民电子健康档案、电子病历和基础资源等数据库,积极推动公立医院逐步接入区域全民健康信息平台,依托平台推动不同医疗机构之间诊疗信息互通共享。当前,所有的省份、85%的市、69%的县建立了区域全民健康信息平台,各地建立健全了全员人口信息、居民电子健康档案、电子病历和基础资源等数据库,全国 7000 多家二级
6、以上公立医院接入区域全民健康信息平台,2200 多家三级医院初步实现院内医疗服务信息互通共享。总的来看,全民健康信息化效果正在显现,目前部分区域、部分医院和医联体在实现了互通共享基础上,以应用为导向,逐步实现全国医疗健康数据互通共享,既非常必要也具备可行性。但是由于医疗服务的复杂性、服务流程的多样性、服务对象的广泛性、医疗数据的敏感性、医疗健康信息的互通共享应该说仍然还是一个有待攻克的难题。我国目前仍处在探索发展、摸索经验的关键时期。拓展阅读白皮书2第 25 期(一)全民健康信息互联互通问题的产生全民健康信息化已经走过将近四十个年头。回顾近四十年走过的艰辛探索的道路,如果宏大叙事,基本上可以讲
7、经历了业务系统建设、信息平台建设及正在发展中的大数据应用三个具有里程碑意义的发展阶段。全民健康信息化发端于四十年前的医院信息系统建设,初始阶段的医院信息系统在今天看来仅仅是一个简单的功能单一的收费系统。经过四十年的积累与发展,今天已经形成了比较成熟的几乎可以涵盖医院全部业务的生产性业务系统长线产品,为医院的日常业务运行提供了有效的业务过程信息化及上下游业务的信息整合和标准化的可过程控制的管理模式,很好地解决了医院日常业务流程控制和医疗安全与质量管理、部门协调等传统管理中的难题。但必须指出,在此基础上发展而来的信息系统本质上仍然是对传统医院管理模式的仿真,面对数字化转型浪潮,医院的信息化建设面临
8、的不仅仅是业务的重构与改造,还需关注数字技术对医疗模式创新与业务模型重构的革命性的意义。积四十余年的经验,只要用户能够讲清楚业务规则、业务流程和业务场景,开发一个能够满足用户个性化需求的业务系统在今天已经不是一件困难的事情。困难的是众多异构的业务系统之间如何通过互联互通实现业务协同的问题!现在,三级医院普遍拥有的业务系统少则 50 余个,多的将近 200 个业务系统。其中许多业务系统需要通过数据交换、信息共享和流程连接来实现业务协同。业内人士都清楚,因为历史的原因,这些业务系统绝大多数都是异构的,最主要的异构在于数据的异构。传统解决数据异构的方法是在两个异构系统之间通过接口来实现互联互通,无论
9、采用何种技术类型的接口都必须解决异构数据从数据结构到语义的对齐。这可不是一个简单的任务,其中有些可以通过技术手段实现,更多的是需要业务管理跟进。有经验的信息中心主任都有体会,数据质量在本业务系统内可控,具有较大的应用价值,但数据一旦离开业务系统,参与交互,数据质量就会失控,数据价值会呈现指数式的跌落。系统之间通过点对点接口实现互联互通有一个致命的 N 平方问题,即如果 100 个业务系统都有数据交换和业务协同问题,那就会出现 100(100-1)个接口,即 9900 个,4950 对接口。这是一个恐怖的网状拓扑,将增加大量的 IT 开销,降低系统性能,关键是难以维护。因为业务系统的变化会导致接
10、口条件与参数的变化,而这种变化会通过网状拓扑广播式的动摇其他相关接口。所以,许多医院的领导会为日益增长的接口费感到困惑。要解决这个问题,必须引入集成代理的概念。(二)平台概念的理解及建设意义 1.平台究竟是什么?首先得说明,这里讲的平台是特指区域卫生信息平台和医院信息平台。关于平台是什么?似乎不是问题。但是我觉得这不但是个问题,而且还是个大问题。因为许多地方反映,花巨资建设的平台看不到有什么应用价值:换个业务系统还是那么困难,接口费仍然居高不下,数据质量问题还是得不到解决。于是,我很自然的就想到了一个问题:那个花巨资建设的东西是平台吗?一、全民健康信息化建设历史经验分享经验之谈:如何推进医疗健
11、康信息互联互通之数据质量管理与控制3当前,平台是个热词。很多地方都在谈平台建设,但仔细听听,似乎讨论的并不是同一件事情,平台的概念由泛化走向异化。由于没有在厘清概念上下功夫,习惯以模糊的概念来定义概念,其后果往往是偏离建设方向。什么是平台?原卫生部在 2009、2011年先后发布的基于居民健康档案的区域卫生信息平台及基于电子病历的医院信息平台建设指南中讲得非常清楚。这里讲的平台,本质上是个集成平台,通过平台实现数据集成、应用集成和门户集成。集成也可以看成是一种整合。简单讲,建设平台的目的是为了实现异构业务系统的互联互通,通过三大集成整合区域与医院内部的各类应用。当然,实现跨机构、跨区域、跨行业
12、、跨平台的互联互通更需要平台提供支持。然而,现在许多地方在建设平台的实践中,赋予了平台许许多多眼花缭乱的功能与应用,唯独没有平台的灵魂集成功能!许多地方搞不清楚平台建设与业务系统建设之间的区别与联系。平台建设是平台建设,业务系统建设是业务系统建设,两者不是一回事,不能混为一谈。要说两者的联系,只是业务系统要通过平台实现互联互通,而不是在平台上建设业务系统。曾经有人问我,那卫生部讲的基于平台的妇幼系统建设是怎么回事?我认为那不是指将妇幼系统建在平台上,基于平台建设是指该系统在建设时必须遵循平台的统一接口规范及相关的数据标准等平台规则的约束,以实现其核心业务与其他业务系统的数据交换、信息共享与业务
13、协同。对于平台而言,妇幼系统仍然是一个边界清晰的独立的业务系统。互联互通,有物理意义上的“通”,更有逻辑上的“联”。即平台即要实现无障碍的传输,更要保障无歧义的理解,实践经验告诉我们,通易联难。计算机程序的执行过程,某种程度上也可以说是一个对数据库进行读写的操作过程。计算机科学所指的数据,尤其是结构化数据,本质上是语言的符号。人类是通过语言来进行思考与交流的,而模糊性是语言与生俱来的固有特性(汉语尤其如此)。如何提高交流的有效性(效率+准确性),目前通常使用的方法是将语言标准化,包括词法、语法、修辞等等。作为语言符号的数据,同样,也通过标准化来解决交互的效率与准确性。前面讲到的“集成代理”,就
14、是要改变原来异构业务系统间通过点对点接口的交互方式,采用平台的统一交互机制来实现互联互通,利用总线的统一公共接口来实现通信协议转换。通信协议定义了交互的语法规则及语义规则,其中语义规则往往是通过一套数据标准来表达。例如 HL7 中,其语义约定是弱规则,而语法约定是强规则,XML 也同样如此。平台提供一整套数据标准来约束异构数据在交互过程中数据格式及语义的映射转换,凡通过平台实现与其他系统进行数据交互和业务协同的业务系统,只需要与平台数据标准建立一对映射转换的机制即可,避免了 N 平方陷阱。2.平台哪些功能影响数据交互质量?平台建设与管理运行质量,决定了平台数据交互质量,也决定了平台数据中心汇聚
15、的数据质量及数据应用质量。决定这些数据质量的平台基础功能主要有以下几个方面:白皮书4第 25 期 主索引管理 主数据管理 元数据管理(以及基于元数据管理的数据资产目录)医院信息平台应用功能指引医院信息平台:是连接临床信息、医疗管理及运营信息等系统的信息共享和业务协作平台,是医院内不同业务系统之间实现统一集成、资源整合和高效运转的基础与载体,也是实现与外部机构的信息共享和业务协同的重要技术支撑。医院信息平台服务层的主要任务是为平台提供各种服务。包括注册服务、主索引、主数据管理服务等部分。主索引:是指在特定域范围内,用以标识该域内每个实例并保持其唯一性的编码。唯一标识是指用于临床实际业务并且能够辅
16、助进行唯一性识别,在该域或跨域可见的唯一编码。采用居民健康卡、身份证进行唯一标识的加载与识别,建立统一的主索引。功能包括信息查询、检索索引历史、索引比较、索引修改等。主数据管理:主数据是跨系统、跨应用和跨流程的医学标准术语唯一来源,能够集成卫生信息基本数据集并对业务系统主数据统一管理,规范医疗卫生事件的信息含义一致性,具备特征一致性、识别唯一性、长期有效性和业务稳定性。具体功能包括:主数据模型管理、主数据定义、主数据据映射、订阅、审核及发布等。注册服务:用于医院信息平台各种共享服务资源的注册,通过服务资源的发布一发现一访问机制,实现服务资源共享。注册服务是医疗信息闭环系统中最基础的服务之一。注
17、册服务包括对患者、医疗卫生服务人员、医疗卫生机构(科室)、医疗卫生术语的注册管理服务,系统对这些实体提供唯一的标识。针对各类实体形成各类注册库(如个人注册库、医疗卫生机构注册库、术语和字典库等),每个注册库都具有管理和解决单个实体具有多个标识符问题的能力。省统筹区域人口健康信息平台应用功能指引平台主索引:以“居民身份证号码”作为平台基础服务的主索引。通过与居民健康卡注册管理系统关联,进行身份认证、个人注册基本信息核实等。按照平台业务系统和居民健康卡应用目录提供相关索引服务。具体功能包括:个人主索引注册、主索引服务,数据自动匹配关联、主索引维护等。主数据管理:提供属性自动匹配和重复数据删除功能,
18、以及基于工作流的主数据手动干预功能;提供多源数据的原始数据查询、差异比较功能;提供主数据的历史变更回溯功能。概念释义 数据质量指标体系与测量方法 指标库管理 数据标准管理 注册服务经验之谈:如何推进医疗健康信息互联互通之数据质量管理与控制5元数据管理:提供自动化信息资源编目、信息资源注册、智能化的查询功能。支持集中式和分布式部署,实现基于 Metadata 的信息资源管理。注册服务:依托人口健康信息平台,提供对居民个人、医疗卫生人员、医疗卫生机构、医疗卫生术语等基础共享信息的注册,提供唯一的标识号,实现在省域范围内的信息识别。具体功能包括:个人注册、医疗卫生人员注册、.医疗卫生机构注册、医疗卫
19、生术语注册等。数据标准管理:理提供对术语、数据元、数据集以及值域代码的管理与维护。数据标准服务:提供按需发布标准规范,供人口健康信息平台/应用系统参考使用;基于数据标准规范配置接口标准、交换文档等内容,以实现语义化的数据交换;与外部标准体系之间的接口(国家卫计委相关标准、国际标准);支撑共享交换过程中的代码、数据转换。白皮书6第 25 期(一)数据标准管理 1.什么是数据标准?标准化是工业文明的产物,而多样性却是构成这个世界的基本条件。因此,标准化、同质化并不是普遍适用的,是个别特殊情况和条件下的不得已的办法。数字文明时代,无时空障碍的信息流动,要求作为信息载体的数据能够“无障碍传输,无歧义理
20、解”。这就是一种条件,也就是说,需要标准化的介入。信息平台建设涉及硬件、软件的许多属于底层技术的标准化问题,通信协议就是一个典型的标准化问题。本文只讨论关于数据的标准化问题。数据标准是指为了保障数据在异构系统间进行数据交换、信息共享和业务协同时能够做到一致性和准确性而制定的规范性约束。数据标准是数据管理的基础性工作,是数据资产管理的核心活动之一。数据标准在实际应用场景中,更多的时候是强调数据字典表达的规范。而数据标准建立的更高目标是在业务和数据上达成共识(而且是业务共识在前,数据共识居后),通过数据标准化来提升业务的规范性和业务协同能力,同时约束 IT 系统建设。自上世纪九十年代以来至今,国家
21、卫健委(原国家卫生部、原国家卫计委)颁发了数百个关于数据标准的文件,这些标准都可以在国家卫健委网站上海品茶 卫生标准 卫生信息查到(见图 1)。二、对于健康医疗数据质量管理关键问题的认识图 1 国家卫健委卫生标准查询下载界面经验之谈:如何推进医疗健康信息互联互通之数据质量管理与控制7主要有数据集、数据元、数据元值域代码、共享文档、多媒体(例如影像的DICOM)、编制规范等数据标准化文件。其中,最基本、最核心、最重要、最需要了解掌握的是数据集、数据元、数据元值域代码标准这三类标准。数据集标准规定了描述一个业务活动的数据元集合。数据元标准规定了统一标识、名称、定义、数据结构、允许值等重要的元数据。数据
22、元值域代码标准在规定数据元允许值范围的同时,还规定了值的分类准则。这三类数据标准大都是强制性的行业标准,可见其重要性。在各地的实践中,也充分体现了这三类数据标准对于数据质量及数据赋能所起到的的关键性作用。当然,作为强制性行业标准的数据集标准,是否可以允许具有弹性或在此基础上约定最小数据集作为强制性执行标准,以更好的反映多样化的生动活泼的鼓励创新的业务活动,是可以讨论商榷的。此外,为了深化对数据标准内涵的理解,对于以下几个基础性的规则规范,建议也应该熟悉一下:WS/T303-2009 卫生信息数据元标准化规则 WS/T304-2009 卫生信息数据模式描述指南 WS/T305-2009 卫生信息
23、数据集元数据规范 WS/T306-2009 卫生信息数据集分类与编码规则 WS/T 671-2020 国家卫生与人口信息数据字典 WS/T 672-2020 国家卫生与人口信息概念数据模型 WS/T 681-2020 卫生信息标识体系对象标识符注册管理规程 WS/T 682-2020 卫生信息标识体系对象标识符编号结构与基本规则当前的卫生信息标准有那些?2009 年原国家卫生部卫生信息标准化专业委员会提出信息标准体系架构图,将卫生信息标准分类为:基础类标准、数据类标准、技术类标准、安全类标准、管理类标准,这也是目前国内通常引用的卫生信息标准分类,具体分类与内容如见图 2:拓展阅读图 2 我国卫
24、生健康信息标准体系框架白皮书8第 25 期常典型,国家标准就有好几套,分别由国家不同管理部门制订并颁发,职业分类也有好几种标准。因为面对不同的业务与管理目标,对同一类数据会形成不同的分类方法,不同的编码算法。一套标准是无法满足所有的应用需求的,因此,需要结合具体的业务与管理要求,以贴近业务为原则,选择最合适的作为平台的数据标准。面对某些有特别要求的业务或管理要求,有时会不得不选择多套不同的数据标准,这种情况下必须有明确的标识来约束使用场景。业务系统是否一定要采用平台标准?我们认为,作为新建的业务系统或原有业务系统在升级改造时,应该考虑尽可能地使用或贴近平台的数据标准。对既有的在运行中的业务系统
25、,不必勉强用平台数据标准去改造,而采取在通过平台进行数据交换、信息共享和业务协同时进行转换的策略。更为复杂的问题是,具有分类功能的值域代码标准,如果分类准则导致代码取值不能做到唯一,应该采取什么样的对策?如:2.数据标准的贯标问题有了数据标准,数据质量问题并不会自然而然地得以解决。如何通过有效的贯标活动,使得通过平台交换与共享的数据质量受控是一项具有挑战性的工作。其中,有些问题的复杂性可能会超过我们的想象。举例来说,以下几个问题在实际工作中会经常出现:一项标准能否满足所有的相关应用需求,如果不能,有什么好的解决办法?业务系统的基础数据是否一定要采用平台标准?具有分类功能的值域代码,如果分类准则
26、导致代码取值不能做到唯一,应该采取什么样的对策?术语如何实现标准化?具体的业务活动有时可能会应对多项数据标准,如何作出正确选择?药品标准就非数据来源:1:国家卫生健康委员会,关于加强全民健康信息标准化体系建设的意见 EB/OL.http:/ J.医学信息学杂志,2020,41(11):22-25.截至 2020 年 8 月,现行有效的卫生健康行业信息化标准共计 227 项1,从标准类型来看,绝大多数标准为数据类标准(约占 85%),其次为技术类标准(11%)2。主要服务于以电子健康档案为中心的区域卫生信息化建设和以电子病历为中心的医院信息化建设工作,满足卫生健康信息互通共享标准需求。部分数量较
27、多的标准列举如下:WS/T 500电子病历共享文档规范:53 项;WS 375疾病控制基本数据集:21 项;WS/T 483健康档案共享文档规范:19 项;WS 445电子病历基本数据集:17 项;WS 363卫生信息数据元目录:17 项;WS 364卫生信息数据元值域代码:17 项;经验之谈:如何推进医疗健康信息互联互通之数据质量管理与控制9ICD-10 临床版(也有数十个不同的版本,且第五、六两位码的编码规则在同一个版本里也具有不确定性)。我们认为在制定该类标准时,尽可能地避免出现交集,在出现交集不可避免时应该明确交集部分的优先归属指向算法。需要提出的是,某些分类粒度过细的数据标准,会产生
28、概念边界的不确定性,加上语言的模糊性,会使语义对齐出现困难。现在,有些地方已经在开展基于人工智能、自我国医学术语标准化现状与趋势?医学术语标准化内涵:是运用标准化的原理和方法,通过制定医学术语标准,使在一定范围内的医学用语得到统一,获得最佳秩序和社会效益的过程。主要包括医学术语及其定义的指导性规范、医学术语使用规范,还包括大量医学术语规范化体系,如术语表、叙词表、分类表、编码、本体等。临床医学术语标准化的意义:临床医学术语标准是实现语义层面系统互操作的基础条件,统一的临床医学术语标准及术语集有助于解决术语重复、内涵不清、语义表达和理解不一致等问题,对有效推动医学信息在更大范围和更深层次上的传播
29、、共享和使用具有重要意义。未来,还将加速推进医疗与人工智能跨界融合,逐步实现智能医疗。我国主要的医学术语编制与推广机构:国家卫生健康委员会、全国科学技术名词审定委员会、中华医学会、中国中医科学院中医药信息研究所、浙江数字医疗卫生技术研究院等。我国主要的医学术语标准编制模式:引进翻译、自主审定名词、融合创新构建中医药学术语标准。医学术语标准的层次:根据知识组织体系的结构、语义强弱程度、所实现的功能等要素,已有的医学术语标准可分为四个层次。词汇表类、分类体系、语义关联组类、一体化语言系统,当前主要医学术语标准见表 1。拓展阅读然语言处理等技术的语义适配算法研究。在没有很好的技术解决这个问题以前,在
30、满足业务与管理基本要求的前提下,不过度的追求数据标准分类粒度与精度,是一种明智的选择。另外,术语标准化也应列入议事日程。建议建立提供有关数据标准的术语查询服务,对常用的关于数据标准的术语,根据国家卫健委已经出台的标准规范进行定义和名词解释是一项有意义的工作。表 1 主要医学术语标准概览层次医学术语标准的名称版权机构主题领域释义体量(术语/概念)词汇表类用户健康词汇表(CHV)美国犹他大学生物医学信息部 用户健康词汇表 公众健康 14.8 万/5.6 万人类基因命名表(HUGO)国际人类基因命名委员会 HGNC 遗传学 无 14 万/3.9 万MediLexicon 医学词典 英国 MediLe
31、xicon International Ltd 医学综合 有 10 万词汇白皮书10第 25 期 3.如何开展数据标准管理?数据标准具有成长性,不是一成不变的,因此是需要动态管理的。由于数据标准管理的复杂性,需要建立一个应用系统来支撑管理活动,这个应用系统往往被定义为数据标准管理系统。一般情况下该系统部署在市、区(县)区域卫生信息平台和省综合管理平台。数据标准管理的目的是通过统一的数据标准制订、更新和发布,结合制度约束,系统控制等手段实现数据的完整性、有效性、一致性、规范性、开放性和共享性管理,为数据资产管理提供管理基础,是数据治理极为重要的组成部分。各地全民健康信息平台大多都建立了数据标准管
32、理系统,据工作交流中观察到的情况,许多地方的数据标准管理系统缺乏日常运行维护管理,甚至多年后系统发布的数据标准尚停留在管理系统建成投入使用时的初始状态,形同虚设,发挥不了统领数据质量的作用。数据标准管理具有较强的专业素质要求,单靠信息中心是无法完成这个任务的。需要根据专业要求,纳入本级行政体系,分工合作,让专业的部门来管理相关专业的数据标准。要特别强调,数据标准及数据标准管理系统是为本级平台服务的!数据标准管理绝不是简单地照抄上级平台或国家标准,需要结合本地业务及管理要求进行选择、增补、调整。层次医学术语标准的名称版权机构主题领域释义体量(术语/概念)分类体系国际疾病分类法第 10 版(ICD
33、-10)世界卫生组织 临床医学 类目注释 1.35 万/1.15 万NCBI 分类表(NCBI Taxonomy)美国生物技术信息中心 生物学 类目注释 86.1 万/63.4 万中国图书馆分类法-医学专业分类 中国国家图书馆 医学综合 类目注释 5 万个类目观测指标标识符逻辑命名与编码系统(LOINC)美 国 印 第 安 纳 大 学 医 学 中 心Regenstrief 研究院检验类 逻辑表示36.4 万/14 万关联组类医 学 系 统 命 名 法 临 床 术 语(SNOMED CT)国际健康术语标准发展组织 IHTSDO临床医学逻辑定义80 万/32.1 万解剖学基础模型本体(FMA)美国
34、华盛顿大学医学院结构信息研究组解剖学有13.9 万/8.2 万基因本体(GO)基因本体联盟基因有10.4 万/5.8 万NCI 叙词表(NCIt)美国国立癌症研究所医学综合有23.8 万/9 万医学主题词表(MeSH)美国国立医学图书馆 NLM医学综合有75.8 万/32.1 万药物标准术语表(RxNorm)美国国立医学图书馆 NLM药学逻辑表示49.7 万/20.4 万中文版医学主题词表(CMeSH)中国医学科学院医药信息研究所医学综合有11 万/5.5 万中国中医药学主题词表中国中医研究院中医药信息研究所中医药有0.83 万/0.56 万一体化语言系统一体化医学语言系统(UMLS)美国国立
35、医学图书馆 NLM医学综合有1080 万/266 万中文一体化医学语言系统(CUMLS)中国医学科学院医学信息研究所医学综合有60 万/30 万/3 万(叙词)中医药一体化语言系统(TCMLS)中国中医研究院中医药信息研究所中医药有60 万/30 万续表 1数据来源:imit 白皮书,统一的力量 临床医学术语标准化的展望,2016经验之谈:如何推进医疗健康信息互联互通之数据质量管理与控制11 4.数据标准管理也应有 PDCA 循环数据标准管理也需要有一个持续改进的过程。简单的讲,就是数据标准的制定数据标准的执行(贯标)数据标准的评估(应用反馈)数据标准的持续改进,要形成一个闭环的工作机制。这也
36、应该成为数据标准管理系统的一个基本功能。的基础数据严格约束了该类数据在本业务系统内的表达。这些约束对其他系统的相关数据无效,这一类相关数据其他系统有各自的约束条件。因此,这些基础数据离开本系统参与与其他业务系统交互时,就会出现因为约束条件不一致而导致的语义表达不一致。这种语义表达不一致主要反映在编码的不一致,因为绝大多数的基础数据都是由一对”值+代码(编码)“构成,计算机在处理这一类数据时,往往使用其代码(编码)来进行运算。代码不一致会导致计算结果的偏差,这是影响数据质量的最主要也是最重要的原因,而且没有之一。也是数据校验与数据稽核环节的一个目前解决得并不好的难题。为了保证不同业务系统的基础数
37、据在参与交互(数据交互、信息共享、业务协同)时能够取得语义表达的一致性(代码一致),就需要对参与交互的基础数据进行归一处理(代码对齐),即建立这些基础数据的公共约束条件,这就是主数据标准。主数据一定是标准化的。主数据标准的编制要尽可能地利用既有而且比较成熟的国际标准、国家标准、行业标准,当然也要考虑因地制宜、因时制宜地设计一些自定义标准作为补充。主数据分类列目,可以便于主数据溯源及跟踪管理。主数据标准分类列目的一些示例见图 4:必须强调说明三点:1)上述示例仅仅是举例说明,相关国际、国家标准、行业标准等不止这些类型,可供选择的范围是充裕的。2)对于同一个基础数据,可供选择参照的标准也往往不止一
38、个。作为平台的主数据标准,原则上是选择其中的一个。如果某些业务需要共享的基础数据另有特别要求,也可以有限的设置少量的平行主数据标准,但图 3 数据标准管理 PDCA 循环(二)主数据管理 1.什么是主数据?主数据指的是共享的基础数据。基础数据指从信息资源中提取出来的最基础的数据,是业务数据中相对固定、变换缓慢、被重复使用的核心数据。包括索引数据、标识数据、自然人数据、法人数据、机构数据、地理信息数据以及专业类术语与字典等。所有业务系统都有自己的基础数据。建立这些基础数据,是为了保证该业务系统运行过程中数据表达的语义一致性。尤其是专业术语与字典,用来规范医疗卫生事件中所产生的信息含义的一致性问题
39、,对于整体数据质量控制是关键性的一个重要环节。在业务系统中生产、传输、存储、应用白皮书12第 25 期对这一些主数据标准必须有明确的标识,严格约束其应用场景。例如药品名称编码,国家级的标准就有四五套,这些不同的编码算法各自满足不同部门的管理要求。3)选择作为本级平台的主数据标准时,要根据具体的应用需要,不要一味追求分级分层的过细的粒度。例如平台必须管理的主数据项目行政区划代码,必须执行 GB/T 2260中国人民共和国县级及县级以上行政区划代码表。按照国务院行政区划管理条例规定,行政区划代码由民政部门确定、发布。该标准对我国县以上行政区划的代码做了规定,用六位阿拉伯数字分层次代表我国的省(自治
40、区、直辖市)、地区(市、州、盟)、县(区、市、旗)的名称。行政区划变更由国家民政部门建有的信息系统对该标准进行动态管理。GB/T 10114-2003县级以下行政区划代码编制规则是关于 GB/T 2260中国人民共和国县级及县级以上行政区划代码表扩充与延拓的配套标准,由省(自治区、直辖市)统计局负责编制。在实际工作中,大家都反映跟踪县级以下行政区划代码的动态变更遇到的困难比较多。这里不去分析讨论形成这种困难的成因,因为我们无力改变这种状况。我们只需要考虑如何在满足平台应用需求的前提下,控制适宜的粒度。因为分类越细,管理难度越大,与统计分析的效果不一定是正相关关系。我建议尽可能采用省卫统的相关标
41、准。县以下单位如果需要基于行政区划做更细致的分析,可以根据县级以下行政区划代码编制规则,自主选择或制定本区域内的相关行政区划代码。在数据标准制订时也提到过,数据标准的粒度设计要因地制宜、因时制宜,要适度。因为过细的分类分层粒度不但会使数据编制的制定维护增加难度,而且会使贯彻执行数据标准的难度也大大提高,反而影响数据质量。例如,各地开展的垃圾分类工作都遇到了一些困难,我认为与分类标准不易掌握有关。要区分干垃圾与湿垃圾难倒多少英雄好汉,有害垃圾和可回收垃圾有时也很难精确区分。江苏省有个地方做得就很好,只分为易腐烂垃圾与不易腐烂垃圾两类,大家反映容易掌握区分,那里的垃圾分类工作就开展得很好。2.数据
42、标准就是主数据吗?至于大家问的比较多的关于主数据是不是就是数据标准的问题,行文到这里就应该比较清楚了。主数据标准是数据标准的一部分,如果是说数据标准是一个集合,那主数据标准就是这个集合的子集,两者是包含关系。图 4 主数据标准分类列目示例经验之谈:如何推进医疗健康信息互联互通之数据质量管理与控制13那么主数据如何识别,如何进行标准管理,如何通过主数据管理来控制交互中基础数据的一致性,基础数据语义一致性?3.主数据管理中如何贯彻标准?制定数据标准后,能否有效的贯彻标准,将决定平台的数据质量。本文试图通过主数据管理的讨论,来探索贯彻数据标准的方法。主数据标准是具有基础性的数据标准,因此,主数据管理
43、是贯彻数据标准最有效、最基础、最核心的方法。可以这样讲,如果平台的主数据质量可控,那么平台数据中心的数据质量就是可信、可用的。主数据是平台共享的业务系统的基础数据。对通过平台交互,须执行同一标准的尚不属于基础数据的一些业务数据,即公共数据元,也可以采用主数据管理的方法,来保证交互过程中的一致性。4.主数据管理基本环节1)主数据识别汇集通过平台交互的各业务系统的基础数据,筛选出两个以上业务系统共有的并参与交互的基础数据,作为平台主数据。其中比较重要的通过平台注册服务进行注册与发布的主数据有:自然人主索引、自然人主数据,医疗卫生机构主数据,医疗卫生人员主数据和术语与字典。2)主数据标准化主数据标准
44、可以与平台的数据标准同时制定或先后制定。作为主数据的元数据,至少在数据元标准和数据元值域代码标准两项与平台的数据标准应该保持严格的一致。本质上,主数据标准是平台数据标准的一部分。3)主数据注册标准化的主数据要通过平台的注册服务进行注册,通过平台的发布服务进行发布。主数据的版本管理通过发布服务实现。自然人注册服务形成一个自然人注册库,它是平台上唯一的个人基本信息权威信息来源,用于医疗卫生信息系统确认一个自然人的身份,解决在跨越多个系统时居民身份唯一性识别的问题。医疗卫生人员注册。为本区域内所有卫生管理机构的医疗服务提供者,包括全科医生、专科医生、护士、实验室医师、医学影像专业人员、疾病预防控制专
45、业人员、妇幼保健人员及其他从事与居民健康服务相关的从业人员提供注册服务。系统为每一位医疗卫生人员分配一个唯一的标识,并提供给平台以及与平台交互的系统和用户所使用。医疗卫生机构注册。为本区域内所有医疗机构,包括二三级医院、基层医疗卫生机构、疾病预防控制中心、卫生监督所、妇幼保健所等提供注册服务。系统为每个机构分配唯一的标识,可以解决居民所获取的医疗卫生服务场所唯一性识别问题,从而保证在维护居民健康信息的不同系统中使用统一的规范化的标识符,同时也满足区域卫生信息平台层与下属医疗卫生机构服务点层的互联互通要求。建立术语和字典注册。用来规范医疗卫生事件中所产生的信息含义的一致性问题。术语和字典由平台管
46、理者组织实施统一的注册、发布、更新维护。4)主数据订阅平台须提供主数据订阅服务。通过平台交互并须遵循平台主数据标准的各业务系统均应订阅,以及时获取最新主数据标准版本,并通过对照实现与平台主数据的同步更新与一致。5)主数据对照及可视化白皮书14第 25 期凡订阅平台主数据的业务系统,须对每一个相关基础数据建立与平台主数据的对照表,对照表必须可视化,以保证对照质量可控。6)主数据校验对通过平台进行数据交换、信息共享和业务协同的业务系统的基础数据提供主数据依从性的评估。5.做好主数据管理的关键环节1)建立主数据管理机制由于主数据管理涉及许多行政与业务管理部门,要依托现有的行政及业务管理机制构建一个有
47、效的管理体系,并不是一件容易的事情。而仅仅依靠信息中心的力量是难以完成这项工作的。2)术语与字典主数据管理尤其是对照、校验工作,对业务技能要求比较高,难度不可小觑。术语与字典往往是由代码(或具有分类分层级功能的编码)与名称构成一对属性标识的概念,其相关性评估具有挑战性。数据本身是没有意义的,数据只是个符号,数据必须赋予其含义才有意义。数据的含义是语义,语义是数据在某个领域的解释和逻辑表示。语义具有主观性和领域性特征,语义对齐是消除同一事物在不同人、不同领域之间理解不同的语义异构的必要过程。用代码或编码来标识一个概念,是语义对齐的一种方法,也是制定数据元值域代码的初衷。然而,实践中一个代码或编码
48、标识的概念往往是一个集合,这个集合的边界很难精准。因此,判断代码或编码标识的对象,是否归属于某概念的集合不是一件容易的事情。现在,绝大多数地方采用校验代码或编码是否在该值域代码列表中的方法,来进行术语与字典的值域代码校验。这个方法是不可靠的,因为技术上很容易通过改变代码或编码来通过校验,而这恰恰是数据造假的行为,会严重影响数据质量,使得数据不可信、不可用。尤其是在使用术语与字典的代码或编码进行统计分析等计算应用场景,数据质量将呈现整体不可用。本体论、知识图谱、语义网、自然语言处理、语义距离计算、语义适配等,是解决以上问题的可以选择的技术路线,希望有更多的研究机构与企业能够开展研究,提供相关服务
49、。(三)主索引管理 1.居民主索引与居民主数据、居民基本信息是一回事吗?在市区县区域卫生信息平台建设实践中,经常会遇到居民主索引与居民主数据、居民基本信息三个概念。医院信息平台建设中也会遇到患者主索引与患者基本信息的采集问题。这些概念之间应该是什么关系?这是一个必须认识清楚的基本问题,也是提高数据质量的一个具有关键性的根本环节。1)什么是居民主索引?这里所指的居民,包括区域卫生信息平台覆盖的行政区划范围内所有的自然人。这里强调“所有”,包括也在平台注册的“机构人员”,虽然机构人员是提供医疗卫生服务的主体,但也是接受医疗卫生服务的客体。个人注册服务是指在一定区域范围内形成一个个人注册库。个人的唯
50、一身份标识号及基本信息以“居民主索引”被区域卫生信息平台安全地保存和维护着,为区域内医疗就诊及公共卫生相关的业务系统提供人员身份识别功能。平台建立与管理的居民主索引是唯一的经验之谈:如何推进医疗健康信息互联互通之数据质量管理与控制15权威信息来源,用于医疗卫生信息系统确认一个人是某个居民或患者,解决在跨越多个系统时用到居民身份唯一性识别问题。居民主索引的注册服务是区域卫生信息平台正常运行所不可或缺的。通过平台的注册服务建立居民主索引的工作应该由区域平台统一组织完成,供各医院、社区和公共卫生机构来使用。为了保证居民主索引的稳定性,减少维护难度,居民主索引的组成要素应该尽可能的稳定并简约。建议由居
51、民身份识别号、身份识别证件类型、姓名、性别、出生年月日、手机号码组成,不宜采用过多的要素。有些地方直接采用身份证号码作为主索引 ID,方法简便,但是不易解决各类没有身份证的人员注册。性别、出生年月日虽然身份证号码内含,但可以方便统计及年龄换算,同时还可以检验身份证号码采集是否有误。有些地方将以上要素运用哈希算法生成一组十六进制的哈希值作为主索引 ID。因为无法从哈希值倒推出注册要素,信息安全更有保障。尤其是对一些因为种种原因没有取得居民身份证的自然人,可以作为一种平台可管理的统一规则的唯一身份标识。主索引 ID 是否绑定手机号码,有利有弊。绑定的手机号码有可能变更,对于哈希值主索引 ID,会导
52、致哈希值面目全非,尽管可以通过交叉索引解决哈希值主索引 ID 的继承。对于身份证号码主索引 ID,这个问题不存在,因为现在的手机号码都绑定身份证号码,但是否有例外,不好说。因此,是否将手机号码作为主索引元素之一,是需要认真考虑的。讲一句多此一举的话,主索引必须通过交叉索引与居民主数据及居民基本信息关联,以满足各种应用需要。2)什么是居民主数据?除了主索引要素,还有一些居民的基本信息,比如家庭地址、职业、文化程度等,在平台交互过程中需要保持一致并且可以共享的数据,称为居民主数据。居民主数据也应该由区域卫生信息平台统一管理,并尽可能地成为唯一的个人基本信息来源。筛选居民主数据的原则是数据相对稳定,
53、各业务系统共享程度高,在交互活动中必须保持一致为选择条件。3)什么是居民基本信息?除了以上属于居民主索引和居民主数据的内容以外,还有一些也是反映居民个人属性的数据。这类数据有比较强的业务归属特性、共享程度不高,在交互活动中不必保证与平台的一致或基本上不参与交互。如,居民健康档案的居民基本信息、医疗机构的患者基本信息等数据集中没有纳入居民主数据和居民主索引管理的部分数据。因此,居民基本信息是一组平行的数据集,满足不同业务的特定需要,但又在“居民主索引+居民主数据”约束下,最大程度的保证了平台交互的数据一致性,从而保证平台的数据质量。2.处理居民主索引、居民主数据、居民基本信息的准则 居民基本信息
54、应该包括居民主索引和居民主数据的数据。居民主数据应该包括居民主索引的数据。医疗机构的患者主索引及患者基本信息中的部分内容应该取自于(至少是遵循)区域卫生信息平台的居民主索引和居民主数据。白皮书16第 25 期(一)数据质量管理与数据质量控制有区别吗?我认为数据质量管理首先是一种质量意识,即数据也有质量问题,数据的质量会影响数据的价值。数据质量是需要管理的,研究数据有哪些质量问题?这些质量问题往往表现在什么地方?这些质量问题是怎样形成的?怎样来改善这些问题?这些都属于数据质量管理范畴。数据质量控制是高阶问题,即在数据管理的基础上,如何建立一种可靠的机制,从而把数据质量控制在设计范围之内。(二)如
55、何进行数据质量控制?前面讨论的内容基本上属于数据质量管理问题,而下面用一些问题来表达我们对于数据质量控制的观点,引发大家的思考。1.校验工具能够解决多少数据质量问题?采集、汇聚的数据入库以前一般都要进行校验,建议认真检查一下校验规则,其中有些校验规则有否可靠的测量方法?实践经验告诉我们,目前使用的校验方法不能完全解决数据质量问题,有些目前无法进行有效测量的校验规则,可能正是严重影响数据质量的关键指标。2.通过校验的数据是否还需有后置的数据质量稽核?校验一般指某一个环节的数据质量管理。数据质量稽核是全局性、全过程的质量监控。比如从数据完整性、一致性、准确性等方面依次对 DW 层(数据仓库,中间层
56、)数据进行稽核,层层推进,环环相扣,以保证获取层、基础层、衍生层、复合指标层、应用层的数据质量。3.作为数据质量控制的一个极其重要的方面,数据元值域代码是否符合数据标准有办法稽核吗?这或许就是上述提到的“目前无法进行有效测量的校验规则,可能正是严重影响数据质量的关键指标。”有难度,但是必须解决,必须去做!4.如何评估数据质量数据质量指标体系设计要点至少应该包括以下指标:数据完整性:数据是否存在缺失记录或者缺失字段。数据及时性:数据的产生以及供给是否及时。数据有效性:数据是否满足用户定义的约束条件或者是否在一定的取值范围之内。数据准确性:数据是否与其对应的客观实体特征保持一致。数据一致性:同一实
57、体同一属性的数据在不同的系统中是否一致。5.怎么才能够实现“一点录入,多处共享”数据资产目录的作用之一这里涉及数据资源目录与数据资产目录的区别。数据资源目录只是一种粗放的以目录方式记录数据资源清单的方式,数据资产目录是数据质量管理乃至数据质量控制居于中心环节的管理控制手段。6.统计分析指标也需要标准化吗?答案应该是明确的,必须标准化。如何标准化是需要设计的。设计要点包含但不限三、关于健康医疗数据质量控制的思考经验之谈:如何推进医疗健康信息互联互通之数据质量管理与控制17于统一标识符、名称、定义、使用范围、统计口径、算法、计算引用数据的约束、例外声明等。7.数据质量管理与控制体系架构设计要点1)
58、数据质量管理与控制需从采集表编制开始数据质量管理与控制活动应该从源头开始,在这里我们把源头定义为数据采集。健康医疗数据具有多源、异构、分散、复杂、海量的特点。如果忽略了多源的特点,由于某一个数据元在许多应用系统及数据表里都有(但是往往是不一致的),很可能因为采集定位的错误,导致数据质量一开始就是失控的。因此,数据质量管理与控制需从采集表编制开始。编制采集表,要解决好采集表里的数据元与平台数据标准、主数据标准保持一致的机制。元数据标准在编制数据资产目录时要发挥作用。数据标准、主数据标准、元数据标准与数据资产目录形成四位一体,联动的有机体。这点非常重要,一开始就要有这个意识。同一个数据在这四个地方
59、必须完全一致。一个地方发生变化,另三个地方同步发生同样的变化。2)数据资产目录是数据质量管理乃至数据质量控制居于中心环节的管理控制手段数据资产目录只管理具有资产价值的平台数据。表达一个数据资产目录下一个具体的数据,至少要有以下内容:数据资产目录ID,数据元统一标识符,数据元标准,数据元值域代码标准,元数据标识符,数据仓库物理存储位置,查询及调用接口参数,指标库、数据集市主题库数据集等引用记录,变更记录,生成记录等,并在实践中逐步完善。今后,应用需要增加一个采集数据,首先是查看数据资产目录,如果目录里有,就直接引用,无须重复增加采集,真正做到一点采集,多处使用。如果目录里没有就增补采集,同时该数据添加进入数据资产目录,并同步主数据标准,数据标准。采集表编制贴近业务系统逻辑,数据集市主题库数据表贴近应用,数据库表居中,联系两头。以数据资产目录为纲,引导数据标准(包括数据集,数据元,数据元值域代码),主数据建立一个闭环的自洽系统。数据采集表,数据库存储表,数据集市主题库各种具体应用都是通过与数据资产目录互操作产生,因此,整个数据环境实现闭环的逻辑自洽,从而实现数据质量的控制。3)数据质量管理与控制体系的应用场景试以流程图来描述表达数据从采集到应用的一个闭环的自洽过程:图 5 数据标准体系应用框架