医院数据存在问题与管理对策研究*

周 琳,王 飞,赵浩宇

(陆军军医大学第一附属医院医学大数据与人工智能中心,重庆 400038)

我国医疗数据资源丰富,尤其是大型三甲综合医院,有着几十年的医疗数据沉淀。随着医院信息化的发展,医院对数据的管理能力也有了一定的提高。但受困于数据架构的局限,医疗数据质量参差不齐,大量数据未被有效利用。传统数据库在数据整合、数据管理、数据治理、数据利用等方面的使用效率不高,面对临床、科研、管理、患者自身持续增长的业务需求得不到及时满足,难以用数据支撑临床科室的科研创新研究。如何建设一套新的平台架构,充分利用现有医疗数据,通过对数据的抽取、整合和治理,解决当前数据管理的问题,提高医疗领域的科研创新能力,满足医疗模式转型的应用需求成为近年来医院信息部门研究的一个重要方向[1]。

1.1 医院数据存在的问题

本院医疗数据具有数据规模大、数据类型繁多、数据流转速度极快、价值密度较低四大特性。由于临床病历书写的质量参差不齐、各系统数据结构类型存在差异、数据整合难度大、数据库在数据处理(特别是复杂组合条件下的查询)方面执行效率太低、数据治理更是无从谈起。数据使用效率一直不高。如何提升数据质量及数据使用效率,为医院疾病诊断相关分组(diagnosis related groups,DRG)开展和临床科研服务成为本院当前信息化重点建设的内容之一[2]。

1.2 数据平台比较

本院现有数据平台采用的是传统关系数据库,其建立在关系模型基础上,借助于集合代数等数学概念和方法处理数据库中的数据,在实时性、一致性,以及对结构化数据处理等方面均具有自身优势。本院发展信息化较早,在关系数据库建设方面具有一定经验。近年来,随着大数据技术不断成熟,使用领域越来越广,利用大数据进行医学方面的研究也更加深入。基于Hadoop平台下的数据库采用shared-nothing架构,每个节点均有自己的操作系统、数据库和硬件资源,节点之间通过网络来通信。该平台能整合不同类型数据,并可以对数据进行集中清洗和治理,通过HBase组件支持对实时数据的读写处理,通过Hive组件构建数据仓库,舍弃了索引、关系以及事务处理等关系型数据库的特性,在数据查询和处理方面效率均有了极大的提升[3]。通过比较,本院决定从创新技术入手,选择建设基于Hadoop架构的大数据平台下的数据库提升医院数据质量和处理能力。关系数据库和大数据平台数据库二者之间的主要区别,见表1。

表1 RDBMS和Hadoop技术对比分析

1.3 大数据平台建设

大数据时代医院对数据的利用已从简单的报表分析走向可预测分析阶段,及时、准确的数据是进行数据加工和分析的基础,想要利用好医院的数据进行基于大数据平台的系统开发,为科学预测和政策制定提供技术支持[4],数据的有效同步是平台实施的关键步骤。本院主要采用ORACLE和SQL Server数据库自带的数据同步功能来完成平台数据的实时同步。对于ORACLE数据库,采用OGG方式进行增量数据的同步。其中Extract 进程运行在源系统上,负责捕获数据更改。Replicat运行在目标计算机上,负责将更改应用于目标数据库。而源系统和目标系统之间则主要以Trail和Flat文件来进行数据传输[4]。对于SQL SERVER数据库,采用CDC方式,基于日志抓取,识别出变化的数据,获取增量数据。架构中前置机部署在医院内网,通过抽取工具sqoop抽取增量数据到hive库,再通过脚本合并增量数据为全量。业务库到前置库之间,通过捕获日志进程抓取变更日志,并将变更日志同步到前置库,通过前置库的解析日志功能,解析出数据的变更。平台整体架构见图1。

图1 大数据平台架构示意图

1.4 管理对策

本院经过20多年的数字化医院建设积累了海量的医疗数据,但医院信息系统(HIS)、实验室信息系统(LIS)、影像归档和通信系统(PACS)、放射科信息系统(RIS)、电子病历系统(EMRS)、移动医护、急诊、心电、手术麻醉、体检等各系统数据分散存放,结构互异,整合难度较大。通过基于Hadoop的大数据平台建设对当前数据进行有效整合和管理,解决当前数据存在的问题。

1.4.1异构数据整合

(1)医院的医疗系统中沉淀着大量基础数据,这些数据产生于不同历史时期,来源也不同,标准也不统一,本院也经历过新老药品切换、物价调整、疾病编码版本升级等基础数据变动的情况;
(2)医院内系统众多,各系统数据库数据类型各异,有DB结构化数据、XML文档数据、DICOM影像数据、动态影像数据、自由文本文档数据、PDF文档数据等;
(3)数据来源多种多样,有HIS基础诊疗数据、EMRS电子病历数据、PACS放射类检查数据、LIS检验数据、康复管理数据、重症监护数据、病理影像数据等;
(4)数据存储方式多样,有在线数据、近线数据、历史归档数据等。如此多的“异源异构”数据给数据的汇聚与利用带来很大难度[5]。大数据平台能通过抽取、转换、装载(ETL)工具,利用数据库OGG和CDC功能将异构异源的数据抽取到大数据平台,将数据文件切分成若干个块,存储到不同节点上,最后以textfile格式进行存储。通过这一步的数据抽取、整合和处理,将医院所有数据进行了有效汇聚。如信息部门以前为临床科室查询数据时需要在多个系统及数据库里查询数据,现在只需要在一个平台输入条件即可查询,避免了以前多的数据库查询带来的麻烦,也不会占用医院在用生产库资源,提高了数据使用效率和数据使用安全[6]。

1.4.2数据结构化处理

医院除数据库存储的是结构化数据外,其他很多均为非结构化数据,类型五花八门,但只有转换为结构化数据才便于分析,而且结构化数据字段中依然存在大量需要进一步语义识别的自由文本数据;
在EMRS中医师的电子病历文书记录蕴含了大量的有价值信息,一般都是以自由文本或半结构化数据存储;
影像等系统则存储的是DICOM格式的数据。利用平台处理非结构化数据首先要将数据进行抽取汇聚,再利用平台技术对数据进行文本的词汇切分、词性分析、歧义处理等实体提取,然后对词汇相关度、句子相关度、篇章相关度、句法分析进行语义处理,最后建立向量空间模型、主题模型[7]。

1.4.3数据质量提升

数据质量问题是目前数据处理过程中遇到的普遍现象。各分系统存在数据标准不一、数据内涵错误等问题;
EMRS中医师病历书写未按照ICD10标准,每名医师均有自己的书写习惯,如诊断名称不统一、相同疾病描述有差异等;
口话太多导致的垃圾数据;
部分字段数据缺失不完整等都是造成医院数据质量不高的原因。提升数据质量除规范医疗质量管理外,还必须借助大数据平台对数据进行清洗和治理,在此基础上进行精细化、细粒度数据分析,如结构化处理、字段切词、归一化处理等,以此提升医疗数据质量[8]。如当在数据库搜索诊断名称为“脑梗死”的疾病,但不同医师在病历书写时会将这种诊断名称写成如“脑梗死、出血性脑梗死、脑干梗死、大脑动脉栓塞引起的脑梗死、大脑动脉血栓形成引起的脑梗死”等,可能都是描述的这一疾病。如在以前只能在数据库里通过模糊查询一个一个搜索,借助现有平台只需要输入一个“脑梗死”,系统会将以上进行了结构化和归一化处理的相关诊断名称默认为是同一个诊断名称,并返回所有数据,这样既方便了信息部门查询数据,也保障了临床科研数据质量的准确。

1.4.4数据分析效率提升

本院传统的关系数据库面对超大表、多表数据分析时存在较大性能瓶颈,执行效率低,返回结果慢,而且在执行数据查询时还会占用医院在用生产库资源,影响医院业务系统运行。特别是随着医院在大数据及人工智能领域的摄入研究,以后深度学习等人工智能算法对图形处理器(GPU)处理要求越来越高,当前数据分析已经难以满足医院使用需求[9]。新建大数据平台采用分布式存储和分布式计算,通过内部的资源管理和调度系统合理分配资源,结合MapReduce分布式离线计算框架,可以对数据进行多进程同步运算,提升数据分析效率。如以前信息部门在为临床科室提供科研数据服务时,当面对多条件的复杂组合查询时由于涉及的业务数据表太多,执行效率很低,不仅会占用数据库资源,返回数据结果也很慢,如果再遇到时间区间跨度达5年以上的、历史库和在用生产库数据没有整合更加难以完成。借助大数据平台只需要通过添加纳排条件,以分布式计算为基础,即可实现秒级查询和数据展现。

2.1 保障了数据完整性

高质量数据来源于数据收集,是数据设计及数据分析、评估、修正等环节强有力的保证[5]。通过抽取数据将不同类型不同来源的数据进行了有效整合,不重复也不会遗漏,最大限度地保持整个医疗数据的完整性。

2.2 促进了数据标准化

医疗过程中存在着大量专业术语和专业定义,但因为种种原因,医院医疗系统及医疗工作者书写的病历中却存在大量的非标准化数据,数据表达方式随意性较大。通过平台对数据的清洗和治理,最大限度地保障了医疗数据的规范性和标准化。

2.3 提升了数据质量

平台能够通过数据清洗,结构化、归一化处理,词汇切分,语义处理等,将原来非标准的、不完整的数据进行规范化,提升了医院医疗数据质量,完善了医院医疗质量管理。

2.4 催生智能化应用落地

通过大数据平台处理和汇聚的医疗数据并非只是为了科研、教学或管理等场景使用,更多地是为后续医院在智能化方面的建设打下基础。首先需要把这些散落的数据整合成为标准的患者诊疗模型,完成诊疗模型构建和数据处理,再根据这些整合数据,通过人工智能学习,构建智能辅诊系统,预测出患者下一步的健康变化,自动推荐诊断和治疗方案,实现更大的医疗数据生态,催生更多医学领域的智能化应用落地[10]。

综上所述,我国许多大型医院经过几十年信息化发展,积累了大量的临床诊疗数据,这些数据以前在管理和使用上还不够规范和完善,随着大数据技术的不断发展成熟,医院构建大数据平台能够将这些数据进行有效汇聚和管理,提升医院诊疗数据质量,为医院临床科研的支撑、诊疗模式的转型和医疗领域的智能化应用带来机遇和动力。由于医院在大数据和人工智能领域的建设起步较晚,相关技术人员较少,经验不足,在大数据建设和管理上还会遇到很多新的难点和痛点。只有通过对新技术新业务的不断学习,掌握更为有效的数据采集、清洗、加工工具和方法,在实践中不断摸索和发展,才能建设好医疗科研大数据平台,为医院创新发展打下坚实的基础[11]。

猜你喜欢 本院结构化数据库 本院急救设备应急库房的建设与临床调配评估的探讨世界最新医学信息文摘(2021年12期)2021-06-09改进的非结构化对等网络动态搜索算法军民两用技术与产品(2021年2期)2021-04-13深度学习的单元结构化教学实践与思考云南教育·小学教师(2021年12期)2021-03-23结构化面试方法在研究生复试中的应用计算机教育(2020年5期)2020-07-24PDCA循环在降低本院住院药房药品调剂差错中的应用健康之友·下半月(2020年6期)2020-07-04左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习福建基础教育研究(2020年3期)2020-05-28数据挖掘在学校招生工作中的应用数码世界(2019年12期)2019-12-01数据库财经(2017年2期)2017-03-10数据库财经(2016年15期)2016-06-03数据库财经(2016年3期)2016-03-07

推荐访问:存在问题 对策研究 医院