您好,欢迎来到微智科技网。
搜索
您的当前位置:首页数据清洗在医疗大数据分析中的应用研究

数据清洗在医疗大数据分析中的应用研究

来源:微智科技网


数据清洗在医疗大数据分析中的应用研究

摘要 随着经济社会的发展,互联网的普及,社交网络和智能手机广泛应用。在此大背景下,全球进入了大数据时代。在医疗健康领域,涉及多种医疗信息,各类医疗卫生系统记录和保存了大量重要的医疗数据,但是由于信息录入标准不同等原因在数据录入过程中产生大量的无用数据,也就是所谓的脏数据。这些数据是不可用的,同时会对医疗卫生事业数据记录和存储带来许多障碍,因此,必须要对这些无用数据进行清理,以提高医疗事业数据质量,使医疗卫生事业大数据得到更深层次的挖掘,使其价值最大化。通过对医疗健康原始数据的清洗,及时发现问题,并对其进行深入分析,为医疗健康事业发展打下良好的基础。

关键词 健康医疗;大数据;数据清洗;分析;应用

现阶段,随着经济社会的发展,科学技术水平的提高,互联网、物联网、移动互联网等多种人类社会大数据的种类和规模迅速增长。大数据时代的到来,医疗数据也在不断发展。由于医疗行业的特殊性质,医疗数据更加复杂,需要更加准确精密的记录,同时大数据的发展也促进了医疗数据的发展,并为其提供了更多的机遇和挑战。本文对医疗大数据中数据清洗进行分析以及应用[1]。

1 对医疗“脏数据”的分析

对脏数据的分析主要是将医疗中人口健康信息库、基层医疗卫生信息库、卫生直报信息库中的基础数据进行提取,整合,分析,进而发现医疗卫生大数据中存在的问题。具体来说,脏数据可以分为以下几类:①空缺数据、噪声数据、不一致数据、重复数据以及不完整数据几类。不同类型的脏数据通过不同形式表现出来,表单数据源数据主要表现为违

反数据模式以及完整性要求的各类数据;其次,还有实例级脏数据,期主要以值对应属性错误,或是属性间依赖关系破坏为主要表现形式,记录值得缺失,数据重复记录,数据矛盾记录,数据参照错误等都属于实例级错误。对于医疗大数据中脏数据的产生有多种原因,有些脏数据是由于医疗系统标准不规范造成,这类脏数据的形成是因为自身的不规范性以及检查机制缺失;另一类脏数据的产生是由于医疗大数据业务逻辑不够严密造成。医疗数据中一旦出现脏数据会对医疗卫生事业数据仓库的建立造成不利影响,影响数据获取的准确性,对医疗事业安全性造成不利影响,因此,为使医疗大数据记录更加准确,必须要对其中出现的脏数据进行及时清理[2]。

2 数据清洗目的

医疗卫生事业关乎人们的生命健康,具有非常独特的性质,所以保证数据的安全准确非常重要,进行脏数据的清洗是其中最重要的方式,进行数据清洗是为了保证数据具有可信性以及可用性,下边关于这两个目的我们进行了分别的描述:

2.1 增强数据可信性

数据可信性主要包括数据准确、一致、完整、有效、唯一。精确性主要是指数据与所描述的事物客观实体特征是否相一致;完整性主要是说数据记录是否存在缺失记录或者缺失字段等;一致性是指数据记录内容同一实体的同一属性值在不同体系中是否一致;

有效性是指大数据记录是否使同一实体的数据在同一规定域值范围内;唯一性主要是体现在数据记录不重复,具有其唯一特性,不可替代[3]。

2.2 数据的可用性

数据可用性主要通过数据时间和稳定体现。时间性指数据记录描述的是当前数据还是历史数据,是否具有时效性;稳定性主要是观察数据记录是否在规定的有效期限内,超出规定期限的数据都属于脏数据[4]。

3 数据清洗的思路

数据清洗分为不同的类型,主要有结构型和实例型两种。结构型要求有统一的数据模式和定义,具有统一的完整约束性定义,统一的安全约束定义,统一的函数要求约束性定义。实例级数据清洗主要通过对脏数据进行分析进行定义转换,并对其进行实际的评估和验证,执行最终的转换。其次,在对数据进行清洗之前必须要将数据记录在执行清理动作的日志中,其主要目的是为了让系统对操作的规范性进行审核判断其合理性,第二是为了将数据清理过程以代码的形式记录在操作系统中,使其整个过程有理可循,方便日后工作的展开,及时补救操作错误所带来的不良后果。最后也是为了对数据更好地进行逐条分析,逐条清理,最大限度的清理脏数据,还原数据的真实性[5]。

4 数据清洗在医疗大数据分析中的实际应用

在对河北省承德市基层医疗卫生系统的卫生信息管理系统、卫生统计直报系统以及基层病案信息管理系统,还有新农合信息管理系统的原始数据进行分析后对其进行了数据清洗,发现其中存在以下多个方面的问题,由于地域较小,在基层医疗信息系统和新农合医疗卫生系统中同一患者的姓名、性别、年龄和出生地基本上都是一样的,但是其关于身份证号码的登记是不完整的,因此在数据清洗之前需要将身份证号码进行筛选,将同一身份证号码的患者挑选后进行一一对应,最终实现一个号码对应一个病患,并对患者相关信息进行加密保存记录,确保其准确性的同时保证了安全性。其次,还要对基层医疗数据进行关联分析,按照医生负荷能力、患者负担能力等进行具体关联,对医疗数据和医疗资源进

行有效整合,使医疗资源得到最大限度的利用[6]。

5 结束语

综上所述,医疗卫生事业是我国的民生事业,但是许多醫疗事业单位并未对信息系统进行数据检测和数据清洗程序的设计,也没有设定统一的格式,导致相同数据出现多种记录方式,出现脏数据。对医疗事业的发展造成非常不利的影响,不利于其长远健康发展。通过对大数据的清洗可以发现其中存在的具体问题,进行具有针对性的清理,通过对医疗大数据的数据清洗的研究,为我国医疗事业的发展以及大数据分析提供强有力的支撑基础。

参考文献

[1] 毛云鹏,龙虎,邓韧,等.数据清洗在医疗大数据分析中的应用[J].中国数字医学,2017,(6):49-52.

[2] 黄文艳.数字化环境下医院统计信息的整合与利用[J].中国数字医学,2009,(5):67-69.

[3] 曾汪旺,谢颖夫,胡光阔.多源异构数据整合系统在医疗大数据中的应用[J].价值工程,2017,(8):80-82.

[4] 王强,易应萍.临床医疗大数据治理和应用[J].医学信息学杂志,2018,(8):1-6.

[5] 陈妍,朱远燕,杨艳,等.深圳市门诊咽喉炎人群特征大数据分析[J].智慧健康,2018,(11):18-20.

[6] 张陶,于炯,廖彬,等.基于GraphX的传球网络构建及分析研究[J].计算机研究与发展,2016,(12):2729-2752.

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 7swz.com 版权所有 赣ICP备2024042798号-8

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务