English | 简体中文 400 821 3659 | info@meehealth.com

健康医疗大数据综述

2017-09-01  来源:《世界医疗器械》  
     
      作者:张继武 2017年8月发表于《世界医疗器械》专刊  (如引用此文,请注明出处,谢谢。)

 

      人类社会的进步和自然的进步、科学的进步一样,都有其必然规律,有其前后关联性。大数据也不是突兀出现的,大数据本身是信息化发展的一个过程或者形式。
      以健康产业为例 ,
     (1)医疗信息化使得模拟的量数字化、信息化;
     (2)云则提供了一种分布式的管理和服务技术平台;
     (3)大数据在这样的技术积累之下,人类开始能够大量获取、存储和处理数据 ,进而达到提取信息、规则、知识服务人类的目的。
     三者不是替代关系,而是互相支撑,本质上都是信息化。
     大数据(big data)定义:指传统数据处理应用软件不足以处理其大(巨量)或复杂程度的数据集合(摘录整理自百度、Google)。
     在大数据发展过程中,涉及到医疗行业、信息化行业、标准化、精准医疗等,相应的,国际、国内对于数据的所有权、安全性、隐私性都有不同的方法学和法规支持。
 
     目前大家公认大数据具有 4 个基本特征(本文集中在健康医疗领域):



 
一、数据量巨大
 
      数据最小的基本单位是 bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、 T B、P B、E B、Z B、Y B、B B、N B、DB。它们按照进率 1024(2 的十次方)来计算。


二、数据种类多样性
 
     大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。一般健康医疗大数据的来源主要包括:

     *结构化电子病历数据 Structured EMR Data
     *非结构化的临床记录 Unstructured Clinical Notes
     *医学影像数据 Medical Imaging Data
     *基因数据 Genetic Data
     *其他数据(流行病和行为)Other Data (Epidemiology & Behavioral)


1. 电子病历数据
 
       一般美国常用的数据类型
    a.国际疾病分类(ICD - I n t e r n a t i o n a l Classification of Diseases):是疾病,体征,症状和程序代码的分类术语,由世界卫生组织(WHO)维护;
    b.现代程序术语 ( CPT – Current Procedural Terminology ):该代码集是由美国医学协会通过 CPT 编辑小组维护的医疗代码集 ;
    c.检验结果(Lab):检验结果的标准代码是逻辑观察标识符名称和代码(LOINC®);
    d.药方(Medication):标准代码是美国食品和药物管理局(FDA)的“国家药物管理条例”(NDC),它为每种药物提供了唯一的标识符;
    e.临床记录(Clinical Notes)。
 
2. 医学影像数据
 
       截止 2015 年,一般医院拥有 665 特字节 (terabytes)患者数据,其中80% 是非结构化的医学影像数据,如 CT、磁共振、数字 X 线等。
       医学影像数据主要挑战是不仅数据量巨大,而且具有高维度和高复杂性。提取图像的重要和相关特征是一个艰巨的工作。这些挑战包括:
     a.提取有意义的特征
     b.选择相关特征(稀疏和降维技术)
     c.与其他临床数据整合
      目前主要的工作成绩在于提取相关图像的特征以进行图像检索。

3. 基因数据
 
      人类基因组含有约 30 亿对DNA 碱基对,以胸腺嘧啶(T)、腺嘌呤(A)、胞嘧啶(C)和鸟嘌呤(G)四种碱基排列成碱基序列。其中一部分的碱基对组成了大约 20000 到 25000个基因。一个人的基因数据量为约3GB。


4. 行为和公共卫生数据
 
       社交媒体产生大量的数据,如博客、微信、短信、Facebook、推特等,已经有国外团队通过对于媒体数据的分析,可以分析出行为学、某些药物的使用情况,甚至流行病发生的预测(几乎实时)。下图显示Google 流感趋势分析和实际流感爆发的对应关系。
       也有机构如 Patientlikeme(同病相连)通过社交媒体大数据分析帮助患者提供基于症状的就诊建议、治疗分析等。持续记录个体的居家信息(如用 iPhone 的运动感知装置)可以对于个体的健康和行为进行分析关注和提示。



三、当前医疗健康大数据发展的关键
 
       大数据的应用和研究是多层次的,首先是数据获取、数据建模,然后才是数据处理、分析,获取知识,建立认知,提供应用。
       对于我国大数据应用发展,当前要突破发展的策略性考虑是解决数据获取和数据建模的瓶颈问题,是相应的系统平台和方法学的研究。包括,数据获取关键技术,数据采集互联互通标准的建立和推广;数据质量,包括数据模式,异构数据的管理,数据之间的关联性,数据的时间分布;数据挖掘的方中,临床数据的特征参数提取;数据应用,临床数据挖掘的方法学应用于临床辅助诊断的 CDSS 模式;精准医疗科研等。
 
1. 医疗大数据的采集
 
      大量的数据可以分析出疾病、症状及实验室数据的相关性,从而帮助临床研究人员建立针对某一些典型疾病的预测模型。在医院的诊疗过程中,针对各个科室的特定应用,积累了长期的与特定疾病相关的临床监测参数, 并随着医院的运营过程得到了大量的数据的积累。
      同时,随着移动互联网技术和穿戴式医疗设备及技术的发展,通过各种穿戴式设备所获取的用户生命体征,为用户健康数据的获取提供了极大的便利。
      一方面,可以通过对这些健康数据进行分析获取用户的健康信息以指导运动、饮食等生活习性;另一方面,与医疗数据的结合可以提高用户疾病诊断的科学性和诊断精度。



2. 医疗大数据的分析
 
       传统医疗行业中,医院信息系统完成了医院内部的流程控制、数据积累等工作。医疗行业早就遇到了海量数据和非结构化数据的挑战,而近年来很多国家都在积极推进医疗信息化发展,这使得很多医疗机构有资金来做大数据分析。医疗数据是医疗人员对病人诊疗过程中产生的数据,包括病人的基本情况、行为数据、诊疗数据、管理数据、检查数据、电子病历等。现代医院中将上述数据存储于医院的各个信息系统之中,是医疗大数据分析的基础。
       医疗健康数据是持续、高增长的复杂数据,蕴含的信息价值也是丰富多样的,对医疗健康数据的有效存储、处理、査询和分析,挖掘其潜在价值,发现医学知识, 将深切影响人类健康水平和治疗手段。在传统的医学统计方法的基础上,新的模型与技术的出现,为从数据中获取新知识提供了新的思路。
       针对不同的类型的病人对不同类型的生理数据、健康感知数据进行推理判断, 大数据分析技术实现了服务临床治疗、预测疾病发病情况、跟踪病人病情等目的。


3. 医疗大数据的应用
 
       在对用户的诊疗数据、健康监测数据的釆集和分析的基础之上, 可以实现用户身体状况的预测、监控,甚至可以确定用户是哪一类的疾病的易感人群。提高用户的健康状况水平,降低用户的患病风险。精准分析包括病人体征数据、费用数据和疗效数据在内的大型数据集, 可以帮助医生确定临床上最有效和最具有成本效益的治疗方法。医疗护理系统将有可能减少过度治疗,比如避免副作用大于疗效的治疗方式。

四、大数据相关技术领域
 
       与大数据相关的技术领域有可穿戴设备,物联网(IoT – Internet of Things)等。

五、小结
 
      麦肯锡的研究说明,应用大数据技术可以节省医疗健康产业成本达 4500 亿美金。
     1、正确生活(Right living):充分的信息和知识帮助人们有效防止特有疾病,持续的健康和治疗,主动采取更为积极的生活方式提高健康水平。
     2、正确治疗(Right care):通过大数据分析保证治疗方案的正确性(临床辅助、临床路径),以及可以使得不同的医务人员在信息共同的基础上协同治疗; 
     3、正确的提供者(Right provider):医疗卫生服务提供者的能力和行为记录分析帮助双方选择正确的服务提供者;
     4、正确的价值(Right value):大数据显然能够很好地控制医疗费用、提高医疗质量;
     5、正确的创新(Right innovation):大数据对于新药研发、新治疗方案提出等都具有重要帮助,可以节省药品监督管理要求的临床阶段的时间。