百度大数据开放大会:如果再有SARS,大数据能做什么?

文章来源:转化医学 发布时间:2014-04-28
在百度大数据开放大会上,中国疾病预防控制中心的高福院士在开讲时就向听众抛出了一个问题“如果2003年百度的搜索引擎和现在一样发达,能够提前告知我们广州、香港已经开始出现SARS病毒感染了,那么其他地区的危害是否会变得小一些?”

在百度大数据开放大会上,中国疾病预防控制中心的高福院士在开讲时就向听众抛出了一个问题“如果2003年百度的搜索引擎和现在一样发达,能够提前告知我们广州、香港已经开始出现SARS病毒感染了,那么其他地区的危害是否会变得小一些?”

而这一问题也其实暴露了传统疾病预防控制的方式的不足,最大的不足在于实时性上,疾病的传染控制抢的就是时间,与死神赛跑。而此次疾病预防控制中心与百度的合作也正是意在改变现状,开始利用大数据对疾病传播进行更先进的监控与控制。

谷歌已在疾病预测防控上已经走出先例,那么我们先来看下谷歌的谷歌流感趋势(Google Flu Trends,GFT)的工作成果,再对比百度,从中窥视中国疾病预防控制的大数据未来。

一,谷歌在疾控上的成就

2008年,谷歌上线“谷歌流感趋势”项目,该项目开始预测流感传播。

2009年在美国的H1N1爆发几周前,谷歌成功预测了H1N1在全美的传播范围,具体到了州还有特定地区,判断非常及时,令美国公共卫生机构以及全美大为震惊,疾控中心通常只能在流感爆发一两周之后才可以做到,而谷歌的及时性让全美侧目。

这是真正第一次利用搜索引擎大数据对疾病控制的预测尝试,谷歌因此也获得巨大殊荣。

二,中国疾控中心的大数据方向

此次疾控中心与百度深入合作,不仅利用百度的数据技术来达到疾病传播的控制,还将拿出官方的监测数据与百度进行深入分析并建立模型。以下是在大数据下,疾病控制可以做到以下几点。

1,提前确定一定规模的未知疾病,为疫情控制争取时间。无论传统检测还是大数据都是无法监测到任何没有临床症状的病例的,这些经验在医院的临床经验中都为0。但大数据却可以做到一件事,通过医院的共享信息以及百度监控指定地区的用户的频繁搜索关键词,可以检测到某个地区已经出现了诸如不明原因的肺炎,某地餐馆让多少人出现呕吐腹泻等异常状况......

然后再通过与疾病控制中心的病毒库中的病毒分析,寻找吻合的病毒,进行比对分析然后将其找出,为判断疾病赢取时间。换句话说,有了大数据后,疾病预防可以真正在第一时间内去判断出疫情的病毒源,进而为控制争取时间。

另外要说明一点的是,当前的科技下,疫情的发生是谁也无法控制的,我们目前唯一能够控制的就是及时制止其传播的范围,而大数据则是目前唯一的也是最佳的途径。

2,判断人员流向,控制疫情。在疫情发生后,虽然国家可以第一时间控制住当地疫情,但是人员流动则是无法控制的。现在利用百度的技术可以做到,比如A地突然爆发了传染病,而此时根据百度大数据的监控就能监测到传染源区人员的主要流向地是B地与C地,于是疾控中心就拿出对应的医疗技术和对应的治疗药品以及疫苗来防治,第一时间赶到B地与C地,将一切药物准备就绪并为当地人接种疫苗,这样一来就减少了盲目的广撒网式的全面布局情况,通过百度提供的人员流动数据,让控制疫情在效率上大幅度提升。

3,治疗药物和疫苗的迅速研发。在疫情发生后最重要的事情就是研发对应药物,传统的做法是一个小范围的研发,然后用传统的交流方式,但是有了大数据就不可同日而语。在病人的治疗中,所有药物的使用数据以及用户的病情数据都将全部联网,当机器检测到发现某种药物(通过读取录入的药物数据)对病人的病情(通过读取录入病人健康的关键指数后的数据)有部分效果后,将会迅速纳入研发的决策范围,为研发部门提供有用参考,为研发对抗疫情的药物以及预防疫情的疫苗,提供全网的大数据的支持。

4,传播动力学模型建立。疫情的传播模型在学术上有很多研究成果,但是这些学术研究都很难落地,就像《反脆弱》里说的这种涉及社会问题的理论要想建立,从学术到实践是一种大众错觉,真正建立起理论的永远是实践再到学术然后再不断微调。而现在拥有了大数据的全面监控后,疾控中心也就有了更多的实践支持,就可以开始真正从实践中建立有关疫情的复杂动态网络的传播动力学。

目前,疾控中心将国家拿出监控点的数据,从乡镇到医院的数据,与百度已有的大数据结合,再加上百度更强的分析能力,一起绘制出传播的模型,来为今后的疫情控制工作做更多的参考。

5,建立全民预警机制。高院士有个愿景,希望未来的大数据疾病预防控制的预警不仅仅只是他们这些坐在办公室的决策者能够收到,更希望能够让全民享有这样的福利,来保障更多人的安全。比如当你去出差时,百度会在你的手机上提前通知你,你将要去的地区有食品安全问题,再比如第一时间通知你,你所在的地区有流感地区的人群大量流入,让你及时做好预防工作以及接种疫苗等等。

关于这一点,我认为并不遥远,相信在近期就能够做到。

三,谷歌的前车之鉴

谷歌虽然在09年的预测上做出了漂亮的成绩,但是在2013年的2月谷歌流感趋势被媒体大量批评,原因就在于其数据总是偏高于真实的流感数据。

谷歌出错的原因有很多,比如谷歌的搜索算法调整会间接影响到用户习惯,再比如谷歌的推荐搜索以及相关性推荐也会影响用户的搜索结果,此外搜索某个关键词的用户也不一定是患病用户,再加上运营商的地理位置判断等问题,使得谷歌出现算法过度拟合的情况,将噪声当成了信号,导致其结果的不准确性。

而谷歌的反复试错,也让百度在该项目上更加警惕,所以直到最近才开展该项目,想必是已经做好了充足的准备有了充足的自信,才敢开始该项目,并接受大众的检验。

结语:之前交通部与百度的合作,再加上现在的疾控中心与百度的合作让我们看到互联网产生的大数据已经进入了到国家决策的层面。未来的政府也将更加依赖于这些大数据的支持来做决策,而我们也将一起利用这些共享开放的数据,为自己所用。

0
-1
收藏
评论