最近基因产业有点儿火。上月17日,华大基因宣布组建以人工智能为核心的新业务机构,引起业界一片猜测;接着7月29日央视全面聚焦精准医疗,大篇幅介绍了基因检测,一下子连街头的大爷大妈们都唠起了基因。然而就在这期间,加拿大一家叫Deep Genomics的公司悄然成立了,并迅速占领了国外各大媒体的头条(国内却鲜有报道)。
那么这家公司究竟在做什么?又有哪些过人之处?让我们先看看国外的媒体评价。加拿大的《环球邮报》表示“这家多伦多创业公司意图撼动基因测序市场”;而美国《华盛顿邮报》则评价说“Deep Genomics,一家将深度学习的能量带到基因组学的创业公司”;Gizmag称“Deep Genomics意欲借助深度学习改革基因医疗”;《连线》之前的报道称“机器智能破译遗传控制”;《科学美国人》说得很玄乎,“我们DNA的某些角落暗藏疾病线索–深度学习之光照亮基因突变鲜为人知的角落”。
总结下来,Deep Genomics就是人工智能和基因组学联姻的产物,即“Deep Learning + Genomics”。在用深度学习研究基因组学的时代,Deep Genomics推开了第一扇窗。
也许你心中有个大大的疑问,基因检测都做了这么长时间了,很多疾病都可以检测了,基因组学为什么需要深度学习技术?这里举个例子,某市突然停电了,为了搞清楚为什么停电,有两种办法:第一种是把所有电线全都排查一遍,然后找到损坏的地点;第二是选那些平时就很容易损坏的地点去排查。如果我们对100个不同城市的断电原因做统计分析,不难发现有些原因出现的频率高,有些原因出现的频率低。
我们人体也一样,人群中的DNA突变(SNVs)总数大概数以亿计,其中突变频率大于1%的叫做SNPs,SNPs大概有300万个。要研究疾病与SNPs之间的关系,需要巨大的患者样本量,统计出患者群体与正常人群体SNPs之间的差异。对于突变频率小于1%的SNVs,虽然群体数量庞大,但是单个并没有统计学意义,所以在疾病的分析中被自动屏蔽掉了。从数量上我们不难看出,基因检测如果缺少对突变频率小于1%的SNVs的深入分析,精准医疗只能被限制在狭小的范围之内。
目前我国卫计委批准用于临床检测的项目包括:遗传病诊断、产前筛查与诊断、植入前胚胎遗传学诊断和肿瘤诊断与治疗。这四类项目它们的共同特点是:疾病仅与一个或者几个易感基因相关。实际上,除了单基因遗传病之外,其他疾病的易感基因多少,取决于对该疾病的研究程度。比如,目前对乳腺癌的基因检测主要集中在BRCA1和BRCA2基因,目前在这两个基因里已经发现了大量的变异,可是我们却对这些变异对乳腺癌的影响缺乏深入的认识。更何况随着对乳腺癌样本研究的深入,已经发现了40个跟乳腺癌相关的基因(当然,每个基因里都可能有多个SNVs)。因此,仅从基因检测的角度来讲,想要达到精准医疗,还为时尚早。
Deep Genomics的创始人,加拿大多伦多大学的Frey教授很早就专注于该领域的研究。他们的学术团队先后在国际顶尖期刊《Science》、《Nature Biotechnology》和《Bioinformatics》刊登了该领域的研究成果,希望利用深度机器学习技术改造精准医疗,基因检测、诊断和治疗的发展。
接下来就讲讲Deep Genomics是如何分析突变频率小于1%的SNVs与疾病之间的关系。当然,要说清楚Deep Genomics的解决办法,我们还需要继续科普。对于没有生物背景、且刚刚了解一点基因知识的同学来说,一谈起疾病就会想到基因,但实际上从基因到疾病还有好几步。锅没有做好,有可能是设计图纸出了问题,也可能是模具出了问题。
假设我们要做一个机器人,我们要先绘制图纸和材料切割图(DNA),然后根据图纸和材料切割图制作模具(RNA),再根据模具制作各种原件(蛋白质),最终这些元件组成有功能的机器人。我们的生命活动也是这样一级级实现的,生命信息从承载基因的DNA,传递到RNA,再传递到有生物活性的蛋白质,最终由蛋白质实现所有生命活动。
在制作机器人的过程中,错误可能出现在图纸(基因)上,也可能出现在材料切割图上。两种错误都可能导致机器人功能异常。现在的基因检测,分析了基因中出现频率高的变异对疾病的影响,而严重忽视了基因剪切变异对疾病的影响。原因无外乎控制基因剪切变异的出现频率低,没有统计学意义。但是它们的数量却是巨大的–数以亿计。Deep Genomics目前提供3.28亿个SNVs如何影响RNA(制作模具的材料)剪切的预测。那Deep Genomics是如何做到的呢?
根据目前基因检测的思路,是很难对这些SNVs进行分析的。因此,Deep Genomics引入了深入学习的人工智能技术。首先Frey团队建立了一个数学模型,然后输入健康人的全基因组序列和RNA序列,对模型进行训练,使模型学到健康人的RNA剪切模式;接下来,通过其他分子生物学方法对训练后的模型进行确认和校正;最后使用几个目前已知的病例数据,检验模型判断的准确性。在这一思路的指导下,Deep Genomics推出了他们的第一款产品SPIDEX。只需将测序结果和细胞类型导入,SPIDEX便可分析出某一变异对RNA剪切的影响,并计算出该变异与疾病之间的关系。
如果Deep Genomics的深度学习分析变得足够精确,那么这项技术的贡献显而易见:直接分析突变频率低的变异与疾病的关系;加速基因组学的研究和药物的开发。同时我们要清醒地认识到,目前Deep Genomics的SPIDEX技术只能分析SNVs引起的RNA剪切变异与疾病的关系,对于其他原因导致的疾病也无能为力。但即便如此,人工智能在基因分析中的应用仍然值得期待,也许它会成为解码基因与疾病奥秘的一把金钥匙。
加载更多