距离科学家们首次人类基因组测序已经 15 年了,而如何使编码人类生命的庞大基因组数据变得有意义依然是一个艰巨的挑战。但是,这种类型的问题恰好是机器学习所擅长的。
距离科学家们首次人类基因组测序已经 15 年了,而如何使编码人类生命的庞大基因组数据变得有意义依然是一个艰巨的挑战。但是,这种类型的问题恰好是机器学习所擅长的。本周一,Google 发布了一个称为 DeepVariant 的 AI 工具,使用最先进的 AI 技术,能够从测序数据建立了一个人类基因组更精确的谱图。
图片来源:MIT technologyreview
DeepVariant 帮助高通量测序读数转化成为一个全基因组图谱。它能够自动鉴别测序数据中小的插入和缺失突变,以及单个碱基对的突变。
高通量测序逐渐成为广泛的应用,使得基因组测序更为简便。但是,使用这样的系统所产生的数据仅仅提供了一个有限的、容易出错的全基因组快照。通常,对于科学家们来说,将那些小的突变与测序过程中所产生的偶然错误区别开来,是有挑战的,尤其是在基因组的重复部分里。这些突变可能会直接与例如癌症这样的疾病相关。
现在,存在一些可以解读这些读数的工具,包括 GATK、VarDict,以及 FreeBayers。然而,这些软件程序通常使用更简单的统计和机器学习方法,通过尝试排除读取错误来识别突变。
“挑战之一是,在基因组的困难部分,每个工具都会有它的长处和短处,”Brand Chapman 谈道。他是哈佛大学公共卫生学院的研究科学家,帮助开发了 DeepVariant。“这些困难的区域对于临床测序的重要性在增长,以及对于获得多重方法来说也是重要的。”
Chapman 与来自 Google Brain 团队的研究人员合作。GoogleBrain 团队,这个团队专注于 AI 技术的开发和应用;另一个 Alphabet 子公司专注于生命科学;DNAnexus 是存储基因组数据的云平台,Andrew Carroll 担任 DNAnexus 的副总裁。
在一个名为 Geneome in a Bottle(GIAB)的项目中,团队收集了数以百万计的高通量读取以及全基因组测序。GIAB 项目是一项公私合作的项目,旨在推广基因组测序工具和技术。他们将数据提供给深度学习系统,并刻意调整模型的参数,直到它可以学会以一个高水平的准确性解读测序数据。
去年,DeepVariant 在 PrecisionFDA Truth Challenge 中赢得了第一名,这是由 FDA 发起的比赛,旨在促进更加精准的基因测序。
“DeepVariant 的成功很重要,因为它表明了在基因组领域,深度学习可以用来自动训练系统,其表现优于复杂的手工操作系统,”Deep Genomics 的首席执行官 Brendan Frey 表示。
DeepVariant 的发布是机器学习有望推动基因组学进步的最新标志。
Deep Genomics 是尝试通过 AI 方法(例如深度学习)梳理出疾病的发病基因以及鉴别出潜在的药物治疗的少数几个公司之一。
Frey 表示,AI 将会逐步变得更好,不仅仅帮助分析基因组数据。“目前阻断药物(开发)的缺口在于我们无法准确地将遗传变异与疾病机制进行对照,并能够利用这些知识快速确定拯救生命的疗法。”
DeepVariant 也会在 Google 云平台上提供给用户使用。Google 和它的竞争对手都在将机器学习功能添加到他们的云平台上,以吸引任何想要使用最新的 AI 技术的人。
总的来说,在未来几年,人工智能数据将有助于医学的许多方面取得巨大的飞跃。AI 有很多机会可以从图像或医疗记录中挖掘出许多不同种类的医疗数据,比如,预测出那些人类医生可能会错过的疾病。
基因组医学代表着一个尤为重大的机遇,因为数据的规模和复杂性是前所未有的。“在历史上第一次,我们测量生物体的能力,以及对它操作的能力,都远远超过我们理解它的能力,”Frey 说。“AI 是我们解释和处理海量数据的唯一技术。这将彻底改变医学的未来。”
网友评论