作为人类,我们每个人都有数万亿个细胞。每个细胞都有一个带有个体遗传信息的细胞核——DNA——可以变异产生异常。如果一个人出生时细胞内存在大量异常,或者随着时间的推移发生突变,疾病就会随之而来。更复杂的是,细胞通常是异常DNA和正常DNA的混合物——可以说是马赛克,就像艺术形式一样,这种复杂的蒙太奇很难理解。然而,由加州大学圣地亚哥分校医学院Rady神经科学教授兼Rady儿童基因组医学研究所神经科学研究主任JosephGleeson博士领导的研究小组,
Gleeson和他的团队最近在皮质发育畸形中发现了新的基因和通路,这是导致高达40%的耐药性局灶性癫痫的一系列疾病。他们的研究展示了计算机生成的模型如何以更有效的方式有效地模仿人类识别工作,并于本周在NatureGenetics上发表。本月早些时候,《自然生物技术》杂志发表了一项相关研究。
多年前,我们开始在SDSC的Comet超级计算机上进行试用分配,近十年来一直是TSCC社区的一部分。TSCC允许我们绘制由名为DeepMosaic的计算机识别程序生成的模型,这些模拟让我们意识到,一旦我们训练了超级计算机程序来识别细胞的异常区域,我们就能够快速检查每个人类基因组的数千种马赛克变体——如果用人眼完成,这是不可能的。”
这种计算机生成的知识被称为基于卷积神经网络的深度学习,自1970年代以来就已经存在。那时候,神经网络已经被用来模拟人类视觉处理。研究人员只花了几十年的时间就为这种类型的建模开发了准确、高效的系统。
“机器学习和深度学习的目标通常是训练计算机对标记数据进行预测或分类任务。当训练的模型被证明是准确和有效的时,研究人员将使用学习到的信息——而不是手动注释来处理大量大量的信息,”XinXu解释说,他曾是Gleeson实验室的本科生研究助理,现在是Novartis的数据科学家。“过去40年来,我们在开发机器学习和深度学习算法方面取得了长足进步,但我们仍在使用复制人类处理数据能力的相同概念。”
Xu指的是更好地理解当异常镶嵌体超过正常细胞时引起的疾病所需的知识。Yang和Xu在一个旨在做到这一点的实验室工作-更好地了解导致疾病的这些马赛克-例如癫痫,先天性脑部疾病等。
“深度学习方法效率高得多,它们检测数据中隐藏结构和联系的能力有时甚至超过了人类的能力,”徐说。“我们可以通过这种方式更快地处理数据,从而使我们更快地获得所需的知识。”