卡内基梅隆大学计算生物学系(CBD)的一组研究人员开发了新方法来识别对了解物种某些特征如何进化至关重要的基因组部分。
这项工作发表在《科学》杂志上,由计算机科学学院助理教授AndreasPfenning领导,为人畜共患病项目做出了贡献,该项目旨在对240种哺乳动物的整个基因组进行测序,以阐明对保护人类具有重要意义的基因和性状的基本方面健康和保护生物多样性。理解这些新的大型数据集需要最新的人工智能(AI)和机器学习(ML)技术。
被称为编码DNA的基因组的某些部分提供了生产蛋白质的指令,蛋白质是细胞功能不可或缺的调节剂。随着时间的推移,编码DNA为蛋白质生产提供的指令会出现细微差异,成为进化背后的驱动力之一。
然而,这些产生蛋白质的DNA片段仅占构成人类基因组的30亿个核苷酸对的百分之一。其他非编码DNA区域,称为增强子,决定特定基因何时何地活跃。
CMU团队创建了一种称为组织感知保护推理工具包(TACIT)的ML方法,以了解有关这些区域如何运作的更多信息。虽然传统的进化模型可能会通过一组基因中的一组突变来证明物种大脑大小的变化,但增强子可能只是打开或关闭基因并达到相同的结果。
大多数关于哺乳动物进化的研究都集中在数百万年来变化相对较小的基因组部分。这些保守区域,尤其是基因,提供了对哺乳动物DNA基本元素的深入了解,这些基本元素突出了各个物种的独特特征。
Pfenning和他的团队面临的挑战是,随着时间的推移,DNA增强子区域的序列可能会发生变化,但功能不会发生变化。例如,经过充分研究的胰岛增强子以相似的模式调节人类、小鼠、斑马鱼和海绵的基因水平,尽管已经进化了7亿多年。这使得使用检查单个核苷酸的传统方法更难识别和跟踪它们。
TACIT通过准确预测增强子是否会在特定细胞类型或组织中活跃来解决这个问题。它允许科学家在新测序的基因组中识别这些重要的增强子区域,而无需进行新的实验室实验,从而在保护生物学中提供潜在的应用。该工具包可以预测增强子如何在濒危或受威胁物种中发挥作用,而在这些情况下,受控实验室实验是不可能的。
“TACIT提供了一个前所未有的机会来预测我们无法获得原始组织样本的物种中基因组之外的部分基因组的功能,例如宽吻海豚和极度濒危的黑犀牛,”IreneKaplow说,他是该研究的主要作者。该论文以及CBD的博士后助理和LaneFellow。“随着ML方法和从特定细胞类型中识别增强子的方法的改进,我预计我们将能够扩大TACIT的功能,为哺乳动物进化提供新的见解。”
在预测了240种哺乳动物的基因组序列的功能后,研究小组应用TACIT来识别在哺乳动物中进化出更大大脑的基因组部分,并发现这些部分往往靠近那些突变与人类大脑有关的基因——尺寸障碍。他们还发现了一种与哺乳动物社会行为相关的增强子,这种增强子特定于特定的神经元亚型,即小清蛋白阳性抑制性中间神经元。
“我们认为这只是冰山一角,”该研究的资深作者Pfenning说。“通过将TACIT应用于少量组织和少量特征,我们发现了有趣的关系,但还有很多东西有待发现。