破解生命密码:新AI模型学习DNA的隐藏语言

  作者:EEPW 时间:2024-08-07来源:EEPW

Warning: file_get_contents(): SSL: Connection reset by peer in /var/www/html/www.edw.com.cn/www/rootapp/controllerssitemanage/ManagecmsController.php on line 2068 Warning: file_get_contents(): Failed to enable crypto in /var/www/html/www.edw.com.cn/www/rootapp/controllerssitemanage/ManagecmsController.php on line 2068 Warning: file_get_contents(https://scx1.b-cdn.net/csz/news/800a/2024/cracking-the-code-of-l.jpg): failed to open stream: operation failed in /var/www/html/www.edw.com.cn/www/rootapp/controllerssitemanage/ManagecmsController.php on line 2068

Cracking the Code of Life: New AI Model Learns DNA's Hidden Language

DNA包含维持生命所需的基础信息。理解这些信息是如何存储和组织的,是上个世纪最伟大的科学挑战之一。

通过GROVER,一个在人体DNA上训练的新型大型语言模型,研究人员现在可以尝试解码隐藏在我们基因组中的复杂信息。

由德累斯顿工业大学生物技术中心(BIOTEC)的团队开发,GROVER将人体DNA视为文本,通过学习其规则和上下文来提取关于DNA序列的功能信息。这个新工具在《自然机器智能》期刊上发表,具有变革基因组学和加速个性化医疗的潜力。

自从发现双螺旋结构以来,科学家们一直在努力理解DNA中编码的信息。70年后,很明显,DNA中隐藏的信息是多层次的。基因组中只有1-2%的部分由编码蛋白质的基因组成。

“DNA的功能远不止编码蛋白质。一些序列调节基因,其他的有结构用途,大多数序列同时具有多种功能。目前,我们对大多数DNA的意义还不了解。对于非编码区域的理解,我们似乎才刚刚开始。这是AI和大型语言模型可以发挥作用的地方,”BIOTEC研究组组长Anna Poetsch博士说。

DNA作为一种语言

像GPT这样的大型语言模型已经改变了我们对语言的理解。这些模型只在文本上训练,发展出了在许多上下文中使用语言的能力。

“DNA是生命的密码。为什么不把它当作一种语言来对待呢?”Poetsch博士说。Poetsch团队在参考人类基因组上训练了一个大型语言模型。这个名为GROVER(Genome Rules Obtained via Extracted Representations)的工具可以用来从DNA中提取生物学意义。

“GROVER学会了DNA的规则。用语言来比喻,我们谈论的是语法、句法和语义。对于DNA,这意味着学习序列的规则、核苷酸和序列的顺序以及序列的意义。就像GPT模型学习人类语言一样,GROVER基本上学会了如何‘说’DNA,”项目研究人员Melissa Sanabria博士解释道。

团队展示了GROVER不仅能准确预测下一个DNA序列,还能用于提取具有生物学意义的上下文信息,例如识别基因启动子或DNA上的蛋白质结合位点。GROVER还学习了通常被认为是“表观遗传”的过程,即发生在DNA上的调控过程,而不是编码在DNA中的过程。

“令人着迷的是,通过仅使用DNA序列训练GROVER,而没有任何功能注释,我们实际上能够提取出关于生物功能的信息。对我们来说,这表明功能,包括一些表观遗传信息,也是编码在序列中的,”Sanabria博士说。

DNA字典

“DNA类似于语言。它有四个字母构建序列,序列携带意义。然而,不同于语言,DNA没有定义的单词,”Poetsch博士说。DNA由四个字母(A、T、G和C)和基因组成,但没有预定义的不同长度的序列组合来构建基因或其他有意义的序列。

为了训练GROVER,团队首先创建了一个DNA字典。他们使用了压缩算法的一个技巧。“这一步至关重要,使我们的DNA语言模型与之前的尝试不同,”Poetsch博士说。

“我们分析了整个基因组,寻找最常出现的字母组合。我们从两个字母开始,一遍又一遍地遍历DNA,逐步构建出最常见的多字母组合。通过这种方式,在大约600个周期中,我们将DNA分解成‘单词’,使GROVER在预测下一个序列时表现最佳,”Sanabria博士解释道。

AI在基因组学中的前景

GROVER有望解锁遗传密码的不同层次。DNA包含关于我们为何成为人类、我们对疾病的易感性以及我们对治疗的反应的关键信息。

“我们相信,通过语言模型理解DNA的规则,将有助于我们揭示隐藏在DNA中的生物学意义的深度,推进基因组学和个性化医疗的发展,”Poetsch博士说。

关键词: AI

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版