AI Pulse

人类基因组的纠缠物理性可能让AI困惑

人类基因组的纠缠物理性可能让AI困惑

引言

自从20世纪50年代DNA分子结构被推断出来后,许多生物学家一直将其誉为生命之秘。他们阅读并研究了存储在生物体细胞DNA中的信息(称为基因组),并声称这个基因数据库必定是某种蓝图、代码脚本或计算机。但如果DNA真的隐藏着关于生命如何运作的更大秘密,生物学家们尚未找到它。

事实上,人类基因组与其说是一个脚本,不如说是一个谜题,越仔细观察就越难。知道整个序列——我们所有约30亿DNA化学构建块的顺序(由国际人类基因组计划在1990年至2003年间几乎完全推断出来)——并没有太大帮助。那项研究表明,人类基因组中只有不到2%由实际基因(即信息编码的DNA序列)组成。

现在很明显,理解人类基因组不再是弄清楚每个基因做什么的问题。更深层且更难的问题是这些基因如何被使用或调控,这个问题似乎涉及基因组其余部分的部分甚至全部。通过打开和关闭基因套件,我们体内许多不同的细胞类型都可以从相同的材料中创造出来。细胞还会根据来自邻居和环境的持续信号,时刻调控它们的基因。但是,支配基因调控的过程如此复杂,以至于一些生物学家怀疑我们是否能够完全理解它——理解基因组真正如何运作——以我们渺小的心灵。

一些人指望将分析外包给人工智能。像Evo 2、Genos和Google DeepMind的AlphaGenome这样的基因组“基础模型”在大量基因组数据上进行训练,生物学家利用这些数据来预测DNA序列差异如何影响生物过程,并最终影响整个生物体的性状(包括疾病风险)。这些算法并不担心复杂的调控过程;所有这一切都被算法的“训练”所包含,通过这种训练,它从我们已经知道的案例中推导出相关性。

这种方法可能有用,但对于那些渴望真正理解基因组以及最终生命本身如何运作的人来说,一个计算黑箱永远不够。也许更重要的是,基因组可能不会屈服于这类AI模型最终假设的那种直接输入-输出方法。

这是因为基因组不是蓝图或算法。它是别的东西。

旧观点

考虑到它是大约40亿年进化的产物,我们的基因组复杂也许并不令人惊讶。令人惊讶的是这些复杂性的具体内容。“我们的基因组不是我们坐在绘图板前所能制造出来的,”在哈佛医学院研究基因调控的生物学家Karen Adelman说。

传统观点认为,我们DNA的一小部分包含制造蛋白质分子的代码,这些蛋白质分子协调我们细胞的化学过程。每个蛋白质的指令都保存在相应的基因中——我们大约有2万个这样的基因——基因序列的长度可以从几十个到近300万个DNA“字母”(代表称为核苷酸的分子)不等。从基因制造蛋白质是一个两阶段的过程。首先,一种叫做聚合酶的酶逐字母读取DNA,它创建该代码的副本,存在于一种相关的分子中,称为信使RNA(mRNA)。这被称为转录。然后,一种称为核糖体的分子机制读取mRNA,构建蛋白质——这个过程称为翻译。核糖体制造出的蛋白质随后去做它们的工作,制造和维持生物体。

这幅图景仍然基本正确。但事实证明,“基因可能不是基因组中最有趣的部分,”Adelman说。

更重要的是我们的基因(其中许多与更简单的生物共享)如何被调控:打开和关闭。细胞需要哪些蛋白质会随着时间和细胞类型(肌肉、大脑、皮肤等)而变化。编码这些蛋白质的基因如何被调控,取决于基因组中一些不编码蛋白质的部分。

生物学家自20世纪60年代以来就知道了基因调控以及“非编码”DNA的参与。但多年来,他们对此的大部分理解来自对细菌等简单生物的研究,在这些生物中,原理通常很简单。然而,逐渐变得清楚的是,在像我们这样的复杂真核生物中,基因调控要复杂得多,涉及重叠的监督和控制系统,每个系统都有其自身的复杂性。

转录因子

转录由称为转录因子的蛋白质启动,它们就像是基因调控的运营经理。这些蛋白质粘附在DNA片段上(通常靠近目标基因),并招募聚合酶来制造mRNA副本。在细菌中,转录因子有点像钥匙,可以配对上DNA上独特结合位点的锁。但在复杂生物中,它们并非如此运作。在我们体内,转录因子的逻辑更难解析。

首先,我们的转录因子对特定的DNA结合位点没有表现出强烈的偏好。更重要的是,它们往往成对或成群地工作。而且,一个给定的转录因子在不同情境下可能有不同效果,例如在一个细胞类型中激活基因转录,但在另一个细胞类型中抑制它,这取决于周围有哪些其他转录因子。

在细菌中,调控往往具有“或”逻辑,Adelman说,即特定信号打开或关闭一个基因:要么是此,要么是彼。但在人类基因组中,逻辑更像是计算机科学家称之为“与”的。许多信号被整合以达成调控决策:此、彼以及那另一件事。在这种情况下,调控可以对情境的细微差别做出更灵敏的反应,且调控旋钮是可调节的,而不仅仅是打开/关闭。“这是我们调控复杂性的美妙之处的一部分,”Adelman说。

当转录因子与基因组相互作用时,它们会结合到称为增强子的DNA片段上——这些增强子本身也带来一个谜题。

增强子

增强子是转录因子的聚集点,并且被认为是转录的决定性影响:它们向等待的聚合酶传递“前进”信号,使其制造DNA序列的mRNA版本。看起来很简单,但将增强子映射到它们各自的基因远非直截了当。我们的基因组有数十万甚至数百万个增强子。这意味着我们的增强子比基因多得多。每个基因可能受许多增强子影响,每个增强子可能影响多个基因。

“尴尬的是,在人类基因组计划25年后,我们仍然不知道基因组中所有增强子的位置,更不用说它们在作用时做什么以及控制哪些基因了,”爱丁堡大学的基因组生物学家Wendy Bickmore说。

生物学家确实知道大多数增强子不会对单个转录因子做出反应。它们的激活“需要一种鸡尾酒”,Bickmore说。“这赋予了[增强子]那种精致的特异性——因为只有在特定时间、特定细胞中,你才能拥有正确的因子组合来结合并激活该增强子。”

有些增强子正如你所料,靠近它们调控的基因,甚至位于基因内部的DNA上。但其他增强子则远离基因——可能相距数百万个核苷酸,中间还有更多基因。

这种所谓的“远端”增强子的存在“似乎很疯狂”,Bickmore说。“你怎么把信息从那里传递到这里,传递给需要被激活的基因?这基本上是一个未解答的问题。”

答案之一以环的形式出现。

环与枢纽

远端增强子通过巨大的DNA环(或更严格地说,染色质环,即DNA及其包装蛋白的组合,就像从毛线球中解开一样)被带到它们调控的基因处。这些环由一种称为黏连蛋白的蛋白质马达产生,它在DNA链上上下移动,并根据需要挤出环。

一旦黏连蛋白形成一个环以将元件聚集在一起,然后呢?曾经有人认为它们会粘在一起或组装成一个分子机器,但事实并非如此。相反,这些组件似乎形成一个松散但致密的斑点,在其中它们弱、短暂且不加区别地相互作用——一种委员会,有时称为凝聚体。

这些转录枢纽极其流动,并且因细胞而异。“这里会有一点环挤出,在下一个细胞中可能在那里,整个事情翻转得难以置信地快,”Bickmore说。即使细胞理论上相同(例如都是皮肤细胞),在任何时刻,基因调控机制的具体活动在任何两个细胞中都不完全相同。

染色质环只是基因的转录取决于其周围染色质的形状和结构的原因之一。

染色质形状

教科书中的染色体图像——我们基因组被分成的46个单位之一——是一个紧凑的X形染色质簇。但每当细胞没有积极分裂时,其染色质会解开成一团看似混乱的缠结。然而,这种混乱中存在着秩序。染色质的某些部分紧密包装成一种称为异染色质的形式。那里的压缩DNA对转录因子相对难以接近;其中包含的基因通常被沉默。与此同时,其他部分相对松散、开放且可接近:这被称为常染色质。

有专门的酶参与包装和重新包装染色质,从而控制转录。换句话说,重要的不仅是DNA中编码的信息,还有它在空间中的物理存在和动态方式。“我们已经不再将基因组视为线性DNA代码,”Bickmore说。“将这种极其动态的三维折叠视为调控的固有部分是一个非常令人兴奋的变化。”

这种3D组织的一个方面是将染色质片段聚类成称为拓扑关联结构域(TADs)的区室。在一个TAD内,基因似乎被共调控:成组地打开或关闭。这样的组将基因套件保持活跃或沉默,以在不同细胞类型中形成并提供功能。黏连蛋白也参与染色质的重组以构建TADs——这是一个动态过程,在该过程中染色质在我们的细胞中不断重组。

染色质的形状也可能受到称为表观遗传标记的化学修饰的影响:附着在DNA包装蛋白(称为组蛋白)上的小分子,或直接粘在DNA上。其中一些表观遗传修饰可以改变组蛋白上的电荷,从而改变蛋白质相互吸引或排斥的方式,并重新调整染色质的包装。染色质的表观遗传修饰就像DNA脚本的注释,在特定情境下改变其意义。当细胞分裂时,表观遗传标注也会被复制。

这些标记如何以及何时被添加和改变,以及每种标记对基因活动意味着什么,都是复杂的问题,没有简单的答案。一些研究人员谈到支配基因调控这一方面的“表观遗传密码”,但尚不清楚是否真的存在如此系统的东西。

所有这些过程以及其他过程可以决定一个基因是否被转录成mRNA。但也有进一步的调控层决定mRNA随后是否被翻译成相应的蛋白质——以及产生哪个蛋白质。

RNA干扰

这种转录后调控通常由被称为非编码的RNA分子控制。这些短命的分子不像mRNA那样是蛋白质的模板,而是有自己的其他工作。虽然mRNA是从DNA的蛋白质编码区域(所谓的“编码基因”)产生的,但非编码RNA是从现在通常被描述为非编码基因的其他DNA区域转录而来的。这些非编码RNA用途广泛,在细胞中扮演多种角色。研究人员每天都在了解更多关于它们能做什么的信息,而且它们中许多(如果不是大多数)似乎参与基因调控。

例如,称为microRNA的小型非编码RNA可以在mRNA被翻译成蛋白质之前使其沉默。它们通过引导特殊酶到达特定的mRNA以降解或化学修饰它来做到这一点。microRNA并非单独完成这项工作,而是像转录因子一样,以组合方式、成群地且相当混杂地作用:一个给定的microRNA可能调控许多mRNA,而一个给定的mRNA可能受许多microRNA调控。

为什么要制造一个mRNA却阻止它被翻译成蛋白质?这种转录后调控就像另一个检查点:细胞真的需要这个蛋白质吗?MicroRNA可以被调动,允许细胞根据即时情境调整基因表达。通过这种方式,基因组的工作方式更像是一个自适应和响应性的过程,而不是程序的必然进展。

另一个转录后的复杂情况是,mRNA只有在经过重组后才能被翻译成蛋白质。刚转录出来时,mRNA包含编码蛋白质片段的序列(称为外显子),以及不应被翻译且需要被剪掉的序列(称为内含子)。(严格来说,这种预编辑的RNA被称为pre-mRNA。)剪切掉内含子并将外显子拼接在一起的工作由一种称为剪接体的分子组装体完成,它由几种蛋白质与各种非编码RNA一起组成。

剪接体也可能对情境敏感,因此它可能以这样一种方式拼接pre-mRNA:在一个细胞类型中编码一种蛋白质,在另一个细胞类型中编码一种略有不同的蛋白质。有时这些不同的蛋白质“亚型”可以扮演非常不同的角色。例如,转录因子通常以这种方式进行可变剪接,它们的亚型可以承担不同的调控任务——有些可能激活基因表达,而另一些则抑制它。

制衡机制

总的来说,这些和其他调控机制表明,基因组远非某种在后台自动运行的程序来构建并维持我们生存。我们的细胞实际上正在就如何使用其基因做出复杂的决策——既包括它们包含的信息,也包括它们所呈现的结构。

因此,细胞需要组装一个相当松散且模糊的组件委员会,例如转录因子和增强子,以开始转录,这也取决于染色质链在那时是如何成形和塑造的。然后在mRNA和最终的功能性蛋白质之间还有进一步的决策和行动层。

还要记住,所有参与者——从转录因子到非编码RNA——本身都是在相同类型的情境依赖过程中从基因组产生的。这使得基因组有点像计算机科学家Douglas Hofstadter所称的递归、自我指涉系统:“一个奇怪的循环”。它作用于自身,留意自己的历史(例如决定染色质构象和表观遗传标记),并关注来自细胞内部和外部的信息。因此,它不是蓝图。

出于这个原因,它并不容易理解。“如果我是上帝,我不会这样设计它,”Bickmore说。“但事实就是这样!”

为什么像我们这样的动物的基因调控如此复杂?一个可能的答案是,进化没有远见来设计出高效且逻辑透明的系统,而只是利用已有的东西进行修补。也许是这样——但真核生物的基因调控不仅仅是细菌中发生的情况的混乱版本。它有不同的原理,而且肯定有其原因。

Bickmore怀疑,调控和基因组组织的复杂性可能是产生生物复杂性的唯一手段。例如,具有多种组织类型和不同生活方式的生物体需要对特定细胞中哪些基因开启或关闭进行更多控制。这要求DNA中有越来越多的非编码调控序列。但是,它们不能都紧贴在基因本身附近。

“随着复杂性增加,你需要添加越来越多的增强子,”Bickmore说。“但你要把它们放在哪里?你开始把它们放得越来越远。一旦它们[足够远],你就开始需要TADs和三维[染色质]折叠来让这些东西工作。”

我们也需要调控复杂性,因为在进化时间尺度上,人类基因组从寄生病毒中积累了DNA,形式称为转座元件的跳跃遗传物质。这些序列插入到我们染色体的各个地方,并且擅长自我复制。为了区分好的DNA和坏的DNA,我们需要额外的调控层来确保细胞不会翻译它们实际上不需要或可能有害的RNAs。

基因组运作中有如此多的情境依赖的制衡机制,显然它不是一个在每种情况下都可预测地产生相同结果的程序或算法。它是一个开放的信息系统,响应外部输入和基因组的动态内部条件。如果AI仅仅依赖基因组内的遗传序列来预测基因组会做什么,这带来了挑战。

“一个高度敏感的器官”

开发基于AI的基因组基础模型(如AlphaGenome)的研究人员希望,所有这些调控层——转录因子、剪接、表观遗传标记、环、染色质包装等等——都将被算法在遗传序列和生物性状之间学习的相关性隐含地包含在内。只要模型生成准确的预测,他们就满足于将上述复杂性放在一个黑箱中。但这会奏效吗?

“我确信[AlphaGenome]会很有用,但有局限性,”Bickmore说。“对我来说,最大的差距在于人体所有细胞类型的复杂性,以及它们在发育过程中如何随时间变化。而所有这些数据都缺失了。”

从根本上说,挑战在于基因组不是一组静态的线性指令。它是高度动态的,并且以组合和混杂的逻辑情境化地使用其信息。“我们是否能够捕捉到那个方面”——在像AlphaGenome这样的算法中——“我不知道,”她说。

然而,问题甚至更深,因为特定生物体(包括我们每个人)的功能不仅取决于基因组。其他因素,如饮食、环境、微生物组,以及至少对我们来说文化,也可能非常重要——不仅关乎我们如何行动和健康如何,还关乎我们基因组本身的状态。生物学家Adrian Woolfson,加州生物技术公司Genyro(旨在使用AI系统进行所谓的“生成生物学”)的联合创始人,称这个信息云为“informiome”。

“虽然人类基因组构成了人类informiome的基础,但其他层级的非遗传信息同样重要,”Woolfson在他于2026年4月出版的《论物种的未来》一书中写道。他认为,基因组基础模型甚至无法预测所有基因突变的结果,因为相关信息首先就不在基因组序列中。

那么,我们应该如何思考基因组呢?也许唯一能够捕捉基因组真正工作方式的隐喻必须来自生物学本身。2020年,生物学史学家Evelyn Fox将基因组比作“一个极其敏感的响应系统”。她说,与其说是基因序列导致性状形成,不如说它更像是“一个装置,用于响应从环境接收到的不断变化的信号来调节特定蛋白质的生产。”

这听起来接近遗传学家Barbara McClintock在1983年因发现转座子而获得诺贝尔生理学或医学奖时发表的演讲中所描绘的画面。她宣称,基因组是“细胞的一个高度敏感的器官,监测基因组活动并纠正常见错误,感知不寻常和意外事件并对其做出响应,通常通过重组基因组。”

自那时以来的研究充实了这一形象,揭示了染色质的形状如何与其DNA序列编码的信息同样重要,以及一群分子如何协作重组它并集体决定如何以情境依赖的方式使用其遗传信息。没有人类技术以这种方式工作,因此蓝图、程序或计算机等隐喻总是会有所不足。

Bickmore乐观地认为,尽管复杂,但基因组的工作方式是可以理解的。“我们现在已经掌握了它,”她说。“我们可能不知道细节,但我认为整个领域现在正在凝聚成一个框架,我们沿着相似的思路思考。”AI当然可以帮助这种理解的建立,但最终,人类推理将需要辨别基本原则。

“McClintock比人们在当时意识到的要准确得多,”Adelman说。“她所说的是基因组不是静态的——它是活的。”

阅读原文
📚 相关主题 研究

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部