编码氨基酸
四种DNA字母要编码20种氨基酸。绝不可能是一对一编码,也不可能是二对一编码,因为两个字母最多只能组成16种组合(4×4)。因此,最低要求是三个字母,也就是DNA序列里面最少要有三个字母对应到一个氨基酸,被称为三联密码,后来被克里克和西德尼·布伦纳证实。
但是这样看起来似乎很浪费,因为用四种字母组成三联密码,总共可以有64种组合(4×4×4),这样应该可以编码64个不同的氨基酸,那为什么只有20种氨基酸呢?一定有一个神奇的答案来解释为什么4种字母,3个一组,拼成64个单词,然后编码20种氨基酸。
1952年,沃森就曾写信告诉克里克:“DNA合成信使RNA(mRNA), mRNA合成蛋白质。”克里克开始研究这一小段mRNA的字母序列,如何翻译成蛋白质里面的氨基酸序列。他认为mRNA可能需要一系列“适配器”来帮助完成翻译,每一个适配器都负责携带一个氨基酸。当然每一个适配器一定也是RNA,而且都带有一段“反密码子”序列,这样才能和mRNA序列上的密码子配对。
适配器分子也由RNA分子组成。它们现在叫作“转运RNA”或tRNA。现在整个工程变得有点像乐高积木,一块块积木接上来又掉下去,一切顺利的话,它们就会这样一个接一个地搭成精彩万分的聚合物。
随着实验技术进步而且越来越精密,在20世纪60年代中期许多实验室陆续解开了序列密码。然而经过一连串不懈的译码工作后,大自然却好像随兴地给了个潦草结尾,让人既困惑又扫兴。遗传密码子的安排一点也不具创意,只不过“简并”了(意思就是说,冗余)。有三种氨基酸可对应六组密码子,其他的则各对应一到两组密码子。每组密码子都有意义,还有三组的意思是“在此停止”,剩下的每一组都对应一个氨基酸。这看起来既没规则也不美,根本就是“美是科学真理的指南”这句话的最佳反证。甚至,我们也找不出任何结构上的原因来解释密码排列,不同的氨基酸与其对应的密码之间似乎并没有任何物理或化学的关联。
克里克称这套让人失望的密码系统为“冻结的偶然”,而大部分人也只能点头同意。他说这个结果是冻结的,因为任何解冻(试图去改变密码对应的氨基酸)都会造成严重的后果。一个点突变也许只会改变几个氨基酸,而改变密码系统本身却会从上到下造成天大灾难。就好似前者只是一本书里无心的笔误,并不会改变整本书的意义,然而后者却将全部的字母转换成毫无意义的乱码。克里克说,密码一旦被刻印在石板上,任何想改动它的企图都会被处以死刑。这个观点至今仍有许多生物学家认同。
AI深度进入基因领域,人类返老还童将成为可能?

资料图。图/视觉中国
谷歌最新人工智能软件阿尔法折叠(Alpha Fold),在一项极其困难的任务中击败了所有对手,成功根据基因序列预测了生命基本分子——蛋白质的三维结构。
这意味着,人工智能已经深度进入基因和蛋白质领域,这既是医疗、药物和生命科学与AI联姻的一种突破,也表明AI在维护人们健康、延长寿命和提高生命质量方面有了稳步进展。
阿尔法折叠可解析和预测蛋白质结构
阿尔法折叠是被设计来解析蛋白质折叠的。生物体和人体拥有着各种各样的蛋白质,它们承担着身体各种复杂且重要的功能,从食物消化到免疫抗病,从感觉到运动功能等,都离不开蛋白质。
蛋白质是由氨基酸构成的,基因则是编码氨基酸并生成蛋白质的“码农”。由于基因编码和蛋白质功能的不同,蛋白质的分子结构会有千差万别。执行复杂生命和生理功能的一些蛋白质分子很大,需要折叠起来才能贮存于组织和细胞并发挥功能。而蛋白质折叠更是有无穷的形式。
实际上,一个简单的蛋白质往往包含了数百个氨基酸,其空间结构的可能性就高达10的300次方个。不只是蛋白质中氨基酸序列决定生命现象和疾病,而且蛋白质的空间结构同样决定生理功能和疾病,只要蛋白质的结构发生一点错误,就会诱发和导致各种疾病,如糖尿病、帕金森症和阿尔茨海默病等。
也因此,解析蛋白质结构已成为基因测序后,诊断疾病、研发新药和深入理解生命现象的一把重要钥匙。阿尔法折叠通过人工智能算法,在去年底的一项有98名参赛者参加的解析蛋白质结构的竞赛中赢得第一名,获得了43种蛋白质中的25种蛋白质结构的最高分,排名第二的队伍只有其中3个获得了预测最高分。
这说明,阿尔法折叠在解析和预测蛋白质结构上比较准确。这也昭示着,对疾病的诊断和研发新药有了新的利器。

资料图。图/视觉中国
AI介入生物学领域才只是开始
不过,阿尔法折叠并非是唯一能分析和预测蛋白质结构的工具,其他方法也能分析蛋白质结构,如X射线晶体衍射分析、核磁共振、冷冻电镜等技术,而且冷冻电镜技术由于能确定溶液中的蛋白质分子的高分辨率结构,还获得了2017年诺贝尔化学奖。
可与阿尔法折叠的AI技术相比,其他技术都有较大的短板,既耗时又昂贵。而如果用计算机算法来分析和处理海量的蛋白质三维结构,就有可能既快又准确。阿尔法折叠正是现在通过算法来解析蛋白质结构的佼佼者。
进一步而言,以阿尔法折叠为代表的AI不只是可以既快又准确地分析已知的一些蛋白质的三维结构,还能预测和发现人们尚未知晓的蛋白质结构。因为,蛋白质可分为若干种同源家族,来自同一家族的蛋白质长相十分相似。即使这个家族中没有任何的已知结构,人工智能也能根据这些已有的序列勾勒出这个蛋白质家族的整体概况,预测这个蛋白质家族的一些未知结构。
不过,阿尔法折叠的最大进步是通过算法来找到蛋白质的三维形状。一段基因序列(DNA片段)只构成了氨基酸按一定序列排成的长链,仅仅靠基因测序是无法获知蛋白质结构的,这就需要阿尔法折叠以算法来确认蛋白质的三维结构。
从理论上,能够分析和预测蛋白质的形状和结构,就能够更好地确定其他分子与蛋白质结合的方式,也就可能研发新的药物,因为药物是在人体内与特殊的蛋白质结合并改变蛋白质的活动方式而发挥药效的。从这个意义上来看,阿尔法折叠能解析蛋白质折叠问题,也仅仅是一个新的开端,要研发出新药或产生新的治疗疾病的方式,还有很长的路要走。
当然,阿尔法折叠和其他AI技术都主要是通过算法来理解疾病和改进药物治疗的效果,预测和分析蛋白质折叠尚不能解决蛋白质折叠问题。因此,现阶段比阿尔法折叠走得更远和应用得更成熟的是让AI软件诊断疾病,如癌症。已经有人工智能软件在解析乳腺X光图片时比普通医生快30倍,其准确率更是高达99%。
当阿尔法折叠和其他AI技术能诊断疾病,确定病因时,就可以既采用新的疗法,如基因疗法,修改和删除致病基因,进而让返老还童成为可能,又有可能研发出针对蛋白质三维结构的新药来治疗疾病。现在,人工智能介入医学和生命科学才只是开始。
□张田勘 (科普学者)
编辑 狄宣亚 李冰冰 校对 刘军
AI深度进入基因领域,人类返老还童将成为可能?
生物学家劳伦斯·赫斯特和斯蒂芬·弗里兰在20世纪90年代末把天然基因密码和计算机随机产生的几百万组密码拿去比对,结果轰动一时。他们想知道,如果发生点突变这种把一个字母换掉的变异,哪一套密码系统能保留最多正确的氨基酸,或将它代换成另一个性质相似的氨基酸。
结果他们发现,天然的基因密码最经得起突变的考验。点突变常常不会影响氨基酸序列,而如果突变真的改变了氨基酸,也会由另一个物理特性相似的氨基酸来取代。据此,赫斯特与弗里兰宣称,天然的遗传密码比成千上万套随机产生的密码要优良得多。它不但不是大自然密码学家愚蠢而盲目的作品,而是万里挑一的密码系统。
天然的三联基因密码的第一个字母都有特定的对应方式。举例来说,所有以丙酮酸为前体合成的氨基酸,它们密码的第一个字母都是T。所有由α-酮戊二酸所合成的氨基酸,其三联密码第一个字母都是C;所有由草酰乙酸合成的氨基酸,第一个字母都是A;最后,几种简单前体通过单一步骤所合成的氨基酸,第一个字母都是G。
三联密码的第二个字母和氨基酸是否容易溶于水有关,或者说和氨基酸的疏水性有关。亲水性氨基酸会溶于水,疏水性氨基酸不会溶于水,但会溶在脂肪或油里,比如溶在含有脂质的细胞膜里。所有的氨基酸,可以从“非常疏水”到“非常亲水”排列成一张图谱,而正是这张图谱决定了氨基酸与第二个密码字母之间的关系。疏水性最强的六个氨基酸里有五个,第二个字母都是T,所有亲水性最强的氨基酸第二个字母都是A。介于中间的有些是G有些是C。
三联密码的第三个字母不含任何信息,不管接上哪一个字母都没关系,这组密码子都会翻译出一样的氨基酸。以甘氨酸为例,它的密码子是GGG,但是最后一个G可以代换成T、A或C。
第三个字母的随机性暗示了一些有趣的事情。二联密码可以编码16种氨基酸。如果我们从20个氨基酸里拿掉5个结构最复杂的(剩下15个氨基酸,再加上一个终止密码子)这样前两个字母与这15个氨基酸特性之间的关联就更明显了。因此,最原始的密码可能只是二联密码,后来才靠“密码子捕捉”的方式成为三联密码,也就是各氨基酸彼此竞争第三个字母。
第一个字母和氨基酸前体之间的关系直截了当,第二个字母和氨基酸的疏水性相关,第三个字母可以随机选择。这套密码系统除了可以忍受突变,还可以降低灾难发生时造成的损失,同时可以加快进化的脚步。因为如果突变不是灾难性的,那应该会带来更多的好处。
主题测试文章,只做测试使用。发布者:氨基酸肥料,转转请注明出处:https://www.028aohe.com/25507.html