生命可以用更少的氨基酸编码蛋白质吗？

蛋白质是生命活动的主要承担者，生命进化最终都会体现在蛋白质的功能的多样化上。蛋白质是由20种氨基酸编码的，相比于ATGC的DNA遗传编码信息，氨基酸字母表显示出极大地复杂性和多样性。这就产生了一系列非常有趣的问题：生命为什么会选择20种氨基酸作为标准字母表？更少的氨基酸能否组成或满足一个蛋白质执行功能的基本组成单元？我们能否用更少的氨基酸创造出摆脱当前遗传法则，设计更为独特的生命？

一、氨基酸约化

理论上，具有相似性质、原子排列或频率分布的天然氨基酸可以被合并，并用更小数量的约化字母表来表示编码的氨基酸，这个过程就叫氨基酸约化。最简单的约化方案是以极性或者亲疏水性作为标准，将20种氨基酸只约化为两个字母，最终会得到约化氨基酸字母表。当然，这种极端的方法产生的蛋白质，一定长度的序列所能承载的信息实在太少，几乎不可能完成复杂的生命活动。那如果是3个，5个，10个呢？比如，我们使用氨基酸在不同蛋白质二级结构中的偏好性来约化20种氨基酸构成的蛋白质字母表。下图这个蛋白质，通过氨基酸约化分析，它的三维结构与二级结构有极高的匹配度。

另外，氨基酸字母表的大小直接决定motif序列的复杂性和多样性。Motif 序列是一类蛋白质共有的一段氨基酸序列，也就是说这个 Motif 序列是这类蛋白质所共享的。比如，常见的是转录因子的结合位点，蛋白质的结合位点等等。总的来说，氨基酸序列logo作为蛋白质序列保守度的可视化图形，对研究同源蛋白质的系统发育和功能差异，以及蛋白质定向分子设计具有非常重要的意义。

但是，传统的 Motif Logo 包括了20种氨基酸字母，显示出极大地复杂性和多样性。由于在 Logo 生成过程中缺少对氨基酸性质等生物学因素的考虑，往往会导致对蛋白质功能进化保守性的评估出现偏差，引入冗余信息掩盖关键氨基酸序列信息。利用氨基酸约化分析的不同方案去应用到 motif 的可视化中就可以很好的解决这个问题。基于约化氨基酸的信息学 Motif logo 具有更多的信息学和生物学意义，更好的反映了蛋白序列的功能保守性。

二、氨基酸约化 Motif

我们通过一个工具 RaacLogo 来完成约化 Motif 的构建，网址：

这里包含了40多种聚类算法和74种约化后的氨基酸字母，这些字母被提取生成673个约化的氨基酸簇(RAACs)，用于简化复杂的logo字母。当20个氨基酸按照一定的相似性聚类到更小的字母表中，蛋白质的复杂性就会大大降低，减少了信息冗余，相应的一些功能保守区域将被更清晰地显示出来。

我们拿溶菌酶C（Lysozyme C，LYC）来获取约化氨基酸 Motif。这种酶具有溶菌作用，而且从鸡到人无处不在。首先收集从鸡到人的21个溶菌酶C比对序列，网站默认提供这个比对序列。然后，选择约化方案（极性/中性/疏水性，RKEDQN，GASTPHY，CLVIMFW），经过 RaacLogo 处理的 Motif 会非常整洁和简单，可以反映出高度的序列同源性。下面是详细步骤：

1.首先输入已经对比好的序列