使用AlphaFold3预测蛋白质三维结构及PyMol可视化1

主要是获取CTCF_Human蛋白质序列，然后主要目的是看可变交叉电荷模块，也就是NCR以及PCR的block，另外就是验证对应的序列移除之后对于CTCF以及DNA结合的影响

部分思路参考：

简单来说就是需要获取CTCF、CTCF+DNA的两个序列，然后分别用alphafold3去预测结构

（其实并没有改变其中的612-627aa的NCR区域，如果我来做，我可以将这一段aa替换成random的aa序列，不是穷尽所有组合，而是挑选比较经典的aa序列，然后进行替换，查看

这段NCR和random的序列水平比较下，有DNA或者没有DNA查看一下序列结构预测中有什么区别以及细节

https://www.uniprot.org/uniprotkb/P49711/entry

markdown 复制代码

MEGDAVEAIVEESETFIKGKERKTYQRRREGGQEEDACHLPQNQTDGGEVVQDVNSSVQMVMMEQLDPTLLQMKTEVMEGTVAPEAEAAVDDTQIITLQVVNMEEQPINIGELQLVQVPVPVTVPVATTSVEELQGAYENEVSKEGLAESEPMICHTLPLPEGFQVVKVGANGEVETLEQGELPPQEDPSWQKDPDYQPPAKKTKKTKKSKLRYTEEGKDVDVSVYDFEEEQQEGLLSEVNAEKVVGNMKPPKPTKIKKKGVKKTFQCELCSYTCPRRSNLDRHMKSHTDERPHKCHLCGRAFRTVTLLRNHLNTHTGTRPHKCPDCDMAFVTSGELVRHRRYKHTHEKPFKCSMCDYASVEVSKLKRHIRSHTGERPFQCSLCSYASRDTYKLKRHMRTHSGEKPYECYICHARFTQSGTMKMHILQKHTENVAKFHCPHCDTVIARKSDLGVHLRKQHSYIEQGKKCRYCDAVFHERYALIQHQKSHKNEKRFKCDQCDYACRQERHMIMHKRTHTGEKPYACSHCDKTFRQKQLLDMHFKRYHDPNFVPAAFVCSKCGKTFTRRNTMARHADNCAGPDGVEGENGGETKKSKRGRKRKMRSKKEDSSDSENAEPDLDDNEDEEEPAVEIEPEPEPQPVTPAPPPAKKRRGRPPGRTNQPKQNQPTAIIQVEDQNTGAIENIIVEVKKEPDAEPAEGEEEEAQPAATDAPNGDLTPEMILSMMDR

注意：如果使用网页web端，而不是自己在服务器或者是超算上部署的话，每天使用的计算资源都有额度限制（每天只能提交10个任务）

1，打开alphafold3的网站：
https://alphafoldserver.com/

2，输入序列提交任务

根据分子类型选择蛋白质/DNA/RNA/配体/离子

选择序列出现次数

此处参考：https://www.uniprot.org/uniprotkb/P49711/entry#structure

我选择的CTCF确实是单聚体

然后uniprot结果这一块的话确实是有PDB结构数据的：

我这里选择一个全长的1-727的 6QNX或 7W1M，可以看到，最下面其实是有alphafold的结构的

如果是最下面的https://alphafold.ebi.ac.uk/entry/P49711

我们点击右边的RCSB-PDB链接

总之我们可以验证这个CTCF是单聚体的，所以我们选择copy=1，当然我们出于探索目的也可以选择copy=多个等等，来看看是否有多聚体有趣的现象等等。

总体而言：copies和seed参数

可以试试多个copy

合适的seed会得到较好的ipTM和pTM

3，提交任务，记得修改job名

4，下载结构预测结果：

比如说我的：

没有DNA配体且NCR序列没有改变的情况下的结果：

右边的图其实我早就argue过了，实际上就是1维度的置信图，冷色调置信度高，按理来说没必要绘制成二维自比对的图；

然后实际上右边的图是PAE： Predicted Aligned Error

https://alphafold.ebi.ac.uk/entry/P49711#help官网中也有解释

预测对齐误差（PAE）测量预测结构中两个残基相对位置的置信度，为不同域的相对位置和方向的可靠性提供了洞察。以基因GNE编码的人类蛋白质为例

根据蛋白质数据库（PDBe-KB）中实验确定的结构，GNE有两个不同的结构域。AlphaFold能自信地预测它们的相对位置吗？我们可以使用交互式的预测对齐误差（PAE）图来回答这个问题。

PAE图不是残差间距离图或接触图（也就是我们认为的二维的接触图谱，也就是我们hic数据处理时候得到的接触矩阵）。相反，绿色阴影表示Ångströms （Å）中的预期距离误差，范围从0 Å到31 Å的任意截断值。（x, y）处的颜色对应于当预测和真实结构在残基y上对齐时，残基x位置上的期望距离误差。

深绿色瓷砖对应于良好的预测（低误差），而浅绿色瓷砖表示差的预测（高误差）。例如，在残基300上对齐：

我们对残基200的相对位置有信心

我们对残基600的相对位置没有信心

两个低误差的深绿色正方形对应两个域：可以观察到这两个小方块对应的结构域部分：

比如我的CTCF

比如我的CTCF：

总之这个图我们可以理解为：

x轴某个位置上的残基要和y轴某个位置上的残基对上（align），预计会有多少A的误差，所以实际上是个三维坐标图（第三个维度可以理解为高度被压缩到用颜色表示了）------》不然实际上是可以表示成error surface那种图案的

注意PAE评分是不对称的，这意味着PAE值可能在（x,y）和（y,x）位置之间存在差异。这与高度不确定方向的环区尤其相关，如在DNA拓扑异构酶3 （Q8T2T7）上看到的。

其中有用的是几个cif文件；

然后最后一个md的说明文件如下：实际上都是一些免责说明之类的

5，对预测结果的解读·：

参考：

https://alphafoldserver.com/faq#how-can-i-interpret-confidence-metrics-to-check-the-accuracy-of-structures

先看pLDDT，再ipTM，再PAE

（1）首先是第1栏的pLDDT：残基水平上的结构预测置信度，越高越好预测越准

（2）其次是副栏的ipTM和pTM

所以下一次可以问：你这个模型预测的结构pTM和ipTM是多少，结构预测是否准确

（3）最后是右边的PAE对角线热图：

解读这张图，很简单，只要理解一张图对应的每个维度的信息即可（第一性原理）

x轴：残基编号

y轴：残基编号

难点在于第三维度（z轴）：在图中实际上被压缩成了0维度（但是用颜色色块展现出来了）：

z轴的数值：颜色越深表明预期位置误差（预测结构中某个氨基酸的位置与实验确定的真实结构中相应位置的偏差）越小，颜色越浅则相反

z轴的意思：如果将预测结构和实际结构在残基 Y 处对齐,则残基 X 处的预期位置误差(以埃为单位)------》就是如果将真实结构与预测结构在y轴残基位置上对齐，那么它在x轴残基位置上会偏离多远（就是位置y对上了，位置x到底偏离程度会如何）------》所以我们应该用1条与x轴平行/y轴垂直的直线来观察结果，先在直线上左右移动观察，再上下移动观察

其实我们可以看出PAE是针对token也就是子序列设计的指标：我们要比对的是token

参考：
https://mp.weixin.qq.com/s/rSTtmBkjl6X6M0L1iJ3FWQ

https://mp.weixin.qq.com/s/a7xidY3H-1-5tzPOXqSXXA

https://mp.weixin.qq.com/s/JYhxMZwjDgRttitu8J7bMQ

https://mp.weixin.qq.com/s/edy6TNfK4qbBmEdTgk4P4w

另外官网中的指南参考：

https://golgi.sandbox.google.com/faq