用共线性分析的方法进行古基因组重构（具体步骤1）

具体步骤1：

那么首先下载miniconda（从官网上下就行）

在miniconda的命令行里下载wgdi

手动创建 conf.ini（记事本，将路径信息保存到 conf.ini 配置文件中）

这是记事本的内容，这些配置文件都需要自行下载，这都是我自己下载并写出路径的，大家要按照自己的路径走，不能照抄照搬。

ini

mafft path = D:\wgdi\MAFFT\mafft-win\mafft.bat

pal2nal path = D:\wgdi\pal2nal.v14\pal2nal.pl

yn00 path = D:\wgdi\PAML\yn00.py

muscle path = D:\wgdi\muscle.exe

iqtree path = D:\wgdi\iqtree.exe

trimal path = D:\wgdi\trimal.exe

fasttree path = D:\wgdi\Applications\_Fasttree.py

创建 conf.ini 文件

打开 记事本（Notepad），粘贴上面的内容。
选择 "文件" → " 另存为" ，输入 conf.ini 作为文件名。
保存类型 ：选择 "所有文件（ . ）"，否则可能会保存成 conf.ini.txt。
编码格式 ：建议选择 UTF-8 或 ANSI。
保存路径：建议放在 D:\wgdi\ 目录下。

运行 wgdi

打开 CMD（命令提示符）（这里是用的是git bash，需要可以自行下载），进入 D:\wgdi 目录：

运行 wgdi

需要下载高粱的蛋白序列、gff文件、lens文件，然后经过多序列比对得到blast文件

然后，将相应的代码写入

创建 total.conf 文件

打开 记事本（Notepad），粘贴上面的内容。
选择 "文件" → " 另存为" ，输入 total.conf 作为文件名。
保存类型 ：选择 "所有文件（ . ）"，否则可能会保存成 conf.ini.txt。
编码格式 ：建议选择 UTF-8 。
保存路径：建议放在 D:\wgdi\ 目录下。

dotplot

blast = D:/wgdi/sbi.sbi.pep.1e-5.mts20.outfmt6

gff1 = D:/wgdi/sbi.gff

gff2 = D:/wgdi/sbi.gff

lens1 = D:/wgdi/sbi.lens.txt

lens2 = D:/wgdi/sbi.lens.txt

genome1_name = Sbi

genome2_name = Sbi

multiple = 1

score = 100

evalue = 1e-5

repeat_number = 10

position = order

ancestor_left = none

ancestor_top = none

markersize = 0.5

figsize = 10,10

savefig = savefile(png)

代码解释（正式文件里不要有注释，会报错）：

$dotplot$ # 定义配置文件的一个节，表示这是 dotplot 部分的配置

blast = D:/wgdi/sbi.sbi.pep.1e-5.mts20.outfmt6 # 指定 BLAST 比对结果文件的路径，格式为 outfmt6

gff1 = D:/wgdi/sbi.gff # 指定第一个基因组注释文件（GFF 格式）的路径

gff2 = D:/wgdi/sbi.gff # 指定第二个基因组注释文件（GFF 格式）的路径，通常和 gff1 相同

lens1 = D:/wgdi/sbi.lens.txt # 指定第一个基因组片段长度文件的路径

lens2 = D:/wgdi/sbi.lens.txt # 指定第二个基因组片段长度文件的路径，通常和 lens1 相同

genome1_name = Sbi # 设置第一个基因组的名称为 Sbi

genome2_name = Sbi # 设置第二个基因组的名称为 Sbi

multiple = 1 # 启用多重比对，1 表示启用

score = 100 # 设置比对的最小得分阈值为 100，只有得分大于或等于 100 的比对结果才会被考虑

evalue = 1e-5 # 设置比对的 e-value 阈值为 1e-5，只有 e-value 小于等于 1e-5 的比对结果才会被考虑

repeat_number = 10 # 设置图的重复次数为 10，表示生成 10 次重复的比对可视化图

position = order # 设置基因组片段的排列顺序为原始顺序

ancestor_left = none # 不使用祖先基因组信息显示在图的左侧

ancestor_top = none # 不使用祖先基因组信息显示在图的顶部

markersize = 0.5 # 设置图中点的大小为 0.5

figsize = 10,10 # 设置生成图的大小为 10x10 英寸

savefig = savefile(png) # 将图保存为 PNG 格式，文件名默认为 savefile.png

然后运行

结果：

其他物种也是同理，只是源文件不同

下面就是去生成Ks点阵图，Ks频率分布图，共线性比对

（下一节我再讲）

结果解读：

一、染色体同源结构分析

原理：

◆通过 BLASTP工具(Evalue<1e-5,score>100)寻找同源基因对，并绘制同源结构点阵图

◆将 BLASTP 的结果输入到 ColinearScan，最大间隙设置为 50进行共线性分析，识别所研究基因组之间的共线性区域

◆对共线性区域中的同源基因对进行 Ks分析，并通过 MATLAB软件计算进化事件相关的峰值

◆根据计算的 Ks 峰值和绘制的点图，区分事件关联的同源区域

对于单个物种而言，绘制基因组内部的共线性的点状图，如果同一个物种的基因组的区间可以匹配到多个不同的区间中，这就暗示了该物种经历过基因组的加倍事件。利用共线性方法只有做了全基因组测序才能进行共线性分析。全基因组加倍事件可以一次性增加一个物种所有的基因拷贝，在自然选择的作用下，倍增后的基因经历不同的命运：部分拷贝丢失，失去功能（假基因化）；部分拷贝获得新的功能（新功能化）；或者各自行使祖先基因的部分功能（亚功能化）。

每个染色体的重复区域总和大概为一整个染色体，所以大概率高粱经历过了一次全基因组加倍事件而后不断变异而形成现在的高粱。

二、关键进化分枝节点祖先染色体核型推断

◆根据判断出的直系同源染色体区域，鉴定出位于同一染色体区域上邻接的共线性区域，即最大的连续共线性区域

◆判断最大连续共线性区域的连接方式，若连接方式一致或虽然不同但与外类群或者参考基因组的连接方式一致时，则该区域即为祖先染色体区域

◆采用自下而上的方式，逐层向外，推断不同层级祖先节点的核型

三、鉴定同源染色体结构变异

◆植物多倍化后基因组极其不稳定，会发生大规模的染色体重排和基因丢失，染色体重排对基因组最直接的影响就是导致结构变异染色体结构变异

◆染色体结构变异(structural variations)指基因组水平上大片段的插入、缺失、倒置、易位等

◆由染色体重排导致的物种共有与物种特异性染色体结构变异，可能与物种分化相关，能够为研究物种分化和形成提供一个新的视角

◆染色体重排轨迹推断的方向与祖先染色体推断的方向相反

四、现代基因组形成过程中的染色体重排轨迹推断