表型数据分类:
1、质量性状--单基因或少数基因控制质量性状较稳定,不易受环境影响
2、数量性状--多基因控制连续性状:表型指标从一个极端到另一个极端连续变异,中间无明显界限或中断,如株高、产量
3、比例性状:表型为离散型,通过计数来确定,可能表型很大时可看成连续性状,如植株后代个数、穗粒数等
4、阈值性状:少数几种表型级别,但遗传上由多基因控制,如动植物的抗病能力
质量性状
-二分类:可用0/1,1/2数值表示
-多分类:哑变量赋值,0/1
数量性状
-尽量符合正态分布(R中shapiro.test检测正态性)
剔除异常表型值样本
-多年多点重复观测
-对于阈值性状,分级数量化或哑变量赋值
mean(均值):算术平均数,表示数据的中心位置。通过将所有数据值相加后除以数据的个数得到。
SD(标准差):数据点偏离均值的程度。标准差越大,说明数据的分布越广;标准差越小,说明数据点更加集中在均值附近。
Range(极差):最大值与最小值之差,反映了数据的整体变动范围。即最大值减去最小值。
CV%(变异系数百分比):是标准差与均值的比值,通常用百分比表示。用于衡量数据的相对变异程度,特别适用于不同数据集之间的比较。
Kurtosis(峰度):用于描述数据分布的"尖锐"程度。正的峰度表示分布比正态分布更尖锐,负的峰度表示分布比正态分布更平坦。
Skewness(偏度):描述数据分布的对称性。偏度为零表示数据呈对称分布,正偏度表示数据向右偏,负偏度表示数据向左偏。
ShapiroPValue (Shapiro-Wilk检验的p值):是Shapiro-Wilk检验结果中的p值.常用于检验数据是否符合正态分布。如果p值小于显著性水平(如0.05),则拒绝数据符合正态分布的假设,意味着数据可能不是正态分布。
广义遗传力(H2):是指个体表型变异中,由遗传因素引起的变异所占的比例,一般基于多年多点的表型观测数据进行计算(越大越好)。
一般通过混合线性模型来计算广义遗传力,步骤如下
1.使用线性模型来分解变异来源:
表型值=总体均值+基因型效应+环境效应+区组效应+残差
2.计算方差成分:通过以上模型,获得各个来源的方差分量
多年多点观测
每个环境单独分析表型均值分析
BLUP/BLUE
BLUP (Best Linear Unbiased Prediction) :最佳线性无偏预测,基因型效应作为随机因子。
BLUE (Best Linear Unbiased Estimation) :最佳线性无偏估计,基因型效应作为固定因子。
less -S phenotype_1.tsv
less -S phenotype_2.tsv
cd .../
ls -l
cd 02.prepare_pheno
cat prepare_pheno.sh
群体类型
双亲本纯合
-F2,BC等
-RIL,DH,BCRIL等
-自交性植物、部分动物(果蝇、小鼠、斑马鱼等)
亲本杂合
-F1
-自交不亲和,亲本杂合度高的物种(林木,水产等)
群体大小和标记开发
标记开发:芯片、WGRS,简化基因组
群体大小:~200个体
标记处理
1.亲本纯合且不一致
2.子代群体基本过滤(missing、maf等等)
3.基于亲本genotype信息对子代个体进行分型
标记偏分离
偏分离(Segregation Distortion)
是指在某一遗传群体中,基因型或等位基因的分离比例偏离了预期的孟德尔分离规律,即期望的等位基因或基因型在子代中的出现频率不符合预定的遗传比例。
自然选择、遗传因素(基因间的互作、基因的致死效应等)、环境干扰、分型错误等
检测方法:
卡方检验,用于检测观测值与理论值之间的偏离程度。卡方检验P值显著意味着观察到的基因型频率与预期频率有显著差异,从而表明存在偏分离
重组率:是指在基因组中两个遗传标记或基因之间发:生遗传重组的频率。
考虑AABB和aabb杂交的F1代,其配子为AB、ab、Ab和aB,其中Ab和aB为重组型配子。这时重组率就是Ab和aB配子站所有配子的比例。
双交换(double crossover)是指在减数分裂过程中,发生了两次染色体之间的交换事件,从而导致基因座之间的等位基因发生交换。
如果两个标记之间没有发生重组,那么并不意味着两个标记之间没有发生交换,因为两个位点之间的偶数次交换将会产生亲本的基因型,而奇数次交换将观测到重组。
双交换会影响两个基因之间的遗传距离的计算,特别是在多个基因座或标记位点的情况下,双交换事件可能会导致一些基因组合的重组率低估。
如果存在多个标记位点,双交换可能导致两个基因之间的重组频率出现偏差,尤其是在相邻的基因座之间发生了多次交叉交换时。这使得需要更复杂的统计方法来正确估算基因之间的重组率
由于可能发生多重交换,重组率不具有可加性
重组率估算
EM算法(期望最大化算法)算法是在不完全信息资料下实现参数极大似然估计的一种通用方法。
-处理缺失数据
-估算隐性基因型(如F2群体中部分标记可能是杂合的)AABBxaabb-> AB Ab aB ab
LOD(Logarithmof the Odds)值是对标记对之间是否存在连锁关系的假设进行检验的一种统计量。它表示的是在假设连锁关系存在的情况下,与假设没有连锁关系的对数似然比。
无连锁假设:假设两个基因标记之问没有连锁关系,或者它们位于不同的染色体上,导致它们的重组率为50%。连锁假设:假设两个基因标记之间有连锁关系,重组率小于50%。在这种情况下,它们的基因型组合比无连锁的基因型组合更常见。
LOD值的意义:
-LOD值>0:表明连锁假设的似然值大于无连锁假设的似然值,意味着两个标记更可能是连锁的。
-LOD值<0:表明无连锁假设的似然值更大,标记之间没有连锁关系。
LOD值>>0:通常表示连锁关系显著,标记之间有强烈的连锁关系。
双交换的染色体干扰(chromosomal interterence in double crossover)是指在染色体重组过程中,发生的多个交换事件之间的相互作用。它是指在一次染色体交换(交叉)事件发生后,第二次交换事件的发生受到第一次交换事件的影响。这种相互影响的现象被称为"干扰"(interference)。
I=0,无干扰,交换事件独立
I>0,正干扰,即一个区间中交换的发生会抑制邻近区间交换的发生
I<0,负干扰。
对于紧密连锁的小区间,其干扰系数接近于1
作图函数
染色体上一对标记之间以摩尔根为单位的遗传距离就是在减数分裂过程中单染色体标记之间平均发生交换的次数。然而,由于交换是不可观测的(双交换的存在),因此通常用作图函数来推断遗传距离。常用的作图函数有:
-Haldane作图函数:假设两个相邻区间的交换相互独立,而且较短区间的交换概率同区间长度成正比.
-Kosambi作图函数:假设干扰为距离的线性函数,按=1-2r递减
构建步骤
连锁群划分-标记排序-遗传距离计算
连锁群划分与排序
基于阈值
-LOD值,如LOD>3
-重组率,如rf<0.35-遗传距离,如<30cM指定连锁群数目最小生成树法(MSTmap),基于p值阈值设置
Ripple微调
Ripple主要目的是对已经完成的标记排序进行细化和调整,以确保得到的排序更加准确,减少排序中的误差,最终提高遗传图谱的质量。
当初步排序完成后,ripple会通过对标记顺序的局部调整来优化图谱。它通过"扰动"已排序的标记序列来查找是否能提高排序的准确度,通常是通过改变某些相邻标记的位置来实现优化。
Ripple的过程通常如下:
选择一个窗口内的标记子序列(例如一个固定数量的相邻标记)
在该窗口内通过排列组合的方法检查不同的标记顺序。
计算每种可能排列的重组频率儿OD/图距/交换次数,并与初步排序的重组频率进行比较。
通过选择误差最小的排列来更新标记顺序。
继续这一过程,直到对所有标记都进行足够的优化,或者达到一定的迭代次数。
图谱构建选择
1.标记连锁群和顺序已知,只计算图距
2.连锁群已知,需要进行标记排序和图距计算
3.从连锁群划分开始进行遗传图谱构建
R/qtl
遗传图谱构建
QTL定位,SIM CIM等
bin-map
bin方法提出
bin-marker是一种将分离模式相同的多个基因型标记组合在一起的策略,用于简化图谱:构建过程。
通过将位于相邻位置或高度连锁的标记归为同一组(bin),来简化图谱构建。这些标记通常在遗传上是高度相关的,意味着它们会:传在以视作开代进行分记的组合遗传效应。
bin-map构建过程
标记分型-滑窗分析-断点识别-群体整合
SNPbinner
Crosspoints(重组断点计算)
对于每个子代个体,基于SNP数1据,使用HMM模型来确定breakpoint。在计算过程中SNPbinner将小的区域合并到较大的区域中,以减少数据噪音和错误。
Visualize(可视化检查)SNPbinner将重组断点的结果以图-像形式展示,用户可以直观地查:看每个染色体上SNP标记和断点的位置。
Bins(生成基因组bin)
-通过汇总计算得到的重组断点,使用改进的k-means聚类算法,将相邻的断点归为同一个bin。每:个bin内的所有RIL个体在该区域具有相似的基因型。可以设置最小距离(例如,5kbp),以确保每个bin内的标记足够密集。
QTL定位
常用方法
-单标记分析 (single marker analysis SMA)
-区间作图(interval mapping IM)- 复合区间作图(composion interval mapping)
单标记分析法是一种基本的QTL定位方法,它通过分析每个遗传标记与目标性状之间的关联来定位QTL。该方法适用于简单的遗传模型,通常用于基因型与表型的初步关联分析。
方法步骤:
1.选择具有遗传多态性的标记,并收集群体的基因型
数据。
2.收集与目标性状相关的表型数据。
3.使用方差分析(ANOVA)或t检验等统计方法,检验:每个标记与性状之间的关系。
4.如果某个标记与性状之间的差异显著,则可以认为该标记可能与该性状相关,可能存在QTL。
区间作图法(IM 或SIM, simple interval mapping)是一种更精确的QTL定位方法,它考虑了标记间的连锁关系,能够更好地估算QTL的位置和效应。
方法步骤:
1.通过已知的遗传标记建立遗传图谱。
2.在遗传图谱的每个标记之间构建"区间"(即两个标记之间的空间区域),并估算区间内可能存在的QTL。
3.使用统计学方法,计算区间中每个潜在QTL的遗传效应。
4.根据QTL的重组频率和遗传效应推测QTL的位置。
复合区间作图CIM
在区间作图基础上,选择辅助标记来控制其他QTL的影响,减少它们对主QTL的干扰。对每个目标区间应用区间作图法,同时使用其他已知QY信息作为控制变量,减少背景噪声的:影响。
这种将QTL附近的标记作为协变量的方法就是复合区间作图(CIM,compositeinterval mapping)。CIM能够识别复杂基因间的相互作用,从而提高定位精度,适用于多QTL分析。
完备区间作图法ICIM
完备区间作图法(ICIM, Inclusive Composite IntervalMapping,)是复合区间作图法(CIM)的改进版本,旨在更精准地检测QTL位点并降低背景遗传干扰。ICIM算法基于两步回归模型,通过控制背景遗传效应提高QTL检测的准确性
筛选协变量:使用逐步回归方法从分子标记中筛选与目标性状显著相关的标记作为协变量,消除其他QTL对当前扫描区间的干扰。
区间扫描:在控制协变量的基础上,对每个标记区间进行一维扫描,利用极大似然法计算LOD值,确定QTL的位置及效应。
LOD值
LOD(Logarithm of the Odds)是QTL定位中的一个重要统计量,用于衡量某个遗传标记与数量性状之间关联的强度在QTL定位中,LOD值用于评估观察到的标记与性状之间的关联是否显著,帮助确定QTL的位置。
零假设(H。):假设标记与性状之间没有关联,即没有QTL。
备择假设(H1):假设标记与性状之间存在关联,即存在QTL。
一般来说,LOD值越大,证明存在QTL的可能性越高。
常见的LOD值阈值如下:
LOD≥3:通常认为标记与性状之间有显著关联,存在QTL。
LOD<2:一般认为标记与性状之间没有显著关联,通常认为不存在QTL。
置换检验
随机化表型数据:
一 随机打乱表型数据,使表型与基因型不再相关,保持基因型的结构不变。
计算随机数据的LOD值:
-对每一个随机化的表型数据,计算各标记位置的LOD值。重复步骤2和3:进行多次(通常为1000次或更多)的随机化和LOD值计算。
建立LOD值的零分布:
-根据重复计算得到的LOD值,建立一个LOD分布。
确定阈值:
-选择零分布的某个百分位(如95%或99%),这个值就是LOD值的显著性阈值。
QTL定位区间
LOD置信区间:以LOD峰值下降1.0~2.0的区间作为QTL的可能范围