一、GEBV(Genomic Estimated Breeding Value)
→ 基于全基因组 SNP 数据预测出来的遗传贡献值
→ 表示个体对后代的遗传潜力
→ 用途:
→ 用于选种和育种决策(决定留哪只繁殖)
→ 在个体还没长大或没繁殖之前,就能排序挑选
二、GP(Genomic Prediction,基因组预测)
→ 是一种技术手段
→ 目标:用基因组数据预测 Y
→ Y 可以是:
→ 表型值(Phenotypic value)
→ 直接测得的性状数值(如体重、背膘厚度、窝仔数)
→ 用途:
→ 作为训练数据(模型标签)
→ 直接预测个体未来的性状
→ 如果目标是卖肉,不做育种,可直接用表型选高体重猪
→ 基因组估计育种值(GEBV)
→ 预测个体对后代的遗传贡献
→ 用途:
→ 在没长大时预测潜力
→ 用于种猪/种牛/种鸡的选育
三、GS(Genomic Selection,基因组选择)
→ 是一种育种策略
→ 基于 GP 的输出(特别是 GEBV)
→ 再据此做选种决策(挑选最优个体繁殖)
四、GP 与 GS 的关系
→ GP = 技术手段
→ 输入:基因组 SNP 数据(X)
→ 输出:表型值预测 / GEBV
→ GS = 战略决策
→ 输入:GP 的结果(特别是 GEBV)
→ 输出:选种方案(谁留下繁殖,谁淘汰)
→ 小结
→ GP = 预测过程(算分数)
→ GS = 策略(拿预测分数来做选择)
→ GS 依赖 GP,但 GS ≠ GP
→ GEBV 是 GP 的输出,GS 用 GEBV 来做决策
📌 所以:不是 GEBV 流程就是 GS,而是 "用 GEBV 排序 + 挑种" 这一步才叫 GS。
-
采集样本:小猪出生时取少量耳组织。
-
DNA 芯片检测:获得全基因组几十万个 SNP 标记数据。
-
数据输入模型:将 SNP 数据转成特征向量。
-
训练好的 GP 模型:如 SVR、GBLUP、KRR 等。
-
输出预测值:预测表型值或 GEBV(育种值)。
-
基因组选择(GS):根据预测结果挑选最优种猪繁育下一代
一、GP/GS 特征处理
1. 原始特征(SNP 数据)
-
每个样本(猪)有 p 个 SNP 位点,每个位点通常编码为 0、1、2(表示不同基因型)
-
原始矩阵形状:m × p(m 是样本数,p 是 SNP 数量,几万维)
2. 预处理
-
居中(centering):每个 SNP 减去其平均值
-
标准化(scaling):让所有 SNP 特征有相似的量纲,避免大数值 SNP 主导模型
-
有时会做 LD 剪枝(去除高度相关的 SNP)来降维,但这不是删除所有无用特征,而是减少共线性
3. 特征全部保留
- 在 GBLUP、KRR、SVR 等方法里,不会删除大部分 SNP,因为微效应 SNP 叠加后仍然有用
二、特征权重
取决于模型类型:
-
GBLUP(线性混合模型)
-
思路:所有 SNP 的效应服从 a∼N(0,Gσg2)
-
通过混合模型解方程,得到每个 SNP 的加性效应(相当于权重)
-
这些权重可直接乘以 SNP 值得到育种值
-
-
KRR(核岭回归)
-
不直接算每个 SNP 的系数,而是构造 核矩阵 K(样本间的基因相似度)
-
模型解出的系数是样本的组合权重,本质是所有 SNP 的综合作用
-
-
SVR(支持向量回归)
-
通过优化目标(最小化损失 + 正则化)得到支持向量的系数
-
每个支持向量的系数隐含了对特征的贡献(如果用线性核可以直接看成特征权重)
-
-
LASSO / ENET
-
通过 L1/L2 正则化直接在训练中稀疏化权重
-
得到的系数向量就是每个 SNP 的权重(很多会变成 0)
-
三、权重应用
一旦有了特征权重(假设是 w1,w2,...,wp):
-
预测单个样本
-
取这个样本的 SNP 编码 x1,x2,...,xp
-
预测值 = 加权求和
y^=w1x1+w2x2+⋯+wpxp+b
-
这里的 y^ 可以是预测表型值,也可以是预测 GEBV
-
-
预测整个数据集
-
对所有样本做矩阵乘法:
Y^=XW
-
X 是 m × p 的 SNP 矩阵,W 是 p × 1 的权重向量
-
-
在 GS(基因组选择)中
-
把所有个体的预测值排序
-
挑出预测值最高的一批 → 留作种猪
-
四、类比
可以把这个过程想成:
-
把每个 SNP 看作"考试题目"
-
模型训练就是算出每道题的重要性(权重)
-
每头猪的 DNA 就是它的答卷(0/1/2)
-
用"重要性 × 答题情况"加总,算出它的总分(预测值)
-
GS 就是按分数选人(猪)