二、GP/GS流程图

复制代码
一、GEBV(Genomic Estimated Breeding Value)
→ 基于全基因组 SNP 数据预测出来的遗传贡献值
→ 表示个体对后代的遗传潜力
→ 用途:
   → 用于选种和育种决策(决定留哪只繁殖)
   → 在个体还没长大或没繁殖之前,就能排序挑选

二、GP(Genomic Prediction,基因组预测)
→ 是一种技术手段
→ 目标:用基因组数据预测 Y
   → Y 可以是:
      → 表型值(Phenotypic value)
         → 直接测得的性状数值(如体重、背膘厚度、窝仔数)
         → 用途:
            → 作为训练数据(模型标签)
            → 直接预测个体未来的性状
            → 如果目标是卖肉,不做育种,可直接用表型选高体重猪
      → 基因组估计育种值(GEBV)
         → 预测个体对后代的遗传贡献
         → 用途:
            → 在没长大时预测潜力
            → 用于种猪/种牛/种鸡的选育

三、GS(Genomic Selection,基因组选择)
→ 是一种育种策略
→ 基于 GP 的输出(特别是 GEBV)
→ 再据此做选种决策(挑选最优个体繁殖)

四、GP 与 GS 的关系
→ GP = 技术手段
   → 输入:基因组 SNP 数据(X)
   → 输出:表型值预测 / GEBV
→ GS = 战略决策
   → 输入:GP 的结果(特别是 GEBV)
   → 输出:选种方案(谁留下繁殖,谁淘汰)
→ 小结
   → GP = 预测过程(算分数)
   → GS = 策略(拿预测分数来做选择)
   → GS 依赖 GP,但 GS ≠ GP
   → GEBV 是 GP 的输出,GS 用 GEBV 来做决策
   📌 所以:不是 GEBV 流程就是 GS,而是 "用 GEBV 排序 + 挑种" 这一步才叫 GS。
  • 采集样本:小猪出生时取少量耳组织。

  • DNA 芯片检测:获得全基因组几十万个 SNP 标记数据。

  • 数据输入模型:将 SNP 数据转成特征向量。

  • 训练好的 GP 模型:如 SVR、GBLUP、KRR 等。

  • 输出预测值:预测表型值或 GEBV(育种值)。

  • 基因组选择(GS):根据预测结果挑选最优种猪繁育下一代

一、GP/GS 特征处理

1. 原始特征(SNP 数据)

  • 每个样本(猪)有 p 个 SNP 位点,每个位点通常编码为 0、1、2(表示不同基因型)

  • 原始矩阵形状:m × p(m 是样本数,p 是 SNP 数量,几万维)

2. 预处理

  • 居中(centering):每个 SNP 减去其平均值

  • 标准化(scaling):让所有 SNP 特征有相似的量纲,避免大数值 SNP 主导模型

  • 有时会做 LD 剪枝(去除高度相关的 SNP)来降维,但这不是删除所有无用特征,而是减少共线性

3. 特征全部保留

  • 在 GBLUP、KRR、SVR 等方法里,不会删除大部分 SNP,因为微效应 SNP 叠加后仍然有用

二、特征权重

取决于模型类型:

  1. GBLUP(线性混合模型)

    • 思路:所有 SNP 的效应服从 a∼N(0,Gσg2)

    • 通过混合模型解方程,得到每个 SNP 的加性效应(相当于权重)

    • 这些权重可直接乘以 SNP 值得到育种值

  2. KRR(核岭回归)

    • 不直接算每个 SNP 的系数,而是构造 核矩阵 K(样本间的基因相似度)

    • 模型解出的系数是样本的组合权重,本质是所有 SNP 的综合作用

  3. SVR(支持向量回归)

    • 通过优化目标(最小化损失 + 正则化)得到支持向量的系数

    • 每个支持向量的系数隐含了对特征的贡献(如果用线性核可以直接看成特征权重)

  4. LASSO / ENET

    • 通过 L1/L2 正则化直接在训练中稀疏化权重

    • 得到的系数向量就是每个 SNP 的权重(很多会变成 0)


三、权重应用

一旦有了特征权重(假设是 w1,w2,...,wp):

  1. 预测单个样本

    • 取这个样本的 SNP 编码 x1,x2,...,xp

    • 预测值 = 加权求和

      y^=w1x1+w2x2+⋯+wpxp+b

    • 这里的 y^ 可以是预测表型值,也可以是预测 GEBV

  2. 预测整个数据集

    • 对所有样本做矩阵乘法:

      Y^=XW

    • X 是 m × p 的 SNP 矩阵,W 是 p × 1 的权重向量

  3. 在 GS(基因组选择)中

    • 把所有个体的预测值排序

    • 挑出预测值最高的一批 → 留作种猪


四、类比

可以把这个过程想成:

  1. 把每个 SNP 看作"考试题目"

  2. 模型训练就是算出每道题的重要性(权重)

  3. 每头猪的 DNA 就是它的答卷(0/1/2)

  4. 用"重要性 × 答题情况"加总,算出它的总分(预测值)

  5. GS 就是按分数选人(猪)

相关推荐
优思学苑1 天前
价值流程图:看到流程,而不只是步骤【精益管理CLMP】
流程图
bug总结2 天前
前端流程图vueflow
前端·流程图
米饭不加菜3 天前
Mermaid 流程图语法参考四
流程图
米饭不加菜5 天前
Mermaid 流程图语法参考三
流程图
米饭不加菜6 天前
Typora 原生流程图语法完全指南(Flowchart.js)
前端·javascript·流程图
米饭不加菜6 天前
Mermaid 流程图语法参考二
数据库·流程图
米饭不加菜6 天前
Mermaid 流程图语法参考一
流程图
Ysn07196 天前
利用豆包和draw.io快速绘制流程图
流程图·draw.io
Daorigin_com7 天前
从“被动领罚”到“主动合规”:强监管时代下,道本科技用数字化为企业筑牢“合规生命线”
大数据·数据仓库·科技·流程图·软件构建·数据库开发·数据库架构
十年一梦实验室7 天前
【ChatGPT】光纤激光器及其控制系统深度拆解、信息图10张、爆炸图10张、C++代码框架增强版Mermaid 流程图、时序图、类图与成员说明
流程图