二、GP/GS流程图

复制代码
一、GEBV(Genomic Estimated Breeding Value)
→ 基于全基因组 SNP 数据预测出来的遗传贡献值
→ 表示个体对后代的遗传潜力
→ 用途:
   → 用于选种和育种决策(决定留哪只繁殖)
   → 在个体还没长大或没繁殖之前,就能排序挑选

二、GP(Genomic Prediction,基因组预测)
→ 是一种技术手段
→ 目标:用基因组数据预测 Y
   → Y 可以是:
      → 表型值(Phenotypic value)
         → 直接测得的性状数值(如体重、背膘厚度、窝仔数)
         → 用途:
            → 作为训练数据(模型标签)
            → 直接预测个体未来的性状
            → 如果目标是卖肉,不做育种,可直接用表型选高体重猪
      → 基因组估计育种值(GEBV)
         → 预测个体对后代的遗传贡献
         → 用途:
            → 在没长大时预测潜力
            → 用于种猪/种牛/种鸡的选育

三、GS(Genomic Selection,基因组选择)
→ 是一种育种策略
→ 基于 GP 的输出(特别是 GEBV)
→ 再据此做选种决策(挑选最优个体繁殖)

四、GP 与 GS 的关系
→ GP = 技术手段
   → 输入:基因组 SNP 数据(X)
   → 输出:表型值预测 / GEBV
→ GS = 战略决策
   → 输入:GP 的结果(特别是 GEBV)
   → 输出:选种方案(谁留下繁殖,谁淘汰)
→ 小结
   → GP = 预测过程(算分数)
   → GS = 策略(拿预测分数来做选择)
   → GS 依赖 GP,但 GS ≠ GP
   → GEBV 是 GP 的输出,GS 用 GEBV 来做决策
   📌 所以:不是 GEBV 流程就是 GS,而是 "用 GEBV 排序 + 挑种" 这一步才叫 GS。
  • 采集样本:小猪出生时取少量耳组织。

  • DNA 芯片检测:获得全基因组几十万个 SNP 标记数据。

  • 数据输入模型:将 SNP 数据转成特征向量。

  • 训练好的 GP 模型:如 SVR、GBLUP、KRR 等。

  • 输出预测值:预测表型值或 GEBV(育种值)。

  • 基因组选择(GS):根据预测结果挑选最优种猪繁育下一代

一、GP/GS 特征处理

1. 原始特征(SNP 数据)

  • 每个样本(猪)有 p 个 SNP 位点,每个位点通常编码为 0、1、2(表示不同基因型)

  • 原始矩阵形状:m × p(m 是样本数,p 是 SNP 数量,几万维)

2. 预处理

  • 居中(centering):每个 SNP 减去其平均值

  • 标准化(scaling):让所有 SNP 特征有相似的量纲,避免大数值 SNP 主导模型

  • 有时会做 LD 剪枝(去除高度相关的 SNP)来降维,但这不是删除所有无用特征,而是减少共线性

3. 特征全部保留

  • 在 GBLUP、KRR、SVR 等方法里,不会删除大部分 SNP,因为微效应 SNP 叠加后仍然有用

二、特征权重

取决于模型类型:

  1. GBLUP(线性混合模型)

    • 思路:所有 SNP 的效应服从 a∼N(0,Gσg2)

    • 通过混合模型解方程,得到每个 SNP 的加性效应(相当于权重)

    • 这些权重可直接乘以 SNP 值得到育种值

  2. KRR(核岭回归)

    • 不直接算每个 SNP 的系数,而是构造 核矩阵 K(样本间的基因相似度)

    • 模型解出的系数是样本的组合权重,本质是所有 SNP 的综合作用

  3. SVR(支持向量回归)

    • 通过优化目标(最小化损失 + 正则化)得到支持向量的系数

    • 每个支持向量的系数隐含了对特征的贡献(如果用线性核可以直接看成特征权重)

  4. LASSO / ENET

    • 通过 L1/L2 正则化直接在训练中稀疏化权重

    • 得到的系数向量就是每个 SNP 的权重(很多会变成 0)


三、权重应用

一旦有了特征权重(假设是 w1,w2,...,wp):

  1. 预测单个样本

    • 取这个样本的 SNP 编码 x1,x2,...,xp

    • 预测值 = 加权求和

      y^=w1x1+w2x2+⋯+wpxp+b

    • 这里的 y^ 可以是预测表型值,也可以是预测 GEBV

  2. 预测整个数据集

    • 对所有样本做矩阵乘法:

      Y^=XW

    • X 是 m × p 的 SNP 矩阵,W 是 p × 1 的权重向量

  3. 在 GS(基因组选择)中

    • 把所有个体的预测值排序

    • 挑出预测值最高的一批 → 留作种猪


四、类比

可以把这个过程想成:

  1. 把每个 SNP 看作"考试题目"

  2. 模型训练就是算出每道题的重要性(权重)

  3. 每头猪的 DNA 就是它的答卷(0/1/2)

  4. 用"重要性 × 答题情况"加总,算出它的总分(预测值)

  5. GS 就是按分数选人(猪)

相关推荐
✎ ﹏梦醒͜ღ҉繁华落℘12 小时前
Visio 绘制流程图
流程图
秋95 天前
AI快速生成可编辑的流程图的方法
流程图
宁静致远20215 天前
Mermaid VSCode插件制作流程图保存方法
ide·vscode·流程图
min1811234567 天前
小型网站开发简易流程步骤 在线画图工具快速生成开发流程图方法
论文阅读·信息可视化·毕业设计·流程图·论文笔记
DYuW5gBmH8 天前
Kafka 成功消费消息的完整流程图
分布式·kafka·流程图
数说星榆18110 天前
无人员伤亡车辆事故处理流程图 快速结案流程
架构·电脑·流程图·职场发展·课程设计
dajun18112345610 天前
信息系统运维管理全流程详解 在线画图工具绘制运维流程图表技巧
运维·数据库·信息可视化·流程图·旅游·论文笔记
数说星榆18110 天前
罕见病例报告流程图学术论文用
论文阅读·人工智能·流程图
fish-man11 天前
测试流程图显示
流程图
橙色日落11 天前
Vue2 + LogicFlow 实现可视化流程图编辑功能+常用属性大全
前端·vue·流程图·logicflow