二、GP/GS流程图

复制代码
一、GEBV(Genomic Estimated Breeding Value)
→ 基于全基因组 SNP 数据预测出来的遗传贡献值
→ 表示个体对后代的遗传潜力
→ 用途:
   → 用于选种和育种决策(决定留哪只繁殖)
   → 在个体还没长大或没繁殖之前,就能排序挑选

二、GP(Genomic Prediction,基因组预测)
→ 是一种技术手段
→ 目标:用基因组数据预测 Y
   → Y 可以是:
      → 表型值(Phenotypic value)
         → 直接测得的性状数值(如体重、背膘厚度、窝仔数)
         → 用途:
            → 作为训练数据(模型标签)
            → 直接预测个体未来的性状
            → 如果目标是卖肉,不做育种,可直接用表型选高体重猪
      → 基因组估计育种值(GEBV)
         → 预测个体对后代的遗传贡献
         → 用途:
            → 在没长大时预测潜力
            → 用于种猪/种牛/种鸡的选育

三、GS(Genomic Selection,基因组选择)
→ 是一种育种策略
→ 基于 GP 的输出(特别是 GEBV)
→ 再据此做选种决策(挑选最优个体繁殖)

四、GP 与 GS 的关系
→ GP = 技术手段
   → 输入:基因组 SNP 数据(X)
   → 输出:表型值预测 / GEBV
→ GS = 战略决策
   → 输入:GP 的结果(特别是 GEBV)
   → 输出:选种方案(谁留下繁殖,谁淘汰)
→ 小结
   → GP = 预测过程(算分数)
   → GS = 策略(拿预测分数来做选择)
   → GS 依赖 GP,但 GS ≠ GP
   → GEBV 是 GP 的输出,GS 用 GEBV 来做决策
   📌 所以:不是 GEBV 流程就是 GS,而是 "用 GEBV 排序 + 挑种" 这一步才叫 GS。
  • 采集样本:小猪出生时取少量耳组织。

  • DNA 芯片检测:获得全基因组几十万个 SNP 标记数据。

  • 数据输入模型:将 SNP 数据转成特征向量。

  • 训练好的 GP 模型:如 SVR、GBLUP、KRR 等。

  • 输出预测值:预测表型值或 GEBV(育种值)。

  • 基因组选择(GS):根据预测结果挑选最优种猪繁育下一代

一、GP/GS 特征处理

1. 原始特征(SNP 数据)

  • 每个样本(猪)有 p 个 SNP 位点,每个位点通常编码为 0、1、2(表示不同基因型)

  • 原始矩阵形状:m × p(m 是样本数,p 是 SNP 数量,几万维)

2. 预处理

  • 居中(centering):每个 SNP 减去其平均值

  • 标准化(scaling):让所有 SNP 特征有相似的量纲,避免大数值 SNP 主导模型

  • 有时会做 LD 剪枝(去除高度相关的 SNP)来降维,但这不是删除所有无用特征,而是减少共线性

3. 特征全部保留

  • 在 GBLUP、KRR、SVR 等方法里,不会删除大部分 SNP,因为微效应 SNP 叠加后仍然有用

二、特征权重

取决于模型类型:

  1. GBLUP(线性混合模型)

    • 思路:所有 SNP 的效应服从 a∼N(0,Gσg2)

    • 通过混合模型解方程,得到每个 SNP 的加性效应(相当于权重)

    • 这些权重可直接乘以 SNP 值得到育种值

  2. KRR(核岭回归)

    • 不直接算每个 SNP 的系数,而是构造 核矩阵 K(样本间的基因相似度)

    • 模型解出的系数是样本的组合权重,本质是所有 SNP 的综合作用

  3. SVR(支持向量回归)

    • 通过优化目标(最小化损失 + 正则化)得到支持向量的系数

    • 每个支持向量的系数隐含了对特征的贡献(如果用线性核可以直接看成特征权重)

  4. LASSO / ENET

    • 通过 L1/L2 正则化直接在训练中稀疏化权重

    • 得到的系数向量就是每个 SNP 的权重(很多会变成 0)


三、权重应用

一旦有了特征权重(假设是 w1,w2,...,wp):

  1. 预测单个样本

    • 取这个样本的 SNP 编码 x1,x2,...,xp

    • 预测值 = 加权求和

      y^=w1x1+w2x2+⋯+wpxp+b

    • 这里的 y^ 可以是预测表型值,也可以是预测 GEBV

  2. 预测整个数据集

    • 对所有样本做矩阵乘法:

      Y^=XW

    • X 是 m × p 的 SNP 矩阵,W 是 p × 1 的权重向量

  3. 在 GS(基因组选择)中

    • 把所有个体的预测值排序

    • 挑出预测值最高的一批 → 留作种猪


四、类比

可以把这个过程想成:

  1. 把每个 SNP 看作"考试题目"

  2. 模型训练就是算出每道题的重要性(权重)

  3. 每头猪的 DNA 就是它的答卷(0/1/2)

  4. 用"重要性 × 答题情况"加总,算出它的总分(预测值)

  5. GS 就是按分数选人(猪)

相关推荐
一起学开源19 小时前
分布式基石:CAP定理与ACID的取舍艺术
分布式·微服务·架构·流程图·软件工程
晓华-warm3 天前
Warm-Flow 1.8.4 票签新增多种通过率策略!
java·中间件·流程图·jar·开源软件·工作流
paperxie_xiexuo5 天前
如何用自然语言生成科研图表?深度体验PaperXie AI科研绘图模块在流程图、机制图与结构图场景下的实际应用效果
大数据·人工智能·流程图·大学生
檐下翻书1736 天前
从入门到精通:流程图制作学习路径规划
论文阅读·人工智能·学习·算法·流程图·论文笔记
川西胖墩墩7 天前
流程图在算法设计中的实战应用
数据库·论文阅读·人工智能·职场和发展·流程图
檐下翻书1739 天前
流程图配色与美化:让你的图表会“说话”
论文阅读·人工智能·信息可视化·流程图·论文笔记
不爱学习的YY酱9 天前
告别局域网束缚!Excalidraw结合cpolar随时随地画流程图
安全·流程图·cpolar
secondyoung9 天前
Mermaid流程图高效转换为图片方案
c语言·人工智能·windows·vscode·python·docker·流程图
wfsm9 天前
flowable05外置表单和绘制流程图
流程图
TomCode先生10 天前
MES 学习方法深度落地指南:流程图绘制、系统支撑分析、角色场景模拟
流程图·学习方法·mes