二、GP/GS流程图

复制代码
一、GEBV(Genomic Estimated Breeding Value)
→ 基于全基因组 SNP 数据预测出来的遗传贡献值
→ 表示个体对后代的遗传潜力
→ 用途:
   → 用于选种和育种决策(决定留哪只繁殖)
   → 在个体还没长大或没繁殖之前,就能排序挑选

二、GP(Genomic Prediction,基因组预测)
→ 是一种技术手段
→ 目标:用基因组数据预测 Y
   → Y 可以是:
      → 表型值(Phenotypic value)
         → 直接测得的性状数值(如体重、背膘厚度、窝仔数)
         → 用途:
            → 作为训练数据(模型标签)
            → 直接预测个体未来的性状
            → 如果目标是卖肉,不做育种,可直接用表型选高体重猪
      → 基因组估计育种值(GEBV)
         → 预测个体对后代的遗传贡献
         → 用途:
            → 在没长大时预测潜力
            → 用于种猪/种牛/种鸡的选育

三、GS(Genomic Selection,基因组选择)
→ 是一种育种策略
→ 基于 GP 的输出(特别是 GEBV)
→ 再据此做选种决策(挑选最优个体繁殖)

四、GP 与 GS 的关系
→ GP = 技术手段
   → 输入:基因组 SNP 数据(X)
   → 输出:表型值预测 / GEBV
→ GS = 战略决策
   → 输入:GP 的结果(特别是 GEBV)
   → 输出:选种方案(谁留下繁殖,谁淘汰)
→ 小结
   → GP = 预测过程(算分数)
   → GS = 策略(拿预测分数来做选择)
   → GS 依赖 GP,但 GS ≠ GP
   → GEBV 是 GP 的输出,GS 用 GEBV 来做决策
   📌 所以:不是 GEBV 流程就是 GS,而是 "用 GEBV 排序 + 挑种" 这一步才叫 GS。
  • 采集样本:小猪出生时取少量耳组织。

  • DNA 芯片检测:获得全基因组几十万个 SNP 标记数据。

  • 数据输入模型:将 SNP 数据转成特征向量。

  • 训练好的 GP 模型:如 SVR、GBLUP、KRR 等。

  • 输出预测值:预测表型值或 GEBV(育种值)。

  • 基因组选择(GS):根据预测结果挑选最优种猪繁育下一代

一、GP/GS 特征处理

1. 原始特征(SNP 数据)

  • 每个样本(猪)有 p 个 SNP 位点,每个位点通常编码为 0、1、2(表示不同基因型)

  • 原始矩阵形状:m × p(m 是样本数,p 是 SNP 数量,几万维)

2. 预处理

  • 居中(centering):每个 SNP 减去其平均值

  • 标准化(scaling):让所有 SNP 特征有相似的量纲,避免大数值 SNP 主导模型

  • 有时会做 LD 剪枝(去除高度相关的 SNP)来降维,但这不是删除所有无用特征,而是减少共线性

3. 特征全部保留

  • 在 GBLUP、KRR、SVR 等方法里,不会删除大部分 SNP,因为微效应 SNP 叠加后仍然有用

二、特征权重

取决于模型类型:

  1. GBLUP(线性混合模型)

    • 思路:所有 SNP 的效应服从 a∼N(0,Gσg2)

    • 通过混合模型解方程,得到每个 SNP 的加性效应(相当于权重)

    • 这些权重可直接乘以 SNP 值得到育种值

  2. KRR(核岭回归)

    • 不直接算每个 SNP 的系数,而是构造 核矩阵 K(样本间的基因相似度)

    • 模型解出的系数是样本的组合权重,本质是所有 SNP 的综合作用

  3. SVR(支持向量回归)

    • 通过优化目标(最小化损失 + 正则化)得到支持向量的系数

    • 每个支持向量的系数隐含了对特征的贡献(如果用线性核可以直接看成特征权重)

  4. LASSO / ENET

    • 通过 L1/L2 正则化直接在训练中稀疏化权重

    • 得到的系数向量就是每个 SNP 的权重(很多会变成 0)


三、权重应用

一旦有了特征权重(假设是 w1,w2,...,wp):

  1. 预测单个样本

    • 取这个样本的 SNP 编码 x1,x2,...,xp

    • 预测值 = 加权求和

      y^=w1x1+w2x2+⋯+wpxp+b

    • 这里的 y^ 可以是预测表型值,也可以是预测 GEBV

  2. 预测整个数据集

    • 对所有样本做矩阵乘法:

      Y^=XW

    • X 是 m × p 的 SNP 矩阵,W 是 p × 1 的权重向量

  3. 在 GS(基因组选择)中

    • 把所有个体的预测值排序

    • 挑出预测值最高的一批 → 留作种猪


四、类比

可以把这个过程想成:

  1. 把每个 SNP 看作"考试题目"

  2. 模型训练就是算出每道题的重要性(权重)

  3. 每头猪的 DNA 就是它的答卷(0/1/2)

  4. 用"重要性 × 答题情况"加总,算出它的总分(预测值)

  5. GS 就是按分数选人(猪)

相关推荐
十五年专注C++开发5 天前
Drawnix:一款免费开源的白板工具,支持思维导图、流程图、类图和手绘图
流程图·思维导图·类图·drawnix·快速画图
阿࿆杰࿆5 天前
solon-flow基于bpmnJs的流程设计器
vue·流程图·react
keer_zu7 天前
RadioIrqProcess函数详细分析与流程图
流程图
Hello123网站7 天前
多墨智能-AI一键生成工作文档/流程图/思维导图
人工智能·流程图·ai工具
南半球与北海道#7 天前
前端引入vue-super-flow流程图插件
前端·vue.js·流程图
不剪发的Tony老师8 天前
Drawnix:一款免费开源的白板工具,支持思维导图、流程图、手绘图
流程图·思维导图·白板工具·drawnix
zzywxc7878 天前
详细探讨AI在金融、医疗、教育和制造业四大领域的具体落地案例,并通过代码、流程图、Prompt示例和图表等方式展示这些应用的实际效果。
开发语言·javascript·人工智能·深度学习·金融·prompt·流程图
anghost1509 天前
基于单片机的防酒驾系统设计
单片机·嵌入式硬件·毕业设计·流程图
数据爬坡ing15 天前
软件工程总体设计:从抽象到具体的系统构建之道
数据库·流程图·软件工程·可用性测试·软件需求