二、GP/GS流程图

复制代码
一、GEBV(Genomic Estimated Breeding Value)
→ 基于全基因组 SNP 数据预测出来的遗传贡献值
→ 表示个体对后代的遗传潜力
→ 用途:
   → 用于选种和育种决策(决定留哪只繁殖)
   → 在个体还没长大或没繁殖之前,就能排序挑选

二、GP(Genomic Prediction,基因组预测)
→ 是一种技术手段
→ 目标:用基因组数据预测 Y
   → Y 可以是:
      → 表型值(Phenotypic value)
         → 直接测得的性状数值(如体重、背膘厚度、窝仔数)
         → 用途:
            → 作为训练数据(模型标签)
            → 直接预测个体未来的性状
            → 如果目标是卖肉,不做育种,可直接用表型选高体重猪
      → 基因组估计育种值(GEBV)
         → 预测个体对后代的遗传贡献
         → 用途:
            → 在没长大时预测潜力
            → 用于种猪/种牛/种鸡的选育

三、GS(Genomic Selection,基因组选择)
→ 是一种育种策略
→ 基于 GP 的输出(特别是 GEBV)
→ 再据此做选种决策(挑选最优个体繁殖)

四、GP 与 GS 的关系
→ GP = 技术手段
   → 输入:基因组 SNP 数据(X)
   → 输出:表型值预测 / GEBV
→ GS = 战略决策
   → 输入:GP 的结果(特别是 GEBV)
   → 输出:选种方案(谁留下繁殖,谁淘汰)
→ 小结
   → GP = 预测过程(算分数)
   → GS = 策略(拿预测分数来做选择)
   → GS 依赖 GP,但 GS ≠ GP
   → GEBV 是 GP 的输出,GS 用 GEBV 来做决策
   📌 所以:不是 GEBV 流程就是 GS,而是 "用 GEBV 排序 + 挑种" 这一步才叫 GS。
  • 采集样本:小猪出生时取少量耳组织。

  • DNA 芯片检测:获得全基因组几十万个 SNP 标记数据。

  • 数据输入模型:将 SNP 数据转成特征向量。

  • 训练好的 GP 模型:如 SVR、GBLUP、KRR 等。

  • 输出预测值:预测表型值或 GEBV(育种值)。

  • 基因组选择(GS):根据预测结果挑选最优种猪繁育下一代

一、GP/GS 特征处理

1. 原始特征(SNP 数据)

  • 每个样本(猪)有 p 个 SNP 位点,每个位点通常编码为 0、1、2(表示不同基因型)

  • 原始矩阵形状:m × p(m 是样本数,p 是 SNP 数量,几万维)

2. 预处理

  • 居中(centering):每个 SNP 减去其平均值

  • 标准化(scaling):让所有 SNP 特征有相似的量纲,避免大数值 SNP 主导模型

  • 有时会做 LD 剪枝(去除高度相关的 SNP)来降维,但这不是删除所有无用特征,而是减少共线性

3. 特征全部保留

  • 在 GBLUP、KRR、SVR 等方法里,不会删除大部分 SNP,因为微效应 SNP 叠加后仍然有用

二、特征权重

取决于模型类型:

  1. GBLUP(线性混合模型)

    • 思路:所有 SNP 的效应服从 a∼N(0,Gσg2)

    • 通过混合模型解方程,得到每个 SNP 的加性效应(相当于权重)

    • 这些权重可直接乘以 SNP 值得到育种值

  2. KRR(核岭回归)

    • 不直接算每个 SNP 的系数,而是构造 核矩阵 K(样本间的基因相似度)

    • 模型解出的系数是样本的组合权重,本质是所有 SNP 的综合作用

  3. SVR(支持向量回归)

    • 通过优化目标(最小化损失 + 正则化)得到支持向量的系数

    • 每个支持向量的系数隐含了对特征的贡献(如果用线性核可以直接看成特征权重)

  4. LASSO / ENET

    • 通过 L1/L2 正则化直接在训练中稀疏化权重

    • 得到的系数向量就是每个 SNP 的权重(很多会变成 0)


三、权重应用

一旦有了特征权重(假设是 w1,w2,...,wp):

  1. 预测单个样本

    • 取这个样本的 SNP 编码 x1,x2,...,xp

    • 预测值 = 加权求和

      y^=w1x1+w2x2+⋯+wpxp+b

    • 这里的 y^ 可以是预测表型值,也可以是预测 GEBV

  2. 预测整个数据集

    • 对所有样本做矩阵乘法:

      Y^=XW

    • X 是 m × p 的 SNP 矩阵,W 是 p × 1 的权重向量

  3. 在 GS(基因组选择)中

    • 把所有个体的预测值排序

    • 挑出预测值最高的一批 → 留作种猪


四、类比

可以把这个过程想成:

  1. 把每个 SNP 看作"考试题目"

  2. 模型训练就是算出每道题的重要性(权重)

  3. 每头猪的 DNA 就是它的答卷(0/1/2)

  4. 用"重要性 × 答题情况"加总,算出它的总分(预测值)

  5. GS 就是按分数选人(猪)

相关推荐
zzywxc7873 天前
自动化测试框架是软件测试的核心基础设施,通过预设规则和脚本自动执行测试用例,显著提高测试效率和覆盖率。
运维·人工智能·自动化·prompt·测试用例·流程图
TextIn智能文档云平台3 天前
产品无法正确解析复杂表格和流程图,有什么替代方案或优化方法?
流程图
coder_lorraine3 天前
Drawnix:开源一体化白板工具,让你的创意无限流动!
开源·流程图
m0_555762904 天前
项目1——单片机程序审查,控制系统流程图和时序图
单片机·mongodb·流程图
zzywxc7877 天前
AI在金融、医疗、教育、制造业等领域的落地案例
人工智能·机器学习·金融·prompt·流程图
趣学习7 天前
A043基于博途西门子1200PLC自动售货机系统仿真A043自动售货机+S71200+HMI+主电路图+外部接线图+流程图+IO分配表
毕业设计·流程图·课程设计·plc·西门子
kebeiovo9 天前
项目必备流程图,类图,E-R图实例速通
开发语言·r语言·流程图
晋人在秦 老K9 天前
入梦工具箱怎么检测硬件?3步完成CPU-Z跑分测试 硬件检测总出错?图吧工具箱免费功能实测 draw.io 部署指南:私有化流程图服务搭建教程
测试工具·流程图·工具·draw.io
zzywxc78710 天前
AI在金融、医疗、教育、制造业等领域的落地案例(含代码、流程图、Prompt示例与图表)
人工智能·spring·机器学习·金融·数据挖掘·prompt·流程图
ui小新12 天前
什么是流程图:流程六要素、三大结构及绘制规范总结
流程图·设计工具·流程图设计