【文献分享】ICGI通过将因果提示型大型语言模型与基于组学数据的因果推断相结合来识别癌症基因

文章目录

    • 介绍
      • [一、ICGI 模型原理(一句话看懂)](#一、ICGI 模型原理(一句话看懂))
      • [二、ICGI 核心原理(两段讲透)](#二、ICGI 核心原理(两段讲透))
        • [1. 第一部分:CGI‑GPT(因果提示大模型)](#1. 第一部分:CGI‑GPT(因果提示大模型))
        • [2. 第二部分:DML‑CGI(去偏机器学习因果推断)](#2. 第二部分:DML‑CGI(去偏机器学习因果推断))
        • [3. 最终融合](#3. 最终融合)
      • [三、ICGI 的输入数据(完全对应原文)](#三、ICGI 的输入数据(完全对应原文))
        • [输入 A:给 LLM 的文本知识输入](#输入 A:给 LLM 的文本知识输入)
        • [输入 B:给 DML‑CGI 的组学数据输入](#输入 B:给 DML‑CGI 的组学数据输入)
        • [标签数据(Ground Truth)](#标签数据(Ground Truth))
      • [四、ICGI 的输出数据](#四、ICGI 的输出数据)
    • 代码
    • 参考

介绍

从多组学角度确定与癌症直接相关的基因对于理解癌症的发病机制以及改进治疗策略至关重要。传统的基于广义相关性的统计和机器学习方法用于识别癌症基因,但这些方法往往会产生冗余、有偏差的预测,且解释性较差,这主要是由于忽略了混杂因素、选择偏差以及神经网络中的非线性激活函数所致。在本研究中,我们引入了一种用于在多个组学领域识别癌症基因的新框架,名为 ICGI(整合因果基因识别),它利用一个大型语言模型(LLM),该模型在因果性上下文提示和提示的引导下进行训练,并结合数据驱动的因果特征选择。这种方法展示了 LLM 在揭示癌症基因和理解疾病机制方面的有效性及潜力,特别是在基因组水平上。然而,我们的研究结果也表明,当前的 LLM 可能无法涵盖所有组学层面的全面信息。通过将提出的因果特征选择模块应用于转录组数据集,从《癌症基因组图谱》中的六种癌症类型入手,并将其性能与最先进的方法进行比较,结果表明其在识别能够区分癌变样本与正常样本的癌症基因方面具有卓越的能力。此外,我们还开发了一个在线服务平台,用户可以输入感兴趣的基因和特定的癌症类型。该平台会提供自动化的结果,表明该基因是否在癌症中起着重要作用,并附有清晰易懂的解释说明。此外, 该平台会汇总通过基于数据的因果学习方法所获得的推断结果。

ICGI 原理 + 输入 / 输出 / 标签,一次性讲全。

一、ICGI 模型原理(一句话看懂)

ICGI = 因果提示大模型(CGI‑GPT) + 数据驱动去偏因果推断(DML‑CGI)

不依赖图结构 ,而是从多组学(主要是转录组)+ 文本知识双路判断:

一个基因是不是癌症的因果驱动基因,而不是只找相关基因。


二、ICGI 核心原理(两段讲透)

1. 第一部分:CGI‑GPT(因果提示大模型)
  • GPT‑4o mini

  • 给它专门设计的因果提示(Causal Prompt)

  • 输入:基因名 + 癌症类型 + 从 NCBI 拉来的基因背景知识

  • 让 LLM 做因果推理

    这个基因会不会

    导致

    癌症?机制是什么?

  • 输出:是 / 不是因果癌基因 + 自然语言解释

它的核心创新是:

用因果提示 + CoT 思维链 + RAG 检索增强

让 LLM 从 "知识检索" 升级成 "因果判断"。

2. 第二部分:DML‑CGI(去偏机器学习因果推断)
  • 转录组表达数据出发
  • DML 去偏机器学习因果特征选择
  • 目标:找到直接影响癌症表型的基因,排除混杂因素
  • 不学习整个因果图,只算基因→癌症的因果效应
  • 输出:因果基因列表 + 效应大小
3. 最终融合

两边结果合并 → 最终高可信因果癌基因

→ 同时给自然语言解释,解决黑箱。


三、ICGI 的输入数据(完全对应原文)

ICGI 有两路输入,不是图模型!

输入 A:给 LLM 的文本知识输入
  1. 基因名(如 EGFR)
  2. 癌症类型(如 LUAD 肺腺癌)
  3. 从 NCBI 获取的基因背景(功能、别名、概述)
  4. 固定的 Causal Prompt 模板(系统提示 + 任务 + 思维链 + 输出格式)
输入 B:给 DML‑CGI 的组学数据输入
  • TCGA 转录组数据(RNA‑seq)

    基因表达矩阵:行 = 样本,列 = 基因

  • 样本标签:癌症 / 正常

  • 6 种癌症:LUAD、LUSC、BLCA、BRCA、KIRC、LIHC

标签数据(Ground Truth)
  • 二分类标签:

    • 1 = 已知癌基因(来自 COSMIC、ECoGs、NCG)
    • 0 = 非癌基因
  • 只用于评估,不训练 LLM。


四、ICGI 的输出数据

模型输出统一、清晰、可解释:

  1. 二元判断

    该基因 是否为该癌症的因果驱动基因

  2. 置信度 / 分数

    基因对癌症的因果效应强度

  3. 自然语言解释(最关键)

    为什么是因果基因?

    涉及什么通路、功能、突变、调控机制?

  4. 差异表达可视化

    癌 vs 正常的表达箱型图、密度图

  5. 最终候选癌基因列表

    整合 LLM + 数据因果推断

代码

参考

相关推荐
李昊哲小课1 小时前
Hermes Agent 系统架构设计
人工智能·智能体·hermes agent
一切皆是因缘际会8 小时前
从概率拟合到内生心智:2026 下一代 AI 架构演进与落地实践
人工智能·深度学习·算法·架构
科研前沿8 小时前
镜像视界 CameraGraph™+多智能体:构建自感知自决策的全域空间认知网络技术方案
大数据·运维·人工智能·数码相机·计算机视觉
爱学习的张大8 小时前
具身智能论文问答(2):Diffusion Policy
人工智能
AI科技星8 小时前
全域数学·72分册·射影原本 无穷维射影几何卷细化子目录【乖乖数学】
人工智能·线性代数·算法·机器学习·数学建模·数据挖掘·量子计算
Chef_Chen8 小时前
论文解读:MemOS首次把记忆变成大模型的一等公民资源,Scaling Law迎来第三条曲线
人工智能·agent·memory
风落无尘8 小时前
《智能重生:从垃圾堆到AI工程师》——第四章 变化的艺术
人工智能·线性代数·算法
发哥来了8 小时前
AI视频生成模型选型指南:五大核心维度对比评测
大数据·人工智能·机器学习·ai·aigc
发哥来了8 小时前
AI驱动生产线的实际落地:一个东莞厂商的技术选型实录
大数据·人工智能·机器学习·ai·aigc
AC赳赳老秦8 小时前
知识产权辅助:用 OpenClaw 批量生成专利交底书 / 软著申请材料,自动校验格式与内容合规性
java·人工智能·python·算法·elasticsearch·deepseek·openclaw