【文献分享】ICGI通过将因果提示型大型语言模型与基于组学数据的因果推断相结合来识别癌症基因

文章目录

- 介绍
- - [一、ICGI 模型原理（一句话看懂）](#一、ICGI 模型原理（一句话看懂）)
  - [二、ICGI 核心原理（两段讲透）](#二、ICGI 核心原理（两段讲透）)
  - - [1. 第一部分：CGI‑GPT（因果提示大模型）](#1. 第一部分：CGI‑GPT（因果提示大模型）)
    - [2. 第二部分：DML‑CGI（去偏机器学习因果推断）](#2. 第二部分：DML‑CGI（去偏机器学习因果推断）)
    - [3. 最终融合](#3. 最终融合)
  - [三、ICGI 的输入数据（完全对应原文）](#三、ICGI 的输入数据（完全对应原文）)
  - - [输入 A：给 LLM 的文本知识输入](#输入 A：给 LLM 的文本知识输入)
    - [输入 B：给 DML‑CGI 的组学数据输入](#输入 B：给 DML‑CGI 的组学数据输入)
    - [标签数据（Ground Truth）](#标签数据（Ground Truth）)
  - [四、ICGI 的输出数据](#四、ICGI 的输出数据)
- 代码
- 参考

介绍

从多组学角度确定与癌症直接相关的基因对于理解癌症的发病机制以及改进治疗策略至关重要。传统的基于广义相关性的统计和机器学习方法用于识别癌症基因，但这些方法往往会产生冗余、有偏差的预测，且解释性较差，这主要是由于忽略了混杂因素、选择偏差以及神经网络中的非线性激活函数所致。在本研究中，我们引入了一种用于在多个组学领域识别癌症基因的新框架，名为 ICGI（整合因果基因识别），它利用一个大型语言模型（LLM），该模型在因果性上下文提示和提示的引导下进行训练，并结合数据驱动的因果特征选择。这种方法展示了 LLM 在揭示癌症基因和理解疾病机制方面的有效性及潜力，特别是在基因组水平上。然而，我们的研究结果也表明，当前的 LLM 可能无法涵盖所有组学层面的全面信息。通过将提出的因果特征选择模块应用于转录组数据集，从《癌症基因组图谱》中的六种癌症类型入手，并将其性能与最先进的方法进行比较，结果表明其在识别能够区分癌变样本与正常样本的癌症基因方面具有卓越的能力。此外，我们还开发了一个在线服务平台，用户可以输入感兴趣的基因和特定的癌症类型。该平台会提供自动化的结果，表明该基因是否在癌症中起着重要作用，并附有清晰易懂的解释说明。此外，该平台会汇总通过基于数据的因果学习方法所获得的推断结果。

ICGI 原理 + 输入 / 输出 / 标签，一次性讲全。

一、ICGI 模型原理（一句话看懂）

ICGI = 因果提示大模型（CGI‑GPT） + 数据驱动去偏因果推断（DML‑CGI）

它不依赖图结构 ，而是从多组学（主要是转录组）+ 文本知识双路判断：

一个基因是不是癌症的因果驱动基因，而不是只找相关基因。

二、ICGI 核心原理（两段讲透）

1. 第一部分：CGI‑GPT（因果提示大模型）

用 GPT‑4o mini
给它专门设计的因果提示（Causal Prompt）
输入：基因名 + 癌症类型 + 从 NCBI 拉来的基因背景知识
让 LLM 做因果推理：

这个基因会不会

导致

癌症？机制是什么？
输出：是 / 不是因果癌基因 + 自然语言解释

它的核心创新是：

用因果提示 + CoT 思维链 + RAG 检索增强

让 LLM 从 "知识检索" 升级成 "因果判断"。

2. 第二部分：DML‑CGI（去偏机器学习因果推断）

从转录组表达数据出发
用 DML 去偏机器学习 做因果特征选择
目标：找到直接影响癌症表型的基因，排除混杂因素
不学习整个因果图，只算基因→癌症的因果效应
输出：因果基因列表 + 效应大小

3. 最终融合

两边结果合并 → 最终高可信因果癌基因

→ 同时给自然语言解释，解决黑箱。

三、ICGI 的输入数据（完全对应原文）

ICGI 有两路输入，不是图模型！

输入 A：给 LLM 的文本知识输入

基因名（如 EGFR）
癌症类型（如 LUAD 肺腺癌）
从 NCBI 获取的基因背景（功能、别名、概述）
固定的 Causal Prompt 模板（系统提示 + 任务 + 思维链 + 输出格式）

输入 B：给 DML‑CGI 的组学数据输入

TCGA 转录组数据（RNA‑seq）

基因表达矩阵：行 = 样本，列 = 基因
样本标签：癌症 / 正常
6 种癌症：LUAD、LUSC、BLCA、BRCA、KIRC、LIHC

标签数据（Ground Truth）

二分类标签：
- 1 = 已知癌基因（来自 COSMIC、ECoGs、NCG）
- 0 = 非癌基因
只用于评估，不训练 LLM。

四、ICGI 的输出数据

模型输出统一、清晰、可解释：

二元判断

该基因 是否为该癌症的因果驱动基因
置信度 / 分数

基因对癌症的因果效应强度
自然语言解释（最关键）

为什么是因果基因？

涉及什么通路、功能、突变、调控机制？
差异表达可视化

癌 vs 正常的表达箱型图、密度图
最终候选癌基因列表

整合 LLM + 数据因果推断

代码

https://github.com/verylucky01/ICGI

参考

Cancer gene identification through integrating causal prompting large language model with omics data--driven causal inference
https://github.com/verylucky01/ICGI