使用大语言模型的生物嵌入,后续应该会有很多类似文章出来!

生信碱移

语言模型嵌入

小编先前分享了使用ChatGPT基因嵌入做平替的顶刊文章GenePT,只需要在原本的领域工作上插入这类的GPT嵌入,就能够实现降维打击。

对于GenePT或者嵌入感兴趣的铁子,可以点击查看上面这篇推文。

今天冲浪的时候又看到一篇文章提出的工具Scouter ,做的是基因扰动建模 ,这个月才上架预印本。在顶刊架构GEARS 的基础上做了一些调整,任务损失仍然是自聚焦损失和方向感知损失,只不过使用ChatGPT生成的基因嵌入 替换了 GO注释的先验生物图模型架构。实现层面更加简单,但是概念更加领先,与GenePT的思路是类似的!

▲ 一、基因扰动建模任务的概述: ① 背景 :我们有一个细胞的基因表达数据(绿色部分),它代表在正常情况下每个基因的活跃程度。如果对细胞进行某种基因扰动(红色部分,比如通过实验干预特定基因的活性),会导致一些基因表达水平发生变化(紫色部分),这种变化可能是增强、减弱或保持不变。② 目标:预测在某种基因扰动(红色)下,其它基因表达水平的变化(紫色)。

二、 GEARS原理示意: 通过图神经网络(GNN) 预测基因扰动后的基因表达变化。其核心方法包括利用基因共表达图捕获基因间相互作用,并结合基因本体(GO)中的先验知识 构建图神经网络获得基因级别的嵌入,对基因扰动之间的相似性进行建模(图b)。随后,GEARS采用组合操作处理多基因扰动,使用跨基因解码器实现全转录组水平的预测。此外,其自动聚焦方向感知损失函数能够更关注显著差异表达的基因,并强化预测方向性的准确性。通过贝叶斯神经网络框架,GEARS还提供预测不确定性的估计。DOI: 10.1038/s41587-023-01905-6。

三、 Scouter原理示意 :其采用更简单的架构来预测基因扰动的转录反应。通过预训练大语言模型生成的基因文本嵌入 ,Scouter能够捕捉基因之间的语义关系,从而实现对未见基因扰动的有效外推。其模型包括一个编码器用于编码对照细胞状态,以及一个生成器预测转录反应,通过多次输出取平均值增强预测的鲁棒性。相比GEARS,Scouter架构简单,训练速度更快且实现更为便捷。此外,Scouter通过LLM生成的嵌入具备更好的可扩展性和泛化能力,在处理未知基因时表现优于依赖预定义图和扰动特定嵌入的GEARS。

还是那几句话

对于普通的研究者

抓好热点

好好利用LLM的嵌入功能

想想不同层面的嵌入

今天就分享到这里了

欢迎各位佬哥点击关注

相关推荐
意图共鸣4 小时前
意图共鸣科技《AI记忆链商业化白皮书3.0》技术解读:“AI焦虑的解药”——从通用AI到个人记忆链架构
人工智能·科技·架构
小e说说4 小时前
AI 时代,IT 职业教育如何为学习者赋能?——职坐标的 AI+教育实践
人工智能
后端小肥肠4 小时前
不会做视频的我,用 Codex 跑通口播 + 自动剪辑,获客 20+
人工智能·aigc·agent
某林2124 小时前
跨越底层与AI的鸿沟:ROS2+多模态大模型(Qwen-VL)机器人全链路排障实录
人工智能·stm32·机器人·人机交互·ros2·技术复盘
怪兽学LLM4 小时前
LeetCode 438 找到字符串中所有字母异位词(Python 固定滑动窗口+字符计数解法)
python·算法·leetcode
没事别瞎琢磨4 小时前
二、类型系统——给所有概念起名字
人工智能·node.js
卡梅德生物科技小能手4 小时前
卡梅德生物科普:MAPT(微管相关蛋白Tau)
人工智能·经验分享·机器学习
满怀冰雪4 小时前
第04篇-双指针算法-从有序数组到回文判断的高频解法
java·算法
CC数学建模4 小时前
2026年江西省研究生数学建模竞赛1题:空间数据分析中的过拟合识别完整思路、代码、模型、文章,全网首发高质量分享!
python·算法·数学建模
战族狼魂4 小时前
基于 CNN 的ConvS2S(Convolutional Sequence-to-Sequence)架构英德机器翻译模型
人工智能·cnn·机器翻译