【小记】2024-2025生物计算类热点问题

本文整理了过去一年生物计算方向的热点问题,涵盖深度学习架构与蛋白质建模等关键能力,自用技术梳理,解释文字仅供参考。如有错误,请各位批评指正。

一、深度学习模型架构与原理

(考察对主流模型机制)

  1. Transformer基础
    • Self-Attention:QKV计算序列文本间依赖关系的机制。
    • Positional Encoding:为模型提供序列中元素的相对或绝对位置信息,常见为正余弦编码;RoPE (Rotary Position Embedding):通过在高维旋转空间中编码位置,使模型能够更好地捕捉相对顺序并泛化到不同长度。
    • FFN (Feed-Forward Network):对每个位置表示进行非线性变换和特征提取,以增强表示表达能力。
    • GPT vs BERT:GPT 是自回归语言模型,BERT采用双向掩码语言建模,其Embedding 由 Token、Segment 和 Position 三部分组成。
    • Transformer vs CNN:Transformer长于捕获长程依赖如全局上下文任务,CNN擅于提取局部特征如图像网格数据。
  2. 扩散模型 (Diffusion Model):通过逐步添加和去除噪声学习数据分布的生成模型。
  3. 多模态与视觉基础模型
    • SAM (Segment Anything Model):零样本通用图像分割模型。
    • CLIP (Contrastive Language-Image Pretraining):通过对比学习将图像和文本映射到共享嵌入空间,实现零样本分类与多模态检索。
    • BLIP (Bootstrapping Language--Image Pre-training) /BLIP-2:在图像--文本预训练中引入自监督和对抗式目标以改善视觉语言理解。
  4. Agent:能感知环境、规划决策并执行动作的AI系统。
  5. 大模型高效微调技术 :Full Fine-tuning, Prompt Tuning, Prefix Tuning, Adapter
    • LoRA (Low-Rank Adaptation):在不更新原模型权重的情况下,添加低秩分解矩阵进行高效微调。
    • LoRA变体:如QLoRA、DoRA、AdaLoRA

二、计算基础理论

(考察并行计算与数据建模的基本功)

  1. 并行计算 :数据并行 (Data Parallelism)、模型并行 (Model Parallelism)、流水线并行 (Pipeline Parallelism)。
    • 数据并行将模型复制到多设备上处理不同数据;
    • 模型并行将模型按层或张量维度拆分;
    • 流水并行将模型分段串行在不同设备上执行。
  2. 数据库范式
    • 第一范式 (1NF):要求所有字段原子性且无重复分组。
    • 第二范式 (2NF):满足1NF,且非主属性完全依赖于主键。
    • 第三范式 (3NF):满足2NF,且消除传递依赖。
  3. 贝叶斯公式:P(A|B) = P(B|A) * P(A) / P(B)。

三、蛋白质计算核心前沿

(考察蛋白质序列与结构表征学习的前沿技术能力)

  1. 蛋白质大模型
    • 序列模型:ESM一代二代、ProtTrans。
    • 结构模型:AlphaFold 系列、OpenFold、ESMFold。
    • 多模态/联合模型:ProtST、ESM3、DPLM2。
    • 联合方向:将序列信息、结构信息(如距离图、角度、坐标)与功能注释共同输入模型进行预训练与预测。
  2. ESM 系列演进
    • ESM-1b:大规模蛋白质语言模型。
    • ESM-2:更大规模、更深架构、更高精度。ESM-2用RoPE取代ESM-1b使用的learned position embedding;ESM-1b 训练时使用 UniRef50 , ESM-2 在此基础上从 UniRef90 中挑选代表序列,训练中覆盖60M高多样性序列。
    • ESM-3:纯语言模型驱动生成式蛋白质设计,引入隐式结构建模。结构Tokenization:将3D结构信息离散化为离散token。
  3. RFdiffusion 进展
    • RFdiffusion:基于扩散模型的蛋白质设计。
    • RFdiffusion-all-atom (RFAA):直接生成全原子坐标(主链+侧链)。
    • RFdiffusion2:根据序列无关的功能基团几何直接生成并精准折叠酶。
  4. 构象重要性:构象决定蛋白功能与相互作用,是动态机制和设计优化的关键。
  5. FoldSeek:高效搜索蛋白质结构相似性的工具,将3D结构编码为离散token序列。
  6. AlphaFold2 vs AlphaFold3
    • AlphaFold2:主要预测蛋白质单体/复合物结构。
    • AlphaFold3:扩展预测蛋白质-配体、蛋白质-核酸等复合物。
    • 旋转平移不变性:AlphaFold2 的 Evoformer 模块(IPA, Invariant Point Attention)对结构输入具有旋转平移不变性。
  7. 蛋白预测 Benchmark 任务:结构预测 (CASP/CAMEO)、功能注释与突变效应预测、相互作用预测、设计成功率评估。
  8. 不可导采样与反向传播:使用重参数化技巧 (Reparametrization) 或梯度估计器 (如Score Function / REINFORCE)。
  9. 分子-蛋白结合模拟:分子动力学模拟计算结合自由能 (ΔGbind, MM/PBSA, MM/GBSA)、分析结合模式与关键相互作用。

总结

未来前沿方向包括多模态联合表征与可控生物分子生成、跨尺度高效并行模拟、以及基于自主智能体的自动化设计与分析流程。未来可以持续关注模型可解释性、参数高效适配与大规模计算架构的融合与创新。

相关推荐
蒙奇D索大16 分钟前
【11408学习记录】[特殊字符] 速解命题核心!考研数学线性代数:4类行列式满分技巧(含秒杀公式)
笔记·学习·线性代数·考研·改行学it
江池俊1 小时前
通过Docker和内网穿透技术在Linux上搭建远程Logseq笔记系统
linux·笔记·docker
moxiaoran57531 小时前
uni-app学习笔记三十六--分段式选项卡组件的使用
笔记·学习·uni-app
笑鸿的学习笔记1 小时前
Windows笔记之Win11让非焦点窗口程序也能获得流畅性能的方法
windows·笔记
moxiaoran57533 小时前
uni-app项目实战笔记1--创建项目和实现首页轮播图功能
笔记·uni-app
fictionist4 小时前
动态 Web 开发技术入门篇
java·服务器·开发语言·笔记·学习·mysql·spring
love530love5 小时前
【笔记】NVIDIA AI Workbench 中安装 cuDNN 9.10.2
linux·人工智能·windows·笔记·python·深度学习
阑梦清川6 小时前
国防科技大学计算机基础慕课课堂学习笔记
笔记·学习·数学建模
不太可爱的叶某人8 小时前
【学习笔记】深入理解Java虚拟机学习笔记——第3章 垃圾收集器与内存分配策略
java·笔记·学习
半导体守望者9 小时前
Kyosan K5BMC ELECTRONIC INTERLOCKING MANUAL 电子联锁
经验分享·笔记·功能测试·自动化·制造