多模态学习大纲笔记（未完成）

递归不收敛2025-10-26 18:23

一、基础预训练模型与能力

1.1 主流预训练模型（文本/多模态）

文本模型：BERT、GPT、T5
多模态模型：CLIP、ALBEF、BLIP-2、Flamingo（多模态学习核心基础模型，原内容未提及，需补充以覆盖多模态场景）

1.2 模型泛化能力描述

零样本学习（zero-shot）
少样本学习（Few-shot，原"excellent few-shot"修正为标准术语）
上下文学习（in-context learning ability）
模型缩放规律（Scaling Law）

二、模型训练与参数高效微调范式

2.1 训练阶段划分

预训练（Pretrain）
后训练（Post-training，原"后训练"补充标准英文对应，介于预训练与微调之间，用于领域适配）
微调（Finetune，传统全参数微调）

2.2 参数高效微调技术

增量微调（Delta Tuning，含多种轻量级微调方法的统称）
低秩适配（LoRA）
提示学习（Prompt-learning）
指令微调方法（Self-Instruct methods，通过模型自生成指令提升泛化能力）

三、检索增强生成（RAG）技术体系

3.1 RAG核心技术框架

核心技术：RAG技术（Retrieval-Augmented Generation，检索增强生成）
关联模型（RAG代表性工作）：REALM、KNN-LM、FLARE、IRCOT

3.2 RAG基础组件

3.2.1 表示学习：Embedding模型

传统词嵌入：Word2vec
现代稠密Embedding模型（补充）：Sentence-BERT、E5、bge-base（原内容仅提及Word2vec，需补充多模态/句子级Embedding模型以适配RAG场景）

3.2.2 检索模型体系

稀疏检索模型：TF-IDF、BM25
稠密检索模型
向量检索模型（含稠密向量检索，与上述稠密检索模型存在应用重叠，侧重工程实现）
重排序模型（Retrieval Reranking，对初检索结果二次优化）

3.2.3 知识图谱（补充关联）

知识图谱（可作为RAG的结构化知识源，与非结构化文本检索协同，原内容未明确其与RAG的关联，需补充定位）

四、高效注意力机制与模型架构

4.1 注意力机制优化

全注意力（Full-attention，传统Transformer注意力，计算复杂度高）
稀疏注意力（Sparse attention，如Longformer的滑动窗口注意力、BigBird的随机注意力）
线性注意力（Linear attention，如Performer，将注意力计算复杂度从O(n²)降为O(n)）
记忆增强注意力（Memory-based attention，引入外部记忆模块存储长程信息）
状态空间模型（SSM，如Mamba，通过线性递归替代注意力，实现长序列高效处理）

4.2 高效模型架构设计

混合专家模型（MoE，Mixture of Experts，原"混合专家模型"补充标准英文缩写）
稀疏结构化设计（SSD，Sparse Structured Design，如稀疏Transformer架构）

4.3 工程优化方向

高效实现（Efficient Implementation）
- 上下文长度外推（Context Length Extrapolation，如ALiBi、FlashAttention等技术，解决长文本处理问题）

五、多模态关键补充技术

5.1 多模态融合模块

早期融合（如模态嵌入拼接）、晚期融合（如结果级融合）
跨模态注意力（Cross-modal Attention，多模态模型核心融合机制）

5.2 多模态评估指标

模态对齐度（如CLIP的图像-文本相似度）
跨模态生成质量（如CIDEr、SPICE for 图文生成）
检索准确率（如R@1、R@5 for 跨模态检索）

上一篇：DiVE长尾识别的虚拟实例蒸馏方法

下一篇：【AI入门】什么是训练和推理

热门推荐

01GitHub 镜像站点 02Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 03openclaw配置教程（linux+局域网ollama）04UV安装并设置国内源 05AI 规范驱动开发“三剑客”深度对比：Spec-Kit、Kiro 与 OpenSpec 实战指南 06Linux下V2Ray安装配置指南 07Claude Code Skills 实用使用手册 08Vue-skills的中文文档 09在Trae中使用Pencil MCP 10openclaw使用nginx反代部署过程与disconnected (1008): pairing required解决