多模态学习大纲笔记(未完成)

一、基础预训练模型与能力

1.1 主流预训练模型(文本/多模态)

  • 文本模型:BERT、GPT、T5
  • 多模态模型:CLIP、ALBEF、BLIP-2、Flamingo(多模态学习核心基础模型,原内容未提及,需补充以覆盖多模态场景)

1.2 模型泛化能力描述

  • 零样本学习(zero-shot)
  • 少样本学习(Few-shot,原"excellent few-shot"修正为标准术语)
  • 上下文学习(in-context learning ability)
  • 模型缩放规律(Scaling Law)

二、模型训练与参数高效微调范式

2.1 训练阶段划分

  • 预训练(Pretrain)
  • 后训练(Post-training,原"后训练"补充标准英文对应,介于预训练与微调之间,用于领域适配)
  • 微调(Finetune,传统全参数微调)

2.2 参数高效微调技术

  • 增量微调(Delta Tuning,含多种轻量级微调方法的统称)
  • 低秩适配(LoRA)
  • 提示学习(Prompt-learning)
  • 指令微调方法(Self-Instruct methods,通过模型自生成指令提升泛化能力)

三、检索增强生成(RAG)技术体系

3.1 RAG核心技术框架

  • 核心技术:RAG技术(Retrieval-Augmented Generation,检索增强生成)
  • 关联模型(RAG代表性工作):REALM、KNN-LM、FLARE、IRCOT

3.2 RAG基础组件

3.2.1 表示学习:Embedding模型
  • 传统词嵌入:Word2vec
  • 现代稠密Embedding模型(补充):Sentence-BERT、E5、bge-base(原内容仅提及Word2vec,需补充多模态/句子级Embedding模型以适配RAG场景)
3.2.2 检索模型体系
  • 稀疏检索模型:TF-IDF、BM25
  • 稠密检索模型
  • 向量检索模型(含稠密向量检索,与上述稠密检索模型存在应用重叠,侧重工程实现)
  • 重排序模型(Retrieval Reranking,对初检索结果二次优化)
3.2.3 知识图谱(补充关联)
  • 知识图谱(可作为RAG的结构化知识源,与非结构化文本检索协同,原内容未明确其与RAG的关联,需补充定位)

四、高效注意力机制与模型架构

4.1 注意力机制优化

  • 全注意力(Full-attention,传统Transformer注意力,计算复杂度高)
  • 稀疏注意力(Sparse attention,如Longformer的滑动窗口注意力、BigBird的随机注意力)
  • 线性注意力(Linear attention,如Performer,将注意力计算复杂度从O(n²)降为O(n))
  • 记忆增强注意力(Memory-based attention,引入外部记忆模块存储长程信息)
  • 状态空间模型(SSM,如Mamba,通过线性递归替代注意力,实现长序列高效处理)

4.2 高效模型架构设计

  • 混合专家模型(MoE,Mixture of Experts,原"混合专家模型"补充标准英文缩写)
  • 稀疏结构化设计(SSD,Sparse Structured Design,如稀疏Transformer架构)

4.3 工程优化方向

  • 高效实现(Efficient Implementation)
    • 上下文长度外推(Context Length Extrapolation,如ALiBi、FlashAttention等技术,解决长文本处理问题)

五、多模态关键补充技术

5.1 多模态融合模块

  • 早期融合(如模态嵌入拼接)、晚期融合(如结果级融合)
  • 跨模态注意力(Cross-modal Attention,多模态模型核心融合机制)

5.2 多模态评估指标

  • 模态对齐度(如CLIP的图像-文本相似度)
  • 跨模态生成质量(如CIDEr、SPICE for 图文生成)
  • 检索准确率(如R@1、R@5 for 跨模态检索)
相关推荐
xixixi77777几秒前
三重筑基:5G-A超级上行提速千兆,电联低频共享扫平盲点,800V HVDC算电协同破局
人工智能·5g·ai·大模型·算力·通信·信通院
jkyy20141 分钟前
AI运动数字化:以技术重塑场景,健康有益赋能全域运动健康管理
大数据·人工智能·健康医疗
金融小师妹9 分钟前
4月30日多因子共振节点:鲍威尔“收官效应”与权力结构重塑的预期重构
大数据·人工智能·重构·逻辑回归
2601_9499251814 分钟前
AI Agent如何重构跨境物流的决策?
大数据·人工智能·重构·ai agent·geo优化·物流科技
AI木马人21 分钟前
1.人工智能实战:大模型推理接口响应慢?从模型加载到 FastAPI 部署的完整优化方案
人工智能·python·fastapi
Black蜡笔小新32 分钟前
私有化本地化AI模型训推工作站DLTM训推一体工作站赋能多行业智能化落地
人工智能
qq_4112624234 分钟前
四博 AI 智能音箱 + ESPC3 Tasmota 计量通断器方案
人工智能·智能音箱
dllmayday41 分钟前
Milvus在LangChain中使用方法
人工智能·ai·langchain·milvus
xiaoduo AI1 小时前
客服机器人问题解决率怎么统计?Agent系统自动判断是否解决,比人工回访准?
大数据·人工智能·机器人
AI周红伟1 小时前
周红伟:GPT-Image-2深度解析:从技术原理到实战教程,为什么它能让整个AI圈炸锅?
人工智能·gpt·深度学习·机器学习·语言模型·openclaw