《神经网络与深度学习》学习笔记(四)

视觉大模型基础总结

一、大模型技术概述

什么是大语言模型(LLM)

  • 基于海量文本数据训练的深度学习模型
  • 能生成自然语言文本,理解文本含义
  • 应用:文本摘要、问答、翻译等
  • 示例:GPT-3.5/4、文心一言、通义千问

大语言模型原理

  • 单字接龙:根据上文不断生成下一个字
  • 将生成的字与上文组合成新的上文,循环生成任意长内容

GPT系列发展

版本 参数量 学习材料大小
GPT-1 1.17亿 5GB
GPT-2 15亿 40GB
GPT-3 170亿 45TB
GPT-4 万亿级别 >100TB

大模型训练三阶段

  1. 无监督学习:模型自学语言表达规律
  2. 有监督学习:学习人类整理的规范问答
  3. 强化学习:通过奖励模型优化问答质量

二、多模态大模型技术

  • 多模态:视觉、语言、声音等结合
  • 核心挑战:不同模态之间的连接与协同推理
  • 解决方法:多模态预训练 + 多模态指令微调

常用多模态大模型

模型名称 发布者 特长
ChatGPT OpenAI 综合
Gemini DeepMind 综合
Claude Anthropic 编程
LLaMA Meta NLP
DeepSeek 深度求索 综合
Qwen 阿里 问答/NLP

三、视觉Transformer(ViT)

ViT核心思想

  • 将图像划分为固定大小的patch(如16×16像素)
  • 每个patch被视为一个"词",输入Transformer编码器

ViT总体架构

  1. 嵌入层 :将图像转为Token序列
    • 图像切分为patch
    • 线性映射到低维空间
    • 添加位置编码(1-D正弦/余弦)
    • 添加类别Token(用于分类)
  2. 编码器 :与NLP Transformer类似
    • 层标准化(LayerNorm)
    • 多头注意力(MSA)
    • MLP + GELU激活函数
  3. MLP头:用于分类输出

关键公式

  • 输入嵌入:

    z_0 = \[x_{\\text{class}}; x_1\^p E; ...\] + E_{\\text{pos}}

  • 多头注意力 + 残差连接:

    z'*\\ell = \\text{MSA}(\\text{LN}(z* {\\ell-1})) + z_{\\ell-1}

  • MLP + 残差连接:

    z_\\ell = \\text{MLP}(\\text{LN}(z'*\\ell)) + z'* \\ell

位置编码

  • 使用1-D位置编码(实验证明效果不差于2-D或相对编码)
  • 支持通过2-D插值适应不同分辨率图像

模型规模

模型 Patch尺寸 层数 隐藏维度 参数量
ViT-Base 16×16 12 768 86M
ViT-Large 16×16 24 1024 307M
ViT-Huge 14×14 32 1280 632M

微调(Fine-tuning)

  • 保持预训练模型主体结构
  • 适配不同分辨率图像:使用2-D插值调整位置编码
  • 只更新输出层或部分参数以适应下游任务

四、CLIP与DINO

  • CLIP:通用视觉-语言预训练模型,使用图像-文本对进行训练,适用于多种下游任务
  • DINO:基于知识蒸馏的自监督学习方法,无需标注即可高效学习图像特征

五、总结

  • 视觉大模型源自NLP,使用图像patch替代单词
  • ViT是Transformer与视觉结合的基础
  • CLIP实现视觉与语言的对齐
  • DINO通过蒸馏实现高效自监督学习

本文为工大《深度学习与神经网络》课程要求学习总结,仅供参考,版权归原作者所有,侵权请联系删除,谢谢。

相关推荐
断眉的派大星1 小时前
YOLO26 完整学习笔记:从 Anchor-Free、TAL、STAL 到端到端无 NMS 部署
人工智能·笔记·学习·yolo·目标检测·计算机视觉·目标跟踪
woodykissme1 小时前
一根花键能扛多大力?GB/T 17855-2017 五步校核全解析
学习·机械·渐开线花键·工艺知识
救救孩子把1 小时前
00 Milvus-教程规划与学习路径Milvus
学习·milvus
Sc Turing2 小时前
【每日AI学习0607】
人工智能·学习
人工智能培训2 小时前
七大数字技术协同赋能 开启全域智能数字化新时代
人工智能·深度学习·机器学习·生成对抗网络·知识图谱
机器学习之心2 小时前
TCN-RNN电力负荷预测模型实战
人工智能·rnn·深度学习
宝贝儿好2 小时前
【NLP】第七章:项目实操案例:智能输入法项目
人工智能·深度学习·神经网络·自然语言处理
林间码客2 小时前
《人工智能概论》实验4 知识点复习提纲
人工智能·深度学习·机器学习
chloe23332 小时前
【动手学深度学习】笔记1:简单的线性回归
笔记·深度学习·线性回归