ViT 为什么可以对任意维度的图像进行编码?

结论先行

严格来说,ViT 并不能处理真正任意维度的图像 。它能处理"灵活尺寸"图像的前提是:图像尺寸必须是 patch size 的整数倍。在此前提下,通过以下机制实现灵活编码。


核心机制

1. Patch 切分:变化的是数量,不是维度

ViT 使用固定大小的 patch(如 16×16)对图像进行切分:

  • patch size 固定 → 每个 patch 展平后维度固定(如 16×16×3 = 768)
  • 图像尺寸变化 → patch 数量 变化,但每个 patch 维度不变
输入图像尺寸 每个 patch 维度 patch 数量
224×224×3 16×16×3 = 768(固定) 196 个
320×320×3 16×16×3 = 768(固定) 400 个
384×384×3 16×16×3 = 768(固定) 576 个

2. 线性投影:统一映射到固定 embedding 维度

每个 patch 经过同一个线性投影层映射到固定维度 D(如 768)。该层参数只依赖于 patch size 和 embedding dim,与图像尺寸无关。

3. Transformer:天然支持可变长序列

Self-Attention 机制对序列中所有 token 两两计算注意力,不限制序列长度。因此 196 个 token 或 400 个 token 都可以被同一个 Transformer Encoder 处理。

4. Position Embedding:插值适配不同序列长度

原始 ViT 使用可学习的 1D 位置编码,训练时长度固定。当推理时图像尺寸不同导致 patch 数量变化时,对位置编码做 2D 插值,使其适配新的序列长度。


那如果图像尺寸不是 patch size 的整数倍呢?

ViT 没有神奇地解决这个问题,而是在输入前通过预处理保证整除

方法 说明 常用程度
Resize 直接缩放到整除尺寸(如 224、384) ⭐⭐⭐ 最常用
Padding 填充边缘到整除尺寸 ⭐⭐ 常用
不完整 Patch 边缘单独处理 ⭐ 极少用

这也是为什么 ViT 标准输入几乎都是 224×224、384×384 这类数字------它们恰好是 16 的整数倍。


整体流程

复制代码
任意尺寸图像(预处理保证是 patch size 整数倍)
        ↓
切分为固定大小 patch → 生成 N = HW/P² 个 patch(数量可变)
        ↓
每个 patch 展平 → 线性投影到固定维度 D(维度固定)
        ↓
加入 [CLS] token → 序列长度 N+1
        ↓
Position Embedding(尺寸变化时做 2D 插值)
        ↓
Transformer Encoder(天然支持可变长序列)
        ↓
取 [CLS] token 输出 → 分类

一句话总结

ViT 的本质是:用固定大小的"剪刀"把图像剪成数量不等但大小相同的 patch,Transformer 天然能处理长度可变的序列,再配合位置编码插值,从而实现对不同尺寸图像的灵活编码。真正的前提保障则是预处理阶段的 Resize 或 Padding。

相关推荐
_codemonster1 小时前
软考易错知识总结(二)
大数据·人工智能
江畔柳前堤1 小时前
agent面试题
数据库·人工智能·opencv·数据挖掘·语音识别·agent
rongcj1 小时前
为什么是张雪?为什么是荣耀?
大数据·人工智能·物联网
朱涛的自习室1 小时前
Harness 还没学会,又来了个 Loop Engineering ?
android·人工智能·github
一个被程序员耽误的厨师1 小时前
02-架构篇-前端怎么反客为主把AI编排权拿回到自己手里
前端·人工智能·架构
腾飞开源1 小时前
06_Dify接入阿里云百炼API大模型
人工智能·项目实战·dify·ai智能体·ai应用开发·阿里云百炼·接入大模型
大鱼>1 小时前
AIoT安全攻防:当物联网设备成为黑客后门
人工智能·物联网·安全·aiot
视觉&物联智能1 小时前
【杂谈】- AI落地加速,安全亟待补位:企业智能转型的安全突围之道
人工智能·安全
学Linux的语莫1 小时前
大模型量化知识总结
人工智能·模型·量化