【DeepSeek-OCR系列第三篇】Pix2Struct：让视觉语言理解回归像素本身【ICML23】

gorgeous(๑>؂<๑）2025-10-28 8:14

📚 论文信息

标题：Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding
作者：Kenton Lee, Mandar Joshi, Iulia Turc, Hexiang Hu, Fangyu Liu, Julian Eisenschlos, Urvashi Khandelwal, Peter Shaw, Ming-Wei Chang, Kristina Toutanova
单位：Google Research、succinctly.ai、University of Cambridge
会议：ICML 2023
🔗 GitHub 项目

一、问题背景：视觉与语言的"割裂"

当前的视觉-语言理解（Vision-Language Understanding）研究，大多基于图像与文本分开处理的范式。但现实中，我们接触到的文本和视觉往往是交织在一起的，例如👇

📄 含表格和图片的文档
📊 图示和信息图
📱 UI 界面
🌐 网页内容

现有方法多依赖 OCR 管线 或 特定领域工程 来拆解这种混合信息，例如：

文档理解依赖外部 OCR；
UI 理解依赖平台特定 metadata；
图表理解依赖图结构提取。

👉 这导致模型难以泛化，工程复杂、跨域能力弱，也难以构建统一的视觉语言理解框架。

二、方法创新：Pix2Struct = 截图 + HTML 解析

论文提出的 Pix2Struct 旨在彻底简化这一过程。其核心思想是：

"只用像素输入 + 预训练解析网页结构，就能学到通用视觉语言能力。"

✳️ 核心技术路径

截图解析预训练（Screenshot Parsing）

从网页抓取 截图 + HTML；
通过模型输入像素截图，输出 HTML 简化结构（类似图像转标记语言）；
自监督学习网页的布局与内容关系。

可变分辨率输入
- 改进 ViT 输入，支持灵活分辨率和长宽比；
- 避免 OCR 模型常见的失真问题。
文本直接渲染到图像上

任务中的问题（如 VQA）直接绘制在图片上方；
模型通过单一视觉通道理解所有信息，避免多模态对齐难题。

📌 Pix2Struct 是一种 视觉编码 + 文本解码 架构。与 T5 的"文本到文本"类似，它是 "像素到文本"的通用框架。

三、实验结果：跨 4 大领域，9 项任务

论文在四个视觉语言领域的九个基准上进行了系统测试：

领域	任务示例	数据集
Illustrations	图表/示意图问答	ChartQA, AI2D
UI	组件识别、界面描述	RefExp, Widget Captioning
Natural Images	图像问答、文字识别	TextCaps, OCR-VQA
Documents	文档问答	DocVQA, InfographicVQA

1. 对比 Donut 与 GIT2

Pix2Struct 在 9 个基准中 8 个优于 Donut，
并在 6 个任务上创下单模型 SOTA；
相比 GIT2（12.9B 图文对），Pix2Struct 预训练数据更小，但跨域迁移更强。

2. UI 与插图任务表现尤为突出

RefExp（UI组件定位）超过 UIBert；
Widget Captioning CIDEr 从 127.4 提升至 136.7；
Screen2Words 从 64.3 提升到 109.4。

3. 文档与信息图任务表现

DocVQA ANLS 提升 9 分；
InfographicVQA 从 11.6 提升到 40。 👉 说明其对长宽比极端的图像也具有较强鲁棒性。

四、优势与局限

✅ 优势

统一像素输入，跨领域泛化能力强；
训练目标简洁，自监督高效；
可变分辨率机制适配真实场景；
超越 OCR 管线，在 6/9 基准任务上达 SOTA。

⚠️ 局限

语义理解深度与专用文本模型仍有差距；
高分辨率训练成本高；
对特定领域结构（如 PDF 元数据）不加利用时略有性能损失；
暂不具备生成能力，仅限理解类任务。

📝 一句话总结 ： Pix2Struct 用"截图+像素解析"打破多模态割裂，是迈向 通用视觉语言理解 的重要一步。

上一篇：（场景题）Java 导出 Excel 的两种方式

下一篇：国产化Excel开发组件Spire.XLS教程：使用Python将CSV转换为XML（处理现实数据问题）

热门推荐

01GitHub 镜像站点 02UV安装并设置国内源 03BongoCat - 跨平台键盘猫动画工具 04Linux下V2Ray安装配置指南 05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06Valdi：Snapchat 开源的新一代跨平台 UI 框架 07综合整理：pdf预览显示：你尝试预览的文件可能对你的计算机有害。如果你信任此文件以及其来源，请打开此文件以看其内容，如何解决以正常预览文件 08Labelme从安装到标注：零基础完整指南 09jdk21下载、安装（Windows、Linux、macOS）10使用国内镜像网站在线下载安装Qt（解决官网慢的问题）——Qt