Dolphin-v2：拍照论文也能实现精准解析

传送锚点

Dolphin-v2 是 ByteDance 最新发布的文档解析模型，有一个功能打破了我的惯性认知：它对拍照生成的文档，比数字文档更重视整体页面的结构。

这并不是偶然。多数模型处理拍照文档时容易受扭曲、光影干扰的影响，只能提取片段式信息。Dolphin-v2 采用了"拍照文档整体解析、数字文档并行元素解析"的双机制架构，这种区分式解析策略，反而让它在处理现实环境下的照片文档时显得更加鲁棒。

和前代模型有什么不同

Dolphin-v2 架构基于 Qwen2.5-VL-3B，是对初代 Dolphin 的完全重构。最核心升级是引入了可扩展 anchor prompting 机制，对每种文档元素使用定制 prompt，如 P_code 会保留缩进，P_formula 能生成合法 LaTeX 表达式，P_table 则输出 HTML 表格结构。

现在支持的元素类型扩展到了 21 种，从六层级标题、表格、公式，到页眉页脚、水印和注释，都能一一识别和结构化提取。更重要的是，所有元素都依托原始图像的像素坐标进行定位，避免了 OCR 层的额外误差。

性能表现

在 Benchmark OmniDocBench (v1.5) 上，Dolphin-v2 取得 89.45 的总分，比初代提升了近 15 分。文本识别的编辑距离低至 0.054，表格结构准确率超 87%，公式解析达到 86.72 CDM。

这类全面提升也意味着，在表格密集的财报、公式密集的论文，或者结构复杂的合同文件中，它都能提供高质量的解析结果。

为何值得关注

文档解析早已从"能读"进入"读得准、结构清晰"的阶段，而 Dolphin-v2 的双模解析架构恰好满足了这个方向。它的 anchor prompting 与类型感知模块，意味着文档不再是 OCR 后的碎片，而是语义完整的结构图。无论是 low-resource 环境下的移动拍照，还是高质量扫描件，Dolphin-v2 都保持一致的高精度输出。

可以在 GitHub 上获取更多信息：

GitHub链接：https://github.com/bytedance/Dolphin

它仍是 3B 参数规模，却能打出旗舰级水平，值得开发者一试。