Dolphin-v2:拍照论文也能实现精准解析

传送锚点

Dolphin-v2 是 ByteDance 最新发布的文档解析模型,有一个功能打破了我的惯性认知:它对拍照生成的文档,比数字文档更重视整体页面的结构。

这并不是偶然。多数模型处理拍照文档时容易受扭曲、光影干扰的影响,只能提取片段式信息。Dolphin-v2 采用了"拍照文档整体解析、数字文档并行元素解析"的双机制架构,这种区分式解析策略,反而让它在处理现实环境下的照片文档时显得更加鲁棒。

和前代模型有什么不同

Dolphin-v2 架构基于 Qwen2.5-VL-3B,是对初代 Dolphin 的完全重构。最核心升级是引入了可扩展 anchor prompting 机制,对每种文档元素使用定制 prompt,如 P_code 会保留缩进,P_formula 能生成合法 LaTeX 表达式,P_table 则输出 HTML 表格结构。

现在支持的元素类型扩展到了 21 种,从六层级标题、表格、公式,到页眉页脚、水印和注释,都能一一识别和结构化提取。更重要的是,所有元素都依托原始图像的像素坐标进行定位,避免了 OCR 层的额外误差。

性能表现

在 Benchmark OmniDocBench (v1.5) 上,Dolphin-v2 取得 89.45 的总分,比初代提升了近 15 分。文本识别的编辑距离低至 0.054,表格结构准确率超 87%,公式解析达到 86.72 CDM。

这类全面提升也意味着,在表格密集的财报、公式密集的论文,或者结构复杂的合同文件中,它都能提供高质量的解析结果。

为何值得关注

文档解析早已从"能读"进入"读得准、结构清晰"的阶段,而 Dolphin-v2 的双模解析架构恰好满足了这个方向。它的 anchor prompting 与类型感知模块,意味着文档不再是 OCR 后的碎片,而是语义完整的结构图。无论是 low-resource 环境下的移动拍照,还是高质量扫描件,Dolphin-v2 都保持一致的高精度输出。

可以在 GitHub 上获取更多信息:

GitHub链接:https://github.com/bytedance/Dolphin

它仍是 3B 参数规模,却能打出旗舰级水平,值得开发者一试。

相关推荐
Codebee4 小时前
能力中心 (Agent SkillCenter):开启AI技能管理新时代
人工智能
聆风吟º4 小时前
CANN runtime 全链路拆解:AI 异构计算运行时的任务管理与功能适配技术路径
人工智能·深度学习·神经网络·cann
uesowys5 小时前
Apache Spark算法开发指导-One-vs-Rest classifier
人工智能·算法·spark
AI_56785 小时前
AWS EC2新手入门:6步带你从零启动实例
大数据·数据库·人工智能·机器学习·aws
User_芊芊君子5 小时前
CANN大模型推理加速引擎ascend-transformer-boost深度解析:毫秒级响应的Transformer优化方案
人工智能·深度学习·transformer
智驱力人工智能5 小时前
小区高空抛物AI实时预警方案 筑牢社区头顶安全的实践 高空抛物检测 高空抛物监控安装教程 高空抛物误报率优化方案 高空抛物监控案例分享
人工智能·深度学习·opencv·算法·安全·yolo·边缘计算
qq_160144875 小时前
亲测!2026年零基础学AI的入门干货,新手照做就能上手
人工智能
Howie Zphile5 小时前
全面预算管理难以落地的核心真相:“完美模型幻觉”的认知误区
人工智能·全面预算
人工不智能5775 小时前
拆解 BERT:Output 中的 Hidden States 到底藏了什么秘密?
人工智能·深度学习·bert
盟接之桥5 小时前
盟接之桥说制造:引流品 × 利润品,全球电商平台高效产品组合策略(供讨论)
大数据·linux·服务器·网络·人工智能·制造