跟着论文学习从图纸到决策:用于将2D工程图纸解析为结构化制造知识的混合视觉-语言框架

跟着论文学习从图纸到决策:用于将2D工程图纸解析为结构化制造知识的混合视觉-语言框架

一、论文基本信息

  • 英文标题: From Drawings to Decisions: A Hybrid Vision-Language Framework for Parsing 2D Engineering Drawings into Structured Manufacturing Knowledge
  • 中文标题: 从图纸到决策:用于将2D工程图纸解析为结构化制造知识的混合视觉-语言框架
  • 作者: Muhammad Tayyab Khan, Lequn Chen, Zane Yong, Jun Ming Tan, Wenhe Feng, Seung Ki Moon
  • 机构 :
    • 新加坡制造技术研究院 (SIMTech), A*STAR
    • 先进再制造技术中心 (ARTC), A*STAR
    • 南洋理工大学机械与航空航天工程学院
  • 页数: 48页
  • arXiv编号: 2506.17374v2

二、研究背景与问题陈述

2.1 研究背景

  • 工程图纸的重要性: 工程图纸是制造业的基础,传达几何尺寸、公差、表面处理和标注等关键信息
  • 现状问题 :
    • 人工解释图纸耗时费力(如ballooning过程)
    • 半自动化工具(如AutoCAD ballooning、Mitutoyo MeasurLink)仍依赖大量人工输入
    • 通用OCR模型在复杂布局、工程符号、旋转文本等场景下表现不佳

2.2 核心问题

  1. 定位挑战: 准确本地化多样化的标注类型,处理布局、方向和尺度变化
  2. 解析挑战: 解析标注需要针对工程文档的视觉和符号约定进行微调的模型
  3. 结构化输出: 将非结构化标注转换为机器可读的结构化格式

三、方法论

3.1 总体框架(两阶段混合架构)

复制代码
输入图纸 → Stage 1: YOLOv11-obb检测 → OBB图像块 → Stage 2: VLM解析 → 结构化JSON输出

3.2 数据集构建

3.2.1 数据来源
  • 数量: 1,367张2D机械图纸
  • 来源: 公共数据集、标准文档、开源CAD存储库
  • 领域: 航空航天、汽车、通用机械工程
  • 格式 : 从CAD导出文件到扫描旧蓝图,涵盖多种图纸条件
3.2.2 标注类别(9类)
类别 说明 示例
GD&T 几何尺寸与公差 位置度、平面度、圆柱度等
General Tolerances 默认公差值 通用公差注释或表格
Measures 线性/角度尺寸标注 直径、长度、宽度等
Material 材料类型或处理 材料规格文本指示器
Notes 通用说明或补充设计细节 自由文本注释
Radii 半径尺寸指示器 半径标注
Surface Roughness 表面粗糙度符号 纹理要求符号
Threads 螺纹特征标注 螺纹规格
Title Block 图纸元数据 标题栏(通常位于右下角)
3.2.3 数据增强策略

针对少数类别(Threads、Material、Surface Roughness等)采用5种增强技术:

  1. 锐度变化: 模拟模糊或过锐化扫描
  2. 对比度调整: 模拟过曝或褪色打印条件
  3. 旋转: 随机0°、90°、180°、270°方向偏移
  4. 灰度转换: 将彩色/多色调转换为单色
  5. 颜色反转: 反转黑白像素模拟底片扫描

3.3 Stage 1: YOLOv11-obb检测

3.3.1 模型选择理由
  • 旋转感知: 支持有向边界框(OBB),适合处理倾斜尺寸、扭曲GD&T符号
  • 单阶段架构: 相比两阶段检测器(Oriented R-CNN、ReDet),在准确性和效率间取得更优权衡
  • 性能: DOTA-v1基准达到80.9 mAP,推理速度约10.1 ms (TensorRT)
3.3.2 训练配置
参数
模型 Yolo11m-obb.pt
图像尺寸 1024×1024像素
训练轮数 400
批次大小 16
预训练 COCO权重
3.3.3 检测输出
  • 在1,367张图纸上检测到11,469个标注实例
  • 平均每张图纸产生8.4个标注块
  • 评估指标:Precision、Recall、mAP@0.5、mAP@0.5-0.95均超过0.95

3.4 Stage 2: 视觉-语言模型微调

3.4.1 Donut模型

架构:

  • 视觉编码器 : Swin Transformer Base (Swin-B)
    • 4个Swin Transformer阶段,窗口大小10
    • 输出1024维潜在视觉嵌入
  • 文本解码器 : 预训练多语言BART模型
    • 自回归生成结构化JSON输出
    • 采用掩码多头自注意力、编码器-解码器交叉注意力

特点:

  • 无OCR: 直接 from 图像 to 结构化文本,不依赖通用OCR
  • 参数: 约1.43亿参数
  • 训练: 端到端微调,交叉熵损失

两种微调策略:

  1. 统一模型: 单个Donut模型训练所有9个类别(本论文采用)
  2. 类别特定模型: 每个类别独立训练一个模型
3.4.2 Florence-2模型

架构:

  • 视觉编码器 : DaViT (Dual Attention Vision Transformer)
    • 嵌入维度: 128, 256, 512, 1024
    • Transformer块配置: 1, 1, 9, 1
    • 注意力头: 4, 8, 16, 32
  • 多模态Transformer编码器-解码器 :
    • 6层Transformer编码器(768维嵌入)
    • 6层Transformer解码器
    • 位置嵌入量化为1,000个离散区间

特点:

  • 提示驱动: 通过自然语言提示条件化输出
  • 参数: 约2.32亿参数
  • OCR-free: 不依赖OCR模块或区域特定检测器
3.4.3 共享微调配置
参数
模型 Donut-base & Florence-2-base
优化器 AdamW (余弦衰减)
学习率 1e-6
批次大小 1
训练轮数 30
损失函数 交叉熵

3.5 GD&T符号标准化

为增强一致性并减少识别错误,14个常见GD&T符号使用标准化Unicode字符编码(符合ASME Y14.5):

名称 符号 Unicode
位置度 U+2316
平面度 U+23E5
圆度 U+25CB
圆柱度 U+232D
线轮廓度 U+2312
面轮廓度 U+2313
平行度 U+2225
垂直度 U+27C2
直线度 U+23E4
同轴度 U+25CE
倾斜度 U+2220
对称度 U+232F
圆跳动 U+2197
全跳动 U+2330

四、实验结果

4.1 YOLOv11-obb检测性能

定量结果:

  • Precision: >0.95
  • Recall: >0.95
  • mAP@0.5: >0.95
  • mAP@0.5-0.95: >0.95

混淆矩阵分析:

  • 几乎所有类别的分类准确率接近1.0
  • 少数类别(Material、Threads、General Tolerances)出现频率较低,但检测准确率仍保持高位

4.2 结构化解析性能

4.2.1 评估指标
  • True Positive (TP): 预测键值对与真实值完全匹配
  • False Positive (FP): 预测键值对错误或不存在于真实值中
  • False Negative (FN): 真实值键值对缺失于预测中

计算公式:

复制代码
Precision = TP / (TP + FP)
Recall = TP / (TP + FN)
F1-score = 2 × (Precision × Recall) / (Precision + Recall)
Hallucination Rate = 1 - Precision
4.2.2 Donut vs Florence-2对比结果
类别 Donut (Precision/Recall/F1/Hallucination) Florence-2 (Precision/Recall/F1/Hallucination)
Measures 0.896 / 0.992 / 0.941 / 0.104 0.76 / 0.873 / 0.813 / 0.24
Title Block 0.522 / 0.545 / 0.533 / 0.478 0.302 / 0.52 / 0.382 / 0.698
GD&T 0.933 / 1.0 / 0.965 / 0.067 0.838 / 0.995 / 0.91 / 0.162
Notes 0.681 / 1.0 / 0.81 / 0.319 0.655 / 1.0 / 0.791 / 0.345
Material 1.0 / 1.0 / 1.0 / 0.0 1.0 / 1.0 / 1.0 / 0.0
Surface Roughness 1.0 / 1.0 / 1.0 / 0.0 0.857 / 0.923 / 0.889 / 0.143
Radii 0.891 / 1.0 / 0.943 / 0.109 0.837 / 0.818 / 0.828 / 0.163
Threads 0.833 / 0.909 / 0.870 / 0.167 0.75 / 0.6 / 0.667 / 0.25
General Tolerance 0.5 / 1.0 / 0.667 / 0.5 0.5 / 1.0 / 0.667 / 0.5
总体 0.892 / 0.992 / 0.940 / 0.108 0.784 / 0.927 / 0.85 / 0.216

关键发现:

  1. Donut全面优于Florence-2 :
    • F1-score: 94% vs 85%
    • 幻觉率: 10.8% vs 21.6%
  2. 类别性能差异 :
    • 高频且结构一致的类别(Measures、GD&T): 两模型均表现良好
    • 符号约束类别(Surface Roughness、Radii): Donut达到完美或接近完美的F1分数
    • 低视觉结构类别(Title Block、General Tolerances、Notes): 两模型均面临挑战

4.3 定性验证

GUI可视化界面:

  • 上传2D图纸后实时查看标注叠加
  • 按类别颜色编码,显示置信度分数
  • 结构化表格界面展示解析字段

JSON输出示例:

json 复制代码
{
  "Material": "C-45",
  "Threads": [{"Type": "6×M5 TAP THRU"}],
  "GD&T": [
    {"Type": "Position", "Tolerance": "Ø0.020", "Datums": ["A", "B(M)", "C(M)"]},
    {"Type": "Straightness", "Tolerance": "0.020", "Datums": ["A"]},
    {"Type": "Cylindricity", "Tolerance": "0.020", "Datums": []},
    {"Type": "Flatness", "Tolerance": "0.020", "Datums": []}
  ],
  "Surface Roughness": [{"Ra": "0.8 μm"}],
  "Measures": [
    {"Feature": "Shaft Length", "Value": "81 ±0.05 mm"},
    {"Feature": "Diameter", "Value": "Ø28 ±0.05 mm"}
  ],
  "Title Block": {
    "Designer": "Shubham",
    "Date": "09.06.2020",
    "Drawing Name": "Admission Shaft"
  },
  "Notes": "All dimensions are in mm. Sharp edges treat 0.5 chamfer..."
}

五、案例研究:基于规则的制造决策

5.1 解释前提条件

  1. 零件材料(含属性)已从图纸提取或外部提供
  2. 图纸遵循公认标准(如ASME Y14.5 for GD&T、ISO 21920 for 表面粗糙度)
  3. 所有相关标注已准确解析为结构化JSON
  4. 制造环境具有定义的工具和操作集合

5.2 基于规则的推理引擎

规则示例:

特征类型 条件 推荐操作 工具选择
螺纹孔 6×M5 TAP THRU, 材料: C-45钢 钻孔Ø4.2mm, 攻丝M5×0.8 麻花钻(Ø4.2mm, HSS); 螺旋槽丝锥(M5×0.8, HSS-E, TiN涂层)
圆柱轴 Ø28mm, 公差±0.05mm, Ra 0.8μm 粗车, 精车 硬质合金刀片(粗加工); 精加工刀片(精加工)
孔(紧公差) 公差在ISO IT6-IT8范围内 钻孔+精加工(铰孔/镗孔) 铰刀(H7级); 精密钻头
轴(超精加工) Ra < 0.4μm 或紧直径公差 精车或磨削 精加工刀片; 砂轮

5.3 下游流程集成

  • 操作排序: 基于特征类型和公差要求
  • 加工参数选择: 查询工具数据库获取切削速度、进给量
  • 检测规划: 根据GD&T要求生成检测计划
  • 与MES集成: 支持制造执行系统集成

六、创新点

6.1 技术贡献

  1. 首个混合框架: 结合旋转感知检测与微调VLM用于工程图纸
  2. 无OCR流水线: Donut和Florence-2不依赖OCR,直接处理图像到结构化输出
  3. 有向边界框(OBB): 准确处理旋转和倾斜标注
  4. 结构化JSON输出: 机器可读格式,支持下游集成

6.2 数据集贡献

  1. 规模: 1,367张图纸,11,469个标注实例
  2. 类别覆盖: 9个制造业相关类别
  3. 质量保证: 由具有机械设计和制造背景的标注员标注,领域专家验证

6.3 性能贡献

  1. Donut优越性: 相比Florence-2,F1-score提高9%(94% vs 85%)
  2. 低幻觉率: Donut仅10.8%,适合工程应用
  3. 高召回率: Donut达到99.2%召回率,减少漏检

七、局限性与未来工作

7.1 局限性

  1. 数据集规模: 1,367张图纸仍有限,可能未完全捕捉真实工业图纸的多样性和复杂性
  2. 类别不平衡: 某些类别(如General Tolerances、Material)自然出现频率较低
  3. 理想假设: 案例研究假设理想条件和标准化工具,可能限制泛化能力
  4. 视图-标注关联: 当前框架未将标注与参考几何和视图关联

7.2 未来工作方向

  1. 数据集扩展 :
    • 包含更多样化和复杂的工程图纸
    • 改进对少数类别的表示
  2. 不平衡感知策略 :
    • Focal loss
    • 类别加权训练
    • 高级重采样技术
  3. 工业规模验证 :
    • 在CAD/CAM工作流中部署结构化输出
    • 评估真实制造环境中的适用性
  4. 级联误差分析 :
    • 系统研究检测质量如何影响下游语义提取
    • 开发误差检测和纠正机制
  5. 实时制造反馈集成 :
    • 开发自适应、上下文感知的决策模块
    • 增强框架在不同生产环境中的鲁棒性

八、工业应用价值

8.1 直接应用场景

  1. 工艺规划: 从图纸自动提取特征信息,辅助工艺路线设计
  2. 工具选择: 基于特征类型、公差、材料推荐合适工具
  3. 检测规划: 根据GD&T要求生成检测计划
  4. 成本估算: 利用结构化信息进行快速报价

8.2 对QuoteApp的借鉴价值

可直接应用的技术:

  1. YOLOv11-obb :
    • 用于检测图纸中的尺寸标注、GD&T符号、表面粗糙度符号
    • 相比当前PaddleOCR方案,更适合处理旋转和倾斜文本
  2. Donut模型 :
    • 无OCR的端到端解析,避免OCR错误传播
    • 生成结构化JSON输出,与QuoteApp数据模型对齐
  3. OBB图像块提取 :
    • 局部化解析策略,避免整图解析的性能下降
    • 适合处理高密度标注图纸

集成建议:

  1. 替换当前OCR引擎: 用YOLOv11-obb + Donut替换PaddleOCR
  2. 增强特征提取: 利用GD&T解析能力,支持形位公差识别
  3. 结构化输出: 直接生成JSON格式,减少后处理工作量

九、关键图表索引

图表 内容
图1 提出的两阶段混合视觉-语言框架流程图
图2 数据集标注示例(颜色编码边界框)
图3 11,469个检测标注的类别分布
图4 检测和图像块提取过程示例
图5 GD&T和Measures类别的图像-JSON对示例
图6 增强前后类别分布对比
图7 Donut架构(针对工程标注解析定制)
图8 Donut微调策略:统一vs类别特定
图9 Florence-2架构
图10 Florence-2微调流水线
图11 YOLOv11-obb性能曲线
图12 YOLOv11-obb检测结果示例
图13 YOLOv11-obb混淆矩阵
图14 GUI定性解析验证界面
图15 结构化JSON输出示例
图16 提取的工程图纸信息集成到下游制造工作流
图17 规则驱动的解释流水线示意图

十、结论

本研究提出了一个混合视觉框架,用于从2D工程图纸中自动提取结构化信息。通过结合旋转感知对象检测(YOLOv11-obb)与轻量级视觉-语言模型(Donut和Florence-2),该框架有效地将多样化标注类型本地化并解析为结构化数据格式。

主要成果:

  1. 两阶段混合框架: YOLOv11-obb + 微调VLM
  2. 数据集: 1,367张图纸,9个类别,11,469个标注实例
  3. 性能: Donut达到94% F1-score,10.8%幻觉率
  4. 案例研究: 证明提取的结构化输出在工具选择和工艺规划中的实用性

影响:

  • 推动图纸解释的现代化
  • 增强数字制造工作流中的自动化和数据互操作性
  • 为知识驱动的制造流程铺平道路

附录:对QuoteApp的具体改进建议

A. 短期改进(1-2周)

  1. 集成YOLOv11-obb :
    • 用于检测图纸中的尺寸标注区域
    • 替换或辅助当前PaddleOCR检测模块
  2. 实现OBB裁剪 :
    • 根据检测结果裁剪图像块
    • 为每个块分配类别标签

B. 中期改进(1-2月)

  1. 微调Donut模型 :
    • 使用QuoteApp现有标注数据微调Donut
    • 针对中文工程图纸优化(当前论文使用英文图纸)
  2. JSON Schema设计 :
    • 定义与QuoteApp数据模型对齐的JSON Schema
    • 支持长、宽、高、直径、材质等字段

C. 长期改进(3-6月)

  1. 完整流水线集成 :
    • PDF → YOLOv11-obb检测 → Donut解析 → QuoteApp数据库
  2. GD&T支持 :
    • 添加形位公差识别能力
    • 支持工艺路线自动生成
  3. 反馈机制 :
    • 允许用户纠正解析错误
    • 持续微调模型提升准确性

参考文献(精选)

  1. Khan, M.T., et al. (2024). "Fine-Tuning Vision-Language Model for Automated Engineering Drawing Information Extraction." arXiv:2411.03707.
  2. Kim, G., et al. (2022). "OCR-Free Document Understanding Transformer." ECCV 2022.
  3. Xiao, B., et al. (2024). "Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks." CVPR 2024.
  4. Lin, Y.H., et al. (2023). "Integration of Deep Learning for Automatic Recognition of 2D Engineering Drawings." Machines, 11(8).
  5. Gao, J., et al. (2005). "Extraction/conversion of geometric dimensions and tolerances for machining features." Int. J. Adv. Manuf. Technol., 26(4).