论文研读:基于深度学习的制造成本估算特征可视化研究

基于深度学习的制造成本估算特征可视化研究

论文核心:提出一种融合3D CNN与3D Grad-CAM的制造成本估算框架,在实现高精度成本预测的同时,通过特征可视化提供可解释性,揭示影响成本的3D CAD关键几何区域。


一、研究背景与动机

1.1 问题来源

维度 说明
产业背景 在线制造平台兴起,客户上传CAD模型后需实时获取制造成本报价
痛点 传统成本估算依赖专家人工审核,耗时费力,无法满足按需服务的实时性要求
关键数据 工程设计仅占总成本5%,却决定了70%的最终制造成本(Boothroyd, 1994)
核心需求 在开发早期阶段实时准确预测成本,以便修改设计、在满足工程性能的同时达成目标成本

1.2 现有方法局限

复制代码
定性技术 ──┬── 直观法(基于经验)
           └── 类比法(基于历史数据)── 回归分析 / ANN

定量技术 ──┬── 参数法
           └── 分析法
  • 线性回归:可解释性强,但面对复杂非线性模式预测能力有限
  • ANN(人工神经网络) :可处理非线性关系,但输入通常为1D数据,丢失3D空间信息
  • 3D CNN(Ning et al., 2020) :可自动提取3D CAD特征,但缺乏可解释性------无法解释成本判断依据

1.3 研究目标

提出一种基于深度学习的制造成本估算特征可视化流程,实现高精度预测 + 可解释性双重目标。


二、核心理论与方法框架

2.1 研究框架总览(三阶段)

复制代码
┌──────────────────────────────────────────────────────────────────┐
│                    Stage 1: 数据收集与预处理                       │
│  1,006个CNC零件 → 3D CAD + 成本 + 材料                           │
│  → 网格(Mesh) → 点云(Point Cloud) / 体素(Voxel)                  │
│  → 体积/材料/成本 归一化                                          │
├──────────────────────────────────────────────────────────────────┤
│                    Stage 2: 3D深度学习架构探索                     │
│  PointNet-based / ConvNet-based → 回归预测成本 → 模型评估选优      │
├──────────────────────────────────────────────────────────────────┤
│                    Stage 3: 可视化与分析                           │
│  3D Grad-CAM → 热力图 → 解释成本预测依据 → 检测加工特征/难度       │
└──────────────────────────────────────────────────────────────────┘

2.2 数据收集与预处理

2.2.1 数据来源
  • 来源:MISUMI在线平台(2020年)
  • 规模:1,006个CNC加工零件
  • 类别:34类不同零件
  • 属性:3D CAD模型 + 价格 + 材料信息
2.2.2 预处理流程
阶段 操作 工具/方法
第一阶段 3D CAD → 网格文件(Mesh) FreeCAD + Python API
计算几何体积 numpy-stl
第二阶段 网格 → 点云(Point Cloud) 加权随机采样 + 质心法(Iglesias, 2017)
网格 → 体素(Voxel) 三角面片与3D网格求交(Adam, 2020)
数值归一化 Min-Max / 对数归一化
材料编码 One-Hot编码(11维向量)
2.2.3 归一化方法

Min-Max归一化

xnew=x−xmin⁡xmax⁡−xmin⁡x_{\text{new}} = \frac{x - x_{\min}}{x_{\max} - x_{\min}}xnew=xmax−xminx−xmin

对数归一化

xnew=ln⁡xx_{\text{new}} = \ln xxnew=lnx

对数归一化后数据分布更趋对称、接近正态,对偏态分布(右偏的成本/体积数据)效果显著。

2.2.4 材料编码方案
大类 具体型号 One-Hot向量
Steel Structural Steel [1,0,0,0,0,0,0,0,0,0,0]
Steel S45C [0,1,0,0,0,0,0,0,0,0,0]
Steel S50C [0,0,1,0,0,0,0,0,0,0,0]
Steel SS400 [0,0,0,1,0,0,0,0,0,0,0]
Steel S35C [0,0,0,0,1,0,0,0,0,0,0]
Aluminum A6061 [0,0,0,0,0,1,0,0,0,0,0]
Aluminum Aluminum Alloys [0,0,0,0,0,0,1,0,0,0,0]
Aluminum A5052 [0,0,0,0,0,0,0,1,0,0,0]
Aluminum A2011 [0,0,0,0,0,0,0,0,1,0,0]
Aluminum 2000 Series Al Alloys [0,0,0,0,0,0,0,0,0,1,0]
Stainless SUS304 / SUS303 [0,0,0,0,0,0,0,0,0,0,1]

2.3 深度学习模型架构

2.3.1 基线模型对比

本研究测试了5种基线架构,共 90个模型组合(5架构 × 2归一化 × 3损失函数 × 3输入组合):

序号 架构 输入格式 特点
1 VoxNet 体素(32³) 早期3D CNN,2层卷积+1层池化
2 PointNet 点云(2048) 直接处理点云,无需体素化
3 Dering et al. (2017) 体素(32³) 5层卷积+Dropout,用于增材制造功能预测
4 Williams et al. (2019) 体素(64³) 3层卷积+池化,用于增材制造参数预测
5 Ning et al. (2020) 体素(64³) VG16风格,用于成本预测(无可解释性)

训练超参数

  • 学习率:0.0001
  • 优化器:Adam
  • 批量大小:16
  • 最大轮数:1000(采用早停法防过拟合)
2.3.2 提出模型(Proposed Model)

核心设计思想 :基于Dering et al. (2017)架构改进,采用三路输入 + 深层回归头的设计。

输入端

输入通道 数据 维度
Input1 体素数据 32×32×32
Input2 材料类型 16(One-Hot后经全连接层)
Input3 体积信息 1(经全连接层)

特征提取路径(3D卷积)

核大小 滤波器数 激活函数 备注
Conv3D ×2 3×3×3 16 LeakyReLU Xavier初始化
Max Pooling 2×2×2 --- --- 下采样
Dropout --- --- --- p=0.3
Conv3D ×2 3×3×3 32 LeakyReLU
Max Pooling 2×2×2 --- ---
Dropout --- --- --- p=0.3
Conv3D 3×3×3 64 LeakyReLU
Flatten --- --- --- 展平为一维

回归路径(全连接层)

三路输入拼接后,依次经过:2000 → 300 → 150 → 20 → 16 → 1(输出成本)

关键改进

  1. LeakyReLU替代ReLU(α=0.1),避免"死亡ReLU"问题
  2. Xavier初始化,提升训练稳定性
  3. 回归头采用5层递减全连接层(原模型仅2层),增强非线性拟合能力
  4. 总参数量仅 4,245,369,远小于Ning et al.的81,862,691

2.4 3D Grad-CAM 可视化方法

2.4.1 核心原理

3D Grad-CAM 是2D Grad-CAM(Selvaraju et al., 2016)在三维空间的扩展,通过反向传播获取目标卷积层对输出回归值的梯度,计算各特征图权重,线性组合后经ReLU生成3D热力图。

权重计算

αl=1Z×∑i∑j∑k∂y∂Ai,j,kl\alpha_l = \frac{1}{Z} \times \sum_i \sum_j \sum_k \frac{\partial y}{\partial A_{i,j,k}^l}αl=Z1×i∑j∑k∑∂Ai,j,kl∂y

3D Grad-CAM生成

L3D-Grad-CAM=ReLU(∑lαl×Al)L_{\text{3D-Grad-CAM}} = \text{ReLU}\left(\sum_l \alpha_l \times A^l\right)L3D-Grad-CAM=ReLU(l∑αl×Al)

其中:

  • yyy:回归输出(预测成本)
  • AlA^lAl:第lll个特征图的激活值
  • αl\alpha_lαl:第lll个特征图的全局平均池化权重
  • ZZZ:归一化因子
2.4.2 后处理流程
复制代码
3D Grad-CAM输出(低分辨率)
  → 三维插值(对齐到输入体素尺寸32³)
  → 与输入体素取交集
  → 生成3D热力图(红色=高影响区域)
2.4.3 可视化层级特征
卷积层 特征图尺寸 可视化特点
Conv1 30³ 捕捉边缘、表面等低级几何特征
Conv2 28³ 提取局部形状特征
Maxpool1 14³ 空间降维
Conv3 12³ 更高抽象特征
Maxpool2 10³ 进一步降维
Conv5 高度抽象,分辨率低,区域模糊

关键发现:浅层卷积更擅长捕捉具体几何特征(如孔、齿),深层卷积特征更抽象但定位模糊。


三、实验设计与结果

3.1 实验设置

项目 配置
数据集 1,006个CNC零件,80%训练/20%测试
模型总数 108个(含提出模型的变体)
评估指标 RMSE、MAPE
硬件 GPU: NVIDIA TITAN Xp
对比维度 架构 × 归一化 × 损失函数 × 输入组合

3.2 成本预测性能对比

3.2.1 各架构最佳模型
架构 输入 归一化 损失函数 RMSE MAPE
VoxNet Voxel(32), Mat, Vol Min-max MAE 2,716.24 29.76
PointNet Point(2048), Mat, Vol Log MSE 3,503.78 21.17
Dering et al. Voxel(32), Mat, Vol Log MSE 2,014.87 12.93
Williams et al. Voxel(64), Mat, Vol Log MAE 2,165.35 14.12
Ning et al. Voxel(64), Mat, Vol Log MSE 1,047.47 10.63
提出模型 Voxel(32), Mat, Vol Log MAE 1,290.41 8.76
3.2.2 综合性能对比
指标 提出模型 Ning et al. (2020) Dering et al. (2017)
MAPE 8.76% 10.63% 12.93%
RMSE 1,290.41 1,047.47 2,014.87
参数量 4.25M 81.86M(~20倍) ---
训练时间 ~20.5 min ~6.7 h(~20倍) ---
R值 0.9954 0.9949 0.9839

结论 :提出模型以1/20的参数量和训练时间,实现了最优的MAPE(8.76%)和最高相关性(R=0.9954)。相比基准架构Dering et al.,RMSE降低36%,MAPE降低32%。

3.3 关键实验发现

发现一:材料数据至关重要
输入组合 RMSE MAPE RMSE降幅 MAPE降幅
仅体素 10,644.07 42.76 --- ---
体素 + 材料 1,925.68 21.33 81.9%↓ 50.1%↓
体素 + 材料 + 体积 1,290.41 8.76 87.9%↓ 79.5%↓

材料成本通常超过总制造成本的50%(Jung, 2002),加入材料信息后预测精度大幅提升。

发现二:对数归一化优于Min-Max归一化
  • CAD数据包含大量不相关部分,对数归一化可更好地标准化输入
  • 对数变换使偏态分布趋于对称,帮助模型学习更精确的差异
  • 对于MAPE指标,对数归一化在大多数情况下明显占优
发现三:损失函数选择依赖架构
  • 提出模型最优损失函数为MAE(最小化MAPE)
  • 不同架构的最优损失函数不同,需针对性调优

3.4 加工特征可视化结果

3.4.1 CNC加工特征检测

3D Grad-CAM成功识别以下典型CNC加工特征(无需显式标注):

特征类型 可视化结果 说明
Pocket(凹槽) 凹槽区域显著激活 模型精准定位凹槽
Step(台阶) 台阶边缘高亮 边缘几何变化被捕捉
Slot(槽) 槽区域明显激活 开放槽特征清晰识别
O-ring(O型圈) 内部圆周被激活 圆环结构被关注
Gear齿 齿和孔周围红色高亮 齿轮关键加工区域
轴套孔 孔周围区域高亮 孔特征为成本敏感区

模型在未输入加工特征标签 的情况下,自主发现了这些关键区域,验证了3D Grad-CAM的特征发现能力。

3.4.2 加工难度区分实验

实验A:不同加工深度的成本预测

深度 预测成本 Grad-CAM激活区域 成本上升原因
10mm 1.065 底面轻微激活 基准
20mm 1.135 底面激活增强 振动增大
30mm 1.515 底面显著激活 稳定性下降,振幅最大

实验B:不同圆角半径的成本预测

圆角半径 预测成本 Grad-CAM激活区域 成本上升原因
13mm 1.475 圆角区域轻微激活 可用大直径刀具
8mm 1.515 圆角区域中度激活 刀具直径适中
3mm 1.545 圆角区域显著激活 需小直径刀具,加工时间长

核心结论 :模型能区分相似形状CAD模型之间的加工难度差异,深度越大成本越高,圆角越小成本越高,且3D Grad-CAM的激活区域与加工难点精准对应。


四、研究贡献总结

4.1 方法论贡献

贡献 描述
多源数据融合 首次将3D CAD体素 + 材料One-Hot + 几何体积三路输入融合,显著提升成本预测精度
3D Grad-CAM可视化 将2D Grad-CAM扩展至3D,首次用于制造成本估算的可解释性分析
高效架构设计 以1/20参数量和训练时间达到最优MAPE,证明轻量模型可通过架构优化超越大模型
加工特征自动发现 模型无需加工特征标注即可自动识别Pocket/Slot/Step/O-ring等CNC特征

4.2 实践价值

复制代码
设计师创建3D CAD模型
  → 自动体素化
  → 模型预测成本 + 3D Grad-CAM热力图
  → 设计师识别高成本区域
  → 修改CAD设计降低成本
  → 迭代优化(面向制造的设计 DFM)

4.3 未来研究方向

  1. 实证验证:通过CNC加工模拟与专家访谈,验证深度学习提取特征对实际制造成本的显著性
  2. 因素建模:构建能反映加工振动、刀具选择等物理因素的深度学习模型
  3. 多方法对比:引入多种XAI(可解释人工智能)技术进行可视化和对比分析
  4. 可制造性评估:从成本预测扩展至更全面的可制造性(manufacturability)评估

五、关键技术参考

技术/模型 来源 应用
VoxNet Maturana & Scherer, 2015 基于体素的3D物体识别
PointNet Qi et al., 2017 基于点云的3D物体分类/分割
FeatureNet Zhang et al., 2018 基于3D CNN的加工特征识别
Grad-CAM Selvaraju et al., 2016 梯度加权的类激活映射(2D)
3D CNN成本预测 Ning et al., 2020 3D CAD成本预测(无可解释性)

六、附录:完整模型性能数据

表A1:所有模型RMSE与MAPE评估结果

VoxNet
输入 归一化 RMSE(MSE) RMSE(MAE) RMSE(MSLE) MAPE(MAE) MAPE(MSLE)
Voxel(32) Minmax 9,562.98 9,643.55 9,577.47 73.87 62.87
Voxel(32) Log 9,603.53 9,792.90 10,121.68 54.05 56.53
Voxel(32),Mat Minmax 2,934.82 2,325.73 2,947.66 33.31 33.08
Voxel(32),Mat Log 3,759.66 3,384.20 3,575.19 21.67 20.65
Voxel(32),Mat,Vol Minmax 3,175.89 2,716.24 3,141.18 46.63 29.76
Voxel(32),Mat,Vol Log 4,279.03 3,582.26 3,109.07 21.54 19.14
PointNet
输入 归一化 RMSE(MSE) RMSE(MAE) RMSE(MSLE) MAPE(MAE) MAPE(MSLE)
Point(2048) Minmax 8,238.97 8,301.45 --- 75.85 47.80
Point(2048) Log 7,848.32 8,102.08 --- 38.47 38.96
Point(2048),Mat Minmax --- 5,165.62 --- --- 40.05
Point(2048),Mat Log 14,360.73 8,116.47 --- 79.14 32.51
Point(2048),Mat,Vol Minmax 9,430.96 5,103.17 --- 214.82 47.74
Point(2048),Mat,Vol Log 3,803.78 3,724.84 3,785.82 21.17 26.95
Dering et al. (2017)
输入 归一化 RMSE(MSE) RMSE(MAE) RMSE(MSLE) MAPE(MAE) MAPE(MSLE)
Voxel(32) Minmax 9,693.04 9,493.96 9,320.58 66.13 48.23
Voxel(32) Log 9,678.50 11,310.82 10,403.58 47.33 42.00
Voxel(32),Mat Minmax 2,217.01 1,813.02 2,146.88 34.00 23.68
Voxel(32),Mat Log 2,436.63 4,176.82 4,568.14 21.06 24.39
Voxel(32),Mat,Vol Minmax 1,684.68 1,615.86 1,794.75 28.11 21.09
Voxel(32),Mat,Vol Log 2,014.87 2,574.63 3,779.48 12.89 14.44
Williams et al. (2019)
输入 归一化 RMSE(MSE) RMSE(MAE) RMSE(MSLE) MAPE(MAE) MAPE(MSLE)
Voxel(64) Minmax 10,100.41 9,599.60 9,981.19 72.96 69.94
Voxel(64) Log 9,790.24 9,842.57 9,960.12 59.24 56.36
Voxel(64),Mat Minmax 3,154.01 2,932.19 3,079.07 47.61 52.86
Voxel(64),Mat Log 2,348.79 2,771.57 2,749.41 17.80 16.38
Voxel(64),Mat,Vol Minmax 3,291.00 2,695.29 3,336.64 37.05 33.76
Voxel(64),Mat,Vol Log 3,318.75 2,165.35 3,117.80 24.27 14.12
Ning et al. (2020)
输入 归一化 RMSE(MSE) RMSE(MAE) RMSE(MSLE) MAPE(MAE) MAPE(MSLE)
Voxel(64) Minmax 7,102.95 7,988.06 7,788.32 78.11 59.81
Voxel(64) Log 8,626.35 8,390.24 8,769.09 44.88 42.50
Voxel(64),Mat Minmax 6,915.51 7,169.04 7,097.48 134.80 115.98
Voxel(64),Mat Log 1,565.27 1,486.90 1,299.94 12.86 11.43
Voxel(64),Mat,Vol Minmax 9,040.21 7,136.89 6,374.03 139.10 113.18
Voxel(64),Mat,Vol Log 1,047.27 1,140.85 1,062.55 10.43 10.96
提出模型(Proposed Model)
输入 归一化 RMSE(MSE) RMSE(MAE) RMSE(MSLE) MAPE(MAE) MAPE(MSLE)
Voxel(32) Minmax 10,290.33 10,644.07 11,151.45 45.29 42.76
Voxel(32) Log 5,163.67 5,287.54 5,219.51 48.10 48.07
Voxel(32),Mat Minmax 7,948.82 8,271.09 7,646.84 68.57 63.69
Voxel(32),Mat Log 882.89 9,249.08 8,991.28 41.46 41.12
Voxel(32),Mat,Vol Minmax 1,332.49 1,377.27 1,399.76 27.93 22.76
Voxel(32),Mat,Vol Log 1,137.45 1,333.06 1,305.52 21.65 20.58
Voxel(32),Mat,Vol Minmax 1,137.45 1,333.06 1,305.52 21.65 20.58
Voxel(32),Mat,Vol Log 1,825.31 1,290.41 1,816.94 11.44 8.76

注:加粗行为提出模型的最优配置,MAPE=8.76%为所有108个模型中的最佳结果。


参见论文:https://arxiv.org/abs/2010.14824

相关推荐
组合缺一1 小时前
agentscope-harness vs solon-ai-harness:Java 智能体「马具引擎」的双雄对决
java·人工智能·ai·llm·agent·solon·agentscope
沪漂阿龙2 小时前
面试题:聚类方法一文讲透——K-means、层次聚类、K 值选择、初始化、距离度量、DBSCAN 全拆解
人工智能·数据挖掘·kmeans·聚类
牧子川9 小时前
009-Transformer-Architecture
人工智能·深度学习·transformer
covco10 小时前
矩阵管理系统指南:拆解星链引擎的架构设计与全链路落地实践
大数据·人工智能·矩阵
沪漂阿龙10 小时前
AI大模型面试题:支持向量机是什么?间隔最大化、软间隔、核函数、LinearSVC 全面拆解
人工智能·算法·支持向量机
lifewange10 小时前
AI编写测试用例工具介绍
人工智能·测试用例
陕西字符10 小时前
2026 西安 豆包获客优化技术深度解析:企来客科技 AI 全域获客系统测评
大数据·人工智能
掘金安东尼10 小时前
GGUF、GPTQ、AWQ、EXL2、MLX、VMLX...运行大模型,为什么会有这么多格式?
人工智能
新知图书10 小时前
市场分析报告自动化生成(使用千问)
人工智能·ai助手·千问·高效办公