# 大模型与CAD的融合:从DeepCAD出发的技术溯源与原理探析

溯源:大模型与CAD融合的开创者------DeepCAD

大模型与CAD的结合究竟发轫于何时?自ChatGPT掀起通用大模型的热潮,至今已有数年时间,PointerCAD、AutoBrep等相关研究论文也层出不穷,皆是该领域的新晋成果。但要论首个将大模型与CAD深度融合的开创性工作,答案无疑是DeepCAD------《DeepCAD: A Deep Generative Network for Computer-Aided Design Models》。有人或许会问,如今再看DeepCAD,是否已然过时?我认为并非如此,其蕴含的核心思想与首创性设计,至今仍具备极高的研究与应用价值;且相较于当下的诸多论文,DeepCAD的内容更凝练,逻辑也更简洁,是该领域当之无愧的基石之作,后续相关论文也均是在前人基础上不断完善、做加法。

核心突破:Transformer与CAD序列的创新性结合

DeepCAD的核心突破,在于首次将CAD命令序列类比自然语言,借助Transformer的序列建模能力构建自编码器,实现了CAD序列的编码压缩与解码生成。这一思路打破了传统3D生成模型的技术框架,成为后续所有AI+CAD生成类模型的核心架构。通俗来讲,就是将Transformer架构适配落地到CAD领域,把CAD的建模逻辑转化为类语言的序列,作为模型的输入与学习对象。

先懂Transformer:序列预测的两种核心形式

要理解这一设计,首先要明晰Transformer的核心特性:它拥有Encoder和Decoder双核心模块,核心目标是实现序列预测,而序列转换并非只有"跨序列映射"这一种形式------这是最常见的情况,比如英文翻译成中文;实际上还能实现"同序列还原",也就是中文翻译为中文,输入与输出的序列格式完全一致。这两种形式,正是DeepCAD适配不同工业场景的核心基础。

DeepCAD核心原理:自编码器的CAD适配逻辑

DeepCAD的核心原理,正是依托Transformer的序列建模能力,将工业级CAD命令序列类比自然语言,构建自编码器完成建模与生成:先将CAD命令(如草图、拉伸)统一处理为60条定长序列,将连续参数量化为8位整数、未用参数设为-1,形成网络可识别的标准化输入;再通过Encoder将该序列编码压缩为256维低维潜向量,浓缩CAD建模的核心特征与规律;最后由Decoder从潜向量中解码,还原或生成新的标准化CAD命令序列,既实现同序列的精准还原,也能完成跨序列的转换,这也是其适配不同工业场景的核心逻辑。

场景具象化:两种序列处理逻辑的实际应用

DeepCAD正是沿用了Transformer的这两种序列处理逻辑,结合基础的立方体建模案例,可清晰理解其应用方式:核心自编码场景便是典型的"同序列还原"(类比"中文翻中文"),输入是由启动草图、4条绘制正方形边、完成对称拉伸、剩余部分由填充的60条定长CAD命令序列,模型经编码压缩与解码还原后,输出与输入格式完全一致的序列,仅核心参数存在微小误差,实现CAD序列的精准还原。而"跨序列映射"(类比"英文翻中文")则对应工业实用场景,同样以立方体为例,输入是其3D扫描得到的离散点云数据,经PointNet++编码为256维潜向量后传入模型,最终解码生成对应的标准化CAD命令序列,完成从离散点云到可编辑CAD模型的关键转换。

结合立方体建模,两种场景的输入、输出具体格式及内容如下,严格遵循DeepCAD的标准化规则(60条定长序列、16维参数向量,未用参数设为-1,连续参数量化为8位整数):

场景1:同序列还原(CAD命令序列→CAD命令序列,自编码场景)

输入格式:60条定长CAD命令序列,每条为"命令类型+16维量化参数向量",参数顺序:[x,y,α,f,r,θ,φ,γ,px,py,pz,s,e1,e2,b,u],无效部分用填充。

输入具体内容(核心有效命令,前8条)

  1. :[-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1](启动草图循环)
  2. L:[255,128,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1](水平向右画直线)
  3. L:[255,255,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1](垂直向上画直线)
  4. L:[128,255,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1](水平向左画直线)
  5. L:[128,128,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1](垂直向下画直线,闭合草图)
  6. :[-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1](草图结束)
  7. E:[-1,-1,-1,-1,-1,128,128,128,128,128,128,128,128,128,0,1](对称拉伸,新建实体)
  8. :[-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1](拉伸结束)

输出格式:与输入完全一致(60条定长CAD命令序列),仅核心参数存在≤3的量化误差。

输出具体内容 :命令类型与输入完全一致(→L×4→→E→×52),参数仅微小偏差(如L命令x从255变为253,E命令e1从128变为129),不影响立方体建模逻辑。

场景2:跨序列映射(3D点云→CAD命令序列,工业实用场景)

输入格式:PLY/XYZ格式3D点云文件,包含2000个均匀采样的立方体表面点,归一化至2×2×2立方体(坐标范围[-1,1]),经PointNet++编码为256维潜向量(模型实际输入)。

输入具体内容(点云示例,部分点坐标):(0.5,0.5,0.5)、(0.5,0.5,-0.5)、(0.5,-0.5,0.5)、(-0.5,0.5,0.5)、(-0.5,-0.5,-0.5)等2000个离散点,无结构化格式,仅包含三维坐标信息。

输出格式:60条定长CAD命令序列,与场景1输出格式完全一致,可直接解析为CAD可编辑模型。

输出具体内容:与场景1的输出完全相同(→L×4→→E→×52),生成的序列可转换为STEP格式,导入CAD工具后为标准立方体模型。

个人理解:Transformer的空间映射逻辑(CAD领域适配)

关于Transformer,我个人的理解是:它会将一种序列从原始的高维空间,映射到一个相对低维的潜空间,再从这个低维潜空间转化到目标的输出空间。原始高维空间是输入序列的载体,最后一个空间是输出序列的载体,而中间这个低维潜空间,相当于一个存储核心信息的变换矩阵,是序列特征的浓缩与提炼。推及到Transformer在CAD领域的应用,我们先将现有CAD数据进行标准化格式转换,让其在高维空间形成有效表示;当输入和输出空间都有了清晰的序列表示后,Transformer便能从海量数据中学习并提炼出CAD建模的内在规律与核心特征,最终基于这些学到的特征,实现新CAD序列的"无中生有"式生成。

总结:DeepCAD的里程碑意义与发展脉络

回望大模型与CAD融合的发展脉络,DeepCAD无疑是该领域从实验室理论探索走向工业级实际应用的关键里程碑。作为首个将Transformer与工业级CAD命令序列深度融合的模型,它不仅首创了"CAD序列类比自然语言"的核心思路,还构建了首个大规模CAD命令序列数据集,奠定了该方向的技术范式、数据基础与落地思路。如今PointerCAD、AutoBrep等新研究不断突破精度与功能边界,却始终以DeepCAD的核心架构为根基,其参数量化、定长序列表示等设计也被持续沿用与优化。重新审视DeepCAD,不仅能让我们清晰看到大模型与CAD融合的技术源头,更能从其凝练的逻辑中把握该领域的发展核心------让AI贴合工业CAD的原生设计逻辑,实现从"生成离散3D形状"到"生成可编辑建模逻辑"的跨越,而这也正是AI+CAD能够真正落地工业、服务生产的关键所在。

相关推荐
甘露寺6 分钟前
【LangGraph 2026 核心原理解析】大模型 Tool Calling 机制与使用最佳实践全解
大数据·人工智能·python
云烟成雨TD12 分钟前
Spring AI Alibaba 1.x 系列【26】Skills 生命周期深度解析
java·人工智能·spring
咚咚王者14 分钟前
人工智能之知识蒸馏 第八章 知识蒸馏前沿进展与未来趋势
人工智能
万象资讯20 分钟前
2026 年外贸私域CRM系统最新实测榜单:数据主权与全链路增长选型指南
大数据·人工智能
IT技术范26 分钟前
中国AI企业创新实践观察:联想以全栈能力赋能产业普惠
人工智能
慧一居士38 分钟前
Ollama 本地部署的模型,多个客户端并发访问请求,会有不响应的情况,解决方案
人工智能
微刻时光40 分钟前
影刀RPA:循环相似元素列表深度解析与实战指南
java·人工智能·python·机器人·自动化·rpa·影刀
司南-70491 小时前
opencode环境搭 并 配置自定义BASE URL
linux·运维·服务器·人工智能
做个文艺程序员1 小时前
Claude Code vs ChatGPT Codex 深度对比:2026 年哪款 AI 编程工具更适合你?
人工智能·chatgpt
甲维斯1 小时前
智谱CodingPlan老套餐绝版了,全网token收拢!
人工智能·ai编程