
溯源:大模型与CAD融合的开创者------DeepCAD
大模型与CAD的结合究竟发轫于何时?自ChatGPT掀起通用大模型的热潮,至今已有数年时间,PointerCAD、AutoBrep等相关研究论文也层出不穷,皆是该领域的新晋成果。但要论首个将大模型与CAD深度融合的开创性工作,答案无疑是DeepCAD------《DeepCAD: A Deep Generative Network for Computer-Aided Design Models》。有人或许会问,如今再看DeepCAD,是否已然过时?我认为并非如此,其蕴含的核心思想与首创性设计,至今仍具备极高的研究与应用价值;且相较于当下的诸多论文,DeepCAD的内容更凝练,逻辑也更简洁,是该领域当之无愧的基石之作,后续相关论文也均是在前人基础上不断完善、做加法。
核心突破:Transformer与CAD序列的创新性结合
DeepCAD的核心突破,在于首次将CAD命令序列类比自然语言,借助Transformer的序列建模能力构建自编码器,实现了CAD序列的编码压缩与解码生成。这一思路打破了传统3D生成模型的技术框架,成为后续所有AI+CAD生成类模型的核心架构。通俗来讲,就是将Transformer架构适配落地到CAD领域,把CAD的建模逻辑转化为类语言的序列,作为模型的输入与学习对象。
先懂Transformer:序列预测的两种核心形式
要理解这一设计,首先要明晰Transformer的核心特性:它拥有Encoder和Decoder双核心模块,核心目标是实现序列预测,而序列转换并非只有"跨序列映射"这一种形式------这是最常见的情况,比如英文翻译成中文;实际上还能实现"同序列还原",也就是中文翻译为中文,输入与输出的序列格式完全一致。这两种形式,正是DeepCAD适配不同工业场景的核心基础。
DeepCAD核心原理:自编码器的CAD适配逻辑
DeepCAD的核心原理,正是依托Transformer的序列建模能力,将工业级CAD命令序列类比自然语言,构建自编码器完成建模与生成:先将CAD命令(如草图、拉伸)统一处理为60条定长序列,将连续参数量化为8位整数、未用参数设为-1,形成网络可识别的标准化输入;再通过Encoder将该序列编码压缩为256维低维潜向量,浓缩CAD建模的核心特征与规律;最后由Decoder从潜向量中解码,还原或生成新的标准化CAD命令序列,既实现同序列的精准还原,也能完成跨序列的转换,这也是其适配不同工业场景的核心逻辑。

场景具象化:两种序列处理逻辑的实际应用
DeepCAD正是沿用了Transformer的这两种序列处理逻辑,结合基础的立方体建模案例,可清晰理解其应用方式:核心自编码场景便是典型的"同序列还原"(类比"中文翻中文"),输入是由启动草图、4条绘制正方形边、完成对称拉伸、剩余部分由填充的60条定长CAD命令序列,模型经编码压缩与解码还原后,输出与输入格式完全一致的序列,仅核心参数存在微小误差,实现CAD序列的精准还原。而"跨序列映射"(类比"英文翻中文")则对应工业实用场景,同样以立方体为例,输入是其3D扫描得到的离散点云数据,经PointNet++编码为256维潜向量后传入模型,最终解码生成对应的标准化CAD命令序列,完成从离散点云到可编辑CAD模型的关键转换。


结合立方体建模,两种场景的输入、输出具体格式及内容如下,严格遵循DeepCAD的标准化规则(60条定长序列、16维参数向量,未用参数设为-1,连续参数量化为8位整数):
场景1:同序列还原(CAD命令序列→CAD命令序列,自编码场景)
输入格式:60条定长CAD命令序列,每条为"命令类型+16维量化参数向量",参数顺序:[x,y,α,f,r,θ,φ,γ,px,py,pz,s,e1,e2,b,u],无效部分用填充。
输入具体内容(核心有效命令,前8条):
- :[-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1](启动草图循环)
- L:[255,128,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1](水平向右画直线)
- L:[255,255,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1](垂直向上画直线)
- L:[128,255,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1](水平向左画直线)
- L:[128,128,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1](垂直向下画直线,闭合草图)
- :[-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1](草图结束)
- E:[-1,-1,-1,-1,-1,128,128,128,128,128,128,128,128,128,0,1](对称拉伸,新建实体)
- :[-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1](拉伸结束)
输出格式:与输入完全一致(60条定长CAD命令序列),仅核心参数存在≤3的量化误差。
输出具体内容 :命令类型与输入完全一致(→L×4→→E→×52),参数仅微小偏差(如L命令x从255变为253,E命令e1从128变为129),不影响立方体建模逻辑。

场景2:跨序列映射(3D点云→CAD命令序列,工业实用场景)
输入格式:PLY/XYZ格式3D点云文件,包含2000个均匀采样的立方体表面点,归一化至2×2×2立方体(坐标范围[-1,1]),经PointNet++编码为256维潜向量(模型实际输入)。
输入具体内容(点云示例,部分点坐标):(0.5,0.5,0.5)、(0.5,0.5,-0.5)、(0.5,-0.5,0.5)、(-0.5,0.5,0.5)、(-0.5,-0.5,-0.5)等2000个离散点,无结构化格式,仅包含三维坐标信息。
输出格式:60条定长CAD命令序列,与场景1输出格式完全一致,可直接解析为CAD可编辑模型。
输出具体内容:与场景1的输出完全相同(→L×4→→E→×52),生成的序列可转换为STEP格式,导入CAD工具后为标准立方体模型。

个人理解:Transformer的空间映射逻辑(CAD领域适配)
关于Transformer,我个人的理解是:它会将一种序列从原始的高维空间,映射到一个相对低维的潜空间,再从这个低维潜空间转化到目标的输出空间。原始高维空间是输入序列的载体,最后一个空间是输出序列的载体,而中间这个低维潜空间,相当于一个存储核心信息的变换矩阵,是序列特征的浓缩与提炼。推及到Transformer在CAD领域的应用,我们先将现有CAD数据进行标准化格式转换,让其在高维空间形成有效表示;当输入和输出空间都有了清晰的序列表示后,Transformer便能从海量数据中学习并提炼出CAD建模的内在规律与核心特征,最终基于这些学到的特征,实现新CAD序列的"无中生有"式生成。
总结:DeepCAD的里程碑意义与发展脉络
回望大模型与CAD融合的发展脉络,DeepCAD无疑是该领域从实验室理论探索走向工业级实际应用的关键里程碑。作为首个将Transformer与工业级CAD命令序列深度融合的模型,它不仅首创了"CAD序列类比自然语言"的核心思路,还构建了首个大规模CAD命令序列数据集,奠定了该方向的技术范式、数据基础与落地思路。如今PointerCAD、AutoBrep等新研究不断突破精度与功能边界,却始终以DeepCAD的核心架构为根基,其参数量化、定长序列表示等设计也被持续沿用与优化。重新审视DeepCAD,不仅能让我们清晰看到大模型与CAD融合的技术源头,更能从其凝练的逻辑中把握该领域的发展核心------让AI贴合工业CAD的原生设计逻辑,实现从"生成离散3D形状"到"生成可编辑建模逻辑"的跨越,而这也正是AI+CAD能够真正落地工业、服务生产的关键所在。