# 大模型与CAD的融合：从DeepCAD出发的技术溯源与原理探析

溯源：大模型与CAD融合的开创者------DeepCAD

大模型与CAD的结合究竟发轫于何时？自ChatGPT掀起通用大模型的热潮，至今已有数年时间，PointerCAD、AutoBrep等相关研究论文也层出不穷，皆是该领域的新晋成果。但要论首个将大模型与CAD深度融合的开创性工作，答案无疑是DeepCAD------《DeepCAD: A Deep Generative Network for Computer-Aided Design Models》。有人或许会问，如今再看DeepCAD，是否已然过时？我认为并非如此，其蕴含的核心思想与首创性设计，至今仍具备极高的研究与应用价值；且相较于当下的诸多论文，DeepCAD的内容更凝练，逻辑也更简洁，是该领域当之无愧的基石之作，后续相关论文也均是在前人基础上不断完善、做加法。

核心突破：Transformer与CAD序列的创新性结合

DeepCAD的核心突破，在于首次将CAD命令序列类比自然语言，借助Transformer的序列建模能力构建自编码器，实现了CAD序列的编码压缩与解码生成。这一思路打破了传统3D生成模型的技术框架，成为后续所有AI+CAD生成类模型的核心架构。通俗来讲，就是将Transformer架构适配落地到CAD领域，把CAD的建模逻辑转化为类语言的序列，作为模型的输入与学习对象。

先懂Transformer：序列预测的两种核心形式

要理解这一设计，首先要明晰Transformer的核心特性：它拥有Encoder和Decoder双核心模块，核心目标是实现序列预测，而序列转换并非只有"跨序列映射"这一种形式------这是最常见的情况，比如英文翻译成中文；实际上还能实现"同序列还原"，也就是中文翻译为中文，输入与输出的序列格式完全一致。这两种形式，正是DeepCAD适配不同工业场景的核心基础。

DeepCAD核心原理：自编码器的CAD适配逻辑

DeepCAD的核心原理，正是依托Transformer的序列建模能力，将工业级CAD命令序列类比自然语言，构建自编码器完成建模与生成：先将CAD命令（如草图、拉伸）统一处理为60条定长序列，将连续参数量化为8位整数、未用参数设为-1，形成网络可识别的标准化输入；再通过Encoder将该序列编码压缩为256维低维潜向量，浓缩CAD建模的核心特征与规律；最后由Decoder从潜向量中解码，还原或生成新的标准化CAD命令序列，既实现同序列的精准还原，也能完成跨序列的转换，这也是其适配不同工业场景的核心逻辑。

场景具象化：两种序列处理逻辑的实际应用

DeepCAD正是沿用了Transformer的这两种序列处理逻辑，结合基础的立方体建模案例，可清晰理解其应用方式：核心自编码场景便是典型的"同序列还原"（类比"中文翻中文"），输入是由启动草图、4条绘制正方形边、完成对称拉伸、剩余部分由填充的60条定长CAD命令序列，模型经编码压缩与解码还原后，输出与输入格式完全一致的序列，仅核心参数存在微小误差，实现CAD序列的精准还原。而"跨序列映射"（类比"英文翻中文"）则对应工业实用场景，同样以立方体为例，输入是其3D扫描得到的离散点云数据，经PointNet++编码为256维潜向量后传入模型，最终解码生成对应的标准化CAD命令序列，完成从离散点云到可编辑CAD模型的关键转换。

结合立方体建模，两种场景的输入、输出具体格式及内容如下，严格遵循DeepCAD的标准化规则（60条定长序列、16维参数向量，未用参数设为-1，连续参数量化为8位整数）：

场景1：同序列还原（CAD命令序列→CAD命令序列，自编码场景）

输入格式：60条定长CAD命令序列，每条为"命令类型+16维量化参数向量"，参数顺序： $x,y,α,f,r,θ,φ,γ,px,py,pz,s,e1,e2,b,u$ ，无效部分用填充。

输入具体内容（核心有效命令，前8条）：

： $-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1$ （启动草图循环）
L： $255,128,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1$ （水平向右画直线）
L： $255,255,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1$ （垂直向上画直线）
L： $128,255,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1$ （水平向左画直线）
L： $128,128,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1$ （垂直向下画直线，闭合草图）
： $-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1$ （草图结束）
E： $-1,-1,-1,-1,-1,128,128,128,128,128,128,128,128,128,0,1$ （对称拉伸，新建实体）
： $-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1$ （拉伸结束）

输出格式：与输入完全一致（60条定长CAD命令序列），仅核心参数存在≤3的量化误差。

输出具体内容 ：命令类型与输入完全一致（→L×4→→E→×52），参数仅微小偏差（如L命令x从255变为253，E命令e1从128变为129），不影响立方体建模逻辑。

场景2：跨序列映射（3D点云→CAD命令序列，工业实用场景）

输入格式：PLY/XYZ格式3D点云文件，包含2000个均匀采样的立方体表面点，归一化至2×2×2立方体（坐标范围 $-1,1$ ），经PointNet++编码为256维潜向量（模型实际输入）。

输入具体内容（点云示例，部分点坐标）：(0.5,0.5,0.5)、(0.5,0.5,-0.5)、(0.5,-0.5,0.5)、(-0.5,0.5,0.5)、(-0.5,-0.5,-0.5)等2000个离散点，无结构化格式，仅包含三维坐标信息。

输出格式：60条定长CAD命令序列，与场景1输出格式完全一致，可直接解析为CAD可编辑模型。

输出具体内容：与场景1的输出完全相同（→L×4→→E→×52），生成的序列可转换为STEP格式，导入CAD工具后为标准立方体模型。

个人理解：Transformer的空间映射逻辑（CAD领域适配）

关于Transformer，我个人的理解是：它会将一种序列从原始的高维空间，映射到一个相对低维的潜空间，再从这个低维潜空间转化到目标的输出空间。原始高维空间是输入序列的载体，最后一个空间是输出序列的载体，而中间这个低维潜空间，相当于一个存储核心信息的变换矩阵，是序列特征的浓缩与提炼。推及到Transformer在CAD领域的应用，我们先将现有CAD数据进行标准化格式转换，让其在高维空间形成有效表示；当输入和输出空间都有了清晰的序列表示后，Transformer便能从海量数据中学习并提炼出CAD建模的内在规律与核心特征，最终基于这些学到的特征，实现新CAD序列的"无中生有"式生成。

总结：DeepCAD的里程碑意义与发展脉络

回望大模型与CAD融合的发展脉络，DeepCAD无疑是该领域从实验室理论探索走向工业级实际应用的关键里程碑。作为首个将Transformer与工业级CAD命令序列深度融合的模型，它不仅首创了"CAD序列类比自然语言"的核心思路，还构建了首个大规模CAD命令序列数据集，奠定了该方向的技术范式、数据基础与落地思路。如今PointerCAD、AutoBrep等新研究不断突破精度与功能边界，却始终以DeepCAD的核心架构为根基，其参数量化、定长序列表示等设计也被持续沿用与优化。重新审视DeepCAD，不仅能让我们清晰看到大模型与CAD融合的技术源头，更能从其凝练的逻辑中把握该领域的发展核心------让AI贴合工业CAD的原生设计逻辑，实现从"生成离散3D形状"到"生成可编辑建模逻辑"的跨越，而这也正是AI+CAD能够真正落地工业、服务生产的关键所在。