主流7个大模型测评，谁更懂代码和空间感知？

这两年大家已经习惯让大模型写 CRUD、写脚本、甚至写简单前端 Demo，但真正落地到复杂 Web 场景时，问题会变得微妙：

一方面，大模型在代码生成这块已经相当成熟，能熟练复用 Three.js、React、Tailwind 之类的模式。
另一方面，真实世界的空间约束 （几何一致性、动线合理性、物体不穿模）却很容易被忽略，尤其到了 3D 任务，很多模型会出现「代码能跑，但场景完全不符合常识」的情况。linkedin

一些最新的研究也在讨论类似问题：传统 LLM 更擅长语言和代码模式，对 3D 空间关系的理解仍然薄弱，因此才会出现「物体重叠、布局自相矛盾」这类现象。arxiv+1

为了更直观地对比不同模型在代码能力 + 3D 空间感知上的综合表现，我设计了一个非常具体的任务：

让多个主流大模型，在统一约束下，用一个 HTML 文件实现 120㎡两室两卫的 3D 户型平面图。

html 复制代码

为我创建一个120 平方的3D平面图。 确保它有2个房间、 2个卫生间, 并且是一个可用的平面图。 使用HTML、 CSS、 JS 以及 Three.JS。 只给我一个可以运行并查看这个平面图的HTML文件。

所有模型收到的核心指令保持一致，关键约束包括：

目标场景：
- 约 120㎡的公寓户型
- 2 个卧室 + 2 个卫生间（两室两卫）
技术栈：
- HTML + CSS + JavaScript + Three.js
- 只允许返回一个可以直接运行的 HTML 文件，所有代码内嵌，方便直接双击预览
视觉形态：
- 需要呈现一个3D 户型平面图，包含基本的墙体、房间、门洞和简化家具

换句话说，这是一个「前端三件套 + Three.js + 建筑常识」的综合题。

这次参与测试的模型包括（按字母序）：

每个模型的输出我都保存成 HTML，在本地打开并截图，主要从"是否能跑"和"户型是否可信"两个层面做主观评估。

我觉得这个任务非常适合作为一个综合能力基准，它同时考察两条关键能力曲线：

这部分更偏向传统"Code LLM"的强项，属于模式化问题 ：只要学会几种常见 Three.js 场景搭建模板，就可以快速拼出一个能跑的 Demo。linkedin

真正区分模型水平的，是下面这些「非语法」约束：

这部分就不再是简单模板复用，而是对 3D 空间关系的理解和约束能力------很多最近的论文也在讨论如何给 LLM 加上更可靠的 3D 空间推理模块，可见这是当前模型的短板之一。

下面是一句话先行的整体结论：

详细来说：

几何正确：所有房间都在统一壳体内，墙体连续，看不到明显穿模或错层。
动线自然：从玄关进入客厅，再到主卧、次卧以及两个卫生间都能走得通，每个房间都有明确门洞。
语义清晰：Living Room、Kitchen、Dining、Master Bedroom、Bedroom 2、Master Bath、Bathroom 2 布局合理。
3D & UI 平衡：光照、家具体块和界面信息都在一个「适度」的水平，看起来就像一个可以给甲方看的 120㎡两室两卫小方案。

如果让我选一个结果改改文案、直接拿去做产品 Demo，我会首选 Mimo。