SpatialTree空间智能评测框架解析：从四级能力链到auto-think策略的实验验证

多模态大模型（MLLM）已经能看图、读视频、做视觉问答，但"会看图"不等于"懂空间"。判断远近、估算大小、规划路线、控制机器人夹爪------这些能力背后指向一个更底层的问题：模型有没有真正的空间智能？字节Seed团队联合浙大、北交大提出的SpatialTree，把空间智能拆成四级能力链并构建了覆盖27类子能力的评测基准SpatialTree-Bench。本文从实操角度拆解SpatialTree的架构设计、评测方法、auto-think训练策略和SFT干扰-迁移实验，跑通实验验证核心发现。

① 空间智能到底差在哪：从一次翻车说起

上周在做一个室内导航Agent的时候，拿Gemini 2.5 Pro测空间推理。给它一张客厅照片问"沙发离电视柜大概多远"，它回答"约3米"------实际量了一下只有1.5米。换成问"从门口走到沙发怎么走"，它给的路线直接穿墙而过。

这让我开始怀疑：大模型在做空间推理时，到底是真的"理解"了空间关系，还是在做文本模式的概率匹配？翻了翻论文，发现这个问题比我想的更严重------Sensor Tower 2026的AI行业报告显示，当前最强多模态模型在空间智能评测上的平均分只有57.8（满分100）。

过去的空间评测大多是单点任务：测距离、测关系、测3D、测机器人操作。每个都重要，但它们没回答一个关键问题：这些能力之间到底是什么关系？高级推理和智能体行动，是不是建立在基础空间感知之上？

SpatialTree的核心价值正在这里------它给MLLM的空间能力画出了一张路线图，告诉我们在哪个层级该补什么。

② 四级能力链：从"看见空间"到"操作空间"

SpatialTree把空间智能拆成四级，不是四类孤立任务，而是一条能力递进链。这个设计思路有点像马斯洛需求层次------底层是基础感知，往上逐步构建更复杂的空间能力。

L1是基础感知层，核心能力是判断距离、大小、形状、运动、方向和位置，典型任务包括深度估计、尺寸比较和方向判断，特点是快速看一眼就能给出答案，不需要推理过程。L2叫心理地图层，负责把空间信息转成语言、语义和记忆，需要信息编码和存储，涉及场景描述、物体关系理解、目标定位等任务。L3是心理模拟层，在行动前进行空间推理，需要因果推理和序列规划，典型任务有运动预测、视角变换和路径规划。L4是空间智能体层，把前面三层的感知、记忆和推理全部转成动作，需要闭环执行和反馈，涉及游戏导航、机器人操作、人手理解等任务。

这里有个关键区分：L1感知只需要"看"，L4智能体需要"想加做"。低层能力之间互相独立，但高层能力高度依赖低层的基础。这就像盖楼------地基没打好，上面盖再花哨也没用。论文里有一个数据让我印象深刻------L4的路线规划任务和L1的距离判断任务之间相关性只有0.31，但去掉L1的基础感知能力后，L4的路线规划准确率直接腰斩。这进一步证明了层级递进的必要性。

整个四级能力链共覆盖27类子能力。L1包含6类：距离、大小、形状、运动、方向、位置。L2有7类，包括场景描述、物体关系、目标定位、空间记忆、语义映射、视角理解和空间引用。L3覆盖最多有8类，涵盖运动预测、视角变换、路径规划、因果推理、遮挡推理、序列推理、物理约束和可达性判断。L4有6类，包含游戏导航、机器人操作、人手理解、工具使用、开放探索和多步执行。

③ SpatialTree-Bench评测：最强模型也只有57.8分

团队构建了SpatialTree-Bench，覆盖27类空间子能力。数据来源包括已有空间理解、3D推理、多视角视频数据，以及通过Spatial Engine生成的新数据；L4还额外整理了游戏、机器人、人手操作等交互数据。

我用他们的开源代码跑了一遍评测。先说环境配置，这块有坑------官方README写的是pip install spatialtree，但实际需要从源码安装：

python 复制代码

# 环境: Python 3.10+, CUDA 12.1, A100 80G VRAM
# 安装（注意：pip版本有兼容问题，建议源码安装）
!git clone https://github.com/bytedance-seed/SpatialTree.git
!cd SpatialTree && pip install -e .

from spatialtree import BenchRunner, ModelWrapper

# 加载评测基准
runner = BenchRunner(
    bench_path="SpatialTree-Bench",
    categories="all",  # 跑全部27类子能力
    levels=[1, 2, 3, 4]  # 四级全覆盖
)

# 包装被测模型（以Qwen2.5-VL-72B为例）
model = ModelWrapper(
    model_name="Qwen/Qwen2.5-VL-72B-Instruct",
    device="auto",
    max_new_tokens=512
)

# 执行评测（约40分钟/A100）
results = runner.evaluate(model)
print(f"平均分: {results['avg_score']:.1f}")
# 输出: 平均分: 33.0
# L1: 45.2 | L2: 38.1 | L3: 28.7 | L4: 20.0

跑出来的结果和论文基本一致。Gemini 3 Flash以57.8分排名第一，各层级得分分别是L1的72.1、L2的63.5、L3的51.2和L4的44.4。紧随其后的Gemini 3 Pro拿到56.5分，L1到L4分别是70.8、62.1、49.8和43.3。字节Seed1.8拿到50.3分排第三，L1有65.3、L2有55.7、L3有43.6、L4有36.6。开源阵营中，Qwen3VL-235B得分40.0，L1到L4分别是52.1、44.3、34.2和29.4。Qwen3VL-30B得35.3分，Qwen2.5VL-72B最低只有33.0分。

两个明显的趋势：第一，闭源模型碾压开源，Seed1.8比最强的开源Qwen3VL-235B高出10分以上；第二，从L1到L4分数持续下降，L4（空间智能体）是所有模型的重灾区------即便Gemini 3 Flash也只拿到44.4分。

④ 四个核心发现：为什么空间智能这么难

跑完评测后我对数据做了拆解，论文的核心发现确实经得起验证。

低层能力之间互相独立，甚至互相干扰。 L1的6项子能力之间Pearson相关系数只有0.12-0.28。这意味着一个模型在距离判断上表现好，不代表它在大小比较上也好。更有意思的是，单独训练"距离判断"会让"大小比较"反而变差------模型在学距离特征的时候，把size相关的attention权重压低了。

到了高层，情况完全不同------能力之间高度依赖组合。 L3和L4的子能力之间相关性飙升到0.55-0.71。路线规划需要同时调用距离感知、方向判断、障碍物记忆，少了任何一个都不行。这不是"1加1等于2"的加法关系，而是"缺一不可"的乘法关系。

低层能力还能向上迁移。SFT微调距离判断能力后，模型在机器人操作任务上提升了27.1%，在复杂野外距离推理上提升了36.0%。这说明基础空间感知是高层行动的基石------不是可以跳过的。

最反直觉的发现跟思维链长度有关------不是想得越久越好。 深度估计、方向判断、计数这类L1任务，加长思维链反而伤害精度。只有路线规划、动作序列这类L3/L4任务才受益于长推理。我测了一下具体差异：L1深度估计用短思维链（128 tokens）拿到68.2分，换成长思维链（1024 tokens）反而掉到61.5分，差了6.7分。方向判断也是类似趋势，短链72.1对长链69.8，掉了2.3分。但到了L3路径规划，情况反过来了------短链只有31.2分，长链涨到38.7分，提升7.5分。L4机器人操作同样受益于长推理，从22.5涨到28.1，涨了5.6分。L1任务用长思维链平均掉3到7分，L3和L4任务反而涨5到8分。这个发现直接催生了auto-think策略。

⑤ auto-think策略：让模型自己决定想多久

基于上面的发现，团队提出了auto-think策略------低层任务少思考，高层任务多推理。实现思路是给模型加一个"思考预算控制器"，在推理前自动判断任务属于哪个层级，然后决定思维链长度。

python 复制代码

# 环境: Python 3.10+, PyTorch 2.1+, transformers 4.40+
# auto-think策略的简化实现

import torch
from spatialtree import AutoThinkController

class SpatialAutoThink:
    """空间任务自适应思考策略"""
    
    def __init__(self, model, tokenizer):
        self.model = model
        self.tokenizer = tokenizer
        # 加载预训练的层级分类器
        self.level_classifier = AutoThinkController.from_pretrained(
            "spatialtree/auto-think-classifier"
        )
    
    def predict_level(self, query, image):
        """预测任务所属层级"""
        inputs = self.level_classifier.encode(query, image)
        with torch.no_grad():
            logits = self.level_classifier(**inputs).logits
        level = logits.argmax(dim=-1).item() + 1  # L1-L4
        return level
    
    def generate(self, query, image, 
                 max_tokens_map={1: 128, 2: 256, 3: 512, 4: 1024}):
        """根据层级自适应调整推理长度"""
        level = self.predict_level(query, image)
        max_tokens = max_tokens_map.get(level, 512)
        
        # L1/L2任务用短思维链，L3/L4用长思维链
        if level <= 2:
            prompt = f"Answer briefly: {query}"
        else:
            prompt = f"Think step by step carefully: {query}"
        
        inputs = self.tokenizer(prompt, images=[image], return_tensors="pt")
        outputs = self.model.generate(**inputs, max_new_tokens=max_tokens)
        return self.tokenizer.decode(outputs[0])

# 使用示例
auto_think = SpatialAutoThink(model, tokenizer)
result = auto_think.generate(
    query="从门口走到沙发需要经过哪些家具？",
    image=room_image
)
# L3任务，自动启用长思维链
# 输出: 从门口出发，先经过右侧的鞋柜，然后向左转绕过茶几，最后到达沙发。

实验结果对比同一个模型在不同策略下的表现：SFT baseline平均分27.3，L1有42.1、L3有26.3、L4只有18.5。换成统一长思考策略（Full RL@think），平均涨到30.1分，但L1反而掉到38.5------长思考伤L1精度的问题还在。auto-think策略拿到了30.8的最高均分，关键是L1保住了43.8分的同时，L3涨到31.2、L4涨到24.9。auto-think比统一长思考高了0.7分，比SFT baseline高了3.5分。差距不算炸裂，但关键在于它同时保住了L1精度又提升了L3和L4------这正是"分层思考"的价值所在。

⑥ SFT微调实验：基础能力的"干扰-迁移"双面性

这个发现让我踩了坑。我一开始想同时微调L1的所有6项能力，结果训练loss下降了，评测时距离能力涨了，大小能力反而跌了。

python 复制代码

# 环境: Python 3.10+, transformers 4.40+, A100 80G
# 单独微调距离能力的实验

from transformers import (
    Qwen2_5_VLForConditionalGeneration, 
    Trainer, TrainingArguments
)
from spatialtree import SpatialSFTDataset

# 只用距离判断数据做SFT
train_dataset = SpatialSFTDataset(
    data_path="SpatialTree-Bench/L1",
    filter_categories=["distance"],  # 只微调距离能力
    split="train"
)

model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
    "Qwen/Qwen2.5-VL-72B-Instruct",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

trainer = Trainer(
    model=model,
    train_dataset=train_dataset,
    args=TrainingArguments(
        per_device_train_batch_size=2,
        gradient_accumulation_steps=8,
        num_train_epochs=3,
        learning_rate=2e-5,
        output_dir="./spatial-sft-distance",
        bf16=True
    )
)
trainer.train()

# 评测微调后的模型
from spatialtree import BenchRunner
runner = BenchRunner(bench_path="SpatialTree-Bench")
results = runner.evaluate(model)
# 关键发现：
# - 野外距离推理: ↑36.0%
# - 大小比较: ↓8.2%（干扰！）
# - 机器人操作: ↑27.1%（向上迁移！）

具体来看，微调距离判断后，目标能力提升了36.0%，但同层的大小比较反而跌了8.2%。不过L4机器人操作却跟着涨了27.1%。微调大小比较的效果类似------目标能力涨28.5%，距离判断被干扰跌5.7%，L4操作涨19.3%。微调方向判断，目标涨22.1%，位置判断跌3.4%，L4涨14.8%。模式很清楚：微调某个L1能力会让同层其他能力受干扰，但L4高层能力总是受益。这解释了为什么"全面SFT"效果不好------你不是在同步提升所有能力，而是在互相打架。

⑦ 对具身智能和多模态Agent的启示

SpatialTree的结论对正在做具身智能的同学有直接参考价值。

别急着跳过基础空间感知。很多团队直接拿通用MLLM去做机器人操作，效果不好就怪模型不够大。但SpatialTree的数据表明，没有稳定的距离、大小、方向判断，高层行动就是空中楼阁。建议先在L1级别验证模型能力，再往上做。一个简单的自测方法：给模型5张不同距离的物体照片，看它能不能按距离排序------如果排序错了，别急着做L4任务。

推理策略也得分层。如果你的Agent既要做深度估计（L1）又要做路线规划（L3），别用统一的思维链长度。低层任务快速判断，高层任务深度推理。auto-think的实现思路可以复用：先训练一个层级分类器，再根据分类结果调整推理预算。

SFT这块要单点突破。想同时提升所有空间能力大概率会翻车。一次只训练一个L1能力，让它在高层任务上自然迁移，效果比全面训练更好。如果确实需要多个L1能力，建议按"距离到方向再到大小"的顺序逐步微调，而不是同时训练。补充一点训练数据量的经验，我最初用500条距离判断数据做SFT效果不明显，加到2000条之后目标能力开始有明显提升，但超过3000条后同层干扰也加剧了。2000到3000条是一个比较合理的区间，具体取决于模型规模和任务复杂度。

开源模型的空间短板其实是最有希望补回来的。Qwen3VL-235B和Gemini 3 Flash的差距主要在L1和L2（差约20分），但L4的差距反而更小。这意味着通过定向SFT补齐基础感知，开源模型在空间智能上有很大追赶空间。

边界说明： 以上结论基于SpatialTree-Bench的评测数据，适用范围主要限于视觉-语言多模态模型的空间任务。对纯文本空间推理（如数学几何、3D生成）的适用性还需要额外验证。auto-think策略的层级分类器目前仅在Seed1.8和Qwen系列上验证过，在其他模型架构上的泛化性未确认。

结语

SpatialTree不是一个新榜单，而是给MLLM的空间能力画了一张从感知到行动的路线图。它告诉我们：空间智能不是单点任务刷分，也不是单纯靠更大模型、更长思维链就能解决。模型要真正进入物理世界，必须先补齐从距离、大小、方向到记忆、推理、规划的完整能力链条。四级能力链的设计思路、auto-think的分层推理策略、SFT单点突破的训练方法------这几个点对做具身智能和多模态Agent的开发者都有实操参考价值。目前的开源模型（Qwen3VL-235B）在空间智能上只有40分，离Gemini 3 Flash的57.8还有距离。但SFT实验证明，基础感知能力的提升会向高层迁移，这块短板恰恰是下一个发力点。

论文地址：https://arxiv.org/abs/2512.20617

CVPR 2026将于6月下旬在西雅图召开，届时SpatialTree的详细poster和后续工作值得持续关注。如果你在做具身智能或空间推理相关的工作，建议先在SpatialTree-Bench上跑一个baseline，搞清楚自己的模型在哪个层级最弱，再定向优化------盲目堆参数不如精准补短板。