STAgent：专为时空推理设计的智能代理模型

简介

在现实世界的复杂任务中，如旅行规划、路线优化和地点推荐等，需要模型具备强大的时空理解能力和工具调用能力。本文介绍的STAgent是一种专门为此类任务设计的智能代理模型，通过构建稳定的工具环境、高质量的数据构建框架和级联训练配方，在保持通用能力的同时显著提升了在时空推理任务上的表现。该模型基于Qwen3-30B-A3B，通过三阶段优化流程实现了在TravelBench等基准测试上的优异性能。

论文标题：STAgent: A Spatio-Temporal Agentic Model for Real-World Reasoning

来源：arXiv:2512.24957 $cs.AI$ + https://arxiv.org/abs/2512.24957

文章核心

研究背景

近年来，大型语言模型（LLMs）在工具调用方面的研究取得了显著进展，特别是在数学推理和代码测试等场景中。然而，对于现实世界中复杂的时空推理任务，如路线规划、旅行行程安排和地点发现等，现有的工具集成推理（TIR）方法仍然缺乏有效的解决方案。这些任务通常需要系统2模式的复杂推理，涉及多个外部工具的协调使用。STAgent正是为解决这类现实世界任务而设计的专门模型，它能够在复杂的时空场景中与多种工具交互，探索、验证并优化中间推理步骤。

研究问题

当前现实世界推理任务面临三个主要挑战：

如何构建灵活且稳定的推理环境？需要支持大规模并发工具调用，同时保证训练过程中工具调用与轨迹 rollout 的有效同步。
如何从海量历史查询中提炼高质量的训练数据？这些数据通常是无监督的，缺乏必要的知识，如查询的类别和难度。
如何进行有效的现实世界TIR训练？需要设计更适合复杂任务的训练配方，以提升模型性能上限。

主要贡献

STAgent的三个关键贡献：

稳定的工具环境：支持十种不同领域的专业工具，基于ROLL实现异步部署和训练。
分层数据构建框架：能够像在 haystack 中找 needle 一样识别高质量数据，以 1:10,000 的过滤比例提炼出高质量查询，强调多样性和难度。
级联训练配方：从种子 SFT 阶段开始，作为评估查询难度的守护者，然后在高置信度查询上进行第二次 SFT 微调，最终通过 RL 阶段利用低置信度数据，从而实现模型能力的持续提升。

方法论精要

STAgent的方法论主要包括三个核心组件：工具环境构建、高质量提示构建和级联智能后训练配方。这些组件共同构成了一个完整的端到端训练框架，专门针对现实世界的时空推理任务进行了优化。

环境构建

为了使STAgent能够以可控和可重现的方式与现实世界的时空服务交互，研究团队基于FastMCP开发了一个高保真沙箱环境。该环境作为代理推理能力与底层时空API之间的桥梁，为训练和评估期间的工具调用提供了标准化接口。为了减少大规模RL训练期间的API延迟和成本，实现了一个工具级别的LRU缓存机制，通过参数归一化最大化缓存命中率。工具库包含10个专业工具，涵盖地图导航、旅行交通、天气信息和信息检索四个功能类别，覆盖了时空用户需求的全谱系。

高质量提示构建

为了赋予STAgent全面的时空推理能力，研究团队基于大规模真实世界用户行为合成了一套高保真指令数据集。该数据集涵盖了从POI检索等原子查询到复杂多约束任务（如复杂行程规划）的完整谱系。研究团队利用了为期三个月的匿名在线用户日志作为主要数据源，总量达3000万条。关键挑战在于将这些嘈杂、非结构化的交互转化为适合训练复杂代理的结构化、高多样性指令数据集。

为此，研究团队构建了一个分层的意图分类体系（Intent Taxonomy），该体系作为精确注释、定量分布分析和控制采样的严格框架，确保数据集最大化任务类型多样性和难度多样性。该分类体系包含五个主要类别：规则与政策、发现、规划与决策、动态信息和应用交互，进一步细分为16个二级类别和30个细粒度叶节点，捕捉导航和旅行场景中现实世界查询的多面复杂性。

在数据构建过程中，研究团队采用了两阶段处理流程：精确多维注释和通过漏斗过滤的控制采样。在精确多维注释阶段，将意图理解视为一个多标签分类任务，每个用户指令映射到一个复合标签向量。在控制采样阶段，采用了三阶段漏斗过滤策略：词汇冗余消除、语义冗余消除和几何冗余消除，系统性地在词汇、语义和几何层面消除冗余。

级联智能后训练配方

STAgent的级联训练配方包括三个阶段：奖励设计、智能SFT和SFT引导的RL训练。

在奖励设计阶段，采用了基于评分的奖励方法，从三个核心维度评估代理交互质量：推理与主动规划、信息保真度与整合、以及展示与服务循环。奖励 $R \\in \[0, 1\]$ 基于以下标准计算：

推理与主动规划维度：评估代理制定经济有效执行计划的能力，奖励代理在面对模糊或略有错误的用户前提时主动纠正错误并解决问题的能力。
信息保真度与整合维度：衡量代理从工具输出中提取和合成信息的准确性，对任何无法在工具响应中找到的事实数据的虚构行为（如时间、价格和距离）立即给予0分奖励。
展示与服务循环维度：评估最终响应是否有效地关闭服务循环，优先考虑结构化、有帮助且提供可行下一步的响应。

在智能SFT阶段，研究团队设计了专门的训练数据构建策略，包括离线采样和强LLM合成。对于收集的查询，利用强LLM（DeepSeek-R1）生成TIR轨迹，并使用验证器（Gemini-3-Pro-Preview）根据奖励维度评分。仅保留所有维度得分完美的轨迹。为了增强模型在罕见复杂任务上的性能，采用了ICL合成数据的方法，采样现有数据分布中很少见的复杂工具组合，提示强LLM合成需要这些特定工具的用户查询。

在SFT引导的RL训练阶段，研究团队采用了GRPO（Group Sequence Policy Optimization）变体GSPO来稳定训练。GSPO通过重新定义重要性比率，将优化约束从token级别扩展到序列级别，计算比率作为整个生成轨迹长度上似然比率的几何平均值。训练目标最大化预期奖励，同时通过KL散度限制策略更新，防止与参考模型的显著偏差。

整个训练过程采用了动态能力感知课程学习策略，将训练数据根据难度动态分配。通过教师模型采样和合成，估计每个任务的可解性，将数据分为简单区域、噪声区域和可学习区域，仅保留可学习区域的数据。通过可学习潜力评分（Learnability Potential Score）量化每个查询的学习能力，确保监督信号最密集的地方是模型最不确定的地方，从而高精度地校正策略的决策边界。

实验洞察

STAgent的实验评估涵盖了领域特定的专业性能和跨各种任务的通用能力。在领域内评估中，研究团队在两个环境中测试了STAgent的专门性能：领域内在线评估和领域内离线评估。在领域内在线评估中，从覆盖五种任务类型和七个难度级别的1000个高质量查询中提取数据，对每个查询进行8次推理并计算平均分数。使用Gemini-3-flash-preview作为评判者比较AmapAgent和基线在不同维度上的胜率。

在领域内离线评估中，研究团队在TravelBench上评估Amap Agent，这是一个包含多轮、单轮和不可解子集的静态沙箱环境。按照默认协议，对每个查询运行三次推理（temperature 0.7）并报告平均结果。使用GPT-4-0414模拟用户，Gemini-3-flash-preview作为评分模型。

在通用能力评估中，研究团队在多样化的基准上评估了模型的性能，分为四个维度：工具使用与代理能力、数学推理、编码和通用对齐任务。在工具使用和代理能力方面，使用ACEBench和τ2-Bench评估模型在工具使用和复杂代理交互方面的熟练程度，同时使用BFCL v3评估函数调用能力。

实验结果表明，STAgent在所有三个评估维度上都显著优于基线模型Qwen3-30B-A3B-Thinking-2507。在上下文总结/提取（胜率：81.9%）和内容展示（胜率：73.7%）方面，STAgent表现出强大的能力，能够准确合成先前信息并有效地展示符合用户需求的解决方案。与Qwen-Plus-Latest相比，虽然STAgent在推理和规划方面存在性能差距，但在展示方面具有边际优势，在总结维度上具有显著优势。

在TravelBench基准测试中，STAgent在所有三个子任务上都取得了持续的改进，多轮任务（+11.85%）、单轮任务（+5.67%）和未解决任务（+26.06%）均优于Qwen3-30B-thinking基线。其整体得分（70.33）优于包括DeepSeekR1和Qwen3-235B-Instruct在内的大规模模型。

在通用领域评估中，STAgent在工具使用基准上表现出显著进步，表明在我们私有领域工具上训练的模型具有将工具调用能力推广到其他多样化功能领域的强能力。尽管是一个专门用于时空领域的模型，STAgent在通用领域仍然取得了出色的性能，同时保持了其强大的领域内能力，证明了我们训练方法的有效性。