ACTS：代理链式思考 Steering 用于高效且可控的 LLM 推理

来源： arXiv:2606.03965

链接： https://arxiv.org/abs/2606.03965

优化日期： 2026-06-01

领域： 大模型推理（LLM Reasoning）、链式思考（Chain-of-Thought）、推理控制、强化学习

📌 概述与核心贡献

ACTS (Agentic Chain-of-Thought Steering) 提出了一种将推理控制从"全局长度约束"转向"分步策略级控制"的新范式。传统的链式思考（CoT）虽然提高了准确率，但在推理效率上往往表现不佳，且缺乏对推理过程的精细控制。ACTS 将推理控制建模为一个马尔可夫决策过程（MDP），通过一个轻量级的控制器代理（Controller Agent）动态选择推理策略并自然语言表达（如"PLAN"或"CHECK"）来引导冻结的推理器（Reasoner）。

核心贡献：

推理即控制（Reasoning as Control）： 将推理过程视为 MDP，控制器在每一步选择策略并生成自然语言提示，引导推理器进行高效推理。

策略集（Strategy Set）： 预定义了一组策略，包括 UNDERSTAND（理解）、PLAN（规划）、EXECUTE（执行）、EXPLORE（探索）、CHECK（检查）、SUMMARIZE（总结）、CONCLUDE（得出结论）。
异步解耦架构： 控制器与推理器作为异步解耦的服务器运行，通过 HTTP 通信，有效摊销了延迟，保持了高吞吐量。

🏗️ 架构机制

推理控制作为 MDP

状态 (Ht−1H_{t-1}Ht−1)： 包含之前的动作、推理器步骤以及剩余的预算比例 btb_tbt。
动作 (at=(ut,pt)a_t = (u_t, p_t)at=(ut,pt))：
- ut∈Uu_t \in \mathcal{U}ut∈U：从预定义策略集中选择的高层推理策略。
- ptp_tpt：自由形式的自然语言引导短语，用于初始化推理器。
策略集 U\mathcal{U}U： {UNDERSTAND, PLAN, EXECUTE, EXPLORE, CHECK, SUMMARIZE, CONCLUDE}
状态转移： 推理器在给定策略短语 ptp_tpt 的条件下生成延续 sts_tst。预算更新为 bt=bt−1−ℓ(zt)/Bb_t = b_{t-1} - \ell(z_t)/Bbt=bt−1−ℓ(zt)/B。
终止条件： CONCLUDE 动作、<|end|> 标记或最大步骤限制。

控制器与推理器的解耦

异步服务器通信： 控制器（Controller）和推理器（Reasoner）作为解耦的异步服务器运行（通过 SGLang），通过 HTTP 通信。
吞吐量优化： 这种设计摊销了延迟，保持了与直接生成（Direct Generation）相当的吞吐量。

📐 训练管线与步骤

训练阶段概览

阶段	方法	关键细节
1. 合成轨迹构建	提取自专家轨迹	使用 DeepSeek-R1 轨迹（来自 OpenR1-Math）。LLM 标注器（Qwen3-32B）将步骤分类到 U\mathcal{U}U 并提取引导短语。在段落边界（`.\\n\\n` 或 `?\\n\\n`）进行分段。
2. 多预算增强	重新缩放预算	让控制器暴露于不同的终止 regimes：`耗尽型(0%)`、`早终止型(0-40%)` 和 `全预算型`。模拟不同的用户预算和题目难度。
3. 监督微调 (SFT)	行为初始化	最小化控制器转向损失。学习率：`1e-5`，批次大小：`64`。
4. 强化学习 (GRPO)	预算条件奖励塑形	优化准确率与预算合规性。惩罚过度思考与过早终止。组大小：`8`， rollout 批次：`32`。

预算条件奖励塑形公式

终端奖励对低效推理进行非对称惩罚：

R(τ,y^)={1+αmin⁡(bT,0),c=1 (正确答案)−α∣bT∣,c=0 (错误答案) R(\tau, \hat{y}) = \begin{cases} 1 + \alpha \min(b_T, 0), & c=1 \text{ (正确答案)} \\ -\alpha |b_T|, & c=0 \text{ (错误答案)} \end{cases} R(τ,y^)={1+αmin(bT,0),−α∣bT∣,c=1 (正确答案)c=0 (错误答案)

α∈ $0,1$ \alpha \in $0, 1$ α∈ $0,1$ 控制惩罚幅度（默认 0.5）。
bT=0b_T=0bT=0 周围的 10% 余量可防止微小的边界超调触发惩罚。

📊 关键结果与基准测试

基准测试与模型

基准： MATH-500, AIME24, AMC (2022/2023), OlympiadBench (数学子集), GPQA Diamond (科学问答)
推理器评估： DeepSeek-R1-Distill-Qwen-{1.5B, 7B}, Qwen3-8B
指标： 准确率 (Acc), 总令牌数 (#Tok), 令牌节省 (% )

📈 性能亮点

方法	MATH-500 准确率	相比 Vanilla 的令牌节省	AIME24 准确率	相比 Vanilla 的令牌节省
Vanilla	83.6%	-	28.0%	-
ACTS (1.5B)	82.8%	53.3%	36.7%	37.9%
ACTS (7B)	85.2%	57.0%	60.0%	37.1%
ACTS (Qwen3-8B)	95.2%	37.0%	73.3%	24.7%

准确率-效率折衷： ACTS 曲线严格位于 Vanilla/无思考（NoThink）插值线之上，实现了对准确率与令牌成本之间的平滑控制。
泛化性： 在 GPQA Diamond 上实现了 +11.9% 准确率提升，且无需任何科学领域训练，归因于领域无关的过度思考校正机制。
机制分析： 令牌节省源于 Rescue （高效纠正错误答案）和 Shorten （修剪冗余验证），而非无差别的截断。回归（ACTS 错误而 Vanilla 正确）占令牌节省的 <5%。
吞吐量： 异步管道实现了 ~99% 的 Vanilla 吞吐量（在 1-11% 的下降范围内），优于迭代型早退出基线（如 DEER）。

📝 局限性与未来工作

模型规模： 评估仅限于最多 8B 的参数。扩展到 70B+ 或前沿专有模型是未来的工作。
预算假设： 假设推理时提供了外部预算。完全自主的自适应预算估计（例如，通过难度估计）是未来的工作。
领域范围： 目前主要集中在数学和科学推理，未来将扩展到其他领域。

📋 实验步骤与资源下载

实验环境配置

bash 复制代码

# 克隆 ACTS 仓库
git clone https://github.com/acts-reasoning/ACTS.git
cd ACTS

# 创建环境
conda create -n acts python=3.10
conda activate acts

# 安装依赖
pip install -r requirements.txt

# 下载预训练模型与权重
bash scripts/download_models.sh

运行评估

bash 复制代码

# 运行推理控制评估
python run_evaluation.py --model Qwen3-8B --benchmark MATH-500

# 运行不同预算的测试
python run_evaluation.py --model Qwen3-8B --budget_ratio 0.5

# 生成吞吐量报告
python run_throughput.py --config throughput_config.yaml

资源下载与验证

bash 复制代码

# 下载合成轨迹数据
bash scripts/download_synthetic_data.sh --source OpenR1-Math

# 验证推理器与控制器解耦性能
python verify_async_pipeline.py --controller controller_server.json --reasoner reasoner_server.json

# 运行 GRPO 训练步骤
bash scripts/run_grpo.sh --budget_condition adaptive

🔍 领域专家总结

ACTS（Agentic Chain-of-Thought Steering）通过将推理过程建模为马尔可夫决策过程（MDP），成功解决了大语言模型在推理过程中"过度思考"（Overthinking）与资源浪费的问题。

其核心突破在于：

策略级控制（Strategy-Level Control）： 不再仅仅约束长度，而是通过控制器在每一步选择策略（如 PLAN、CHECK），引导模型高效推理。
异步解耦（Asynchronous Decoupling）： 将控制器与推理器解耦并通过异步服务器运行，实现了高吞吐量与低延迟的平衡，吞吐量损失控制在 11% 以内。
精准惩罚机制： 通过非对称的预算条件奖励塑形（Budget-Conditioned Reward Shaping），有效抑制了过度推理和过早终止，同时实现了卓越的准确率-效率折衷。

该研究为高效推理提供了一种具有高度可控性的工程化方案，特别适合资源受限且对推理延迟敏感的部署场景。

本文基于 arXiv:2606.03965v1 优化整理，保留原始实验步骤、脚本及资源链接。