Test-Time Compute Scaling(TTCS / TTS)推理时计算缩放

概念 - 传统训练缩放、TTCS

Test-Time Compute Scaling 推理时计算缩放 / 测试阶段算力扩展,业内简称:TTS

模型权重完全固定、不重新训练、不微调,仅在推理 / 测试阶段主动增加算力消耗,换取更高推理准确率

算力投入越多,任务效果越好,存在可量化的缩放定律(缩放定律)

传统 Pre-training Scaling(预训练缩放)

提升效果靠堆训练算力:

加大模型参数量、扩充训练数据、延长训练步数;成本极高,模型一旦训练完成,推理时只能单次前向,无法再提升能力

Test-Time Compute Scaling(TTCS)

训练完全结束,模型权重不变;

只在用户提问推理时额外消耗算力,让模型 "多思考、多试错、多验证",显著提升数学、代码、逻辑推理能力

(OpenAI o1、DeepSeek R1、Gemini Deep Think 底层核心技术)

Pre-training Scaling vs Test-time Scaling(预训练缩放 vs 推理时算力缩放)

participants pɑːˈtɪsɪpənt

n. 参加者,参与者

adj. 参与的

quo 拉丁语,原形 quod,本义:状态、情形、现状。日常英语几乎不会单独用,只固定出现在短语 status quo 里,现状/现传统/当前既定模式

最左侧:Status Quo Foundation Model(传统基座模型现状)

把算力切分成两块:大块 Training Time(预训练耗时)、小块 Test Time(推理 / 测试耗时)

传统方案只在「预训练阶段」堆算力;而图里分成两条技术路线做对比:

  • 上方黄色框:Pre-training Scaling 预训练缩放
  • 下方蓝色框:Test-time Scaling 推理时计算缩放(TTCS)

Pre-training Scaling 传统预训练扩容方案

算力分配

Training Time:占用绝大部分算力(长条填充)

Test Time:推理阶段只分配极少算力(窄条)

5 个短板

Limited Participants(人群头像)

提升效果只能靠实验室 / 企业自己花钱堆卡做预训练,普通用户、下游使用者无法参与优化模型,参与主体受限。

Resource Inefficient(负重小人)

资源效率极低:预训练烧海量算力、数据、资金,成本巨大,性价比差。

Performance bounded(性能曲线红点在上)

性能天花板被锁死:模型训练完成后,推理阶段算力固定,效果上限无法突破,曲线很快收敛。

Updated Slowly(蜗牛)

迭代更新极慢:重新预训练大模型动辄几周 / 数月,迭代周期漫长。

Test-time Scaling 推理时算力扩容(TTCS)

算力分配

Training Time:预训练算力保持不变(和传统方案一样长)

Test Time:大幅扩充推理阶段算力(填充条变宽,核心区别)

Extended Participants(地球)

参与主体无限扩大:所有终端用户推理时都能参与 "算力扩容",每个人提问时都可以额外分配算力做思考、采样、搜索,不再局限于训练方。

Resource efficient(轻装快跑小人)

资源利用高效:不用重复重训模型,只在推理时按需消耗算力,不用一次性投入巨额预训练成本。

Great Potential(性能曲线红点在下)

性能潜力巨大:推理算力越高,效果持续上涨,没有预训练带来的固定性能天花板;算力投入和效果正相关。

Updated Quickly(火箭)

迭代速度极快:不需要重新训练模型权重,只修改推理解码逻辑(CoT、多采样、自校验、MCTS 等),上线、调优、迭代速度飞快。

算力增量全部发生在用户发提问、模型生成答案的瞬间,不在训练机房。

对比

这里的TTCS是云端扩容

小结

传统思路(Pre-training Scaling):把所有资源砸在模型训练阶段,推理阶段几乎不分配算力,成本高/迭代慢/性能有上限、只有大厂能参与优化

TTCS 新思路(Test-time Scaling):训练算力不变,大幅增加推理时算力,让终端推理成为提升模型能力的核心环节

TTCS 是更优路线:资源利用率更高、所有人都能参与提升模型、效果上限更高、迭代更新速度远快于重新预训练

贴合行业实例

OpenAI o1、DeepSeek R1、Gemini Advanced 都是典型 TTCS 落地:

模型权重固定,推理时加长思维链、多路径采样、树搜索,靠推理算力换取更强逻辑能力,不用重新预训练大模型

四大主流实现方式(怎么 "增加推理算力")

上下文缩放(Internal Scaling)

延长 CoT 思维链,生成更长推理步骤,让模型分步推导;算力消耗随思考 token 线性上涨。

并行采样缩放(Batch Scaling / Best-of-N)

一次 prompt 并行生成 N 条答案,用打分器 / 模型自校验选出最优解;N 越大算力越高、正确率越高。

迭代精调缩放(Turn Scaling / Self-refine)

模型写完答案后,多次自查、修正、重写,多轮迭代优化输出。

搜索类缩放(MCTS / Beam Search)

对解题路径做树搜索,遍历多条推理分支,选出最优路径,算力消耗最大、提升最明显。

行业共识

同等算力下,TTCS 效果优于单纯堆大模型:小模型搭配充足推理算力,性能可超过参数大十几倍的原生模型

存在缩放收益递减:算力加到一定阈值后,准确率提升微乎其微,甚至出现 "过度思考(overthinking)" 反而答错

任务强相关:数学、竞赛代码、多跳逻辑收益极大;闲聊、简单分类几乎无提升

工程权衡:算力↑ → 准确率↑、延迟↑、吞吐量↓;生产环境需要自适应 TTCS,简单问题少分配算力,难题多分配算力

TTCS = Test-Time Compute Scaling(完整全称)

TTS = Test-Time Scaling(通用简称)

Inference-time scaling:同义,工程侧更常用

举例

同样 7B 开源模型:

普通推理:单次生成答案,GSM8K 数学正确率 62%

TTCS 开启(Best-of-16 + 长 CoT):多路径采样 + 长思考,算力翻 16 倍,正确率冲到 80%+

全程不重新训练模型,仅修改推理解码逻辑

附录

MCTS 含义

Monte Carlo Tree Search,蒙特卡洛树搜索

定义

一种启发式树搜索算法,结合随机采样(蒙特卡洛模拟)+ 树分支推演,用来在海量可选路径里找到最优决策;是大模型 Test-Time Scaling(推理时缩放)的核心技术之一

四大标准执行步骤(循环迭代)

Selection 选择

从根节点出发,按 UCB 公式挑选最有潜力的子节点,走到未完全探索的叶子

Expansion 扩展

给当前叶子新增一条 / 多条未尝试的分支(对应模型下一步可能输出的 token、推理步骤)

Simulation 模拟(蒙特卡洛随机推演)

从新节点快速随机走完一整条完整推理路径,得到这条分支的最终得分(比如数学题是否答对、逻辑是否通顺)

Backpropagation 反向传播

把模拟得到的分数回传给这条路径上所有祖先节点,更新每个分支的平均收益、访问次数,后续选择时优先高分路径

循环重复以上 4 步,算力投入越多,搜索越充分,答案越精准

和大模型 TTCS 的关系

传统单条 CoT、Best-of-N 只是简单并行采样;MCTS 是结构化深度搜索:

  • 普通推理:只生成 1 条思考链,算力极低,容易局部错误
  • MCTS 推理:把每一步推理拆成树分支,遍历多条解题路径、淘汰错误分支、择优,属于典型Test-Time Compute Scaling,靠推理算力换取更强逻辑、数学、代码能力

直观例子(数学解题)

题目:(12+8)×5

根节点:题目

扩展分支 1:先算 12+8=20;分支 2:先算 8×5=40(错误路径)

模拟推演:分支 1 算出最终 100(高分),分支 2 算出 52(低分)

反向更新权重,后续优先走 "先算括号" 的正确分支

迭代多次后,模型会稳定输出最优解题步骤。

经典落地场景

博弈 AI:AlphaGo、AlphaZero 核心算法(围棋、象棋);

大模型深度推理:o1、DeepSeek-R1、Qwen-R1 等推理模型,用于数学竞赛、代码、多跳逻辑;

机器人规划、调度决策。

优点

不用暴力穷举所有路径,随机采样大幅降低计算量;

天然适配大模型分步推理,解决长链条逻辑错误;

算力投入越多,搜索效果单调提升,完美契合 Test-Time Scaling 缩放定律。

缺点

推理延迟、显存消耗显著上升;

简单问答场景收益极低,只适合复杂推理任务。