让大模型真正”思考”:Reinforcement Pre-Training(RPT)论文解读与实践大语言模型(LLMs)一直是人工智能发展的核心驱动力,其预训练阶段通常依赖于海量的文本语料进行 next-token prediction(下一个 token 预测)。虽然这种方式训练出的模型表现优秀,但它本质上更像是“模式记忆”而非真正的“推理”。近期,微软和北大、清华联合提出的 Reinforcement Pre-Training(RPT)范式为我们带来了新的视角:让大模型在预测每一个 token 时,先思考,再决定。