论文精读第七期:告别昂贵的人工标注!Math-Shepherd:如何用“零成本”自动化过程监督,让大模型数学能力暴涨?大模型做数学题总是“一步错,步步错”?大家都知道“过程奖励模型(PRM)”效果好,但动辄几十万条的人工标注数据实在太贵了。 今天这篇博客将带你深度拆解北大与 DeepSeek 联合推出的 Math-Shepherd。它不仅提出了一种无需人类介入、基于蒙特卡洛思想的自动化数据构造方法,更在 GSM8K 和 MATH 榜单上全面碾压了传统方法。这不仅是数学推理的胜利,更是数据工程的一次教科书级示范。无论你是想复现 SOTA 效果,还是想寻找低成本提升模型逻辑能力的方案,这篇文章都不容错过。