LLM论文笔记 25: Chain-of-Thought Reasoning without Prompting

Zhouqi_Hua2025-03-18 23:43

Arxiv日期：2024.5.31

机构：Google DeepMind

关键词

cot-decoding
推理路径
pretrain

核心结论

LLMs 不需要prompting就可以生成链式推理路径，prompting只是将这些能力显性化的一种手段
cot path 往往与更高的model confidence相关，可以用作可靠性的metric
探索多样化的解码路径能有效挖掘模型的内在推理能力，而不仅仅依赖于模型规模或训练数据的多样性
CoT-Decoding 可以弥补模型未经过指令调优时的推理能力缺陷，并在指令调优的模型中进一步优化性能
Cot-Decoding适用于多种任务和语言模型，显示出显著的通用性和鲁棒性

主要方法

（验证了内在推理能力的存在）使用pretrain模型，不使用greedy decoding，而是在第一个token预测使用top-k ：发现内化cot推理能力，且带cot的答案置信度更高

置信度衡量标准：

answer中每一个token在NTP时当前token和下一个token的概率差异

注：本系列不包括基础的知识点讲解，为笔记/大纲性质而非教程，用于论文知识点和思想和快速记忆和回顾，更多细节建议阅读论文原文

上一篇：Sublime Text 2.0.2 安装与汉化指南：从下载到中文包配置的完整教程

下一篇：python web开发django库安装与使用

热门推荐

01两千字总结：Codex 国内如何安装和使用的教程，以及如何设置中文回答 02GitHub 镜像站点 03智能库存管理的需求预测模型：从业务痛点到落地代码的完整实践 04UV安装并设置国内源 05Linux下V2Ray安装配置指南 06GitLab 零基础入门指南：从安装到项目管理全流程 07jdk21下载、安装（Windows、Linux、macOS）08KGG转MP3工具|非KGM文件|解密音频 09Claude Code & 智谱GLM-4.5 环境配置指南 (Windows/macOS/Ubuntu)1046个Nano-banana 精选提示词，持续更新中