人大:揭示大模型推理的几何约束机制

📖标题:Reasoning emerges from constrained inference manifolds in large language models

🌐来源:arXiv, 2605.08142v1

🛎️文章简介

🔸研究问题:大语言模型的推理能力如何在内部表征空间中涌现,能否不依赖标注基准来评估推理质量?

🔸主要贡献:论文发现LLM推理涌现于受约束的推断流形中,提出一种仅基于内部动力学的无标签推理健康诊断指标。

📝重点思路

🔸使用通用认知刺激作为输入,在多个模型家族和规模上提取推理过程中每层最后一个token的隐藏状态,构建高维表征空间中的推断轨迹。

🔸通过内在维度估计方法量化表征轨迹的维度压缩程度,发现推理动力学自发坍缩到远低于嵌入维度的低维流形上。

🔸引入信息体积度量来评估压缩流形内的信息承载能力,发现仅靠维度压缩不足以保证鲁棒推理。

🔸提出统一的无标签诊断指标H,综合表征表达力、自发流形压缩和压缩子空间内非退化信息体积三个结构约束条件。

🔎分析总结

🔸推理表征在推断过程中自发组织为低维流形,内在维度随网络深度快速下降并稳定在个位数水平。

🔸低维结构本身不能解释推理性能差异,过度压缩会导致信息贫乏的病态动力学。

🔸有效推理需要三个条件协同满足:充足的表征表达力、自发流形压缩、压缩流形内保留非退化信息体积。

🔸提出的诊断指标H与下游推理性能高度相关,能够在不依赖任务标注的情况下区分结构健康的推断与病态动力学。

💡个人观点

论文将推理从黑箱输入输出映射转变为可分析的内在动力学过程,首从几何和信息论视角刻画了LLM推理的结构性约束。

相关推荐
静Yu9 分钟前
从“生成一篇知识点”到“面对面讲清一道题”:我用魔珐星云改造 AI 教育助手的实践
人工智能
陈天伟教授11 分钟前
图解人工智能(60)人工智能应用-AI游戏
人工智能·游戏
deephub13 分钟前
AI Agent的三重记忆机制:打造高可用的多维记忆系统
人工智能·大语言模型·agent·记忆
逻极16 分钟前
Windows 平台 Ollama AMD GPU 一键编译指南:基于 ROCm 7.1 的自动化实战
人工智能·windows·stm32·自动化·gpu·amd·ollama
m0_5474866624 分钟前
《虚拟化技术与应用项目教程》全套PPT课件
人工智能·虚拟机
小饕29 分钟前
RAG学习之【向量数据库】Milvus 从入门到精通:索引、检索、混合搜索一篇打通(RAG 必备)
数据库·人工智能·学习·milvus
华奥系科技29 分钟前
汛期城市内涝治理:智慧水务如何重塑防汛“安全感”?
大数据·运维·人工智能
aneasystone本尊31 分钟前
给小龙虾配齐工具箱:OpenClaw 的工具体系
人工智能
m0_7186774932 分钟前
EaseChart:免费的流程图编辑器和付费的AI流程图Agent
人工智能
不羁的木木33 分钟前
HarmonyOS AI开发提效工具:DevEco Code & DevEco CLI - 跨设备调试与AI应用部署
人工智能·华为·harmonyos·鸿蒙