推理模型

深度解析 Grok 4.5：当推理模型遇上大规模工程实践在当前的大模型技术演进路线图中，我们正处在一个微妙的转折点。如果说过去两年是“预训练军备竞赛”的时代，那么当下无疑正在进入“推理与架构优化”的深水区。近期，xAI 发布的 Grok 4.5 在 Hacker News 上引发了技术社区的广泛讨论，这不仅仅是因为其性能指标的跃升，更因为它展示了在十万卡级集群上，模型架构与训练效率的极限平衡。

14-大模型智能体开发工程师：ReAct推理-行动框架系列文章导航：AI系列文章导航目录-持续更新中📝 本文摘要：本文详解ReAct框架——几乎所有现代Agent的推理基础。内容包括：纯ReAct问题（无全局规划、无错误反思、无记忆）、ReAct工作流（Thought→Action→Observation循环）、推理模式（直接推理/推理后行动/推理后放弃）、与传统规划方法对比（FSM/HTN/BFS）、现代Agent对ReAct的扩展（加入规划、反思、记忆），以及何时选择ReAct vs 规划优先的策略建议。

【LLM】一文理解推理大模型2024年，大语言模型领域呈现出日益细化的趋势。除了预训练和微调之外，我们还见证了各种专业化应用的兴起，从检索增强生成到代码助手，不一而足。我预计这一趋势将在2025年进一步加速，对特定领域和应用场景的优化（即“专业化”）将得到更加重视。图1：阶段1至阶段3是开发大型语言模型的通用步骤。阶段4则针对特定用例对大型语言模型进行专门化处理。

AI核心知识63——大语言模型之Reasoning Model （简洁且通俗易懂版）推理模型 (Reasoning Model) 是大语言模型进化出的一个全新物种。如果说 GPT-4、Claude 3 这种传统模型是“反应快、博学多才的百科全书” ；

微调高级推理大模型（COT）的综合指南：从理论到实践大规模语言模型（LLM）的预训练阶段，通过在海量文本语料库（例如，Llama 3使用了超过15万亿个token的数据）上学习，赋予模型广泛的世界知识和语言能力。然而，预训练本身不足以让模型成为可靠、有用且安全的工具。后训练（Post-training）是塑造模型行为、增强特定能力（尤其是复杂推理能力）并使其与人类价值观和偏好对齐的关键阶段。

微凉的衣柜

使用GRPO训练调度事件的语言模型！参考：https://huggingface.co/blog/anakin87/qwen-scheduler-grpo

CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning 学习笔记当前 VLMs 通过对齐视觉输入和语言输出训练，虽然整体表现好，但在需要细致视觉推理的任务上容易出错，比如无法正确识别图片中的细节内容。这是因为现有模型习惯直接给出结论，而缺乏中间推理步骤。

【大模型实战篇】vllm本地部署阿里最新的QwQ-32B推理模型以及体验3月6日凌晨，阿里巴巴发布并开源全新的推理模型通义千问QwQ-32B。通过大规模强化学习，千问QwQ-32B在数学、代码及通用能力上实现提升。在保持性能的同时，千问QwQ-32B还大幅降低部署使用成本，在消费级显卡上也能实现本地部署。

我是有底线的