关于GPT5训练失败的思考

作者：姚广

1. 大模型：AI仍是硅谷的热门话题，但不如去年狂热

硅谷对AI的关注依然持续，但热度有所降低，主要原因是大模型扩展速度的放缓，尤其是训练算力需求的下降。大约3-4周前，谷歌内部在训练Gemini下一代模型（比上一代大10倍，类似GPT-5）时，两次尝试都失败了。这也解释了GPT-5的发布延迟。

目前，硅谷普遍认为，在LLM层面，进一步扩大模型规模变得更加困难，主要是因为：

因此，不排除GPT-5继续延期的可能性。

思考一：

在日常使用GPT-4的过程中，我发现其输出在许多场景下已经非常接近"完美"。这里的"完美"并不意味着通用人工智能（AGI）已经实现，而是在现有系统形态下，基于有限的信息给出的回复，已接近理论上应该有的最佳回答。

许多问题之所以没有得到满意的答复，主要是因为输入的信息不足。

思考二：

虽然模型拥有强大的上下文处理能力，在搜索和总结类场景中表现出色，但在复杂推理场景中，我们不能期望现有技术能实现长上下文的复杂推理。

现有模型更像是一种"快速思考"系统，对于涉及多阶推理、前后信息对比、路径探索和经验积累等复杂任务，不应期望其能在内部完成。COT（思维链）的应用实际上表明推理是外部化的，而"慢思考"应通过Agent架构来实现。

思考三：

对于一些问题，比如精确的数学计算，不应期望现有模型直接解决。对人类来说，简单的计算依赖记忆，而稍复杂的计算（如心算）则是一种逻辑推理与记忆的结合过程。因此，大模型使用工具进行计算是合理的解决方案。

思考四：

"压缩即智能"是一个有趣的观点，但人类最高层次的智能，比如物理理论，并不是通过简单的归纳和压缩得出的。压缩是一种归纳方法，例如，如果给大模型提供各种物体自由落体的视频，它可能得出"重的物体下落更快"的错误结论。

真正的智能需要推理、假设和实验支持，而不仅仅依赖于数据压缩和归纳。

总结：

如果现有的大模型无法解决你手头的问题，问题真的是因为模型不够智能吗？还是我们需要的是更好地理解如何利用工具和方法来解决问题，而不是一味追求更大参数的模型？