【AI学习】LLM的发展方向

个人的思考，请大家批评。

这一轮AI浪潮，叙事的主要逻辑就是scaling law，模型越大，性能越好，投入越大，性能越好，回报越高，等等。当然，首先要有一个能够scaling的模型架构，Transformer是首个能够scaling的模型架构，去年的Mamba学习，了解了为什么CNN、LSTM这些架构为什么无法scaling。

Scaling law，以前主要集中在LLM的预训练方面。一段时间有个说法，模型的智能主要来自预训练，后面的SFT主要是提升指令跟随能力，RLHF主要是价值对齐。

Ilya在NeurIPS 2024的发言，宣布预训练即将结束，于是大家需要寻找新的scaling law方向。不同的人说法不同，大概有数据、RL、Inference-time compute（也有叫做test-time compute）等scaling方向。数据方面，不断生成高质量数据，包括合成数据，越多的高质量数据，应该可以增强模型性能。现在看起来模型的后训练，从基础模型到推理模型，通过RL也可以提升模型性能，Inference-time compute，越长的推理时间，也可以提升性能。这些方面，论述太多，不用我赘述了。

个人觉得，可能还有两个scaling方向，就是训练成本和推理成本的持续降低，或许这依赖于新的更高效------同时也能scaling的架构。就如Albert Gu所说，"目前的模型消耗的数据远远超过人类学习所需的数据量。我们早已意识到这一点，但由于规模扩展的惊人效果，我们一直在忽视这一事实。训练一个模型需要万亿级的tokens，而人类成为一个相对智能的存在所需的数据量却少得多。因此，我们的最佳模型和人类之间存在着样本效率的差异。人类的学习表明，存在某种学习算法、目标函数、架构或其组合，可以比当前的模型更高效地学习。"

推理成本的降低，可以提升推理性能。DeepSeek技术报告也指出了这一点。同样的计算成本，推理成本的降低，意味着更大的搜索空间，当然有更好的推理性能。

关于训练成本，如果能够不断降低，将会带来更多模型。前文说了，模型的智能主要来自数据集，模型是在学习数据集的数据分布。现在LLM的训练，不断增加所谓的高质量数据，降低通用数据的配比，是否会导致模型在通用性能的下降？就如不同的人，学习的内容不一样，最后的结果可能也不一样。未来，必然需要各种擅长不同领域的模型，比如管理、科学、工程、财务、艺术等等，不同的模型就需要不同的数据配比，未来对模型的种类方面的需求必然越来越多。就像人脑，不同的区域完成不同的功能。模型的训练成本降低，就可以推出系列模型，组合成一个类比整个社会系统的大模型，这是未来更大的Scaling方向吧。