【AI学习】LLM的发展方向

个人的思考,请大家批评。

这一轮AI浪潮,叙事的主要逻辑就是scaling law,模型越大,性能越好,投入越大,性能越好,回报越高,等等。当然,首先要有一个能够scaling的模型架构,Transformer是首个能够scaling的模型架构,去年的Mamba学习,了解了为什么CNN、LSTM这些架构为什么无法scaling。

Scaling law,以前主要集中在LLM的预训练方面。一段时间有个说法,模型的智能主要来自预训练,后面的SFT主要是提升指令跟随能力,RLHF主要是价值对齐。

Ilya在NeurIPS 2024的发言,宣布预训练即将结束,于是大家需要寻找新的scaling law方向。不同的人说法不同,大概有数据、RL、Inference-time compute(也有叫做test-time compute)等scaling方向。数据方面,不断生成高质量数据,包括合成数据,越多的高质量数据,应该可以增强模型性能。现在看起来模型的后训练,从基础模型到推理模型,通过RL也可以提升模型性能,Inference-time compute,越长的推理时间,也可以提升性能。这些方面,论述太多,不用我赘述了。

个人觉得,可能还有两个scaling方向,就是训练成本和推理成本的持续降低,或许这依赖于新的更高效------同时也能scaling的架构。就如Albert Gu所说,"目前的模型消耗的数据远远超过人类学习所需的数据量。我们早已意识到这一点,但由于规模扩展的惊人效果,我们一直在忽视这一事实。训练一个模型需要万亿级的tokens,而人类成为一个相对智能的存在所需的数据量却少得多。因此,我们的最佳模型和人类之间存在着样本效率的差异。人类的学习表明,存在某种学习算法、目标函数、架构或其组合,可以比当前的模型更高效地学习。"

推理成本的降低,可以提升推理性能。DeepSeek技术报告也指出了这一点。同样的计算成本,推理成本的降低,意味着更大的搜索空间,当然有更好的推理性能。

关于训练成本,如果能够不断降低,将会带来更多模型。前文说了,模型的智能主要来自数据集,模型是在学习数据集的数据分布。现在LLM的训练,不断增加所谓的高质量数据,降低通用数据的配比,是否会导致模型在通用性能的下降?就如不同的人,学习的内容不一样,最后的结果可能也不一样。未来,必然需要各种擅长不同领域的模型,比如管理、科学、工程、财务、艺术等等,不同的模型就需要不同的数据配比,未来对模型的种类方面的需求必然越来越多。就像人脑,不同的区域完成不同的功能。模型的训练成本降低,就可以推出系列模型,组合成一个类比整个社会系统的大模型,这是未来更大的Scaling方向吧。

相关推荐
我的xiaodoujiao9 分钟前
使用 Python 语言 从 0 到 1 搭建完整 Web UI自动化测试学习系列 38--Allure 测试报告
python·学习·测试工具·pytest
小鸡吃米…6 小时前
机器学习 - K - 中心聚类
人工智能·机器学习·聚类
好奇龙猫6 小时前
【AI学习-comfyUI学习-第三十节-第三十一节-FLUX-SD放大工作流+FLUX图生图工作流-各个部分学习】
人工智能·学习
沈浩(种子思维作者)6 小时前
真的能精准医疗吗?癌症能提前发现吗?
人工智能·python·网络安全·健康医疗·量子计算
saoys6 小时前
Opencv 学习笔记:图像掩膜操作(精准提取指定区域像素)
笔记·opencv·学习
minhuan6 小时前
大模型应用:大模型越大越好?模型参数量与效果的边际效益分析.51
人工智能·大模型参数评估·边际效益分析·大模型参数选择
Cherry的跨界思维6 小时前
28、AI测试环境搭建与全栈工具实战:从本地到云平台的完整指南
java·人工智能·vue3·ai测试·ai全栈·测试全栈·ai测试全栈
MM_MS7 小时前
Halcon变量控制类型、数据类型转换、字符串格式化、元组操作
开发语言·人工智能·深度学习·算法·目标检测·计算机视觉·视觉检测
ASF1231415sd7 小时前
【基于YOLOv10n-CSP-PTB的大豆花朵检测与识别系统详解】
人工智能·yolo·目标跟踪
水如烟7 小时前
孤能子视角:“意识“的阶段性回顾,“感质“假说
人工智能