PaperReding:《LLaMA: Open and Efficient Foundation Language Models》

论文链接: https://arxiv.org/pdf/2302.13971

这篇论文核心是 Meta AI 团队推出了一套叫LLaMA的开源大语言模型,简单说就是 "好用又好获取" 的 AI 模型,普通人或研究者不用依赖大公司的专属资源也能用上、研究它。总结为以下几点:
1. 核心目标:做 "人人能用" 的顶尖模型

以前很多厉害的大模型(比如 GPT-3、PaLM)要么用了不公开的数据,要么太大了普通人跑不起来。LLaMA 的目标就是:

只靠公开数据训练(比如网页爬虫、维基百科、GitHub 代码、书籍、学术论文这些大家能拿到的资源);

模型大小从 70 亿参数到 650 亿参数不等,兼顾 "性能强" 和 "跑得动"------ 比如 130 亿参数的版本,一台普通 GPU 就能运行。
2. 关键发现:小模型也能打赢大模型

以前大家觉得 "模型参数越多越厉害",但 LLaMA 团队发现:给小模型喂足够多的数据,反而比大模型更划算、更实用。

比如 130 亿参数的 LLaMA(比 GPT-3 的 1750 亿参数小 10 倍),在大部分任务上比 GPT-3 还强;

650 亿参数的 LLaMA,能和 700 亿参数的 Chinchilla、5400 亿参数的 PaLM 打得有来有回;

而且小模型推理(就是用的时候)更快、更省资源,适合日常使用。
3. 训练数据:全是 "公开资源",来源很丰富

模型的 "知识" 来自这些公开数据(比例大概是):

网页爬虫数据(67%):筛选后的英文网页内容;

预处理网页数据(15%):另一个公开的网页数据集;

GitHub 代码(4.5%):开源许可证下的代码(比如 Apache、MIT 协议);

维基百科(4.5%):20 种语言的维基内容(拉丁 / 西里尔字母,比如英语、德语、俄语等);

书籍(4.5%):公共领域书籍和公开的电子书数据集;

学术论文(2.5%):arXiv 上的科学论文;

问答社区(2%):比如 Stack Exchange(编程、化学等领域的高质量问答)。
4. 模型能干嘛?很多任务都很能打

LLaMA 在各种 AI 任务上表现都不错:

常识推理(比如判断 "下雨要不要带伞"):650 亿参数版本比 Chinchilla 还强;

闭卷问答(不用查资料直接答题,比如 "地球半径多少"):130 亿参数版本就能和 GPT-3 抗衡;

阅读理解(做中学英语阅读题):130 亿参数版本比 GPT-3 还略好;

数学题、写代码:没专门针对性训练,却能打赢一些专门优化过的模型 ------ 比如 650 亿参数版本写 Python 代码,比 PaLM 620 亿参数版本还强。
5. 缺点:有偏见、可能说胡话

模型也有 "毛病",因为训练数据来自互联网,难免带了人类的偏见和错误信息:

有性别 / 宗教 / 种族偏见:比如会默认 "护士是女性""程序员是男性";

可能生成有毒内容:模型越大,偶尔会冒出侮辱性、仇恨性的话;

会说胡话(幻觉):比如问它 "Yann LeCun(AI 大佬)发过说唱专辑吗?",它会编出专辑名、歌词,其实是假的。
6. 为什么重要?开源让更多人能参与

以前顶尖大模型都是大公司专属(比如 GPT-3、PaLM 不对外开放),LLaMA 直接开源给研究社区,意味着:

普通人、学生、小团队不用花大价钱,也能用上顶尖模型;

研究者能更方便地改进模型(比如减少偏见、提升安全性);

后续还能基于它做 "指令微调"(比如教它听懂人话指令),变得更实用。
总结

LLaMA 本质是 "用公开数据训练、兼顾性能和实用性的开源大模型"------ 它证明了 "不用专属数据、不用超大参数,也能做出顶尖 AI",而且人人都能获取、使用、改进,大大降低了大语言模型的研究和使用门槛。

相关推荐
小鸡吃米…6 小时前
机器学习 - K - 中心聚类
人工智能·机器学习·聚类
好奇龙猫7 小时前
【AI学习-comfyUI学习-第三十节-第三十一节-FLUX-SD放大工作流+FLUX图生图工作流-各个部分学习】
人工智能·学习
沈浩(种子思维作者)7 小时前
真的能精准医疗吗?癌症能提前发现吗?
人工智能·python·网络安全·健康医疗·量子计算
minhuan7 小时前
大模型应用:大模型越大越好?模型参数量与效果的边际效益分析.51
人工智能·大模型参数评估·边际效益分析·大模型参数选择
Cherry的跨界思维7 小时前
28、AI测试环境搭建与全栈工具实战:从本地到云平台的完整指南
java·人工智能·vue3·ai测试·ai全栈·测试全栈·ai测试全栈
MM_MS7 小时前
Halcon变量控制类型、数据类型转换、字符串格式化、元组操作
开发语言·人工智能·深度学习·算法·目标检测·计算机视觉·视觉检测
ASF1231415sd7 小时前
【基于YOLOv10n-CSP-PTB的大豆花朵检测与识别系统详解】
人工智能·yolo·目标跟踪
水如烟8 小时前
孤能子视角:“意识“的阶段性回顾,“感质“假说
人工智能
Carl_奕然8 小时前
【数据挖掘】数据挖掘必会技能之:A/B测试
人工智能·python·数据挖掘·数据分析
旅途中的宽~8 小时前
《European Radiology》:2024血管瘤分割—基于MRI T1序列的分割算法
人工智能·计算机视觉·mri·sci一区top·血管瘤·t1