基础LLM
基础LLM已经过训练,可以进行预测。根据文本训练数据(通常是训练数据)预测下一个词基于来自大量数据,通过互联网和其他资源来了解接下来会发生什么,最有可能紧随其后的词
你问:"中国的首都是..."
它想:"根据我看过的书,'首都'后面最常见的是'北京'"
它答:"北京"
你问:"帮我总结一下这篇文章"
它想:"'总结'?我的训练数据里没有这个模式...还是继续写文章吧"
它答:把文章继续写下去了(而不是总结)
指令调优LLM
训练就是从基础开始。
使用大量文本数据训练的LLM模型,并进一步训练它,并使用作为指令的输入和输出对其进行进一步微调。
并努力遵循这些说明,然后通常会使用一种称为"技术"的技术进一步完善。
RLHF,即基于人类反馈的强化学习,使系统更有能力提供帮助,遵循指示。因为针对特定指令调整的LLM已经过训练。要乐于助人、诚实守信、无害
你问:"帮我总结一下这篇文章"
它想:"哦,这是'总结'指令,我要提取要点"
它答:给出了简洁的总结
你问:"翻译成英文:今天天气好"
它想:"这是'翻译'指令,我要把中文转英文"
它答:"The weather is nice today"
对比

训练方式
基础LLM训练
text
数据:[大量文本,如网页、书籍、论文]
目标:最大化 P(下一个词 | 前文)
例如:
输入: "今天天气真"
目标: "好"
指令调优LLM训练
text
数据:[指令-回答] 对
目标:让模型学会"听到指令 → 执行任务"
例如:
输入: "指令:翻译成英文\n文本:你好"
目标: "Hello"
场景选择
用基础LLM的场景
-
需要创意续写(小说、文案)
-
需要代码补全
-
你想自己控制输出风格
-
资源有限,基础模型更小更快
用指令调优LLM的场景
-
需要执行具体任务(翻译、总结、分类)
-
需要对话式交互
-
需要遵循格式要求(JSON输出、特定模板)
-
用户不擅长写复杂提示词