基础LLM 和指令调优LLM

基础LLM

基础LLM已经过训练,可以进行预测。根据文本训练数据(通常是训练数据)预测下一个词基于来自大量数据,通过互联网和其他资源来了解接下来会发生什么,最有可能紧随其后的词

复制代码
你问:"中国的首都是..."
它想:"根据我看过的书,'首都'后面最常见的是'北京'"
它答:"北京"

你问:"帮我总结一下这篇文章"
它想:"'总结'?我的训练数据里没有这个模式...还是继续写文章吧"
它答:把文章继续写下去了(而不是总结)

指令调优LLM

训练就是从基础开始。

使用大量文本数据训练的LLM模型,并进一步训练它,并使用作为指令的输入和输出对其进行进一步微调。

并努力遵循这些说明,然后通常会使用一种称为"技术"的技术进一步完善。

RLHF,即基于人类反馈的强化学习,使系统更有能力提供帮助,遵循指示。因为针对特定指令调整的LLM已经过训练。要乐于助人、诚实守信、无害

复制代码
你问:"帮我总结一下这篇文章"
它想:"哦,这是'总结'指令,我要提取要点"
它答:给出了简洁的总结

你问:"翻译成英文:今天天气好"
它想:"这是'翻译'指令,我要把中文转英文"
它答:"The weather is nice today"

对比

训练方式

基础LLM训练

text 复制代码
数据:[大量文本,如网页、书籍、论文]
目标:最大化 P(下一个词 | 前文)

例如:
输入: "今天天气真"
目标: "好"

指令调优LLM训练

text 复制代码
数据:[指令-回答] 对
目标:让模型学会"听到指令 → 执行任务"

例如:
输入: "指令:翻译成英文\n文本:你好"
目标: "Hello"

场景选择

用基础LLM的场景

  • 需要创意续写(小说、文案)

  • 需要代码补全

  • 你想自己控制输出风格

  • 资源有限,基础模型更小更快

用指令调优LLM的场景

  • 需要执行具体任务(翻译、总结、分类)

  • 需要对话式交互

  • 需要遵循格式要求(JSON输出、特定模板)

  • 用户不擅长写复杂提示词

相关推荐
梦想很大很大3 小时前
从 0 到 1 实现 AI Agent(01):LLM 对话 + 本地 Tool 调用
人工智能·llm·agent
sun_tao14 小时前
RAG 系统 Embedding 选型要点
人工智能·llm·embedding·rag
Elaine3365 小时前
【Agent 设计模式全景图:从 ReAct 到工业级多智能体架构】
设计模式·llm·软件架构·ai agent
WitsMakeMen5 小时前
relu激活函数为什么有效
llm
王小义笔记6 小时前
大模型微调步骤与精髓总结
python·大模型·llm
华农DrLai6 小时前
什么是远程监督?怎么自动生成训练数据?
人工智能·算法·llm·prompt·知识图谱
EdisonZhou9 小时前
MAF快速入门(20)基于File-Based App开发MVP项目
llm·agent·.net core
张彦峰ZYF21 小时前
大模型LLM ACA - ACP认证考试模拟试卷二
大模型·llm·aca - acp
威化饼的一隅1 天前
【大模型LLM学习】从强化学习到GRPO【下】
大模型·llm·agent·强化学习·智能体·grpo