基础LLM 和指令调优LLM

基础LLM

基础LLM已经过训练，可以进行预测。根据文本训练数据（通常是训练数据）预测下一个词基于来自大量数据,通过互联网和其他资源来了解接下来会发生什么,最有可能紧随其后的词

复制代码

你问："中国的首都是..."
它想："根据我看过的书，'首都'后面最常见的是'北京'"
它答："北京"

你问："帮我总结一下这篇文章"
它想："'总结'？我的训练数据里没有这个模式...还是继续写文章吧"
它答：把文章继续写下去了（而不是总结）

训练就是从基础开始。

使用大量文本数据训练的LLM模型，并进一步训练它，并使用作为指令的输入和输出对其进行进一步微调。

并努力遵循这些说明，然后通常会使用一种称为"技术"的技术进一步完善。

RLHF，即基于人类反馈的强化学习，使系统更有能力提供帮助，遵循指示。因为针对特定指令调整的LLM已经过训练。要乐于助人、诚实守信、无害

复制代码

你问："帮我总结一下这篇文章"
它想："哦，这是'总结'指令，我要提取要点"
它答：给出了简洁的总结

你问："翻译成英文：今天天气好"
它想："这是'翻译'指令，我要把中文转英文"
它答："The weather is nice today"

text 复制代码

数据：[大量文本，如网页、书籍、论文]
目标：最大化 P(下一个词 | 前文)

例如：
输入: "今天天气真"
目标: "好"

text 复制代码

数据：[指令-回答] 对
目标：让模型学会"听到指令 → 执行任务"

例如：
输入: "指令：翻译成英文\n文本：你好"
目标: "Hello"