LLM训练推理相关概念

1. 有监督微调(Supervised Fine-Tuning)与指令微调(Instruction Fine-Tuning)对模型参数的影响

**有监督微调(Supervised Fine-Tuning, SFT)指令微调(Instruction Fine-Tuning, Instruct-Tuning)**都会对模型参数进行优化,但它们的目标和数据类型有所不同:

  • 有监督微调 (SFT)

    • 目标:在特定的任务上优化模型,使其在标注数据集上的表现更好。比如,对语音识别模型进行微调,使其在语音转文本任务上的准确率更高。
    • 数据:使用带有标签的数据,如配对的语音和文本数据。
    • 参数优化:模型的所有参数或部分参数在微调过程中都会被调整,目的是让模型更好地完成特定任务。
  • 指令微调 (Instruct-Tuning)

    • 目标:使模型能够理解和执行自然语言指令。模型不仅要理解输入的语音或文本,还要根据给定的指令来生成响应。
    • 数据:数据集通常包含自然语言指令和相应的输出(例如对话系统的输入输出对)。
    • 参数优化:指令微调也会对模型参数进行优化,调整的目的是让模型在接收到指令时能够正确生成符合指令要求的输出。

总结来说,两种微调方法都会对模型参数进行优化,只是优化的目标不同。

2. Chain of Thought (思维链) 与 In-Context Learning (上下文学习)

Chain of Thought (CoT)In-Context Learning 是两种不同的概念,但它们都与大模型在处理复杂任务时的推理和学习能力有关。

Chain of Thought (思维链)
  • 概念:Chain of Thought 是一种推理方法,在处理复杂问题时,模型会逐步展开其思维过程,类似于人类解决问题时的思维链条。这种方法允许模型将一个复杂任务分解成多个步骤,通过每一步的逐步推理来得出最终答案。
  • 应用:在复杂推理、数学计算、多步推理等任务中,CoT 可以显著提高模型的表现。例如,在解决一个需要多步计算的问题时,模型通过逐步推理,每一步都接近问题的最终解答。
  • 实现:通常在训练或推理时,给模型提供带有详细思维过程的示例,让模型学习如何逐步展开推理过程。这种训练可以通过给出详细的解题步骤或多步推理的示例来实现。
In-Context Learning (上下文学习)
  • 概念:In-Context Learning 是一种使模型无需微调就能学习新任务的能力。模型通过在推理时观察几个示例(上下文)来学习任务的模式,并应用到新的输入上。模型不会直接更新参数,而是通过提供的上下文来适应新任务。
  • 应用:在实际应用中,用户可以为模型提供几个输入输出对作为示例(上下文),模型会根据这些示例推断出任务的规律,并对新的输入进行处理。这对于零样本或小样本任务非常有效。
  • 实现:在使用 In-Context Learning 时,模型通过输入一系列示例,并在推理时根据这些示例学习如何处理新的输入。这种学习方式依赖于模型对上下文的理解能力,而不是依赖于传统的参数优化。

总结

  • 有监督微调和指令微调:都涉及模型参数的优化,但微调的目标和数据类型不同。
  • Chain of Thought:模型逐步展开思维过程,适用于多步推理任务。
  • In-Context Learning:通过提供示例(上下文)让模型学习任务模式,而无需更新模型参数。
相关推荐
Danceful_YJ6 小时前
35.微调BERT
人工智能·深度学习·bert
ZPC82106 小时前
FPGA 部署ONNX
人工智能·python·算法·机器人
愿没error的x7 小时前
深度学习基础知识总结(一):深入理解卷积(Convolution)
人工智能·深度学习
罗西的思考7 小时前
【智能硬件】AI 眼镜论文笔记
人工智能
AI浩7 小时前
Mamba YOLO: 基于状态空间模型的目标检测简单基线
人工智能·yolo·目标检测
GitCode官方7 小时前
面壁智能入驻 GitCode:端侧 AI 开发获全新生产力引擎
人工智能·gitcode
拓端研究室7 小时前
专题:2025AI时代的医疗保健业:应用与行业趋势研究报告|附130+份报告PDF、数据、可视化模板汇总下载
大数据·人工智能
咋吃都不胖lyh7 小时前
激活函数是什么,神经网络中为什么要有激活函数
人工智能·深度学习·神经网络·激活函数
Ma0407137 小时前
【论文阅读15】-DiagLLM:基于大型语言模型的多模态推理,用于可解释的轴承故障诊断
人工智能·语言模型·自然语言处理
芯盾时代7 小时前
《网络安全法》完成修改,AI安全正式“入法”
人工智能·安全·web安全