大模型从零开始——提示工程 Prompt

文章目录

上下文学习

演示示例选择

选择依据

选择策略

直接检索

​​​​​​​ 聚类检索

​​​​​​​ 迭代检索

性能影响因素

预训练数据

预训练模型

演示示例

思维链

按部就班

[Zero-Shot CoT](#Zero-Shot CoT)

[Auto CoT](#Auto CoT)

三思后行

[Tree of Thoughts](#Tree of Thoughts)

[Graph of Thoughts](#Graph of Thoughts)

集思广益

Self-Consistency

[Universal Self-Consistency](#Universal Self-Consistency)

[扩展内容:GPT-o1 后训练扩展律](#扩展内容:GPT-o1 后训练扩展律)

[OpenAI o1技术路径推演](#OpenAI o1技术路径推演)


传统的自然语言处理研究遵循"预训练-微调-预测"范式,即先在大规模语料库上作预训练,然后在下游任务上微调,最后在微调后的模型上进行预测。然而, 随着语言模型在规模和能力上的显著提升,一种新的范式------"预训练-提示预测" 应运而生,即在预训练模型的基础上,通过精心设计 Prompt 引导大模型直接适应下游任务,而无需进行繁琐微调,Prompt 的设计将对模型性能产生深远影响。这种专注于如何编写 Prompt 的技术,被称为 Prompt 工程。

Prompt 工程(Prompt Engineering),又称提示工程,是指设计和优化用于与生 成式人工智能模型交互的 Prompt 的过程。这种技术的核心在于,将新任务通过 Prompt 构建为模型在预训练阶段已经熟悉的形式,利用模型固有的泛化能力来执行新的任务,而无需在额外的特定任务上进行训练。Prompt 工程的成功依赖于对预训练模型的深入理解,以及对任务需求的精确把握。通过构造合适的 Prompt 输入给大语言模型,大语言模型能够帮助我们完成各种任务。

因此,在与大语言模型互动过程中构建优质且全面的 Prompt 至关重要,它直接决定了能否获得有 价值的输出。经过良好设计的 Prompt 通常由任务说明、上下文、问题、输出格式四个基本元素组成:

  • 任务说明------向模型明确提出具体的任务要求。任务说明应当清晰、直接, 并尽可能详细地描述期望模型完成的任务。
  • 上下文------向模型提供的任务相关背景信息,用以增强其对任务的理解以及 提供解决任务的思路。上下文可以包括特定的知识前提、目标受众的背景、 相关任务的示例,或任何有助于模型更好地理解任务的信息。
  • 问题------向模型描述用户的具体问题或需要处理的信息。这部分应直接涉及 用户的查询或任务,为模型提供一个明确的起点。问题可以是显式的提问, 也可以是隐式的陈述句,用以表达用户的潜在疑问。
  • 输出格式------期望模型给出的回答的展示形式。这包括输出的格式,以及任 何特定的细节要求,如简洁性或详细程度。例如,可以指示模型以 JSON 格 式输出结果。

Prompt 的四个基本元素------任务说明、上下文、问题和输出格式,对于大语言模型生成的效果具有显著影响。这些元素的精心设计和组合构成了 Prompt 工程的核心。在此基础上,Prompt 工程包括多种技巧和技术,如**上下文学习(In-Context Learning)和思维链(Chain of Thought)**等。这些技巧和技术的结合使用,可以显著提升 Prompt 的质量,进而有效地引导模型生成更符合特定任务需求的输出。

上下文学习

随着模型参数数量和训练数据规模的持续扩大,大语言模型涌现出了**上下文学习(In-Context Learning, ICL)**能力,其使得语言模型能够通过给定的任务说明或示例等信息来掌握处理新任务的能力。

上下文学习是大语言模型一种新的学习范式,在 GPT3 论文中最早被提出**,** 它通过构造特定的 Prompt,来使得语言模型理解并学习下游任务。相比于传统的监督微调,其不需要更新模型参数,可以快速适应下游任务。

为什么上下文学习有效?

❗️大语言模型在预训练阶段从大量文本中学习潜在的概念。当运用上下文学习进行推理时,其借助任务说明或演示示例来**"锚定"** 其在预训练期间所习得的相关概念,从而进行上下文学习,并对问题进行预测。

按照示例数量的不同,上下文学习可以分为三类:零样本(Zero-shot)上下文学习、单样本(One-shot)上下文学习和少样本(Few-shot)上下文学习。由于演示示例数量不同,不同类型的上下文学习适用场景不同且在性能上存在差异。

演示示例选择

选择依据

两个主要依据是相似性和多样性

相似性是指精心挑选出与待解决问题文本最为相近的示例。相似性可以从多个层面进行度量,如语言层面的相似性(包括关键字匹配或语义相似度匹配)、结构相似性等等。通过选取相似的示例,能够为模型提供与待解决问题接近的参照,使大语言模型更易理解该问题。

多样性则要求所选的示例涵盖尽量广的内容,扩大演示示例对待解决问题的覆盖范围。多样化的示例能够帮助模型从不同的角度去理解任务,增强其应对各种问题的能力。

选择策略

鉴于不同方法对示示例选择依据的侧重有所不同,现有的示例选择策略大致归纳为三类:直接检索、聚类检索和迭代检索

直接检索

直接检索是目前应用广泛的示例选择策略。其工作原理是,在筛选示例时,检索器依据特定的评分标准对示例进行排序,然后选取排名靠前的K个示例。代表性方法是 KATE。KATE 利用 RoBERTa 对待解决问题和候选示例(移除标签)进行编码。然后通过计算解决问题编码和候选示例编码间的向量余弦相似度对二者的相似度进行评分。基于此评分,选择评分最高的 K 个示例作为上下文学习的演示示例。直接检索的方法简单易操作,是目前应用广泛的示例选择策略之一。但是,其未对示例的多样性进行考虑,选择出的示例可能趋向同质化

聚类检索

为缓解直接检索中存在的样例趋同的问题,聚类检索方法采用先聚类后检索 的方法来保证检索结果的多样性 。聚类检索策略把所有示例划分为K个簇,让相似的示例聚集在一起。而后从每个簇中选取最为相似的示例,最终获取K个示例。代表性方法是Self-Prompting。SelfPrompting 首先将候选示例和待解决问题编码成向量形式,接着运用 K-Means 算法把示例集合聚为 K 个簇。依照问题与示例之间的余弦相似度,从每个簇中选取与问题最相似的示例,由此得到 K 个示例。虽然聚类检索方法提高了示例的多样性, 但因为有些簇与问题可能并不相似,导致选择的示例的相似性可能不够高

迭代检索

直接检索和聚类检索在相似性和多样性之间往往顾此失彼。为了兼顾相似性多样性,迭代检索策略应运而生。迭代检索首先挑选与问题高度相似的示例,随后在迭代过程中,结合当前问题和已选示例,动态选择下一个示例,从而确保所选示例的相似性和多样性。代表性方法是RetICL。RetICL根据当前问题初始化基于LSTM的检索器内部状态,并选择一个示例。 接着根据当前问题和所选示例集更新检索器内部状态,并选择下一个示例。这一过程不断迭代,直到得到 k 个示例。尽管迭代检索在计算上相对复杂,但其能够生成更优的示例集,在复杂任务中展现出更好的适应性和灵活性。

性能影响因素

通过精心设计示例选择策略,上下文学习的效果可以得到显著提升。但是,除了示例选择以外,上下文学习的性能仍受到多种因素的共同影响。这些因素涉及括预训练数据、预训练模型,以及演示示例等多个方面。

预训练数据

预训练数据是上下文学习能力的来源,深刻影响着上下文学习的性能。对预训练数据而言,主要影响因素包括领域丰富度,任务多样性,训练数据的分布特性

领域丰富度:预训练数据的所覆盖的领域的丰富度直接影响模型的领域泛化能力。在丰富的跨领域语料库进行预训练的模型具备更稳定的上下文学习能力。而单一领域的语料库可能限制模型的适应性,即使该领域与目标任务高度相关,也无法保证最佳的上下文学习性能。

任务多样性:预训练数据中的任务多样性是提升上下文学习性能的重要因素。 多样化的任务类型有助于模型学习到更广泛的知识和技能,增强其任务泛化能力,从而在面对新任务时表现也更为出色。

训练数据的分布特性:训练数据中存在突发性分布和罕见类别时,能够增强模型的上下文学习能力。突发性分布使得"文本-标签映射"的数据模式在整个训练过程中得以反复出现,罕见类别增强模型处理少见或新颖输入的能力, 从而提升模型上下文学习的表现。

预训练模型

预训练模型对上下文学习的性能影响主要体现在模型参数规模。当模型参数达到一定的规模时,上下文学习才能得以涌现。

通常,模型的参数数量需达到亿级别及以上。常见的拥有上下文学习能力的模型中,规模最小的是来自阿里巴巴的 Qwen2-0.5B 模型,具有 5 亿参数。一般而言,模型的规模越大,其上下文学习性能也越强。此外,模型的架构和训练策略也是影响上下文学习性能的重要因素。

演示示例

演示示例的格式、输入-标签映射、示例数量及顺序对上下文学习产生影响。

  • 示例格式。不同的任务对于示例格式的要求不同。

  • 输入-输出映射的正确性。对于一个包含输入、输出的示例,大语言模型旨在从中学习到输入-输出映射,以完成目标任务。

如果给定示例中的输入-输出映射是错误的,势必会对上下文学习的效果产生影响。

对输入-输出映射错误的敏感性与模型规模大小有关。较大的模型在上下文学习中对输入-输出映射的正确性表现出更高的敏感性。相比之下, 较小的模型输入-输出映射错误的敏感性较弱。

  • 演示示例的数量和顺序。

增加演示示例的数量通常能够提升上下文学习性能,但随着示例数量的增多,性能提升的速率会逐渐减缓。相较于分类任务, 生成任务更能从增加的示例数量中获益。

演示示例的顺序同样是影响上下文学习性能的关键因素,不同示例顺序下的模型表现存在显著差异。最优的示例顺序具有模型依赖性,即对某一模型有效的示例顺序未必适用于其他模型。 同时,示例顺序的选择也受到所使用数据集的特定特性影响。

除上述因素外,Prompt 中的任务说明的质量也直接影响上下文学习的效果。清晰、明确的任务说明能够为模型提供明确指导,从而提升上下文学习的性能。 因此,在设计演示示例和任务说明时,应综合考虑这些因素,以优化模型的表现。

思维链

随着语言模型参数规模的持续扩张,其可以更好的捕捉语言特征和结构,从而在语义分析、文本分类、机器翻译等自然语言处理任务中的表现显著增强。但是,在面对算术求解、常识判断和符号推理等需要复杂推理能力的任务时,模型参数规模的增长并未带来预期的性能突破,这种现象被称作"Flat Scaling Curves"。

人类的思维:在心理学中,System-1任务和System-2任务分别代表两种不同的思维方式所处理的任务类型。

随着大模型参数量、算力开销、数据量协同增长,在标准提示下,其在System-1任务上性能显著增强。

然而在System-2任务上,大模型表现出了"Flat Scaling Curves"现象,即模型规模增长未带来预期性能提升。

仅靠模型规模的扩大不足以解决所有问题,我们需要探索新的方法以提升模型的推理能力和智能水平。人类在解决复杂问题时,通常会逐步构建推理路径以导出最终答案。基于这一理念,一种创新的 Prompt 范式------**思维链提示(Chain-of-Thought,CoT)**被用于引导模型进行逐步推理。

CoT通过在提示中嵌入一系列中间推理步骤,引导大语言模型模拟人类解决问题时的思考过程,可以显著提升大语言模型处理复杂任务中的表现,从而突破"Flat Scaling Curves"的限制,**提升模型处理System2任务的能力,**激发大语言模型的内在推理潜能。CoT 方法的核心是构造合适的 Prompt 以触发大语言模型一步一步生成推理路径,并生成最终答案。

CoT 核心思想的指引下,衍生出了一系列的扩展的方法。这些扩展的方法 按照其推理方式的不同,可以归纳为三种模式:按部就班、三思后行和集思广益

按部就班

按部就班模式强调的是逻辑的连贯性和步骤的顺序性。在这种模式下,模型一步接着一步的进行推理,最终得到结论。其确保了推理过程的清晰和有序,使得模型的决策过程更加透明和可预测。

代表性方法

Zero-Shot CoT

通过简单的提示,如"让我们一步一步思考",引导模型自行生成一条推理链。其无需手工标注的CoT示例,减少了对人工示例的依赖,多个推理任务上展现出了与原始少样本CoT相媲美甚至更优的性能。

标准的CoT方法在推理任务上性能优越,但是需要手工编写推理链示例。Zero-Shot CoT无需人工编写少样本样例,但是性能不如标准的CoT方法。

Auto CoT

在Zero-Shot CoT的基础之上,Auto-CoT引入与待解决问题相关的问题及其推理链作为示例,以继续提升CoT的效果。Auto-CoT无需人工标注成本,但是性能超过了需要手工标注的CoT和无需手工标注的Zero-Shot CoT。

  • 利用Sentence-Bert对问题库样本进行表征,并使用K-Means聚类算法筛选出与用户提问相关的问题样本。

  • 借助 Zero-Shot CoT 的方式,为筛选出的问题生成推理链,形成示例。

这些示例包含了不同问题及其对应的推理内容,可为模型提供不同解题思路, 辅助模型做出更为审慎的推理。

  • 以这些示例作为少样本示例,,Auto-CoT 以"让我们一步一步思考" 引导大语言模型生成针对用户问题的推理链和答案。

缺点与不足:

人类在解决System-2类问题时,会有一个反复选择以及回溯的过程。已有的CoT提示方法无法模拟这种过程,从而导致其能力受限。即无法解决复杂的System-2的问题,故已有的CoT提示存在问题:

  • 在局部上,它们在思维过程中不会探索不同的后续内容,即树的分支。

  • 在全局上,大语言模型顺序链式输出,不存在规划、前瞻性思考、自我评估和回溯的过程。

三思后行

为了解决按部就班模式的不足,三思后行模式在决策过程中融入审慎和灵活性。这种模式下,模型在每一步会停下来评估当前的情况,判断是否需要调整方向。

代表性方法

Tree of Thoughts

为了模拟人类在做System-2任务时审时度势的过程,Tree-of-Thought(ToT)将推理过程构造为一棵思维树,在构造树过程中,允许模型在遇到困难或不确定性时进行回溯和重新选择

ToT将推理过程视为一棵思维树,从拆解、衍生、评估、搜索四个方面进行构造。

拆解: 将复杂问题拆分成多个简单子问题,每个子问题的解答过程对应一个思维过程。

衍生: 模型需要根据当前子问题生成可能的下一步推理方向。衍生有两种模式:样本启发和命令提示。

评估: 利用模型评估推理节点合理性。根据任务是否便于量化评分,选择投票或打分模式。

搜索: 从一个或多个当前状态出发,搜索通往问题解决方案的的路径。

Graph of Thoughts

在 ToT 的基础上,GoT 思维图将树扩展为有向图,以提供了每个思维自我评估修正以及思维聚合的操作。该图中,顶点代表某个问题(初始问题、中间问题、最终问题)的一个解决方案,有向边代表使用"出节点"作为直接输入,构造出思维"入节点"的过程。GoT 相比于 ToT 的核心优势是其思维自我反思,以及思维聚合的能力,能够将来自不同思维路径的知识和信息进行集成,形成综合的解决方案。

集思广益

集思广益模式强调的是通过汇集多种不同的观点和方法来优化决策过程。在这种模式下,模型不仅仅依赖于单一的推理路径,而是通过探索索多种可能的解决方案,从中选择最优的答案。

代表性方法

Self-Consistency

Self-Consistency引入多样性的推理路径,从中提取并选择最一致的答案,从而提高了模型的推理准确性。Self-Consistency不依赖于特定的CoT形式,可以与其他CoT方法兼容,共同作用于模型的推理过程。

Self-Consistency的设计源于以下的直觉:

  • 复杂的推理任务通常允许多种能够得出正确答案的推理路径。

  • 对于一个问题,所需的深思熟虑和分析越多,能够得出答案的的推理路径的多样性就越大。

Self-Consistency 的实现过程可以分为三个步骤:

  • 生成推理路径:在随机采样策略下,使用 CoT 或 Zero-Shot CoT 的方式来引导大语言模型针对待解决问题生成一组多样化的推理路径;

  • 汇总答案:针对大语言模型生成的每个推理内容,收集其最终的答案,并统计每个答案在所有推理路径中出现的频率;

  • 选择答案:选择出现频率最高的答案作为最终的、最一致的答案。

Universal Self-Consistency

利用LLMs自身选择最一致答案,支持更多种任务,无需答案提取过程。在多任务中性能良好且输出匹配度高、对顺序鲁棒。

Self-Consistency依赖于答案提取过程来聚合多个解决方案,不下适用于自由形式的答案,例如文本摘要等任务。Universal Self-Consistency利用大语言模型本身来选择最一致答案,显著拓宽了Self-Consistency的使用场景。

❗️CoT的核心思想是在提示中模拟人类解决问题的思考过程,在Prompt中嵌入解决问题的推理过程, 从而在无需特定任务微调的情况下显著提升模型在推理任务上的表现,增强了大语言模型在复杂任务中的推理能力。

扩展内容:GPT-o1 后训练扩展律

三种思维链模式都是作用于模型推理侧,OpenAI尝试在训练和推理时深度融合思维链技术,并提出了GPT-o1。它包括o1、o1-preview和o1-mini三个版本,在回答问题前会花费更多时间来思考,擅长处理科学、编程、数学等领域的复杂问题。

GPT-o1在通用能力上与GPT-4o持平,推理能力和解决复杂问问题方面更胜一筹。值得注意的是,GPT-o1 mini推理能力也显著高于GPT-4o。GPT-o1的推理运行开销显著高于GPT-4o。

OpenAI团队利用大规模强化学习算法教会模型如何利用其思维链进行高效思考。并发现o1的性能随着更多的强化学习(训练时的计算)和更多的思考时间(推理时的计算)而不断提高。

GPT-o1性能提升的关键在于从"结果监督"转为"过程监督"。训练时,利用大规模强化学习增强模型生成优质思维片段能力;测试时,利用大规模搜索采样可能的思维片段,并利用奖励模型指导生成。

OpenAI o1技术路径推演

  • RL+"隐式思维链":o1模型使用RL进行训练,通过引入动态的Reasoning Token启发"隐式思维链"来"思考"问题,思考时间越长,推理能力越强!
  • 快思考->慢思考 :可以说,OpenAI o1已不再是即时给出答案的摸型,而是能够先进行深入思考。这可以类比为o1正在从依赖系统1思维 (即快速、自动、直觉、易出错的思维模式),逐步进化为采用系统2思维(即缓慢、刻意、有意识且更可靠的推理过程)。
  • 推理时间=新的扩展维度 :o1模型的发布,意味着AI能力的提升不再局限于预训练阶段,还可以通过在Post-Training阶段中提升RL训练的探索时间和增加增加加模型推理思考时间来实现性能提升,即Post-Training Scaling Laws。
  • 数据飞轮+Bootstrap->SuperIntelligence :基于自我反思 的模型将能够实现自举Bootstrap ,并提升大大提升模型对于未见过的复杂问题的解决能力,模型的推理过程形成大量高质量数据的飞轮,并最终有可能向SuperIntelligence更进一步。
相关推荐
好评笔记1 小时前
多模态论文笔记——VDT
论文阅读·深度学习·机器学习·大模型·aigc·transformer·面试八股
微学AI14 小时前
GPU算力平台|在GPU算力平台部署可图大模型Kolors的应用实战教程
人工智能·大模型·llm·gpu算力
三月七(爱看动漫的程序员)15 小时前
Genetic Prompt Search via Exploiting Language Model Probabilities
大数据·人工智能·算法·语言模型·自然语言处理·prompt
NiNg_1_23415 小时前
AI提示词(Prompt)入门详解
人工智能·prompt
劲墨难解苍生苦15 小时前
Prompt 提示词详解
人工智能·microsoft·prompt
旭日的芬芳1 天前
提示词工程(Prompt Engineering)
人工智能·prompt
--fancy1 天前
提示词的艺术 ---- AI Prompt 进阶(提示词框架)
人工智能·prompt
Danny_姜1 天前
小试牛刀调整Prompt,优化Token消耗
prompt
AI明说1 天前
大模型开发 | RAG在实际开发中可能遇到的坑
大数据·人工智能·大模型·rag