提示词工程(Prompt Engineering)全体系知识手册

目录

一、提示词工程基础认知

[1. 核心定义](#1. 核心定义)

[2. 适用对象与应用场景](#2. 适用对象与应用场景)

[3. 大模型与提示词的核心交互逻辑](#3. 大模型与提示词的核心交互逻辑)

二、提示词工程的核心基础原则

[1. 清晰具体,拒绝模糊](#1. 清晰具体,拒绝模糊)

[2. 设定角色,锚定能力边界](#2. 设定角色,锚定能力边界)

[3. 逻辑分层,结构化表达](#3. 逻辑分层,结构化表达)

[5. 明确输出,约束格式 / 风格 / 长度](#5. 明确输出,约束格式 / 风格 / 长度)

[6. 迭代优化,试错调优](#6. 迭代优化,试错调优)

[7. 控制上下文,避免信息冗余](#7. 控制上下文,避免信息冗余)

三、提示词工程的入门核心技巧

[1. 通用提示词结构(黄金模板)](#1. 通用提示词结构(黄金模板))

[2. 指令明确化:将 "隐含需求" 转为 "显性指令"](#2. 指令明确化:将 “隐含需求” 转为 “显性指令”)

[3. 关键词聚焦:强化核心信息](#3. 关键词聚焦:强化核心信息)

[4. 格式强制:指定输出的结构化格式](#4. 格式强制:指定输出的结构化格式)

[5. 上下文裁剪:精准控制输入信息](#5. 上下文裁剪:精准控制输入信息)

[6. 否定约束:明确 "不要做什么"](#6. 否定约束:明确 “不要做什么”)

[1. 零样本提示(Zero-shot)](#1. 零样本提示(Zero-shot))

[2. 少样本提示(Few-shot)](#2. 少样本提示(Few-shot))

[3. 思维链提示(Chain of Thought, CoT)](#3. 思维链提示(Chain of Thought, CoT))

[(1)基础 CoT:直接引导分步思考](#(1)基础 CoT:直接引导分步思考)

[(2)少样本 CoT(Few-shot CoT):最常用的组合方法](#(2)少样本 CoT(Few-shot CoT):最常用的组合方法)

[4. 思维树提示(Tree of Thought, ToT)](#4. 思维树提示(Tree of Thought, ToT))

[5. 自洽性提示(Self-Consistency)](#5. 自洽性提示(Self-Consistency))

[6. 提示词链(Prompt Chaining)](#6. 提示词链(Prompt Chaining))

[7. 检索增强提示(Retrieval-Augmented Prompt, RAP)](#7. 检索增强提示(Retrieval-Augmented Prompt, RAP))

五、分场景提示词工程实战

六、大模型特性适配的提示词技巧

[1. 主流大模型能力侧重](#1. 主流大模型能力侧重)

[2. 针对性适配技巧](#2. 针对性适配技巧)

[3. 解决大模型核心局限性的提示词技巧](#3. 解决大模型核心局限性的提示词技巧)

七、提示词的优化与调试工程化方法

[1. 提示词效果的问题诊断](#1. 提示词效果的问题诊断)

[2. 迭代优化的五步流程](#2. 迭代优化的五步流程)

[3. 提示词的 AB 测试](#3. 提示词的 AB 测试)

[4. 提示词的量化评估](#4. 提示词的量化评估)

八、提示词工程的工程化落地

[1. 提示词的标准化与模板化](#1. 提示词的标准化与模板化)

[2. 提示词的版本控制](#2. 提示词的版本控制)

[3. 提示词与代码 / API 的融合](#3. 提示词与代码 / API 的融合)

[4. 批量提示词处理](#4. 批量提示词处理)

[5. 提示词工程与其他 AI 技术的结合](#5. 提示词工程与其他 AI 技术的结合)

九、提示词工程的常见问题与解决方案

十、提示词工程的工具与学习资源

[1. 核心工具](#1. 核心工具)

[2. 优质学习资源](#2. 优质学习资源)

十一、提示词工程的前沿趋势

十二、总结


提示词工程是针对大语言模型(LLM)/ 多模态大模型(MLLM)设计有效、精准、可复用的提示词(Prompt) 的工程化方法论,核心是通过对指令、上下文、示例、输出约束的结构化设计,让模型理解用户意图并输出符合预期的结果。它是连接人类需求与大模型能力的核心桥梁,也是大模型应用开发的基础技能,覆盖自然语言处理、代码开发、数据分析、多模态生成、AI 工程落地等所有大模型应用场景。

本手册从基础定义→核心原则→入门技巧→进阶方法→分场景实践→结构化设计→模型适配→优化调试→工程化落地→常见问题→工具资源→前沿趋势 层层展开,涵盖提示词工程的所有核心维度,兼顾理论性、实操性、工程化,适配从入门到高阶的学习与应用需求。

一、提示词工程基础认知

1. 核心定义

  • 提示词(Prompt) :用户向大模型输入的自然语言 / 多模态信息(文本、图片、音频、表格) ,是模型生成输出的依据,包含指令、上下文、输入数据、输出要求等要素。

  • 提示词工程 :并非简单的 "写提示词",而是以工程化思维设计、优化、复用、管理提示词 的过程,核心目标是在不修改大模型底层参数的前提下,最大化挖掘模型原生能力 ,解决实际业务问题;同时包含提示词的标准化、模板化、批量处理、与代码 / API 的融合等工程化落地动作。

  • 核心价值 :无需大模型微调 / 训练的专业知识(如深度学习、算力部署),低成本、高效率实现大模型的个性化适配;是大模型应用开发的基础环节 ,也是微调、RAG(检索增强生成)等高阶技术的前置配套能力

2. 适用对象与应用场景

  • 适用人群 :大模型普通使用者、AI 应用开发工程师、数据分析师、产品经理、内容创作者、科研人员等(不同人群只需掌握对应层级的技巧)。

  • 核心应用场景:自然语言处理(分类、摘要、翻译、问答)、代码开发 / 调试、数据分析 / SQL 生成、多模态生成(文生图、图生文、图文结合)、职场办公(汇报、邮件、纪要)、深度学习辅助(数据集生成、模型训练提示)、智能客服 / 对话机器人搭建等。

3. 大模型与提示词的核心交互逻辑

大模型的本质是基于海量语料的概率化生成模型 ,其输出依赖于输入的信息密度、逻辑清晰度、格式结构化程度

  1. 模型会先解析提示词中的核心指令,明确 "要做什么";

  2. 再提取上下文 / 输入数据中的关键信息,明确 "基于什么做";

  3. 最后根据输出约束,确定 "输出什么格式 / 风格 / 长度";

  4. 若提示词模糊、缺失关键信息,模型会基于训练语料做概率化猜测,最终导致输出偏离预期(如幻觉、答非所问)。

核心结论 :提示词的质量直接决定模型输出的效果,好的提示词能让基础模型发挥出接近微调模型的效果

二、提示词工程的核心基础原则

这是设计所有提示词的底层逻辑,适用于所有大模型(GPT-3.5/4、Claude 2/3、文心一言、通义千问、讯飞星火等),违反任一原则都可能导致提示词失效。

1. 清晰具体,拒绝模糊

大模型无法理解人类的 "隐含意图",必须将需求、约束、条件全部明确化,避免使用模糊性词汇(如 "写一篇好的文章""做一个合理的分析")。

  • 错误示例:帮我分析这个数据。

  • 正确示例:基于以下 Excel 数据(销售额:1 月 10 万、2 月 15 万、3 月 12 万),分析季度销售额的变化趋势,输出 100 字以内的结论,使用 "增长 / 下降" 明确描述。

2. 设定角色,锚定能力边界

给模型设定具体的职业 / 身份角色,模型会基于该角色的专业知识、语言风格、思维方式输出结果,大幅提升输出的专业性和贴合度。

  • 核心逻辑:大模型训练语料中包含不同职业的专业内容,角色设定会引导模型调用对应领域的知识。

  • 示例 :请你以资深 Python 后端开发工程师的身份,帮我调试以下代码中的语法错误,要求指出错误原因并给出修正后的完整代码,同时添加详细的注释。

3. 逻辑分层,结构化表达

将复杂需求拆分为多个独立的、有逻辑顺序的子指令,避免所有需求堆砌在一起;优先使用 "第一步 / 第二步 / 第三步""首先 / 其次 / 最后" 等逻辑词,或 Markdown 分块(标题、列表、代码块)。

  • 核心逻辑 :大模型对结构化、分层次的输入解析效率远高于纯文本堆砌,能有效避免遗漏子需求。
  1. 示例引导,少样本具象化

当需求较复杂(如特定格式输出、个性化分类)时,给模型提供1-3 个示例(少样本 Few-shot),让模型通过示例理解意图,比纯文字描述更有效。

  • 核心逻辑 :大模型擅长模仿与归纳,示例能直接锚定输出的格式、风格、判断标准。

  • 示例:请你将以下用户评论分类为 "正面 / 负面 / 中性",分类规则:提及产品优点为正面,提及缺点为负面,无明显褒贬为中性。示例:1. 这款手机续航超棒→正面;2. 手机拍照很模糊→负面;3. 手机是白色的→中性。现在分类:这款耳机音质还可以。

5. 明确输出,约束格式 / 风格 / 长度

必须提前定义输出的格式、风格、长度、单位,避免模型输出无意义的内容或不符合后续使用的结果(如需要对接代码的输出,必须指定 JSON/CSV 格式)。

  • 可约束的维度:格式(Markdown/JSON/ 表格 / SQL)、风格(正式 / 口语 / 专业 / 文艺)、长度(XX 字以内 / XX 点)、单位(万元 / 百分比 / 条)、结构(总 - 分 / 问题 - 解决方案)。

6. 迭代优化,试错调优

不存在 "一次性完美的提示词",尤其是复杂需求;需基于模型的首次输出,定位问题(指令模糊 / 缺失条件 / 示例不当),并逐步修改提示词,直到输出符合预期。

  • 核心逻辑 :提示词工程是试错与迭代的过程,而非一次性设计。

7. 控制上下文,避免信息冗余

大模型有上下文窗口限制 (如 GPT-3.5 Turbo 为 4k/16k tokens,Claude 3 Opus 为 200k tokens),多余的无关信息会占用窗口资源,导致模型忽略核心指令;需只保留与需求相关的上下文 / 输入数据

  • Token 小知识:1 个中文字≈1.5 个 token,1 个英文字母≈0.2 个 token,token 数决定了提示词的最大输入长度。

三、提示词工程的入门核心技巧

适用于所有基础场景,是新手必须掌握的核心能力,无需复杂的理论,只需遵循原则并灵活运用,就能解决 80% 的大模型使用需求。

1. 通用提示词结构(黄金模板)

所有基础提示词都可遵循 **「角色设定 + 核心指令 + 输入数据 + 输出约束」** 的四要素结构,这是最通用、最高效的模板,可根据需求删减(如简单需求可省略角色设定)。

模板公式

复制代码
请你以【角色】的身份,完成【核心指令】。
输入数据:【具体的输入信息/文本/数据】
输出要求:【格式+风格+长度+其他约束】

实战案例(Python 代码解释)

复制代码
请你以**Python入门讲师**的身份,解释以下代码的执行逻辑。
输入数据:
a = [1,2,3]
b = [i*2 for i in a]
print(b)
输出要求:分3步解释,每步不超过50字,语言通俗易懂,避免专业术语。

2. 指令明确化:将 "隐含需求" 转为 "显性指令"

把人类的模糊需求拆解为可量化、可判断的显性指令,是提示词设计的核心步骤。

  • 拆解方法:问自己 3 个问题→① 模型要做什么具体任务?② 基于什么信息做?③ 输出要满足什么具体条件?

  • 示例拆解:模糊需求 "帮我优化这篇文案"→ 显性指令 "帮我优化以下电商产品文案,突出产品的'续航长、颜值高'两个卖点,风格活泼年轻化,字数控制在 80 字以内,适合小红书发布"。

3. 关键词聚焦:强化核心信息

在提示词中加粗 / 突出核心关键词(如任务、约束、关键属性),引导模型优先关注核心信息,避免模型忽略关键需求。

  • 技巧 :使用 Markdown 的粗体、下划线、方括号等符号突出关键词,无需过度修饰,避免干扰模型解析。

  • 示例 :请你以财务分析师 的身份,分析以下公司季度营收 数据,重点关注同比增长率 ,输出表格格式的分析结果。

4. 格式强制:指定输出的结构化格式

当输出需要后续复用(如对接代码、整理文档) 时,必须强制指定结构化格式,这是提示词工程的工程化基础

  • 常用结构化格式:Markdown(标题、列表、表格、代码块)、JSON、CSV、SQL、XML、思维导图(用 Markdown 列表模拟)。

  • 核心要求 :格式描述要精准,避免模型输出格式混乱(如指定 JSON,需说明字段名和字段类型)。

  • 实战案例(JSON 格式输出)

    复制代码
    请你将以下3个水果的信息整理为JSON格式,字段包括:name(水果名,字符串)、price(单价,浮点数)、taste(口感,字符串)。
    输入数据:苹果5.9元/斤,脆甜;香蕉3.5元/斤,软糯;草莓25元/斤,酸甜。

5. 上下文裁剪:精准控制输入信息

根据大模型的上下文窗口大小需求核心 ,裁剪输入的上下文 / 数据,做到去冗余、留核心

  • 裁剪技巧

    1. 长文本(如万字文章):只提取与需求相关的段落,而非全部粘贴;

    2. 大数据(如百行 Excel):只提取核心列 / 核心行,或先做数据汇总再输入;

    3. 多轮对话:若对话过长,可将前序关键结论总结后,作为新的上下文输入,避免占用窗口。

6. 否定约束:明确 "不要做什么"

当需要避免模型输出特定内容时,添加否定约束,补充正面指令的不足,适用于内容创作、专业问答等场景。

  • 示例 :请你写一篇关于人工智能的科普文章,800 字左右,语言正式,不要使用过于专业的深度学习术语,不要出现公式,不要偏离科普主题

四、提示词工程的进阶核心方法

适用于复杂场景 (如逻辑推理、复杂分类、多步骤任务、数学计算),是挖掘大模型高阶能力的关键,也是提示词工程师的核心技能。以下方法可单独使用,也可组合使用(如 Few-shot+CoT 是最常用的组合)。

1. 零样本提示(Zero-shot)

定义

不给模型提供任何示例,仅通过纯文字指令 让模型完成任务,是最基础的进阶方法,适用于简单的、通用的任务(如文本分类、翻译、摘要)。

核心逻辑

利用大模型的原生泛化能力,通过清晰的指令引导模型调用训练语料中的通用知识。

实战案例(零样本文本分类)

复制代码
请你将以下用户评论分类为"产品质量问题/物流问题/服务问题/其他",直接输出分类结果,无需额外解释。
输入:这个快递寄了10天才到,太离谱了。

2. 少样本提示(Few-shot)

定义

给模型提供1-5 个示例(Demo) ,让模型通过归纳示例的规律 完成同类任务,适用于复杂的、个性化的任务(如自定义分类、特定格式输出、个性化创作)。

核心原则

  1. 示例要典型:覆盖任务的核心场景 / 判断标准;

  2. 示例要简洁:避免冗余信息,干扰模型归纳;

  3. 示例格式要统一:输入和输出的格式与实际任务完全一致。

实战案例(少样本自定义分类)

复制代码
请你将以下电商售后问题分类为"缺货/发错货/质量破损/退换货申请/其他",分类规则参考示例,直接输出分类结果。
示例:
1. 我拍的白色,发成黑色了→发错货
2. 收到的杯子碎了→质量破损
3. 请问什么时候能发货?→缺货
输入:我想把这个衣服退掉,不想要了。

3. 思维链提示(Chain of Thought, CoT)

定义

引导模型分步思考、逐步推理 ,将复杂的逻辑推理任务拆分为多个简单的子步骤,最终得到结论,核心是让模型 "说出思考过程",而非直接输出结果。

核心价值

解决大模型在数学计算、逻辑推理、多步骤问题中的输出错误问题,大幅提升推理的准确率(如 GPT-3.5 使用 CoT 后,数学计算准确率可提升 50% 以上)。

分类与实战

(1)基础 CoT:直接引导分步思考

在提示词中添加 **"分步思考""一步步分析""先做 XX,再做 XX"** 等指令,引导模型输出思考过程。示例(数学计算)

plaintext

复制代码
请你一步步分析并计算以下题目,先写出解题步骤,再给出最终答案。
题目:一个商店第一天卖了20件衣服,第二天比第一天多卖1/5,第三天卖的是第二天的2倍,第三天卖了多少件?

(2)少样本 CoT(Few-shot CoT):最常用的组合方法

Few-shotCoT 结合,给模型提供带思考过程的示例 ,让模型模仿示例的推理步骤完成任务,适用于复杂的逻辑推理 / 数学计算示例(少样本 CoT 数学计算)

plaintext

复制代码
请你一步步分析并计算以下题目,先写步骤,再给答案,参考示例的解题逻辑。
示例:
题目:小明有10个苹果,小红比小明多2个,小刚的苹果是小红的3倍,小刚有多少个?
步骤:1. 计算小红的苹果数:10+2=12个;2. 计算小刚的苹果数:12×3=36个。
答案:36个。
题目:一个商店第一天卖了20件衣服,第二天比第一天多卖1/5,第三天卖的是第二天的2倍,第三天卖了多少件?

4. 思维树提示(Tree of Thought, ToT)

定义

比 CoT 更进阶的推理方法,将复杂问题拆分为多个分支的子问题 ,模型会对每个子问题进行探索、评估、剪枝 (排除错误路径),最终得到最优解,适用于极复杂的逻辑推理、决策分析、数学证明

核心逻辑

模拟人类的树状思维:先拆解问题→再探索每个子问题的可能解法→评估解法的合理性→排除错误解法→最终整合正确解法得到答案。

提示词设计技巧

在提示词中明确要求模型 **"拆解子问题→分析每个子问题的可能解法→评估解法合理性→给出最终答案"**,并可提供带树状思考的示例。

适用场景

数学证明、复杂决策分析、路径规划、创意策划(多分支方案设计)等。

5. 自洽性提示(Self-Consistency)

定义

让模型生成多个不同的推理路径 ,然后从多个结果中选择出现次数最多的答案 (多数投票),适用于对准确率要求极高的推理任务(如数学计算、专业问答)。

核心价值

解决大模型单一路径推理的偶然性错误,提升输出的稳定性和准确率。

提示词设计技巧

在提示词中添加 **"生成 3 种不同的解题思路,分别给出步骤和答案,最后对比所有答案,给出最准确的最终结果"**。

6. 提示词链(Prompt Chaining)

定义

一个复杂的大任务 拆分为多个独立的小任务 ,为每个小任务设计单独的提示词,让模型按顺序完成每个小任务 ,最终将所有结果整合为最终答案,适用于超复杂的多步骤任务(如商业分析、论文写作、代码开发)。

核心逻辑

模拟人类的分步执行思维:复杂任务→拆分子任务→逐个解决→整合结果,避免模型因一次性处理过多信息而出现逻辑混乱。

实战案例(商业分析任务拆分)

原复杂任务 :基于某公司的年度财报,完成一份完整的商业分析报告→拆分为 5 个子任务,每个子任务对应一个提示词:

  1. 子任务 1:提取财报中的核心财务数据(营收、利润、增长率),输出表格格式;

  2. 子任务 2:分析财务数据的变化趋势,输出 100 字以内的趋势结论;

  3. 子任务 3:分析公司的核心竞争优势,输出 3 个核心优势;

  4. 子任务 4:分析公司面临的市场风险,输出 2 个主要风险;

  5. 子任务 5:基于以上结果,撰写一份 500 字的商业分析报告,结构为 "数据概况 - 趋势分析 - 优势 - 风险 - 总结"。

7. 检索增强提示(Retrieval-Augmented Prompt, RAP)

定义

外部知识库 / 实时数据 与提示词结合,让模型基于精准的外部信息 生成输出,是解决大模型幻觉、提升专业度的核心方法,也是 RAG(检索增强生成)的基础。

核心逻辑

大模型的训练语料存在时效性差、专业知识不足的问题,通过 "检索外部精准信息→将信息作为提示词的上下文→模型基于该信息生成输出",解决幻觉问题。

适用场景

专业领域问答(如医疗、法律、金融)、实时信息分析(如新闻、股市)、企业内部知识问答(如公司制度、产品手册)。

提示词设计技巧

在提示词中明确 **"基于以下提供的信息回答问题,若信息中没有相关答案,直接说明'无相关信息',不要猜测"**,避免模型脱离外部信息产生幻觉。

五、分场景提示词工程实战

不同场景的需求和核心目标不同,提示词设计需针对性调整 ,以下为最常用的 10 大场景 ,每个场景提供核心需求、提示词框架、实战案例,可直接复用。

场景 1:Python / 代码开发与调试

核心需求 :代码生成、代码解释、bug 调试、代码优化、框架使用指导;核心原则 :角色设定为对应语言的开发工程师 ,输入代码需用代码块 ,输出要求明确错误原因 / 优化点 + 完整代码 + 注释提示词框架

复制代码
请你以**[语言/框架]资深开发工程师**的身份,[代码生成/调试/解释/优化]以下代码。
输入代码:
[代码块]
问题/需求:[具体问题/优化要求]
输出要求:1. 指出[错误原因/优化点];2. 给出修正/优化后的完整代码;3. 添加详细的注释;4. 说明核心修改逻辑。

实战案例(Python 代码调试)

复制代码
请你以**Python后端开发工程师**的身份,调试以下代码中的运行错误,该代码的功能是计算列表中所有偶数的和。
输入代码:
nums = [1,2,3,4,5]
sum_even = 0
for i in nums:
    if i % 2 == 0
        sum_even += i
print(sum_even)
输出要求:1. 指出错误原因;2. 给出修正后的完整代码;3. 对错误行添加注释;4. 说明修改逻辑。

场景 2:SQL 语句生成与优化

核心需求 :基于业务需求生成 SQL、调试 SQL 错误、优化 SQL 查询效率、数据库表结构设计;核心原则 :明确数据库类型(MySQL/Oracle/SQL Server)表结构业务需求 ,输出要求完整 SQL + 注释 + 执行逻辑提示词框架

复制代码
请你以**MySQL数据库工程师**的身份,基于以下表结构,生成/优化满足[业务需求]的SQL语句。
表结构:
[表名1]:字段1(类型)、字段2(类型)、...(如user:id(int)、name(varchar)、age(int)、create_time(datetime))
[表名2]:...(多表关联需说明关联字段)
业务需求:[具体的查询/插入/更新/删除需求]
输出要求:1. 给出完整的SQL语句;2. 对关键语句添加注释;3. 说明SQL的执行逻辑;4. 若有优化空间,给出优化建议。

实战案例(MySQL 查询 SQL 生成)

复制代码
请你以**MySQL数据库工程师**的身份,基于以下表结构,生成查询需求的SQL语句。
表结构:
order:id(int,主键)、user_id(int)、order_amount(decimal)、order_time(datetime)
user:id(int,主键)、name(varchar)、age(int)
业务需求:查询2024年10月的所有订单,关联用户表获取用户名,按订单金额从高到低排序,只显示订单id、用户名、订单金额、订单时间。
输出要求:1. 给出完整的SQL语句;2. 对关联查询部分添加注释;3. 说明执行逻辑。

场景 3:文本分析(分类 / 摘要 / 翻译 / 问答)

子场景 3.1:文本摘要

核心原则 :明确摘要类型(提取式 / 生成式)长度核心提取点案例 :请你对以下新闻文章做提取式摘要,提取核心信息(时间、事件、结果),字数控制在 150 字以内,语言简洁正式。

子场景 3.2:多语言翻译

核心原则 :明确源语言 / 目标语言翻译风格(正式 / 口语 / 专业)领域(通用 / 医疗 / 法律 / 技术)案例 :请你将以下 Python 技术文档翻译成中文 ,翻译风格专业准确,保留原有的代码块和专业术语,语句通顺。

子场景 3.3:智能问答

核心原则 :若为专业问答,需添加专业上下文 ,并要求模型给出依据 ;若为通用问答,需明确回答风格 / 长度案例 :请你以数据结构讲师 的身份,回答以下问题,要求分点解释结合示例,语言通俗易懂,避免专业术语。问题:什么是二叉树?它的核心特点是什么?

场景 4:数据分析与可视化

核心需求 :数据趋势分析、数据对比分析、可视化代码生成(Python/Matplotlib/Seaborn);核心原则 :明确数据类型分析维度输出形式(分析结论 / 可视化代码)实战案例(数据趋势分析 + 可视化代码生成)

复制代码
请你以**数据分析师**的身份,基于以下销售数据做趋势分析,并生成Python可视化代码(使用Matplotlib)。
输入数据:1月:10万,2月:15万,3月:12万,4月:18万,5月:20万
分析需求:分析月度销售额的变化趋势,指出增长/下降的关键节点;
可视化要求:生成折线图,标题为"2024年1-5月销售额趋势",x轴为月份,y轴为销售额(万元),添加数值标签;
输出要求:1. 100字以内的趋势分析结论;2. 完整的Python可视化代码,添加详细注释;3. 说明代码的执行步骤。

场景 5:职场办公(汇报 / 邮件 / 会议纪要)

核心原则 :明确文档类型使用场景风格(正式 / 简洁)核心内容实战案例(会议纪要生成)

复制代码
请你以**行政专员**的身份,基于以下会议记录生成正式的会议纪要,结构为"会议基本信息-会议议题-决议事项-行动项",行动项需明确**负责人+截止时间**,字数控制在300字以内。
会议记录:2024年10月10日,产品部召开产品迭代会议,参会人:产品经理张三、开发工程师李四、测试工程师王五;议题:V2.0版本迭代需求;决议:新增用户反馈功能,优化支付流程;行动项:张三整理需求文档(10月12日前),李四负责开发(10月20日前),王五负责测试(10月25日前)。

场景 6:多模态生成(文生图 / 图生文 / 图文结合)

子场景 6.1:文生图(Midjourney/Stable Diffusion)

核心原则 :提示词包含主体 + 风格 + 细节 + 参数 (分辨率、比例、色调),越具体越精准;案例:Midjourney 提示词:一只可爱的卡通猫咪,坐在草地上,晚霞背景,水彩风格,柔和色调,8K 分辨率,16:9,无水印。

子场景 6.2:图生文(GPT-4V/Claude 3)

核心原则 :明确分析需求(提取信息 / 分析内容 / 生成文案) ,结合图片的核心信息,输出结构化结果;案例:请你基于以下图片(一张咖啡杯的产品图,白色陶瓷材质,简约设计,带手柄),生成电商产品的标题和卖点,标题控制在 20 字以内,卖点输出 3 条,每条 20 字以内。

场景 7:深度学习 / AI 辅助(数据集生成 / 模型训练提示)

核心需求 :生成标注数据集、解释深度学习模型原理、调试模型代码、设计模型训练方案;核心原则 :角色设定为深度学习工程师 ,明确模型类型(CNN/RNN/Transformer)任务目标(分类 / 检测 / 生成)输出要求实战案例(数据集生成)

复制代码
请你以**深度学习工程师**的身份,为**文本情感分类任务**生成10条标注数据集,数据类型为"用户电影评论",标注为"正面/负面",每条评论50字左右,格式为"评论内容→标注结果"。

六、大模型特性适配的提示词技巧

不同大模型的训练语料、能力侧重、上下文窗口、解析风格 不同,提示词设计需针对性适配,避免因模型特性导致提示词失效。以下为主流大模型的特性与适配技巧:

1. 主流大模型能力侧重

大模型 核心能力优势 局限性 上下文窗口
GPT-3.5 Turbo 通用对话、轻量代码、快速响应 复杂推理弱、易产生幻觉 4k/16k tokens
GPT-4/Claude 3 Opus 复杂推理、专业代码、多模态、长文本 响应慢、成本高 8k/32k/200k tokens
文心一言 中文理解、本土场景适配 英文能力较弱、代码一般 8k/32k tokens
通义千问 中文创作、电商 / 职场场景适配 复杂推理一般 8k/32k tokens
讯飞星火 语音交互、教育 / 医疗场景适配 通用代码能力较弱 8k/32k tokens

2. 针对性适配技巧

  1. GPT-3.5 Turbo :提示词简洁明了,避免过于复杂的逻辑分层,优先使用 Few-shot + 基础 CoT,减少冗余信息;

  2. GPT-4/Claude 3 Opus :可设计复杂的提示词链 / ToT / 自洽性提示,支持长文本输入,可直接粘贴大段数据 / 代码,适合复杂任务;

  3. 中文大模型(文心一言 / 通义千问) :提示词使用纯中文,避免过多英文术语,贴合本土场景(如电商、政务、职场),优先使用中文示例;

  4. 多模态模型(GPT-4V/Claude 3) :图文结合的提示词,文字指令要精准,明确对图片的分析 / 生成需求,避免模糊描述。

3. 解决大模型核心局限性的提示词技巧

大模型的幻觉、上下文窗口限制、逻辑偏差是固有问题,可通过针对性的提示词设计缓解:

  1. 解决幻觉问题 :① 添加 **"基于提供的信息回答,无相关信息则说明'无相关信息'";② 结合 RAP(检索增强提示),引入外部精准信息;③ 要求模型给出回答依据 **。

  2. 解决上下文窗口限制 :① 裁剪冗余信息,只保留核心内容;② 使用提示词链 ,拆分多步骤任务;③ 对长文本做分段处理,逐段让模型分析,最后整合结果。

  3. 解决逻辑偏差问题 :① 使用CoT/ToT/ 自洽性提示 ,引导模型分步推理;② 提供带逻辑的示例 ,让模型模仿;③ 要求模型验证结果(如 "计算完成后,验证答案是否正确")。

七、提示词的优化与调试工程化方法

提示词工程的核心是迭代优化 ,而非一次性设计,需建立科学的优化与调试流程,避免凭感觉修改提示词。以下为工程化的优化调试方法,适用于所有场景。

1. 提示词效果的问题诊断

当模型输出偏离预期时,先定位问题根源,再针对性修改,避免盲目调整。常见问题与根源对应:

模型输出问题 核心根源
答非所问 指令模糊、核心关键词缺失
输出格式混乱 输出约束不明确、格式描述不精准
逻辑错误 / 计算错误 未使用 CoT、缺少示例引导
产生幻觉 无外部信息约束、模型猜测
遗漏子需求 需求未分层、子指令堆砌
输出过于简略 / 冗长 长度约束不明确

2. 迭代优化的五步流程

建立 **"设计→测试→诊断→修改→再测试"** 的闭环迭代流程,这是提示词工程的工程化核心

  1. 初始设计:基于核心原则,设计第一版提示词(遵循黄金模板);

  2. 首次测试:将提示词输入模型,获取输出结果;

  3. 问题诊断:对比预期结果与实际输出,定位问题根源(如指令模糊、格式缺失);

  4. 针对性修改 :只修改问题对应的部分,避免大面积修改(如格式混乱则强化格式约束);

  5. 再次测试:将修改后的提示词输入模型,验证效果,若未达标则重复步骤 3-4。

3. 提示词的 AB 测试

当有多个版本的提示词 时,通过AB 测试选择最优版本,适用于对效果要求较高的场景(如商业分析、代码开发)。

  • 测试方法 :将不同版本的提示词输入同一模型,在相同输入数据下,对比输出的准确率、贴合度、格式规范性

  • 测试指标:根据场景制定量化指标(如代码调试的 "错误修复率"、文本分类的 "分类准确率"、文案创作的 "卖点贴合度")。

4. 提示词的量化评估

建立量化的评估指标,避免主观判断,让提示词效果可衡量,适用于工程化落地。不同场景的核心评估指标:

场景 核心评估指标
逻辑推理 / 计算 准确率、步骤完整性
代码开发 / 调试 错误修复率、代码可运行性
文本分类 / 问答 准确率、相关性
内容创作 贴合度、风格一致性、信息完整性
数据分析 数据提取准确率、趋势分析合理性

八、提示词工程的工程化落地

提示词工程并非 "单兵作战",当应用于企业级 AI 应用开发 时,需实现提示词的标准化、模板化、管理化、与代码 / API 的融合,这是提示词工程从 "技巧" 到 "工程" 的核心跨越。

1. 提示词的标准化与模板化

  • 标准化 :制定公司 / 团队的提示词设计规范,包括核心结构、格式要求、角色设定规范、输出约束规范,确保所有成员的提示词设计统一;

  • 模板化 :为常用场景(如代码调试、SQL 生成、会议纪要)制作可复用的提示词模板,将模板存储在共享库中,成员可直接修改参数使用。

2. 提示词的版本控制

将提示词作为工程资产 ,使用Git进行版本控制,记录提示词的修改历史、适用场景、效果指标,避免提示词的丢失和混乱。

  • 管理方式 :创建专门的 Git 仓库,按场景分类 建立文件夹(如 code/analysis/write),每个提示词模板对应一个 markdown 文件,包含模板内容、适用场景、测试效果、修改记录

3. 提示词与代码 / API 的融合

在 AI 应用开发中,提示词并非手动输入,而是通过代码 / API 动态生成和调用,这是提示词工程落地的核心方式

  • 核心方法 :使用 Python 等编程语言,将提示词设计为参数化模板,通过变量动态传入输入数据 / 约束条件,再调用大模型 API(如 OpenAI API、百度文心 API)生成输出;

  • 实战示例(Python+OpenAI API 参数化提示词)

    复制代码
    import openai
    openai.api_key = "你的API_KEY"
    
    # 定义参数化提示词模板
    prompt_template = """
    请你以{role}的身份,解释以下{language}代码的执行逻辑,输出要求:{output_require}
    输入代码:
    {code}
    """
    
    # 动态传入参数
    params = {
        "role": "Python入门讲师",
        "language": "Python",
        "output_require": "分3步解释,每步不超过50字",
        "code": "a = [1,2,3]; b = [i*2 for i in a]; print(b)"
    }
    
    # 生成最终提示词
    final_prompt = prompt_template.format(**params)
    
    # 调用OpenAI API
    response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo",
        messages=[{"role": "user", "content": final_prompt}]
    )
    
    # 输出结果
    print(response.choices[0].message.content)

4. 批量提示词处理

当需要处理大量的输入数据 (如批量分析 100 条评论、批量生成 100 段代码)时,通过代码实现批量提示词生成与调用,提升效率。

  • 核心逻辑:将输入数据存储在 Excel/CSV/ 数据库中,通过代码循环读取每条数据,动态生成提示词,调用大模型 API,将输出结果写入文件 / 数据库。

5. 提示词工程与其他 AI 技术的结合

提示词工程并非孤立的技术,而是与微调、RAG、Agent等高阶 AI 技术深度结合,共同实现大模型的工程化落地:

  1. 提示词工程 + 微调:简单场景用提示词工程,复杂的个性化场景(如企业专属知识)用微调,提示词工程作为微调的前置配套;

  2. 提示词工程 + RAG:RAG 负责检索外部精准信息,提示词工程负责将检索结果与指令结合,引导模型生成精准输出,解决幻觉问题;

  3. 提示词工程 + Agent:Agent 负责拆分复杂任务、调度工具,提示词工程为 Agent 的每个子任务设计精准的提示词,确保子任务的执行效果。

九、提示词工程的常见问题与解决方案

常见问题 核心原因 具体解决方案
模型答非所问 指令模糊、核心关键词缺失 强化指令明确化,加粗核心关键词,遵循黄金模板
输出格式混乱 输出约束不明确、格式描述不精准 强制指定结构化格式,明确字段名 / 格式要求,提供格式示例
逻辑推理 / 计算错误 未使用 CoT、缺少示例引导 使用 Few-shot CoT,引导模型分步推理,提供带思考过程的示例
大模型产生幻觉 无外部信息约束、模型猜测 添加 "无相关信息则说明" 的约束,结合 RAP 引入外部精准信息,要求模型给出回答依据
长文本处理效果差 上下文窗口限制、信息冗余 裁剪冗余信息,使用提示词链拆分任务,分段处理长文本并整合结果
多任务处理遗漏子需求 需求未分层、子指令堆砌 将复杂需求拆分为多个子指令,用 Markdown 分层次表达,使用 "第一步 / 第二步" 明确顺序
模型输出过于简略 / 冗长 长度约束不明确 精准指定输出长度(如 XX 字以内 / XX 点),添加 "不要过于简略 / 不要冗余" 的约束
不同模型输出效果差异大 未适配模型特性 针对不同模型的能力侧重,调整提示词的复杂度和表述方式

十、提示词工程的工具与学习资源

1. 核心工具

(1)提示词编辑器 / 调试工具

  • ChatGPT Prompt Builder:OpenAI 官方的提示词构建工具,可视化设计提示词,支持实时测试;

  • Claude Prompt Library:Anthropic 官方的提示词库,提供各场景的优质提示词模板;

  • Prompt Engineering Guide:开源的提示词工程指南,包含大量实战案例和工具;

  • 国内工具:通义千问提示词工坊、文心一言提示词实验室、讯飞星火提示词编辑器。

(2)代码 / API 调用工具

  • Python:OpenAI / 百度 / 阿里大模型的官方 Python SDK,实现参数化提示词和批量调用;

  • LangChain :大模型应用开发框架,内置Prompt 模板、Prompt 链、RAG等功能,是提示词工程与代码融合的核心工具;

  • LlamaIndex:专注于 RAG 的框架,结合提示词工程实现外部知识的精准检索与生成。

(3)版本控制与管理工具

  • Git/GitHub/GitLab:实现提示词的版本控制和团队协作;

  • Notion / 飞书文档:存储提示词模板,支持按场景分类,团队共享。

2. 优质学习资源

(1)官方文档

(2)开源教程

(3)课程与社区

  • Coursera:《Prompt Engineering for ChatGPT》(OpenAI 与 DeepLearning.AI 联合推出,免费);

  • 社区:Reddit r/PromptEngineering、知乎提示词工程话题、GitHub Prompt 工程相关仓库。

十一、提示词工程的前沿趋势

提示词工程是快速发展的领域,随着大模型的迭代,其方法论和工具也在不断升级,未来的核心发展趋势如下:

  1. 多模态提示词工程成为主流

随着多模态大模型(MLLM)的普及,提示词将从纯文本文本 + 图片 + 音频 + 视频 + 表格的多模态形式发展,多模态提示词的设计将成为核心技能。

  1. 自动提示词工程(Automatic Prompt Engineering, APE)

通过大模型自身 / 专门的模型自动生成、优化提示词,替代人工设计,大幅提升效率。目前已有相关研究(如 APE、Prompt Tuning),未来将逐步落地到实际应用中。

  1. 提示词工程的标准化与规范化

随着提示词工程成为大模型应用开发的基础技能,行业将逐步形成统一的提示词设计规范、评估标准、模板库,提示词将成为正式的工程资产。

  1. 提示词与大模型微调的融合化

提示词工程与参数高效微调(PEFT)LoRA 等微调技术深度融合,形成 "轻量微调 + 精准提示词" 的混合方案,兼顾个性化和效率。

  1. 提示词工程的低代码 / 无代码化

针对普通使用者,将推出更多低代码 / 无代码的提示词设计工具,通过可视化拖拽、模板选择等方式,让非技术人员也能设计高质量的提示词。

  1. 领域化提示词工程的深化

不同领域(医疗、法律、金融、代码)的提示词工程将精细化、专业化,出现针对特定领域的提示词模板库和设计方法,如医疗领域的提示词需符合医疗规范,法律领域的提示词需精准对接法律条文。

十二、总结

提示词工程的核心并非 "炫技式的复杂提示词设计",而是以工程化思维,让大模型精准理解并满足人类的需求 。其本质是人类与大模型的沟通艺术 + 工程化的落地方法 ,无需深厚的深度学习知识,但需要清晰的逻辑、结构化的表达、持续的迭代优化能力

对于新手,建议从黄金模板、核心原则、入门技巧 开始,先解决 80% 的基础场景;对于进阶学习者,需掌握CoT/Few-shot/ 提示词链 等进阶方法,并结合LangChain 实现提示词与代码的融合;对于工程化落地,需实现提示词的标准化、模板化、版本控制,并与 RAG/Agent/ 微调等技术结合。

随着大模型的不断发展,提示词工程将持续进化,但清晰具体、逻辑分层、迭代优化的核心原则始终不变,掌握这些底层逻辑,就能灵活应对各种场景和大模型的迭代。

配套学习建议

  1. 刻意练习:针对每个核心场景(代码、SQL、分析),设计 10 个以上的提示词,测试并优化效果;

  2. 积累模板:建立自己的提示词模板库,按场景分类,持续更新和完善;

  3. 结合代码:使用 Python+LangChain 实现参数化提示词和 API 调用,完成工程化落地练习;

  4. 关注前沿:跟踪 OpenAI/Anthropic/ 国内大模型的官方文档,了解最新的提示词技巧和模型特性。

相关推荐
ruxshui1 小时前
Inceptor/hive中整数类型分桶键数据倾斜问题及优化方案
大数据·数据库·sql
OnYoung1 小时前
Python生成器(Generator)与Yield关键字:惰性求值之美
jvm·数据库·python
亚林瓜子2 小时前
AWS中国云中的ETL之从Amazon Glue Data Catalog搬数据到MySQL(Glue版)
python·mysql·spark·etl·aws·glue·py
雨中飘荡的记忆2 小时前
Spring AI + MCP:从入门到实战
java·人工智能·spring
薛定谔的猫19822 小时前
四、基于LangChain与HuggingFace Pipeline的本地大语言模型对话系统搭建指南(使用阿里千问-模型)
人工智能·语言模型·langchain
ZCXZ12385296a2 小时前
【无标题】
人工智能·计算机视觉·目标跟踪
赛卓电子Semiment2 小时前
汽车油门踏板 | 国产应用方案
人工智能
Aurora-Borealis.2 小时前
Day44 简单CNN
python
【赫兹威客】浩哥2 小时前
【赫兹威客】伪分布式Spark测试教程
大数据·分布式·spark