目录
[1. 核心定义](#1. 核心定义)
[2. 适用对象与应用场景](#2. 适用对象与应用场景)
[3. 大模型与提示词的核心交互逻辑](#3. 大模型与提示词的核心交互逻辑)
[1. 清晰具体,拒绝模糊](#1. 清晰具体,拒绝模糊)
[2. 设定角色,锚定能力边界](#2. 设定角色,锚定能力边界)
[3. 逻辑分层,结构化表达](#3. 逻辑分层,结构化表达)
[5. 明确输出,约束格式 / 风格 / 长度](#5. 明确输出,约束格式 / 风格 / 长度)
[6. 迭代优化,试错调优](#6. 迭代优化,试错调优)
[7. 控制上下文,避免信息冗余](#7. 控制上下文,避免信息冗余)
[1. 通用提示词结构(黄金模板)](#1. 通用提示词结构(黄金模板))
[2. 指令明确化:将 "隐含需求" 转为 "显性指令"](#2. 指令明确化:将 “隐含需求” 转为 “显性指令”)
[3. 关键词聚焦:强化核心信息](#3. 关键词聚焦:强化核心信息)
[4. 格式强制:指定输出的结构化格式](#4. 格式强制:指定输出的结构化格式)
[5. 上下文裁剪:精准控制输入信息](#5. 上下文裁剪:精准控制输入信息)
[6. 否定约束:明确 "不要做什么"](#6. 否定约束:明确 “不要做什么”)
[1. 零样本提示(Zero-shot)](#1. 零样本提示(Zero-shot))
[2. 少样本提示(Few-shot)](#2. 少样本提示(Few-shot))
[3. 思维链提示(Chain of Thought, CoT)](#3. 思维链提示(Chain of Thought, CoT))
[(1)基础 CoT:直接引导分步思考](#(1)基础 CoT:直接引导分步思考)
[(2)少样本 CoT(Few-shot CoT):最常用的组合方法](#(2)少样本 CoT(Few-shot CoT):最常用的组合方法)
[4. 思维树提示(Tree of Thought, ToT)](#4. 思维树提示(Tree of Thought, ToT))
[5. 自洽性提示(Self-Consistency)](#5. 自洽性提示(Self-Consistency))
[6. 提示词链(Prompt Chaining)](#6. 提示词链(Prompt Chaining))
[7. 检索增强提示(Retrieval-Augmented Prompt, RAP)](#7. 检索增强提示(Retrieval-Augmented Prompt, RAP))
[1. 主流大模型能力侧重](#1. 主流大模型能力侧重)
[2. 针对性适配技巧](#2. 针对性适配技巧)
[3. 解决大模型核心局限性的提示词技巧](#3. 解决大模型核心局限性的提示词技巧)
[1. 提示词效果的问题诊断](#1. 提示词效果的问题诊断)
[2. 迭代优化的五步流程](#2. 迭代优化的五步流程)
[3. 提示词的 AB 测试](#3. 提示词的 AB 测试)
[4. 提示词的量化评估](#4. 提示词的量化评估)
[1. 提示词的标准化与模板化](#1. 提示词的标准化与模板化)
[2. 提示词的版本控制](#2. 提示词的版本控制)
[3. 提示词与代码 / API 的融合](#3. 提示词与代码 / API 的融合)
[4. 批量提示词处理](#4. 批量提示词处理)
[5. 提示词工程与其他 AI 技术的结合](#5. 提示词工程与其他 AI 技术的结合)
[1. 核心工具](#1. 核心工具)
[2. 优质学习资源](#2. 优质学习资源)
提示词工程是针对大语言模型(LLM)/ 多模态大模型(MLLM)设计有效、精准、可复用的提示词(Prompt) 的工程化方法论,核心是通过对指令、上下文、示例、输出约束的结构化设计,让模型理解用户意图并输出符合预期的结果。它是连接人类需求与大模型能力的核心桥梁,也是大模型应用开发的基础技能,覆盖自然语言处理、代码开发、数据分析、多模态生成、AI 工程落地等所有大模型应用场景。
本手册从基础定义→核心原则→入门技巧→进阶方法→分场景实践→结构化设计→模型适配→优化调试→工程化落地→常见问题→工具资源→前沿趋势 层层展开,涵盖提示词工程的所有核心维度,兼顾理论性、实操性、工程化,适配从入门到高阶的学习与应用需求。
一、提示词工程基础认知
1. 核心定义
-
提示词(Prompt) :用户向大模型输入的自然语言 / 多模态信息(文本、图片、音频、表格) ,是模型生成输出的依据,包含指令、上下文、输入数据、输出要求等要素。
-
提示词工程 :并非简单的 "写提示词",而是以工程化思维设计、优化、复用、管理提示词 的过程,核心目标是在不修改大模型底层参数的前提下,最大化挖掘模型原生能力 ,解决实际业务问题;同时包含提示词的标准化、模板化、批量处理、与代码 / API 的融合等工程化落地动作。
-
核心价值 :无需大模型微调 / 训练的专业知识(如深度学习、算力部署),低成本、高效率实现大模型的个性化适配;是大模型应用开发的基础环节 ,也是微调、RAG(检索增强生成)等高阶技术的前置配套能力。
2. 适用对象与应用场景
-
适用人群 :大模型普通使用者、AI 应用开发工程师、数据分析师、产品经理、内容创作者、科研人员等(不同人群只需掌握对应层级的技巧)。
-
核心应用场景:自然语言处理(分类、摘要、翻译、问答)、代码开发 / 调试、数据分析 / SQL 生成、多模态生成(文生图、图生文、图文结合)、职场办公(汇报、邮件、纪要)、深度学习辅助(数据集生成、模型训练提示)、智能客服 / 对话机器人搭建等。
3. 大模型与提示词的核心交互逻辑
大模型的本质是基于海量语料的概率化生成模型 ,其输出依赖于输入的信息密度、逻辑清晰度、格式结构化程度:
-
模型会先解析提示词中的核心指令,明确 "要做什么";
-
再提取上下文 / 输入数据中的关键信息,明确 "基于什么做";
-
最后根据输出约束,确定 "输出什么格式 / 风格 / 长度";
-
若提示词模糊、缺失关键信息,模型会基于训练语料做概率化猜测,最终导致输出偏离预期(如幻觉、答非所问)。
核心结论 :提示词的质量直接决定模型输出的效果,好的提示词能让基础模型发挥出接近微调模型的效果。
二、提示词工程的核心基础原则
这是设计所有提示词的底层逻辑,适用于所有大模型(GPT-3.5/4、Claude 2/3、文心一言、通义千问、讯飞星火等),违反任一原则都可能导致提示词失效。
1. 清晰具体,拒绝模糊
大模型无法理解人类的 "隐含意图",必须将需求、约束、条件全部明确化,避免使用模糊性词汇(如 "写一篇好的文章""做一个合理的分析")。
-
错误示例:帮我分析这个数据。
-
正确示例:基于以下 Excel 数据(销售额:1 月 10 万、2 月 15 万、3 月 12 万),分析季度销售额的变化趋势,输出 100 字以内的结论,使用 "增长 / 下降" 明确描述。
2. 设定角色,锚定能力边界
给模型设定具体的职业 / 身份角色,模型会基于该角色的专业知识、语言风格、思维方式输出结果,大幅提升输出的专业性和贴合度。
-
核心逻辑:大模型训练语料中包含不同职业的专业内容,角色设定会引导模型调用对应领域的知识。
-
示例 :请你以资深 Python 后端开发工程师的身份,帮我调试以下代码中的语法错误,要求指出错误原因并给出修正后的完整代码,同时添加详细的注释。
3. 逻辑分层,结构化表达
将复杂需求拆分为多个独立的、有逻辑顺序的子指令,避免所有需求堆砌在一起;优先使用 "第一步 / 第二步 / 第三步""首先 / 其次 / 最后" 等逻辑词,或 Markdown 分块(标题、列表、代码块)。
- 核心逻辑 :大模型对结构化、分层次的输入解析效率远高于纯文本堆砌,能有效避免遗漏子需求。
- 示例引导,少样本具象化
当需求较复杂(如特定格式输出、个性化分类)时,给模型提供1-3 个示例(少样本 Few-shot),让模型通过示例理解意图,比纯文字描述更有效。
-
核心逻辑 :大模型擅长模仿与归纳,示例能直接锚定输出的格式、风格、判断标准。
-
示例:请你将以下用户评论分类为 "正面 / 负面 / 中性",分类规则:提及产品优点为正面,提及缺点为负面,无明显褒贬为中性。示例:1. 这款手机续航超棒→正面;2. 手机拍照很模糊→负面;3. 手机是白色的→中性。现在分类:这款耳机音质还可以。
5. 明确输出,约束格式 / 风格 / 长度
必须提前定义输出的格式、风格、长度、单位,避免模型输出无意义的内容或不符合后续使用的结果(如需要对接代码的输出,必须指定 JSON/CSV 格式)。
- 可约束的维度:格式(Markdown/JSON/ 表格 / SQL)、风格(正式 / 口语 / 专业 / 文艺)、长度(XX 字以内 / XX 点)、单位(万元 / 百分比 / 条)、结构(总 - 分 / 问题 - 解决方案)。
6. 迭代优化,试错调优
不存在 "一次性完美的提示词",尤其是复杂需求;需基于模型的首次输出,定位问题(指令模糊 / 缺失条件 / 示例不当),并逐步修改提示词,直到输出符合预期。
- 核心逻辑 :提示词工程是试错与迭代的过程,而非一次性设计。
7. 控制上下文,避免信息冗余
大模型有上下文窗口限制 (如 GPT-3.5 Turbo 为 4k/16k tokens,Claude 3 Opus 为 200k tokens),多余的无关信息会占用窗口资源,导致模型忽略核心指令;需只保留与需求相关的上下文 / 输入数据。
- Token 小知识:1 个中文字≈1.5 个 token,1 个英文字母≈0.2 个 token,token 数决定了提示词的最大输入长度。
三、提示词工程的入门核心技巧
适用于所有基础场景,是新手必须掌握的核心能力,无需复杂的理论,只需遵循原则并灵活运用,就能解决 80% 的大模型使用需求。
1. 通用提示词结构(黄金模板)
所有基础提示词都可遵循 **「角色设定 + 核心指令 + 输入数据 + 输出约束」** 的四要素结构,这是最通用、最高效的模板,可根据需求删减(如简单需求可省略角色设定)。
模板公式
请你以【角色】的身份,完成【核心指令】。
输入数据:【具体的输入信息/文本/数据】
输出要求:【格式+风格+长度+其他约束】
实战案例(Python 代码解释)
请你以**Python入门讲师**的身份,解释以下代码的执行逻辑。
输入数据:
a = [1,2,3]
b = [i*2 for i in a]
print(b)
输出要求:分3步解释,每步不超过50字,语言通俗易懂,避免专业术语。
2. 指令明确化:将 "隐含需求" 转为 "显性指令"
把人类的模糊需求拆解为可量化、可判断的显性指令,是提示词设计的核心步骤。
-
拆解方法:问自己 3 个问题→① 模型要做什么具体任务?② 基于什么信息做?③ 输出要满足什么具体条件?
-
示例拆解:模糊需求 "帮我优化这篇文案"→ 显性指令 "帮我优化以下电商产品文案,突出产品的'续航长、颜值高'两个卖点,风格活泼年轻化,字数控制在 80 字以内,适合小红书发布"。
3. 关键词聚焦:强化核心信息
在提示词中加粗 / 突出核心关键词(如任务、约束、关键属性),引导模型优先关注核心信息,避免模型忽略关键需求。
-
技巧 :使用 Markdown 的粗体、下划线、方括号等符号突出关键词,无需过度修饰,避免干扰模型解析。
-
示例 :请你以财务分析师 的身份,分析以下公司季度营收 数据,重点关注同比增长率 ,输出表格格式的分析结果。
4. 格式强制:指定输出的结构化格式
当输出需要后续复用(如对接代码、整理文档) 时,必须强制指定结构化格式,这是提示词工程的工程化基础。
-
常用结构化格式:Markdown(标题、列表、表格、代码块)、JSON、CSV、SQL、XML、思维导图(用 Markdown 列表模拟)。
-
核心要求 :格式描述要精准,避免模型输出格式混乱(如指定 JSON,需说明字段名和字段类型)。
-
实战案例(JSON 格式输出):
请你将以下3个水果的信息整理为JSON格式,字段包括:name(水果名,字符串)、price(单价,浮点数)、taste(口感,字符串)。 输入数据:苹果5.9元/斤,脆甜;香蕉3.5元/斤,软糯;草莓25元/斤,酸甜。
5. 上下文裁剪:精准控制输入信息
根据大模型的上下文窗口大小 和需求核心 ,裁剪输入的上下文 / 数据,做到去冗余、留核心。
-
裁剪技巧:
-
长文本(如万字文章):只提取与需求相关的段落,而非全部粘贴;
-
大数据(如百行 Excel):只提取核心列 / 核心行,或先做数据汇总再输入;
-
多轮对话:若对话过长,可将前序关键结论总结后,作为新的上下文输入,避免占用窗口。
-
6. 否定约束:明确 "不要做什么"
当需要避免模型输出特定内容时,添加否定约束,补充正面指令的不足,适用于内容创作、专业问答等场景。
- 示例 :请你写一篇关于人工智能的科普文章,800 字左右,语言正式,不要使用过于专业的深度学习术语,不要出现公式,不要偏离科普主题。
四、提示词工程的进阶核心方法
适用于复杂场景 (如逻辑推理、复杂分类、多步骤任务、数学计算),是挖掘大模型高阶能力的关键,也是提示词工程师的核心技能。以下方法可单独使用,也可组合使用(如 Few-shot+CoT 是最常用的组合)。
1. 零样本提示(Zero-shot)
定义
不给模型提供任何示例,仅通过纯文字指令 让模型完成任务,是最基础的进阶方法,适用于简单的、通用的任务(如文本分类、翻译、摘要)。
核心逻辑
利用大模型的原生泛化能力,通过清晰的指令引导模型调用训练语料中的通用知识。
实战案例(零样本文本分类)
请你将以下用户评论分类为"产品质量问题/物流问题/服务问题/其他",直接输出分类结果,无需额外解释。
输入:这个快递寄了10天才到,太离谱了。
2. 少样本提示(Few-shot)
定义
给模型提供1-5 个示例(Demo) ,让模型通过归纳示例的规律 完成同类任务,适用于复杂的、个性化的任务(如自定义分类、特定格式输出、个性化创作)。
核心原则
-
示例要典型:覆盖任务的核心场景 / 判断标准;
-
示例要简洁:避免冗余信息,干扰模型归纳;
-
示例格式要统一:输入和输出的格式与实际任务完全一致。
实战案例(少样本自定义分类)
请你将以下电商售后问题分类为"缺货/发错货/质量破损/退换货申请/其他",分类规则参考示例,直接输出分类结果。
示例:
1. 我拍的白色,发成黑色了→发错货
2. 收到的杯子碎了→质量破损
3. 请问什么时候能发货?→缺货
输入:我想把这个衣服退掉,不想要了。
3. 思维链提示(Chain of Thought, CoT)
定义
引导模型分步思考、逐步推理 ,将复杂的逻辑推理任务拆分为多个简单的子步骤,最终得到结论,核心是让模型 "说出思考过程",而非直接输出结果。
核心价值
解决大模型在数学计算、逻辑推理、多步骤问题中的输出错误问题,大幅提升推理的准确率(如 GPT-3.5 使用 CoT 后,数学计算准确率可提升 50% 以上)。
分类与实战
(1)基础 CoT:直接引导分步思考
在提示词中添加 **"分步思考""一步步分析""先做 XX,再做 XX"** 等指令,引导模型输出思考过程。示例(数学计算):
plaintext
请你一步步分析并计算以下题目,先写出解题步骤,再给出最终答案。
题目:一个商店第一天卖了20件衣服,第二天比第一天多卖1/5,第三天卖的是第二天的2倍,第三天卖了多少件?
(2)少样本 CoT(Few-shot CoT):最常用的组合方法
将Few-shot 与CoT 结合,给模型提供带思考过程的示例 ,让模型模仿示例的推理步骤完成任务,适用于复杂的逻辑推理 / 数学计算 。示例(少样本 CoT 数学计算):
plaintext
请你一步步分析并计算以下题目,先写步骤,再给答案,参考示例的解题逻辑。
示例:
题目:小明有10个苹果,小红比小明多2个,小刚的苹果是小红的3倍,小刚有多少个?
步骤:1. 计算小红的苹果数:10+2=12个;2. 计算小刚的苹果数:12×3=36个。
答案:36个。
题目:一个商店第一天卖了20件衣服,第二天比第一天多卖1/5,第三天卖的是第二天的2倍,第三天卖了多少件?
4. 思维树提示(Tree of Thought, ToT)
定义
比 CoT 更进阶的推理方法,将复杂问题拆分为多个分支的子问题 ,模型会对每个子问题进行探索、评估、剪枝 (排除错误路径),最终得到最优解,适用于极复杂的逻辑推理、决策分析、数学证明。
核心逻辑
模拟人类的树状思维:先拆解问题→再探索每个子问题的可能解法→评估解法的合理性→排除错误解法→最终整合正确解法得到答案。
提示词设计技巧
在提示词中明确要求模型 **"拆解子问题→分析每个子问题的可能解法→评估解法合理性→给出最终答案"**,并可提供带树状思考的示例。
适用场景
数学证明、复杂决策分析、路径规划、创意策划(多分支方案设计)等。
5. 自洽性提示(Self-Consistency)
定义
让模型生成多个不同的推理路径 ,然后从多个结果中选择出现次数最多的答案 (多数投票),适用于对准确率要求极高的推理任务(如数学计算、专业问答)。
核心价值
解决大模型单一路径推理的偶然性错误,提升输出的稳定性和准确率。
提示词设计技巧
在提示词中添加 **"生成 3 种不同的解题思路,分别给出步骤和答案,最后对比所有答案,给出最准确的最终结果"**。
6. 提示词链(Prompt Chaining)
定义
将一个复杂的大任务 拆分为多个独立的小任务 ,为每个小任务设计单独的提示词,让模型按顺序完成每个小任务 ,最终将所有结果整合为最终答案,适用于超复杂的多步骤任务(如商业分析、论文写作、代码开发)。
核心逻辑
模拟人类的分步执行思维:复杂任务→拆分子任务→逐个解决→整合结果,避免模型因一次性处理过多信息而出现逻辑混乱。
实战案例(商业分析任务拆分)
原复杂任务 :基于某公司的年度财报,完成一份完整的商业分析报告→拆分为 5 个子任务,每个子任务对应一个提示词:
-
子任务 1:提取财报中的核心财务数据(营收、利润、增长率),输出表格格式;
-
子任务 2:分析财务数据的变化趋势,输出 100 字以内的趋势结论;
-
子任务 3:分析公司的核心竞争优势,输出 3 个核心优势;
-
子任务 4:分析公司面临的市场风险,输出 2 个主要风险;
-
子任务 5:基于以上结果,撰写一份 500 字的商业分析报告,结构为 "数据概况 - 趋势分析 - 优势 - 风险 - 总结"。
7. 检索增强提示(Retrieval-Augmented Prompt, RAP)
定义
将外部知识库 / 实时数据 与提示词结合,让模型基于精准的外部信息 生成输出,是解决大模型幻觉、提升专业度的核心方法,也是 RAG(检索增强生成)的基础。
核心逻辑
大模型的训练语料存在时效性差、专业知识不足的问题,通过 "检索外部精准信息→将信息作为提示词的上下文→模型基于该信息生成输出",解决幻觉问题。
适用场景
专业领域问答(如医疗、法律、金融)、实时信息分析(如新闻、股市)、企业内部知识问答(如公司制度、产品手册)。
提示词设计技巧
在提示词中明确 **"基于以下提供的信息回答问题,若信息中没有相关答案,直接说明'无相关信息',不要猜测"**,避免模型脱离外部信息产生幻觉。
五、分场景提示词工程实战
不同场景的需求和核心目标不同,提示词设计需针对性调整 ,以下为最常用的 10 大场景 ,每个场景提供核心需求、提示词框架、实战案例,可直接复用。
场景 1:Python / 代码开发与调试
核心需求 :代码生成、代码解释、bug 调试、代码优化、框架使用指导;核心原则 :角色设定为对应语言的开发工程师 ,输入代码需用代码块 ,输出要求明确错误原因 / 优化点 + 完整代码 + 注释 ;提示词框架:
请你以**[语言/框架]资深开发工程师**的身份,[代码生成/调试/解释/优化]以下代码。
输入代码:
[代码块]
问题/需求:[具体问题/优化要求]
输出要求:1. 指出[错误原因/优化点];2. 给出修正/优化后的完整代码;3. 添加详细的注释;4. 说明核心修改逻辑。
实战案例(Python 代码调试):
请你以**Python后端开发工程师**的身份,调试以下代码中的运行错误,该代码的功能是计算列表中所有偶数的和。
输入代码:
nums = [1,2,3,4,5]
sum_even = 0
for i in nums:
if i % 2 == 0
sum_even += i
print(sum_even)
输出要求:1. 指出错误原因;2. 给出修正后的完整代码;3. 对错误行添加注释;4. 说明修改逻辑。
场景 2:SQL 语句生成与优化
核心需求 :基于业务需求生成 SQL、调试 SQL 错误、优化 SQL 查询效率、数据库表结构设计;核心原则 :明确数据库类型(MySQL/Oracle/SQL Server) 、表结构 、业务需求 ,输出要求完整 SQL + 注释 + 执行逻辑 ;提示词框架:
请你以**MySQL数据库工程师**的身份,基于以下表结构,生成/优化满足[业务需求]的SQL语句。
表结构:
[表名1]:字段1(类型)、字段2(类型)、...(如user:id(int)、name(varchar)、age(int)、create_time(datetime))
[表名2]:...(多表关联需说明关联字段)
业务需求:[具体的查询/插入/更新/删除需求]
输出要求:1. 给出完整的SQL语句;2. 对关键语句添加注释;3. 说明SQL的执行逻辑;4. 若有优化空间,给出优化建议。
实战案例(MySQL 查询 SQL 生成):
请你以**MySQL数据库工程师**的身份,基于以下表结构,生成查询需求的SQL语句。
表结构:
order:id(int,主键)、user_id(int)、order_amount(decimal)、order_time(datetime)
user:id(int,主键)、name(varchar)、age(int)
业务需求:查询2024年10月的所有订单,关联用户表获取用户名,按订单金额从高到低排序,只显示订单id、用户名、订单金额、订单时间。
输出要求:1. 给出完整的SQL语句;2. 对关联查询部分添加注释;3. 说明执行逻辑。
场景 3:文本分析(分类 / 摘要 / 翻译 / 问答)
子场景 3.1:文本摘要
核心原则 :明确摘要类型(提取式 / 生成式) 、长度 、核心提取点 ;案例 :请你对以下新闻文章做提取式摘要,提取核心信息(时间、事件、结果),字数控制在 150 字以内,语言简洁正式。
子场景 3.2:多语言翻译
核心原则 :明确源语言 / 目标语言 、翻译风格(正式 / 口语 / 专业) 、领域(通用 / 医疗 / 法律 / 技术) ;案例 :请你将以下 Python 技术文档翻译成中文 ,翻译风格专业准确,保留原有的代码块和专业术语,语句通顺。
子场景 3.3:智能问答
核心原则 :若为专业问答,需添加专业上下文 ,并要求模型给出依据 ;若为通用问答,需明确回答风格 / 长度 ;案例 :请你以数据结构讲师 的身份,回答以下问题,要求分点解释 ,结合示例,语言通俗易懂,避免专业术语。问题:什么是二叉树?它的核心特点是什么?
场景 4:数据分析与可视化
核心需求 :数据趋势分析、数据对比分析、可视化代码生成(Python/Matplotlib/Seaborn);核心原则 :明确数据类型 、分析维度 、输出形式(分析结论 / 可视化代码) ;实战案例(数据趋势分析 + 可视化代码生成):
请你以**数据分析师**的身份,基于以下销售数据做趋势分析,并生成Python可视化代码(使用Matplotlib)。
输入数据:1月:10万,2月:15万,3月:12万,4月:18万,5月:20万
分析需求:分析月度销售额的变化趋势,指出增长/下降的关键节点;
可视化要求:生成折线图,标题为"2024年1-5月销售额趋势",x轴为月份,y轴为销售额(万元),添加数值标签;
输出要求:1. 100字以内的趋势分析结论;2. 完整的Python可视化代码,添加详细注释;3. 说明代码的执行步骤。
场景 5:职场办公(汇报 / 邮件 / 会议纪要)
核心原则 :明确文档类型 、使用场景 、风格(正式 / 简洁) 、核心内容 ;实战案例(会议纪要生成):
请你以**行政专员**的身份,基于以下会议记录生成正式的会议纪要,结构为"会议基本信息-会议议题-决议事项-行动项",行动项需明确**负责人+截止时间**,字数控制在300字以内。
会议记录:2024年10月10日,产品部召开产品迭代会议,参会人:产品经理张三、开发工程师李四、测试工程师王五;议题:V2.0版本迭代需求;决议:新增用户反馈功能,优化支付流程;行动项:张三整理需求文档(10月12日前),李四负责开发(10月20日前),王五负责测试(10月25日前)。
场景 6:多模态生成(文生图 / 图生文 / 图文结合)
子场景 6.1:文生图(Midjourney/Stable Diffusion)
核心原则 :提示词包含主体 + 风格 + 细节 + 参数 (分辨率、比例、色调),越具体越精准;案例:Midjourney 提示词:一只可爱的卡通猫咪,坐在草地上,晚霞背景,水彩风格,柔和色调,8K 分辨率,16:9,无水印。
子场景 6.2:图生文(GPT-4V/Claude 3)
核心原则 :明确分析需求(提取信息 / 分析内容 / 生成文案) ,结合图片的核心信息,输出结构化结果;案例:请你基于以下图片(一张咖啡杯的产品图,白色陶瓷材质,简约设计,带手柄),生成电商产品的标题和卖点,标题控制在 20 字以内,卖点输出 3 条,每条 20 字以内。
场景 7:深度学习 / AI 辅助(数据集生成 / 模型训练提示)
核心需求 :生成标注数据集、解释深度学习模型原理、调试模型代码、设计模型训练方案;核心原则 :角色设定为深度学习工程师 ,明确模型类型(CNN/RNN/Transformer) 、任务目标(分类 / 检测 / 生成) 、输出要求 ;实战案例(数据集生成):
请你以**深度学习工程师**的身份,为**文本情感分类任务**生成10条标注数据集,数据类型为"用户电影评论",标注为"正面/负面",每条评论50字左右,格式为"评论内容→标注结果"。
六、大模型特性适配的提示词技巧
不同大模型的训练语料、能力侧重、上下文窗口、解析风格 不同,提示词设计需针对性适配,避免因模型特性导致提示词失效。以下为主流大模型的特性与适配技巧:
1. 主流大模型能力侧重
| 大模型 | 核心能力优势 | 局限性 | 上下文窗口 |
|---|---|---|---|
| GPT-3.5 Turbo | 通用对话、轻量代码、快速响应 | 复杂推理弱、易产生幻觉 | 4k/16k tokens |
| GPT-4/Claude 3 Opus | 复杂推理、专业代码、多模态、长文本 | 响应慢、成本高 | 8k/32k/200k tokens |
| 文心一言 | 中文理解、本土场景适配 | 英文能力较弱、代码一般 | 8k/32k tokens |
| 通义千问 | 中文创作、电商 / 职场场景适配 | 复杂推理一般 | 8k/32k tokens |
| 讯飞星火 | 语音交互、教育 / 医疗场景适配 | 通用代码能力较弱 | 8k/32k tokens |
2. 针对性适配技巧
-
GPT-3.5 Turbo :提示词简洁明了,避免过于复杂的逻辑分层,优先使用 Few-shot + 基础 CoT,减少冗余信息;
-
GPT-4/Claude 3 Opus :可设计复杂的提示词链 / ToT / 自洽性提示,支持长文本输入,可直接粘贴大段数据 / 代码,适合复杂任务;
-
中文大模型(文心一言 / 通义千问) :提示词使用纯中文,避免过多英文术语,贴合本土场景(如电商、政务、职场),优先使用中文示例;
-
多模态模型(GPT-4V/Claude 3) :图文结合的提示词,文字指令要精准,明确对图片的分析 / 生成需求,避免模糊描述。
3. 解决大模型核心局限性的提示词技巧
大模型的幻觉、上下文窗口限制、逻辑偏差是固有问题,可通过针对性的提示词设计缓解:
-
解决幻觉问题 :① 添加 **"基于提供的信息回答,无相关信息则说明'无相关信息'";② 结合 RAP(检索增强提示),引入外部精准信息;③ 要求模型给出回答依据 **。
-
解决上下文窗口限制 :① 裁剪冗余信息,只保留核心内容;② 使用提示词链 ,拆分多步骤任务;③ 对长文本做分段处理,逐段让模型分析,最后整合结果。
-
解决逻辑偏差问题 :① 使用CoT/ToT/ 自洽性提示 ,引导模型分步推理;② 提供带逻辑的示例 ,让模型模仿;③ 要求模型验证结果(如 "计算完成后,验证答案是否正确")。
七、提示词的优化与调试工程化方法
提示词工程的核心是迭代优化 ,而非一次性设计,需建立科学的优化与调试流程,避免凭感觉修改提示词。以下为工程化的优化调试方法,适用于所有场景。
1. 提示词效果的问题诊断
当模型输出偏离预期时,先定位问题根源,再针对性修改,避免盲目调整。常见问题与根源对应:
| 模型输出问题 | 核心根源 |
|---|---|
| 答非所问 | 指令模糊、核心关键词缺失 |
| 输出格式混乱 | 输出约束不明确、格式描述不精准 |
| 逻辑错误 / 计算错误 | 未使用 CoT、缺少示例引导 |
| 产生幻觉 | 无外部信息约束、模型猜测 |
| 遗漏子需求 | 需求未分层、子指令堆砌 |
| 输出过于简略 / 冗长 | 长度约束不明确 |
2. 迭代优化的五步流程
建立 **"设计→测试→诊断→修改→再测试"** 的闭环迭代流程,这是提示词工程的工程化核心:
-
初始设计:基于核心原则,设计第一版提示词(遵循黄金模板);
-
首次测试:将提示词输入模型,获取输出结果;
-
问题诊断:对比预期结果与实际输出,定位问题根源(如指令模糊、格式缺失);
-
针对性修改 :只修改问题对应的部分,避免大面积修改(如格式混乱则强化格式约束);
-
再次测试:将修改后的提示词输入模型,验证效果,若未达标则重复步骤 3-4。
3. 提示词的 AB 测试
当有多个版本的提示词 时,通过AB 测试选择最优版本,适用于对效果要求较高的场景(如商业分析、代码开发)。
-
测试方法 :将不同版本的提示词输入同一模型,在相同输入数据下,对比输出的准确率、贴合度、格式规范性;
-
测试指标:根据场景制定量化指标(如代码调试的 "错误修复率"、文本分类的 "分类准确率"、文案创作的 "卖点贴合度")。
4. 提示词的量化评估
建立量化的评估指标,避免主观判断,让提示词效果可衡量,适用于工程化落地。不同场景的核心评估指标:
| 场景 | 核心评估指标 |
|---|---|
| 逻辑推理 / 计算 | 准确率、步骤完整性 |
| 代码开发 / 调试 | 错误修复率、代码可运行性 |
| 文本分类 / 问答 | 准确率、相关性 |
| 内容创作 | 贴合度、风格一致性、信息完整性 |
| 数据分析 | 数据提取准确率、趋势分析合理性 |
八、提示词工程的工程化落地
提示词工程并非 "单兵作战",当应用于企业级 AI 应用开发 时,需实现提示词的标准化、模板化、管理化、与代码 / API 的融合,这是提示词工程从 "技巧" 到 "工程" 的核心跨越。
1. 提示词的标准化与模板化
-
标准化 :制定公司 / 团队的提示词设计规范,包括核心结构、格式要求、角色设定规范、输出约束规范,确保所有成员的提示词设计统一;
-
模板化 :为常用场景(如代码调试、SQL 生成、会议纪要)制作可复用的提示词模板,将模板存储在共享库中,成员可直接修改参数使用。
2. 提示词的版本控制
将提示词作为工程资产 ,使用Git进行版本控制,记录提示词的修改历史、适用场景、效果指标,避免提示词的丢失和混乱。
- 管理方式 :创建专门的 Git 仓库,按场景分类 建立文件夹(如 code/analysis/write),每个提示词模板对应一个 markdown 文件,包含模板内容、适用场景、测试效果、修改记录。
3. 提示词与代码 / API 的融合
在 AI 应用开发中,提示词并非手动输入,而是通过代码 / API 动态生成和调用,这是提示词工程落地的核心方式。
-
核心方法 :使用 Python 等编程语言,将提示词设计为参数化模板,通过变量动态传入输入数据 / 约束条件,再调用大模型 API(如 OpenAI API、百度文心 API)生成输出;
-
实战示例(Python+OpenAI API 参数化提示词):
import openai openai.api_key = "你的API_KEY" # 定义参数化提示词模板 prompt_template = """ 请你以{role}的身份,解释以下{language}代码的执行逻辑,输出要求:{output_require} 输入代码: {code} """ # 动态传入参数 params = { "role": "Python入门讲师", "language": "Python", "output_require": "分3步解释,每步不超过50字", "code": "a = [1,2,3]; b = [i*2 for i in a]; print(b)" } # 生成最终提示词 final_prompt = prompt_template.format(**params) # 调用OpenAI API response = openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=[{"role": "user", "content": final_prompt}] ) # 输出结果 print(response.choices[0].message.content)
4. 批量提示词处理
当需要处理大量的输入数据 (如批量分析 100 条评论、批量生成 100 段代码)时,通过代码实现批量提示词生成与调用,提升效率。
- 核心逻辑:将输入数据存储在 Excel/CSV/ 数据库中,通过代码循环读取每条数据,动态生成提示词,调用大模型 API,将输出结果写入文件 / 数据库。
5. 提示词工程与其他 AI 技术的结合
提示词工程并非孤立的技术,而是与微调、RAG、Agent等高阶 AI 技术深度结合,共同实现大模型的工程化落地:
-
提示词工程 + 微调:简单场景用提示词工程,复杂的个性化场景(如企业专属知识)用微调,提示词工程作为微调的前置配套;
-
提示词工程 + RAG:RAG 负责检索外部精准信息,提示词工程负责将检索结果与指令结合,引导模型生成精准输出,解决幻觉问题;
-
提示词工程 + Agent:Agent 负责拆分复杂任务、调度工具,提示词工程为 Agent 的每个子任务设计精准的提示词,确保子任务的执行效果。
九、提示词工程的常见问题与解决方案
| 常见问题 | 核心原因 | 具体解决方案 |
|---|---|---|
| 模型答非所问 | 指令模糊、核心关键词缺失 | 强化指令明确化,加粗核心关键词,遵循黄金模板 |
| 输出格式混乱 | 输出约束不明确、格式描述不精准 | 强制指定结构化格式,明确字段名 / 格式要求,提供格式示例 |
| 逻辑推理 / 计算错误 | 未使用 CoT、缺少示例引导 | 使用 Few-shot CoT,引导模型分步推理,提供带思考过程的示例 |
| 大模型产生幻觉 | 无外部信息约束、模型猜测 | 添加 "无相关信息则说明" 的约束,结合 RAP 引入外部精准信息,要求模型给出回答依据 |
| 长文本处理效果差 | 上下文窗口限制、信息冗余 | 裁剪冗余信息,使用提示词链拆分任务,分段处理长文本并整合结果 |
| 多任务处理遗漏子需求 | 需求未分层、子指令堆砌 | 将复杂需求拆分为多个子指令,用 Markdown 分层次表达,使用 "第一步 / 第二步" 明确顺序 |
| 模型输出过于简略 / 冗长 | 长度约束不明确 | 精准指定输出长度(如 XX 字以内 / XX 点),添加 "不要过于简略 / 不要冗余" 的约束 |
| 不同模型输出效果差异大 | 未适配模型特性 | 针对不同模型的能力侧重,调整提示词的复杂度和表述方式 |
十、提示词工程的工具与学习资源
1. 核心工具
(1)提示词编辑器 / 调试工具
-
ChatGPT Prompt Builder:OpenAI 官方的提示词构建工具,可视化设计提示词,支持实时测试;
-
Claude Prompt Library:Anthropic 官方的提示词库,提供各场景的优质提示词模板;
-
Prompt Engineering Guide:开源的提示词工程指南,包含大量实战案例和工具;
-
国内工具:通义千问提示词工坊、文心一言提示词实验室、讯飞星火提示词编辑器。
(2)代码 / API 调用工具
-
Python:OpenAI / 百度 / 阿里大模型的官方 Python SDK,实现参数化提示词和批量调用;
-
LangChain :大模型应用开发框架,内置Prompt 模板、Prompt 链、RAG等功能,是提示词工程与代码融合的核心工具;
-
LlamaIndex:专注于 RAG 的框架,结合提示词工程实现外部知识的精准检索与生成。
(3)版本控制与管理工具
-
Git/GitHub/GitLab:实现提示词的版本控制和团队协作;
-
Notion / 飞书文档:存储提示词模板,支持按场景分类,团队共享。
2. 优质学习资源
(1)官方文档
-
OpenAI Prompt Engineering Guide :https://platform.openai.com/docs/guides/prompt-engineering(英文)/ 中文翻译版;
-
Anthropic Claude Prompt Engineering :https://docs.anthropic.com/claude/docs/prompt-engineering(英文);
-
国内大模型官方文档:文心一言 / 通义千问 / 讯飞星火的开发者平台,提供本土化的提示词技巧。
(2)开源教程
-
Prompt Engineering Guide(GitHub) :https://github.com/dair-ai/Prompt-Engineering-Guide(最全面的开源提示词工程指南);
-
LangChain 官方文档 :https://python.langchain.com/docs/get_started/introduction(提示词工程与代码融合的核心教程)。
(3)课程与社区
-
Coursera:《Prompt Engineering for ChatGPT》(OpenAI 与 DeepLearning.AI 联合推出,免费);
-
社区:Reddit r/PromptEngineering、知乎提示词工程话题、GitHub Prompt 工程相关仓库。
十一、提示词工程的前沿趋势
提示词工程是快速发展的领域,随着大模型的迭代,其方法论和工具也在不断升级,未来的核心发展趋势如下:
- 多模态提示词工程成为主流
随着多模态大模型(MLLM)的普及,提示词将从纯文本 向文本 + 图片 + 音频 + 视频 + 表格的多模态形式发展,多模态提示词的设计将成为核心技能。
- 自动提示词工程(Automatic Prompt Engineering, APE)
通过大模型自身 / 专门的模型自动生成、优化提示词,替代人工设计,大幅提升效率。目前已有相关研究(如 APE、Prompt Tuning),未来将逐步落地到实际应用中。
- 提示词工程的标准化与规范化
随着提示词工程成为大模型应用开发的基础技能,行业将逐步形成统一的提示词设计规范、评估标准、模板库,提示词将成为正式的工程资产。
- 提示词与大模型微调的融合化
提示词工程与参数高效微调(PEFT) 、LoRA 等微调技术深度融合,形成 "轻量微调 + 精准提示词" 的混合方案,兼顾个性化和效率。
- 提示词工程的低代码 / 无代码化
针对普通使用者,将推出更多低代码 / 无代码的提示词设计工具,通过可视化拖拽、模板选择等方式,让非技术人员也能设计高质量的提示词。
- 领域化提示词工程的深化
不同领域(医疗、法律、金融、代码)的提示词工程将精细化、专业化,出现针对特定领域的提示词模板库和设计方法,如医疗领域的提示词需符合医疗规范,法律领域的提示词需精准对接法律条文。
十二、总结
提示词工程的核心并非 "炫技式的复杂提示词设计",而是以工程化思维,让大模型精准理解并满足人类的需求 。其本质是人类与大模型的沟通艺术 + 工程化的落地方法 ,无需深厚的深度学习知识,但需要清晰的逻辑、结构化的表达、持续的迭代优化能力。
对于新手,建议从黄金模板、核心原则、入门技巧 开始,先解决 80% 的基础场景;对于进阶学习者,需掌握CoT/Few-shot/ 提示词链 等进阶方法,并结合LangChain 实现提示词与代码的融合;对于工程化落地,需实现提示词的标准化、模板化、版本控制,并与 RAG/Agent/ 微调等技术结合。
随着大模型的不断发展,提示词工程将持续进化,但清晰具体、逻辑分层、迭代优化的核心原则始终不变,掌握这些底层逻辑,就能灵活应对各种场景和大模型的迭代。
配套学习建议
-
刻意练习:针对每个核心场景(代码、SQL、分析),设计 10 个以上的提示词,测试并优化效果;
-
积累模板:建立自己的提示词模板库,按场景分类,持续更新和完善;
-
结合代码:使用 Python+LangChain 实现参数化提示词和 API 调用,完成工程化落地练习;
-
关注前沿:跟踪 OpenAI/Anthropic/ 国内大模型的官方文档,了解最新的提示词技巧和模型特性。