提示词工程（Prompt Engineering）全体系知识手册

一、提示词工程基础认知

[1. 核心定义](#1. 核心定义)

[2. 适用对象与应用场景](#2. 适用对象与应用场景)

[3. 大模型与提示词的核心交互逻辑](#3. 大模型与提示词的核心交互逻辑)

二、提示词工程的核心基础原则

[1. 清晰具体，拒绝模糊](#1. 清晰具体，拒绝模糊)

[2. 设定角色，锚定能力边界](#2. 设定角色，锚定能力边界)

[3. 逻辑分层，结构化表达](#3. 逻辑分层，结构化表达)

[5. 明确输出，约束格式 / 风格 / 长度](#5. 明确输出，约束格式 / 风格 / 长度)

[6. 迭代优化，试错调优](#6. 迭代优化，试错调优)

[7. 控制上下文，避免信息冗余](#7. 控制上下文，避免信息冗余)

三、提示词工程的入门核心技巧

[1. 通用提示词结构（黄金模板）](#1. 通用提示词结构（黄金模板）)

[2. 指令明确化：将 "隐含需求" 转为 "显性指令"](#2. 指令明确化：将 “隐含需求” 转为 “显性指令”)

[3. 关键词聚焦：强化核心信息](#3. 关键词聚焦：强化核心信息)

[4. 格式强制：指定输出的结构化格式](#4. 格式强制：指定输出的结构化格式)

[5. 上下文裁剪：精准控制输入信息](#5. 上下文裁剪：精准控制输入信息)

[6. 否定约束：明确 "不要做什么"](#6. 否定约束：明确 “不要做什么”)

[1. 零样本提示（Zero-shot）](#1. 零样本提示（Zero-shot）)

[2. 少样本提示（Few-shot）](#2. 少样本提示（Few-shot）)

[3. 思维链提示（Chain of Thought, CoT）](#3. 思维链提示（Chain of Thought, CoT）)

[（1）基础 CoT：直接引导分步思考](#（1）基础 CoT：直接引导分步思考)

[（2）少样本 CoT（Few-shot CoT）：最常用的组合方法](#（2）少样本 CoT（Few-shot CoT）：最常用的组合方法)

[4. 思维树提示（Tree of Thought, ToT）](#4. 思维树提示（Tree of Thought, ToT）)

[5. 自洽性提示（Self-Consistency）](#5. 自洽性提示（Self-Consistency）)

[6. 提示词链（Prompt Chaining）](#6. 提示词链（Prompt Chaining）)

[7. 检索增强提示（Retrieval-Augmented Prompt, RAP）](#7. 检索增强提示（Retrieval-Augmented Prompt, RAP）)

五、分场景提示词工程实战

六、大模型特性适配的提示词技巧

[1. 主流大模型能力侧重](#1. 主流大模型能力侧重)

[2. 针对性适配技巧](#2. 针对性适配技巧)

[3. 解决大模型核心局限性的提示词技巧](#3. 解决大模型核心局限性的提示词技巧)

七、提示词的优化与调试工程化方法

[1. 提示词效果的问题诊断](#1. 提示词效果的问题诊断)

[2. 迭代优化的五步流程](#2. 迭代优化的五步流程)

[3. 提示词的 AB 测试](#3. 提示词的 AB 测试)

[4. 提示词的量化评估](#4. 提示词的量化评估)

八、提示词工程的工程化落地

[1. 提示词的标准化与模板化](#1. 提示词的标准化与模板化)

[2. 提示词的版本控制](#2. 提示词的版本控制)

[3. 提示词与代码 / API 的融合](#3. 提示词与代码 / API 的融合)

[4. 批量提示词处理](#4. 批量提示词处理)

[5. 提示词工程与其他 AI 技术的结合](#5. 提示词工程与其他 AI 技术的结合)

九、提示词工程的常见问题与解决方案

十、提示词工程的工具与学习资源

[1. 核心工具](#1. 核心工具)

[2. 优质学习资源](#2. 优质学习资源)

十一、提示词工程的前沿趋势

十二、总结

提示词工程是针对大语言模型（LLM）/ 多模态大模型（MLLM）设计有效、精准、可复用的提示词（Prompt） 的工程化方法论，核心是通过对指令、上下文、示例、输出约束的结构化设计，让模型理解用户意图并输出符合预期的结果。它是连接人类需求与大模型能力的核心桥梁，也是大模型应用开发的基础技能，覆盖自然语言处理、代码开发、数据分析、多模态生成、AI 工程落地等所有大模型应用场景。

本手册从基础定义→核心原则→入门技巧→进阶方法→分场景实践→结构化设计→模型适配→优化调试→工程化落地→常见问题→工具资源→前沿趋势 层层展开，涵盖提示词工程的所有核心维度，兼顾理论性、实操性、工程化，适配从入门到高阶的学习与应用需求。

一、提示词工程基础认知

1. 核心定义

提示词（Prompt） ：用户向大模型输入的自然语言 / 多模态信息（文本、图片、音频、表格） ，是模型生成输出的依据，包含指令、上下文、输入数据、输出要求等要素。
提示词工程 ：并非简单的 "写提示词"，而是以工程化思维设计、优化、复用、管理提示词 的过程，核心目标是在不修改大模型底层参数的前提下，最大化挖掘模型原生能力 ，解决实际业务问题；同时包含提示词的标准化、模板化、批量处理、与代码 / API 的融合等工程化落地动作。
核心价值 ：无需大模型微调 / 训练的专业知识（如深度学习、算力部署），低成本、高效率实现大模型的个性化适配；是大模型应用开发的基础环节 ，也是微调、RAG（检索增强生成）等高阶技术的前置配套能力。

2. 适用对象与应用场景

适用人群 ：大模型普通使用者、AI 应用开发工程师、数据分析师、产品经理、内容创作者、科研人员等（不同人群只需掌握对应层级的技巧）。
核心应用场景：自然语言处理（分类、摘要、翻译、问答）、代码开发 / 调试、数据分析 / SQL 生成、多模态生成（文生图、图生文、图文结合）、职场办公（汇报、邮件、纪要）、深度学习辅助（数据集生成、模型训练提示）、智能客服 / 对话机器人搭建等。

3. 大模型与提示词的核心交互逻辑

大模型的本质是基于海量语料的概率化生成模型 ，其输出依赖于输入的信息密度、逻辑清晰度、格式结构化程度：

模型会先解析提示词中的核心指令，明确 "要做什么"；
再提取上下文 / 输入数据中的关键信息，明确 "基于什么做"；
最后根据输出约束，确定 "输出什么格式 / 风格 / 长度"；
若提示词模糊、缺失关键信息，模型会基于训练语料做概率化猜测，最终导致输出偏离预期（如幻觉、答非所问）。

核心结论 ：提示词的质量直接决定模型输出的效果，好的提示词能让基础模型发挥出接近微调模型的效果。

二、提示词工程的核心基础原则

这是设计所有提示词的底层逻辑，适用于所有大模型（GPT-3.5/4、Claude 2/3、文心一言、通义千问、讯飞星火等），违反任一原则都可能导致提示词失效。

1. 清晰具体，拒绝模糊

大模型无法理解人类的 "隐含意图"，必须将需求、约束、条件全部明确化，避免使用模糊性词汇（如 "写一篇好的文章""做一个合理的分析"）。

错误示例：帮我分析这个数据。
正确示例：基于以下 Excel 数据（销售额：1 月 10 万、2 月 15 万、3 月 12 万），分析季度销售额的变化趋势，输出 100 字以内的结论，使用 "增长 / 下降" 明确描述。

2. 设定角色，锚定能力边界

给模型设定具体的职业 / 身份角色，模型会基于该角色的专业知识、语言风格、思维方式输出结果，大幅提升输出的专业性和贴合度。

核心逻辑：大模型训练语料中包含不同职业的专业内容，角色设定会引导模型调用对应领域的知识。
示例：请你以资深 Python 后端开发工程师的身份，帮我调试以下代码中的语法错误，要求指出错误原因并给出修正后的完整代码，同时添加详细的注释。

3. 逻辑分层，结构化表达

将复杂需求拆分为多个独立的、有逻辑顺序的子指令，避免所有需求堆砌在一起；优先使用 "第一步 / 第二步 / 第三步""首先 / 其次 / 最后" 等逻辑词，或 Markdown 分块（标题、列表、代码块）。

核心逻辑 ：大模型对结构化、分层次的输入解析效率远高于纯文本堆砌，能有效避免遗漏子需求。

示例引导，少样本具象化

当需求较复杂（如特定格式输出、个性化分类）时，给模型提供1-3 个示例（少样本 Few-shot），让模型通过示例理解意图，比纯文字描述更有效。

核心逻辑 ：大模型擅长模仿与归纳，示例能直接锚定输出的格式、风格、判断标准。
示例：请你将以下用户评论分类为 "正面 / 负面 / 中性"，分类规则：提及产品优点为正面，提及缺点为负面，无明显褒贬为中性。示例：1. 这款手机续航超棒→正面；2. 手机拍照很模糊→负面；3. 手机是白色的→中性。现在分类：这款耳机音质还可以。

5. 明确输出，约束格式 / 风格 / 长度

必须提前定义输出的格式、风格、长度、单位，避免模型输出无意义的内容或不符合后续使用的结果（如需要对接代码的输出，必须指定 JSON/CSV 格式）。

可约束的维度：格式（Markdown/JSON/ 表格 / SQL）、风格（正式 / 口语 / 专业 / 文艺）、长度（XX 字以内 / XX 点）、单位（万元 / 百分比 / 条）、结构（总 - 分 / 问题 - 解决方案）。

6. 迭代优化，试错调优

不存在 "一次性完美的提示词"，尤其是复杂需求；需基于模型的首次输出，定位问题（指令模糊 / 缺失条件 / 示例不当），并逐步修改提示词，直到输出符合预期。

核心逻辑 ：提示词工程是试错与迭代的过程，而非一次性设计。

7. 控制上下文，避免信息冗余

大模型有上下文窗口限制 （如 GPT-3.5 Turbo 为 4k/16k tokens，Claude 3 Opus 为 200k tokens），多余的无关信息会占用窗口资源，导致模型忽略核心指令；需只保留与需求相关的上下文 / 输入数据。

Token 小知识：1 个中文字≈1.5 个 token，1 个英文字母≈0.2 个 token，token 数决定了提示词的最大输入长度。

三、提示词工程的入门核心技巧

适用于所有基础场景，是新手必须掌握的核心能力，无需复杂的理论，只需遵循原则并灵活运用，就能解决 80% 的大模型使用需求。

1. 通用提示词结构（黄金模板）

所有基础提示词都可遵循 **「角色设定 + 核心指令 + 输入数据 + 输出约束」** 的四要素结构，这是最通用、最高效的模板，可根据需求删减（如简单需求可省略角色设定）。

模板公式

复制代码

请你以【角色】的身份，完成【核心指令】。
输入数据：【具体的输入信息/文本/数据】
输出要求：【格式+风格+长度+其他约束】

实战案例（Python 代码解释）

复制代码

请你以**Python入门讲师**的身份，解释以下代码的执行逻辑。
输入数据：
a = [1,2,3]
b = [i*2 for i in a]
print(b)
输出要求：分3步解释，每步不超过50字，语言通俗易懂，避免专业术语。

2. 指令明确化：将 "隐含需求" 转为 "显性指令"

把人类的模糊需求拆解为可量化、可判断的显性指令，是提示词设计的核心步骤。

拆解方法：问自己 3 个问题→① 模型要做什么具体任务？② 基于什么信息做？③ 输出要满足什么具体条件？
示例拆解：模糊需求 "帮我优化这篇文案"→ 显性指令 "帮我优化以下电商产品文案，突出产品的'续航长、颜值高'两个卖点，风格活泼年轻化，字数控制在 80 字以内，适合小红书发布"。

3. 关键词聚焦：强化核心信息

在提示词中加粗 / 突出核心关键词（如任务、约束、关键属性），引导模型优先关注核心信息，避免模型忽略关键需求。

技巧：使用 Markdown 的粗体、下划线、方括号等符号突出关键词，无需过度修饰，避免干扰模型解析。
示例：请你以财务分析师 的身份，分析以下公司季度营收 数据，重点关注同比增长率 ，输出表格格式的分析结果。

4. 格式强制：指定输出的结构化格式

当输出需要后续复用（如对接代码、整理文档） 时，必须强制指定结构化格式，这是提示词工程的工程化基础。

常用结构化格式：Markdown（标题、列表、表格、代码块）、JSON、CSV、SQL、XML、思维导图（用 Markdown 列表模拟）。
核心要求 ：格式描述要精准，避免模型输出格式混乱（如指定 JSON，需说明字段名和字段类型）。

实战案例（JSON 格式输出）：

复制代码

请你将以下3个水果的信息整理为JSON格式，字段包括：name（水果名，字符串）、price（单价，浮点数）、taste（口感，字符串）。
输入数据：苹果5.9元/斤，脆甜；香蕉3.5元/斤，软糯；草莓25元/斤，酸甜。

5. 上下文裁剪：精准控制输入信息

根据大模型的上下文窗口大小 和需求核心 ，裁剪输入的上下文 / 数据，做到去冗余、留核心。

裁剪技巧：
1. 长文本（如万字文章）：只提取与需求相关的段落，而非全部粘贴；
2. 大数据（如百行 Excel）：只提取核心列 / 核心行，或先做数据汇总再输入；
3. 多轮对话：若对话过长，可将前序关键结论总结后，作为新的上下文输入，避免占用窗口。

6. 否定约束：明确 "不要做什么"

当需要避免模型输出特定内容时，添加否定约束，补充正面指令的不足，适用于内容创作、专业问答等场景。

示例：请你写一篇关于人工智能的科普文章，800 字左右，语言正式，不要使用过于专业的深度学习术语，不要出现公式，不要偏离科普主题。

四、提示词工程的进阶核心方法

适用于复杂场景 （如逻辑推理、复杂分类、多步骤任务、数学计算），是挖掘大模型高阶能力的关键，也是提示词工程师的核心技能。以下方法可单独使用，也可组合使用（如 Few-shot+CoT 是最常用的组合）。

1. 零样本提示（Zero-shot）

定义

不给模型提供任何示例，仅通过纯文字指令 让模型完成任务，是最基础的进阶方法，适用于简单的、通用的任务（如文本分类、翻译、摘要）。

核心逻辑

利用大模型的原生泛化能力，通过清晰的指令引导模型调用训练语料中的通用知识。

实战案例（零样本文本分类）

复制代码

请你将以下用户评论分类为"产品质量问题/物流问题/服务问题/其他"，直接输出分类结果，无需额外解释。
输入：这个快递寄了10天才到，太离谱了。

2. 少样本提示（Few-shot）

定义

给模型提供1-5 个示例（Demo） ，让模型通过归纳示例的规律 完成同类任务，适用于复杂的、个性化的任务（如自定义分类、特定格式输出、个性化创作）。

核心原则

示例要典型：覆盖任务的核心场景 / 判断标准；
示例要简洁：避免冗余信息，干扰模型归纳；
示例格式要统一：输入和输出的格式与实际任务完全一致。

实战案例（少样本自定义分类）

复制代码

请你将以下电商售后问题分类为"缺货/发错货/质量破损/退换货申请/其他"，分类规则参考示例，直接输出分类结果。
示例：
1. 我拍的白色，发成黑色了→发错货
2. 收到的杯子碎了→质量破损
3. 请问什么时候能发货？→缺货
输入：我想把这个衣服退掉，不想要了。

3. 思维链提示（Chain of Thought, CoT）

定义

引导模型分步思考、逐步推理 ，将复杂的逻辑推理任务拆分为多个简单的子步骤，最终得到结论，核心是让模型 "说出思考过程"，而非直接输出结果。

核心价值

解决大模型在数学计算、逻辑推理、多步骤问题中的输出错误问题，大幅提升推理的准确率（如 GPT-3.5 使用 CoT 后，数学计算准确率可提升 50% 以上）。

分类与实战

（1）基础 CoT：直接引导分步思考

在提示词中添加 **"分步思考""一步步分析""先做 XX，再做 XX"** 等指令，引导模型输出思考过程。示例（数学计算）：

plaintext

复制代码

请你一步步分析并计算以下题目，先写出解题步骤，再给出最终答案。
题目：一个商店第一天卖了20件衣服，第二天比第一天多卖1/5，第三天卖的是第二天的2倍，第三天卖了多少件？

（2）少样本 CoT（Few-shot CoT）：最常用的组合方法

将Few-shot 与CoT 结合，给模型提供带思考过程的示例 ，让模型模仿示例的推理步骤完成任务，适用于复杂的逻辑推理 / 数学计算 。示例（少样本 CoT 数学计算）：

plaintext

复制代码

请你一步步分析并计算以下题目，先写步骤，再给答案，参考示例的解题逻辑。
示例：
题目：小明有10个苹果，小红比小明多2个，小刚的苹果是小红的3倍，小刚有多少个？
步骤：1. 计算小红的苹果数：10+2=12个；2. 计算小刚的苹果数：12×3=36个。
答案：36个。
题目：一个商店第一天卖了20件衣服，第二天比第一天多卖1/5，第三天卖的是第二天的2倍，第三天卖了多少件？

4. 思维树提示（Tree of Thought, ToT）

定义

比 CoT 更进阶的推理方法，将复杂问题拆分为多个分支的子问题 ，模型会对每个子问题进行探索、评估、剪枝 （排除错误路径），最终得到最优解，适用于极复杂的逻辑推理、决策分析、数学证明。

核心逻辑

模拟人类的树状思维：先拆解问题→再探索每个子问题的可能解法→评估解法的合理性→排除错误解法→最终整合正确解法得到答案。

提示词设计技巧

在提示词中明确要求模型 **"拆解子问题→分析每个子问题的可能解法→评估解法合理性→给出最终答案"**，并可提供带树状思考的示例。

适用场景

数学证明、复杂决策分析、路径规划、创意策划（多分支方案设计）等。

5. 自洽性提示（Self-Consistency）

定义

让模型生成多个不同的推理路径 ，然后从多个结果中选择出现次数最多的答案 （多数投票），适用于对准确率要求极高的推理任务（如数学计算、专业问答）。

核心价值

解决大模型单一路径推理的偶然性错误，提升输出的稳定性和准确率。

提示词设计技巧

在提示词中添加 **"生成 3 种不同的解题思路，分别给出步骤和答案，最后对比所有答案，给出最准确的最终结果"**。

6. 提示词链（Prompt Chaining）

定义

将一个复杂的大任务 拆分为多个独立的小任务 ，为每个小任务设计单独的提示词，让模型按顺序完成每个小任务 ，最终将所有结果整合为最终答案，适用于超复杂的多步骤任务（如商业分析、论文写作、代码开发）。

核心逻辑

模拟人类的分步执行思维：复杂任务→拆分子任务→逐个解决→整合结果，避免模型因一次性处理过多信息而出现逻辑混乱。

实战案例（商业分析任务拆分）

原复杂任务 ：基于某公司的年度财报，完成一份完整的商业分析报告→拆分为 5 个子任务，每个子任务对应一个提示词：

子任务 1：提取财报中的核心财务数据（营收、利润、增长率），输出表格格式；
子任务 2：分析财务数据的变化趋势，输出 100 字以内的趋势结论；
子任务 3：分析公司的核心竞争优势，输出 3 个核心优势；
子任务 4：分析公司面临的市场风险，输出 2 个主要风险；
子任务 5：基于以上结果，撰写一份 500 字的商业分析报告，结构为 "数据概况 - 趋势分析 - 优势 - 风险 - 总结"。

7. 检索增强提示（Retrieval-Augmented Prompt, RAP）

定义

将外部知识库 / 实时数据 与提示词结合，让模型基于精准的外部信息 生成输出，是解决大模型幻觉、提升专业度的核心方法，也是 RAG（检索增强生成）的基础。

核心逻辑

大模型的训练语料存在时效性差、专业知识不足的问题，通过 "检索外部精准信息→将信息作为提示词的上下文→模型基于该信息生成输出"，解决幻觉问题。

适用场景

专业领域问答（如医疗、法律、金融）、实时信息分析（如新闻、股市）、企业内部知识问答（如公司制度、产品手册）。

提示词设计技巧

在提示词中明确 **"基于以下提供的信息回答问题，若信息中没有相关答案，直接说明'无相关信息'，不要猜测"**，避免模型脱离外部信息产生幻觉。

五、分场景提示词工程实战

不同场景的需求和核心目标不同，提示词设计需针对性调整 ，以下为最常用的 10 大场景 ，每个场景提供核心需求、提示词框架、实战案例，可直接复用。

场景 1：Python / 代码开发与调试

核心需求 ：代码生成、代码解释、bug 调试、代码优化、框架使用指导；核心原则 ：角色设定为对应语言的开发工程师 ，输入代码需用代码块 ，输出要求明确错误原因 / 优化点 + 完整代码 + 注释 ；提示词框架：

复制代码

请你以**[语言/框架]资深开发工程师**的身份，[代码生成/调试/解释/优化]以下代码。
输入代码：
[代码块]
问题/需求：[具体问题/优化要求]
输出要求：1. 指出[错误原因/优化点]；2. 给出修正/优化后的完整代码；3. 添加详细的注释；4. 说明核心修改逻辑。

实战案例（Python 代码调试）：

复制代码

请你以**Python后端开发工程师**的身份，调试以下代码中的运行错误，该代码的功能是计算列表中所有偶数的和。
输入代码：
nums = [1,2,3,4,5]
sum_even = 0
for i in nums:
    if i % 2 == 0
        sum_even += i
print(sum_even)
输出要求：1. 指出错误原因；2. 给出修正后的完整代码；3. 对错误行添加注释；4. 说明修改逻辑。

场景 2：SQL 语句生成与优化

核心需求 ：基于业务需求生成 SQL、调试 SQL 错误、优化 SQL 查询效率、数据库表结构设计；核心原则 ：明确数据库类型（MySQL/Oracle/SQL Server） 、表结构 、业务需求 ，输出要求完整 SQL + 注释 + 执行逻辑 ；提示词框架：

复制代码

请你以**MySQL数据库工程师**的身份，基于以下表结构，生成/优化满足[业务需求]的SQL语句。
表结构：
[表名1]：字段1（类型）、字段2（类型）、...（如user：id(int)、name(varchar)、age(int)、create_time(datetime)）
[表名2]：...（多表关联需说明关联字段）
业务需求：[具体的查询/插入/更新/删除需求]
输出要求：1. 给出完整的SQL语句；2. 对关键语句添加注释；3. 说明SQL的执行逻辑；4. 若有优化空间，给出优化建议。

实战案例（MySQL 查询 SQL 生成）：

复制代码

请你以**MySQL数据库工程师**的身份，基于以下表结构，生成查询需求的SQL语句。
表结构：
order：id(int,主键)、user_id(int)、order_amount(decimal)、order_time(datetime)
user：id(int,主键)、name(varchar)、age(int)
业务需求：查询2024年10月的所有订单，关联用户表获取用户名，按订单金额从高到低排序，只显示订单id、用户名、订单金额、订单时间。
输出要求：1. 给出完整的SQL语句；2. 对关联查询部分添加注释；3. 说明执行逻辑。

场景 3：文本分析（分类 / 摘要 / 翻译 / 问答）

子场景 3.1：文本摘要

核心原则 ：明确摘要类型（提取式 / 生成式） 、长度、核心提取点 ；案例：请你对以下新闻文章做提取式摘要，提取核心信息（时间、事件、结果），字数控制在 150 字以内，语言简洁正式。

子场景 3.2：多语言翻译

核心原则 ：明确源语言 / 目标语言 、翻译风格（正式 / 口语 / 专业） 、领域（通用 / 医疗 / 法律 / 技术） ；案例：请你将以下 Python 技术文档翻译成中文，翻译风格专业准确，保留原有的代码块和专业术语，语句通顺。

子场景 3.3：智能问答

核心原则 ：若为专业问答，需添加专业上下文 ，并要求模型给出依据 ；若为通用问答，需明确回答风格 / 长度 ；案例：请你以数据结构讲师 的身份，回答以下问题，要求分点解释 ，结合示例，语言通俗易懂，避免专业术语。问题：什么是二叉树？它的核心特点是什么？

场景 4：数据分析与可视化

核心需求 ：数据趋势分析、数据对比分析、可视化代码生成（Python/Matplotlib/Seaborn）；核心原则 ：明确数据类型 、分析维度 、输出形式（分析结论 / 可视化代码） ；实战案例（数据趋势分析 + 可视化代码生成）：

复制代码

请你以**数据分析师**的身份，基于以下销售数据做趋势分析，并生成Python可视化代码（使用Matplotlib）。
输入数据：1月：10万，2月：15万，3月：12万，4月：18万，5月：20万
分析需求：分析月度销售额的变化趋势，指出增长/下降的关键节点；
可视化要求：生成折线图，标题为"2024年1-5月销售额趋势"，x轴为月份，y轴为销售额（万元），添加数值标签；
输出要求：1. 100字以内的趋势分析结论；2. 完整的Python可视化代码，添加详细注释；3. 说明代码的执行步骤。

场景 5：职场办公（汇报 / 邮件 / 会议纪要）

核心原则 ：明确文档类型 、使用场景 、风格（正式 / 简洁） 、核心内容 ；实战案例（会议纪要生成）：

复制代码

请你以**行政专员**的身份，基于以下会议记录生成正式的会议纪要，结构为"会议基本信息-会议议题-决议事项-行动项"，行动项需明确**负责人+截止时间**，字数控制在300字以内。
会议记录：2024年10月10日，产品部召开产品迭代会议，参会人：产品经理张三、开发工程师李四、测试工程师王五；议题：V2.0版本迭代需求；决议：新增用户反馈功能，优化支付流程；行动项：张三整理需求文档（10月12日前），李四负责开发（10月20日前），王五负责测试（10月25日前）。

场景 6：多模态生成（文生图 / 图生文 / 图文结合）

子场景 6.1：文生图（Midjourney/Stable Diffusion）

核心原则 ：提示词包含主体 + 风格 + 细节 + 参数 （分辨率、比例、色调），越具体越精准；案例：Midjourney 提示词：一只可爱的卡通猫咪，坐在草地上，晚霞背景，水彩风格，柔和色调，8K 分辨率，16:9，无水印。

子场景 6.2：图生文（GPT-4V/Claude 3）

核心原则 ：明确分析需求（提取信息 / 分析内容 / 生成文案） ，结合图片的核心信息，输出结构化结果；案例：请你基于以下图片（一张咖啡杯的产品图，白色陶瓷材质，简约设计，带手柄），生成电商产品的标题和卖点，标题控制在 20 字以内，卖点输出 3 条，每条 20 字以内。

场景 7：深度学习 / AI 辅助（数据集生成 / 模型训练提示）

核心需求 ：生成标注数据集、解释深度学习模型原理、调试模型代码、设计模型训练方案；核心原则 ：角色设定为深度学习工程师 ，明确模型类型（CNN/RNN/Transformer） 、任务目标（分类 / 检测 / 生成） 、输出要求 ；实战案例（数据集生成）：

复制代码

请你以**深度学习工程师**的身份，为**文本情感分类任务**生成10条标注数据集，数据类型为"用户电影评论"，标注为"正面/负面"，每条评论50字左右，格式为"评论内容→标注结果"。

六、大模型特性适配的提示词技巧

不同大模型的训练语料、能力侧重、上下文窗口、解析风格 不同，提示词设计需针对性适配，避免因模型特性导致提示词失效。以下为主流大模型的特性与适配技巧：

1. 主流大模型能力侧重

大模型	核心能力优势	局限性	上下文窗口
GPT-3.5 Turbo	通用对话、轻量代码、快速响应	复杂推理弱、易产生幻觉	4k/16k tokens
GPT-4/Claude 3 Opus	复杂推理、专业代码、多模态、长文本	响应慢、成本高	8k/32k/200k tokens
文心一言	中文理解、本土场景适配	英文能力较弱、代码一般	8k/32k tokens
通义千问	中文创作、电商 / 职场场景适配	复杂推理一般	8k/32k tokens
讯飞星火	语音交互、教育 / 医疗场景适配	通用代码能力较弱	8k/32k tokens

2. 针对性适配技巧

GPT-3.5 Turbo ：提示词简洁明了，避免过于复杂的逻辑分层，优先使用 Few-shot + 基础 CoT，减少冗余信息；
GPT-4/Claude 3 Opus ：可设计复杂的提示词链 / ToT / 自洽性提示，支持长文本输入，可直接粘贴大段数据 / 代码，适合复杂任务；
中文大模型（文心一言 / 通义千问） ：提示词使用纯中文，避免过多英文术语，贴合本土场景（如电商、政务、职场），优先使用中文示例；
多模态模型（GPT-4V/Claude 3） ：图文结合的提示词，文字指令要精准，明确对图片的分析 / 生成需求，避免模糊描述。

3. 解决大模型核心局限性的提示词技巧

大模型的幻觉、上下文窗口限制、逻辑偏差是固有问题，可通过针对性的提示词设计缓解：

解决幻觉问题 ：① 添加 **"基于提供的信息回答，无相关信息则说明'无相关信息'"；② 结合 RAP（检索增强提示），引入外部精准信息；③ 要求模型给出回答依据 **。
解决上下文窗口限制 ：① 裁剪冗余信息，只保留核心内容；② 使用提示词链 ，拆分多步骤任务；③ 对长文本做分段处理，逐段让模型分析，最后整合结果。
解决逻辑偏差问题 ：① 使用CoT/ToT/ 自洽性提示 ，引导模型分步推理；② 提供带逻辑的示例 ，让模型模仿；③ 要求模型验证结果（如 "计算完成后，验证答案是否正确"）。

七、提示词的优化与调试工程化方法

提示词工程的核心是迭代优化 ，而非一次性设计，需建立科学的优化与调试流程，避免凭感觉修改提示词。以下为工程化的优化调试方法，适用于所有场景。

1. 提示词效果的问题诊断

当模型输出偏离预期时，先定位问题根源，再针对性修改，避免盲目调整。常见问题与根源对应：

模型输出问题	核心根源
答非所问	指令模糊、核心关键词缺失
输出格式混乱	输出约束不明确、格式描述不精准
逻辑错误 / 计算错误	未使用 CoT、缺少示例引导
产生幻觉	无外部信息约束、模型猜测
遗漏子需求	需求未分层、子指令堆砌
输出过于简略 / 冗长	长度约束不明确

2. 迭代优化的五步流程

建立 **"设计→测试→诊断→修改→再测试"** 的闭环迭代流程，这是提示词工程的工程化核心：

初始设计：基于核心原则，设计第一版提示词（遵循黄金模板）；
首次测试：将提示词输入模型，获取输出结果；
问题诊断：对比预期结果与实际输出，定位问题根源（如指令模糊、格式缺失）；
针对性修改 ：只修改问题对应的部分，避免大面积修改（如格式混乱则强化格式约束）；
再次测试：将修改后的提示词输入模型，验证效果，若未达标则重复步骤 3-4。

3. 提示词的 AB 测试

当有多个版本的提示词 时，通过AB 测试选择最优版本，适用于对效果要求较高的场景（如商业分析、代码开发）。

测试方法 ：将不同版本的提示词输入同一模型，在相同输入数据下，对比输出的准确率、贴合度、格式规范性；
测试指标：根据场景制定量化指标（如代码调试的 "错误修复率"、文本分类的 "分类准确率"、文案创作的 "卖点贴合度"）。

4. 提示词的量化评估

建立量化的评估指标，避免主观判断，让提示词效果可衡量，适用于工程化落地。不同场景的核心评估指标：

场景	核心评估指标
逻辑推理 / 计算	准确率、步骤完整性
代码开发 / 调试	错误修复率、代码可运行性
文本分类 / 问答	准确率、相关性
内容创作	贴合度、风格一致性、信息完整性
数据分析	数据提取准确率、趋势分析合理性

八、提示词工程的工程化落地

提示词工程并非 "单兵作战"，当应用于企业级 AI 应用开发 时，需实现提示词的标准化、模板化、管理化、与代码 / API 的融合，这是提示词工程从 "技巧" 到 "工程" 的核心跨越。

1. 提示词的标准化与模板化

标准化 ：制定公司 / 团队的提示词设计规范，包括核心结构、格式要求、角色设定规范、输出约束规范，确保所有成员的提示词设计统一；
模板化 ：为常用场景（如代码调试、SQL 生成、会议纪要）制作可复用的提示词模板，将模板存储在共享库中，成员可直接修改参数使用。

2. 提示词的版本控制

将提示词作为工程资产 ，使用Git进行版本控制，记录提示词的修改历史、适用场景、效果指标，避免提示词的丢失和混乱。

管理方式 ：创建专门的 Git 仓库，按场景分类 建立文件夹（如 code/analysis/write），每个提示词模板对应一个 markdown 文件，包含模板内容、适用场景、测试效果、修改记录。

3. 提示词与代码 / API 的融合

在 AI 应用开发中，提示词并非手动输入，而是通过代码 / API 动态生成和调用，这是提示词工程落地的核心方式。

核心方法 ：使用 Python 等编程语言，将提示词设计为参数化模板，通过变量动态传入输入数据 / 约束条件，再调用大模型 API（如 OpenAI API、百度文心 API）生成输出；

实战示例（Python+OpenAI API 参数化提示词）：

复制代码

import openai
openai.api_key = "你的API_KEY"

# 定义参数化提示词模板
prompt_template = """
请你以{role}的身份，解释以下{language}代码的执行逻辑，输出要求：{output_require}
输入代码：
{code}
"""

# 动态传入参数
params = {
    "role": "Python入门讲师",
    "language": "Python",
    "output_require": "分3步解释，每步不超过50字",
    "code": "a = [1,2,3]; b = [i*2 for i in a]; print(b)"
}

# 生成最终提示词
final_prompt = prompt_template.format(**params)

# 调用OpenAI API
response = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[{"role": "user", "content": final_prompt}]
)

# 输出结果
print(response.choices[0].message.content)

4. 批量提示词处理

当需要处理大量的输入数据 （如批量分析 100 条评论、批量生成 100 段代码）时，通过代码实现批量提示词生成与调用，提升效率。

核心逻辑：将输入数据存储在 Excel/CSV/ 数据库中，通过代码循环读取每条数据，动态生成提示词，调用大模型 API，将输出结果写入文件 / 数据库。

5. 提示词工程与其他 AI 技术的结合

提示词工程并非孤立的技术，而是与微调、RAG、Agent等高阶 AI 技术深度结合，共同实现大模型的工程化落地：

提示词工程 + 微调：简单场景用提示词工程，复杂的个性化场景（如企业专属知识）用微调，提示词工程作为微调的前置配套；
提示词工程 + RAG：RAG 负责检索外部精准信息，提示词工程负责将检索结果与指令结合，引导模型生成精准输出，解决幻觉问题；
提示词工程 + Agent：Agent 负责拆分复杂任务、调度工具，提示词工程为 Agent 的每个子任务设计精准的提示词，确保子任务的执行效果。

九、提示词工程的常见问题与解决方案

常见问题	核心原因	具体解决方案
模型答非所问	指令模糊、核心关键词缺失	强化指令明确化，加粗核心关键词，遵循黄金模板
输出格式混乱	输出约束不明确、格式描述不精准	强制指定结构化格式，明确字段名 / 格式要求，提供格式示例
逻辑推理 / 计算错误	未使用 CoT、缺少示例引导	使用 Few-shot CoT，引导模型分步推理，提供带思考过程的示例
大模型产生幻觉	无外部信息约束、模型猜测	添加 "无相关信息则说明" 的约束，结合 RAP 引入外部精准信息，要求模型给出回答依据
长文本处理效果差	上下文窗口限制、信息冗余	裁剪冗余信息，使用提示词链拆分任务，分段处理长文本并整合结果
多任务处理遗漏子需求	需求未分层、子指令堆砌	将复杂需求拆分为多个子指令，用 Markdown 分层次表达，使用 "第一步 / 第二步" 明确顺序
模型输出过于简略 / 冗长	长度约束不明确	精准指定输出长度（如 XX 字以内 / XX 点），添加 "不要过于简略 / 不要冗余" 的约束
不同模型输出效果差异大	未适配模型特性	针对不同模型的能力侧重，调整提示词的复杂度和表述方式

十、提示词工程的工具与学习资源

1. 核心工具

（1）提示词编辑器 / 调试工具

ChatGPT Prompt Builder：OpenAI 官方的提示词构建工具，可视化设计提示词，支持实时测试；
Claude Prompt Library：Anthropic 官方的提示词库，提供各场景的优质提示词模板；
Prompt Engineering Guide：开源的提示词工程指南，包含大量实战案例和工具；
国内工具：通义千问提示词工坊、文心一言提示词实验室、讯飞星火提示词编辑器。

（2）代码 / API 调用工具

Python：OpenAI / 百度 / 阿里大模型的官方 Python SDK，实现参数化提示词和批量调用；
LangChain ：大模型应用开发框架，内置Prompt 模板、Prompt 链、RAG等功能，是提示词工程与代码融合的核心工具；
LlamaIndex：专注于 RAG 的框架，结合提示词工程实现外部知识的精准检索与生成。

（3）版本控制与管理工具

Git/GitHub/GitLab：实现提示词的版本控制和团队协作；
Notion / 飞书文档：存储提示词模板，支持按场景分类，团队共享。

2. 优质学习资源

（1）官方文档

OpenAI Prompt Engineering Guide ：https://platform.openai.com/docs/guides/prompt-engineering（英文）/ 中文翻译版；
Anthropic Claude Prompt Engineering ：https://docs.anthropic.com/claude/docs/prompt-engineering（英文）；
国内大模型官方文档：文心一言 / 通义千问 / 讯飞星火的开发者平台，提供本土化的提示词技巧。

（2）开源教程

Prompt Engineering Guide（GitHub） ：https://github.com/dair-ai/Prompt-Engineering-Guide（最全面的开源提示词工程指南）；
LangChain 官方文档 ：https://python.langchain.com/docs/get_started/introduction（提示词工程与代码融合的核心教程）。

（3）课程与社区

Coursera：《Prompt Engineering for ChatGPT》（OpenAI 与 DeepLearning.AI 联合推出，免费）；
社区：Reddit r/PromptEngineering、知乎提示词工程话题、GitHub Prompt 工程相关仓库。

十一、提示词工程的前沿趋势

提示词工程是快速发展的领域，随着大模型的迭代，其方法论和工具也在不断升级，未来的核心发展趋势如下：

多模态提示词工程成为主流

随着多模态大模型（MLLM）的普及，提示词将从纯文本 向文本 + 图片 + 音频 + 视频 + 表格的多模态形式发展，多模态提示词的设计将成为核心技能。

自动提示词工程（Automatic Prompt Engineering, APE）

通过大模型自身 / 专门的模型自动生成、优化提示词，替代人工设计，大幅提升效率。目前已有相关研究（如 APE、Prompt Tuning），未来将逐步落地到实际应用中。

提示词工程的标准化与规范化

随着提示词工程成为大模型应用开发的基础技能，行业将逐步形成统一的提示词设计规范、评估标准、模板库，提示词将成为正式的工程资产。

提示词与大模型微调的融合化

提示词工程与参数高效微调（PEFT） 、LoRA 等微调技术深度融合，形成 "轻量微调 + 精准提示词" 的混合方案，兼顾个性化和效率。

提示词工程的低代码 / 无代码化

针对普通使用者，将推出更多低代码 / 无代码的提示词设计工具，通过可视化拖拽、模板选择等方式，让非技术人员也能设计高质量的提示词。

领域化提示词工程的深化

不同领域（医疗、法律、金融、代码）的提示词工程将精细化、专业化，出现针对特定领域的提示词模板库和设计方法，如医疗领域的提示词需符合医疗规范，法律领域的提示词需精准对接法律条文。

十二、总结

提示词工程的核心并非 "炫技式的复杂提示词设计"，而是以工程化思维，让大模型精准理解并满足人类的需求 。其本质是人类与大模型的沟通艺术 + 工程化的落地方法 ，无需深厚的深度学习知识，但需要清晰的逻辑、结构化的表达、持续的迭代优化能力。

对于新手，建议从黄金模板、核心原则、入门技巧 开始，先解决 80% 的基础场景；对于进阶学习者，需掌握CoT/Few-shot/ 提示词链 等进阶方法，并结合LangChain 实现提示词与代码的融合；对于工程化落地，需实现提示词的标准化、模板化、版本控制，并与 RAG/Agent/ 微调等技术结合。

随着大模型的不断发展，提示词工程将持续进化，但清晰具体、逻辑分层、迭代优化的核心原则始终不变，掌握这些底层逻辑，就能灵活应对各种场景和大模型的迭代。

配套学习建议

刻意练习：针对每个核心场景（代码、SQL、分析），设计 10 个以上的提示词，测试并优化效果；
积累模板：建立自己的提示词模板库，按场景分类，持续更新和完善；
结合代码：使用 Python+LangChain 实现参数化提示词和 API 调用，完成工程化落地练习；
关注前沿：跟踪 OpenAI/Anthropic/ 国内大模型的官方文档，了解最新的提示词技巧和模型特性。