第三章-提示词-中级：进阶技巧与实践指南（12/36）

**摘要：**本文系统梳理提示词工程从初级到中级的进阶路径：先回顾指令、上下文、输入数据、输出指示四大要素，再详解复杂任务拆解、结构化上下文、动态参数与记忆维护三大技巧；通过代码生成、电商数据深度分析、智能手表创意文案三案例展示实战用法；最后提出版本控制、AB测试、防御性设计等持续优化策略，并展望多模态提示词未来。

1.引言

在大语言模型风靡的当下，提示词工程已然成为解锁大语言模型强大能力的关键 "密码"。对于大语言模型来说，提示词就像是与人类沟通的桥梁，直接决定了模型输出结果的质量与效果。从初级提示词工程到中级的进阶，不仅是技巧的升级，更是对模型理解与运用能力的深化。

初级提示词工程帮助我们掌握了与大语言模型交互的基础，学会了构建简单提示、明确基本指令等。但当面对更复杂、多样化的任务时，中级提示词工程的重要性便凸显出来。它能让我们更精细地控制模型输出，挖掘模型更多的潜力，实现从简单问答到复杂任务处理、从普通文本生成到专业领域应用的跨越。无论是进行创意写作、数据分析，还是开发智能应用，中级提示词工程都能为我们提供更高效、更优质的解决方案。接下来，就让我们一同深入探索提示词工程中级的奥秘。

2.回顾基础：提示词工程初级要点

在深入探索中级提示词工程之前，我们先来回顾一下初级阶段的核心内容。提示词，作为与大语言模型交互的输入文本，其重要性不言而喻，它就像是给模型下达的任务说明书，直接决定了模型输出的方向与质量。一个完整且有效的提示词，通常包含四大核心要素。

指令，是提示词中最直接的任务指示部分。比如我们想要模型帮我们创作一篇文章，指令就会是 "写一篇关于人工智能发展趋势的文章"；若要模型对一段文本进行情感分析，指令则是 "判断以下文本的情感倾向是正面、负面还是中性" 。明确的指令能让模型清楚知道要执行的具体任务。

上下文为模型提供了完成任务所需的背景信息。例如，在要求模型续写一个故事时，提供故事的前文作为上下文，模型就能基于已有情节进行合理续写，使故事更加连贯。再比如，让模型为一场线上营销活动撰写文案时，告知模型活动的目标受众是年轻上班族，预算有限，活动时间为周末等背景信息，模型就能写出更贴合实际情况的文案。

输入数据是模型具体处理的对象。当我们让模型总结一篇新闻报道时，这篇新闻报道就是输入数据；若要模型翻译一段外文文本，那这段外文文本便是输入数据。

输出指示则规定了模型输出内容的形式。比如要求模型 "以列表形式列举出人工智能在医疗领域的应用"，或者 "用简洁明了的语言，不超过 200 字概括上述内容" ，通过这样的输出指示，我们可以引导模型按照我们期望的格式和风格输出结果。

在实际应用中，我们还会接触到两种不同类型的提示词：日常对话提示词和生产级提示词。日常对话提示词就像我们日常聊天一样，简单直接，比如 "推荐一本好看的小说""今天天气怎么样" 。这种提示词主要用于日常的知识获取、简单交流或娱乐场景，依赖模型的预训练知识快速给出回答。而生产级提示词则是经过精心设计的，用于专业业务场景或软件应用集成的指令。它必须保证在各种输入条件下，都能稳定地产生可预测、符合格式要求的输出。例如，在一个智能客服系统中，生产级提示词会明确规定模型如何识别用户问题类型、如何组织回答内容以及以何种格式呈现答案，以确保为用户提供稳定、准确的服务。生产级提示词更注重可靠性、一致性和可扩展性，是将大语言模型应用于实际生产环境的关键。

通过对初级要点的回顾，我们对提示词工程有了更清晰的基础认知，这也为我们进一步探索中级提示词工程，提升与大语言模型的交互能力，打下了坚实的基础。

3.中级进阶：提升提示词效果的关键技巧

（一）复杂任务的目标分解

当面对复杂任务时，将其分解为模型易于理解的子任务序列是提升模型输出质量的关键。以撰写复杂数据分析报告为例，假设我们有一份包含某电商平台全年销售数据的文件，需要分析各品类销售趋势、用户购买行为以及营销策略效果等多方面内容，并生成一份详细的报告。

若直接要求模型 "分析这份销售数据并生成报告"，模型可能难以准确把握重点，输出的内容可能杂乱无章。我们可以将这个大任务拆分成多个子任务：

数据清洗与预处理：请模型检查数据中是否存在缺失值、异常值，并进行相应处理，如填充缺失值、修正异常值。例如，"检查销售数据文件中'销量'和'销售额'字段是否有缺失值，若有，使用该品类的平均值进行填充；检查'用户年龄'字段是否有异常值，如小于 0 或大于 100 的数据，将其修正为合理范围" 。
各品类销售趋势分析：让模型按品类分别绘制销量和销售额随时间的变化趋势图，并描述趋势特点。比如，"以月份为时间维度，绘制服装、电子产品、食品等各品类的销量和销售额折线图，并分析各品类在不同时间段的销售增长或下降趋势，总结出销量和销售额最高的月份以及原因" 。
用户购买行为分析：要求模型从数据中挖掘用户购买频率、购买金额分布、购买时间偏好等信息。例如，"统计不同用户的购买次数，分析购买次数在 1 - 5 次、5 - 10 次、10 次以上的用户占比；分析用户购买金额的分布情况，计算平均购买金额、中位数购买金额；统计用户在一天中不同时间段（如早上、下午、晚上）的购买比例，找出用户购买的高峰时间段" 。
营销策略效果评估：针对平台实施的各种营销策略，如打折促销、满减活动、赠品策略等，让模型分析这些策略对销量和销售额的影响。比如，"分析在实施打折促销活动期间，各品类的销量和销售额与活动前相比的增长幅度；评估满减活动对用户购买金额的提升效果，统计参与满减活动的订单平均金额与未参与的订单平均金额的差值" 。
报告撰写：最后，综合前面各项分析结果，要求模型以清晰、有条理的格式撰写数据分析报告，包括引言、各部分分析结果总结、结论与建议等。例如，"根据前面的各项分析，撰写一份完整的电商平台销售数据分析报告。报告开头要有引言，介绍分析的目的和背景；中间部分详细阐述各品类销售趋势、用户购买行为以及营销策略效果；结尾部分总结主要发现，并针对提升销售业绩提出至少三条具体建议" 。

通过这样的目标分解，模型能够更清晰地理解每个子任务的要求，从而提供更准确、更相关的输出。每个子任务的结果相互关联，为最终的数据分析报告提供了丰富、可靠的内容基础，大大提升了模型处理复杂任务的能力和输出结果的质量。

（二）强化上下文约束的运用

在提示词中使用结构化标签，如 XML、JSON 等，来定义输入输出格式，可以有效降低模型输出的随机性，使结果更符合我们的预期。以要求模型生成一段符合特定格式的文本为例，假设我们希望模型生成一篇关于旅游景点介绍的文本，并且按照特定的 JSON 格式输出。

我们可以这样构建提示词：

bash 复制代码

{

    "instruction": "请为我介绍一个著名的旅游景点",

    "context": "该景点位于中国，以其壮丽的自然风光和悠久的历史文化闻名",

    "input_data": "",

    "output_instruction": {

    "type": "object",

    "properties": {

    "景点名称": {

        "type": "string"

    },

    "景点位置": {

        "type": "string"

    },

    "主要景观": {

        "type": "array",

        "items": {

        "type": "string"

    }

    },
    
    "历史文化背景": {

        "type": "string"

    },

    "旅游建议": {

        "type": "string"

    }

      },

    "required": ["景点名称", "景点位置", "主要景观", "历史文化背景", "旅游建议"]

    }

}

模型接收到这样的提示词后，会按照指定的 JSON 格式输出内容，例如：

bash 复制代码

{

"景点名称": "黄山",

"景点位置": "安徽省黄山市",

"主要景观": ["奇松", "怪石", "云海", "温泉"],

"历史文化背景": "黄山拥有深厚的文化底蕴，自古以来就是文人墨客的向往之地，留下了众多诗词歌赋和摩崖石刻。黄山还是道教圣地，传说轩辕黄帝曾在此炼丹。",

"旅游建议": "最佳游览时间是春秋两季，此时天气宜人，景色秀丽。建议游玩2 - 3天，可选择从南大门或北大门进入景区，乘坐索道上山能节省体力，沿途欣赏美景。山上住宿较为紧张，需提前预订。"

}

通过这种方式，我们明确了输出的结构和内容要求，模型生成的结果更加规范、有序，方便后续对数据的处理和使用。无论是在信息提取、文本分类还是其他自然语言处理任务中，运用结构化标签进行上下文约束都能显著提升模型输出的质量和可用性。

（三）动态参数注入与上下文记忆维护

在多轮对话、智能客服等持续交互场景中，动态参数注入和上下文记忆维护至关重要。以聊天机器人为例，当用户与机器人进行多轮对话时，机器人需要记住之前的对话内容，以便更好地理解用户当前的问题，并给出连贯、准确的回答。

假设用户在与智能客服聊天机器人交流购买电脑的相关事宜。用户首先询问："我想买一台笔记本电脑，预算在 5000 - 8000 元，有什么推荐吗？" 此时，聊天机器人记录下用户的预算范围这个参数，并在回复中推荐了几款符合预算的笔记本电脑。接着用户又问："这些电脑的显卡性能怎么样？" 如果聊天机器人没有维护上下文记忆，就无法理解用户询问的是之前推荐的那几款电脑的显卡性能。通过动态参数注入和上下文记忆维护，聊天机器人能够关联之前的对话，知道用户关注的是之前推荐的电脑，从而准确回答关于这些电脑显卡性能的问题。

在实现上，可以通过多种方式进行参数持久化。一种常见的方法是使用数据库来存储对话历史和相关参数。每次用户输入新问题时，聊天机器人从数据库中读取该用户之前的对话记录和参数，将其作为上下文信息与当前问题一起发送给模型进行处理。处理完成后，再将新的对话记录和更新后的参数存储回数据库。例如，使用 SQLite 数据库，创建一个名为 "chat_history" 的表，包含 "user_id""conversation_id""question""answer""parameters" 等字段，分别用于记录用户 ID、对话 ID、用户问题、机器人回答以及相关参数。在每次对话时，根据 "user_id" 和 "conversation_id" 查询和更新表中的记录。

另一种方式是使用内存缓存，如 Redis。将对话历史和参数存储在内存中，这样可以快速读取和写入，提高处理效率。但需要注意内存缓存的容量限制和数据持久化问题，当系统重启或内存不足时，可能会丢失数据。在实际应用中，可以结合数据库和内存缓存的优势，使用内存缓存来快速处理当前对话，定期将缓存中的数据同步到数据库中进行持久化存储。通过有效的动态参数注入和上下文记忆维护，能够显著提升持续交互场景中模型的表现，为用户提供更智能、更人性化的服务体验。

4.案例实战：多场景下的中级提示词应用

（一）代码生成领域优化

在代码生成领域，提示词的质量直接影响着生成代码的准确性、可读性和可维护性。以生成一个简单的 Python 数据分析函数为例，我们来对比原始提示和优化提示的效果。

假设我们的任务是生成一个函数，用于读取 CSV 文件中的数据，并计算某一列数据的平均值、最大值和最小值。

原始提示可能是这样的："写一个 Python 函数，读取 CSV 文件并计算某列数据的统计值" 。基于这样的提示，模型生成的代码可能如下：

python 复制代码

import csv

def calculate_stats():

data = []

with open('data.csv', 'r') as file:

reader = csv.reader(file)

for row in reader:

data.append(row)

column = [float(row[0]) for row in data[1:]]

avg = sum(column) / len(column)

max_value = max(column)

min_value = min(column)

return avg, max_value, min_value

avg, max_val, min_val = calculate_stats()

print(f"平均值: {avg}, 最大值: {max_val}, 最小值: {min_val}")

这段代码虽然实现了基本功能，但存在一些问题。例如，没有对文件是否存在、列索引是否正确等情况进行异常处理；代码中硬编码了文件名和列索引，缺乏灵活性；代码结构不够清晰，可读性较差。

我们对提示词进行优化，从明确角色、数据类型边界、结构化输出、测试验证等方面详细阐述："假设你是一位经验丰富的 Python 开发者，要编写一个健壮且可复用的数据分析函数。函数需要接收 CSV 文件名和目标列索引作为参数。请确保对文件不存在、列索引超出范围等异常情况进行处理。使用pandas库来读取 CSV 文件，以提高代码的简洁性和效率。函数返回一个字典，包含目标列的平均值、最大值和最小值。同时，为函数添加简单的测试代码，验证函数的正确性。"

基于优化后的提示词，模型生成的代码如下：

python 复制代码

import pandas as pd

def calculate_column_stats(csv_file, column_index):

try:

df = pd.read_csv(csv_file)

if column_index >= len(df.columns):

raise IndexError("列索引超出范围")

column_data = df.iloc[:, column_index]

stats = {

"平均值": column_data.mean(),

"最大值": column_data.max(),

"最小值": column_data.min()

}

return stats

except FileNotFoundError:

print(f"文件 {csv_file} 不存在")

return None

# 测试代码

test_file = 'test_data.csv'

test_column_index = 0

result = calculate_column_stats(test_file, test_column_index)

if result:

print(f"平均值: {result['平均值']}, 最大值: {result['最大值']}, 最小值: {result['最小值']}")

优化后的代码使用了pandas库，代码更加简洁高效。通过异常处理机制，提高了代码的健壮性。将统计结果以字典形式返回，使得输出更加结构化，便于后续处理。添加的测试代码也有助于验证函数的正确性。从这个案例可以明显看出，优化后的提示词能够引导模型生成质量更高、更符合实际需求的代码。

（二）深度数据分析提示

以电商销售数据深度分析为例，假设我们拥有某电商平台一个月内的销售数据，包含订单编号、用户 ID、商品名称、销售数量、销售金额、购买时间等字段。我们希望通过大语言模型对这些数据进行分析，挖掘有价值的信息，为业务决策提供支持。

首先，设定任务背景："你是一位资深的数据分析师，现在有一份某电商平台一个月的销售数据，数据文件为ecommerce_sales.csv，数据格式为 CSV，包含订单编号、用户 ID、商品名称、销售数量、销售金额、购买时间等字段。"

然后，细化分析要求："请对销售数据进行以下分析：1. 按商品类别统计销售金额和销售数量，找出销售金额最高的前 5 个商品类别，并分析它们的销售趋势（以周为时间单位）。2. 分析不同时间段（早上、下午、晚上、凌晨）的销售金额分布情况，找出销售高峰时间段，并分析该时间段内销量最高的商品。3. 统计新用户（首次购买的用户）和老用户的购买金额和购买数量，对比新老用户的消费行为差异。"

最后，规范输出格式："请以 Markdown 表格和折线图（用文字描述折线图趋势）的形式呈现分析结果。对于每个分析点，先给出简要的结论，再详细阐述分析过程和数据支持。"

完整的提示词示例如下：

bash 复制代码

你是一位资深的数据分析师，现在有一份某电商平台一个月的销售数据，数据文件为`ecommerce_sales.csv`，数据格式为CSV，包含订单编号、用户ID、商品名称、销售数量、销售金额、购买时间等字段 。

请对销售数据进行以下分析：

1. 按商品类别统计销售金额和销售数量，找出销售金额最高的前5个商品类别，并分析它们的销售趋势（以周为时间单位） 。

2. 分析不同时间段（早上、下午、晚上、凌晨）的销售金额分布情况，找出销售高峰时间段，并分析该时间段内销量最高的商品 。

3. 统计新用户（首次购买的用户）和老用户的购买金额和购买数量，对比新老用户的消费行为差异 。

请以Markdown表格和折线图（用文字描述折线图趋势）的形式呈现分析结果 。对于每个分析点，先给出简要的结论，再详细阐述分析过程和数据支持 。

优化后的提示词明确了任务背景、分析要求和输出格式，模型生成的分析报告更加有价值。例如，在分析商品类别销售趋势时，模型会生成类似如下的内容：

结论：服装、电子产品、食品、家居用品和美妆是销售金额最高的前 5 个商品类别。其中，服装和电子产品的销售金额在四周内呈现波动上升趋势，食品的销售较为平稳，家居用品在第三周有明显增长，美妆在第四周增长迅速。

分析过程和数据支持：

首先，读取ecommerce_sales.csv文件，使用pandas库按商品类别对销售金额和销售数量进行分组求和。然后，筛选出销售金额最高的前 5 个商品类别。对于销售趋势分析，将购买时间转换为周的形式，再按周和商品类别进行分组求和，得到每周的销售金额数据。以下是具体的数据表格：

|------|---------|---------|
| 商品类别 | 销售金额（元） | 销售数量（件） |
| 服装 | 100000 | 5000 |
| 电子产品 | 80000 | 2000 |
| 食品 | 60000 | 8000 |
| 家居用品 | 50000 | 3000 |
| 美妆 | 40000 | 1500 |

折线图趋势描述：服装的销售金额在第一周为 20000 元，第二周略有下降至 18000 元，第三周回升至 22000 元，第四周增长至 40000 元。电子产品在第一周为 15000 元，第二周增长至 20000 元，第三周保持稳定，第四周大幅增长至 25000 元。食品每周的销售金额稳定在 15000 元左右。家居用品在第一周和第二周销售金额较低，第三周增长至 20000 元，第四周略有下降。美妆在前三周销售金额较低，第四周突然增长至 15000 元。通过这样详细、明确的提示词，模型能够生成更深入、更有针对性的分析报告，为电商平台的运营决策提供有力支持。

（三）创意内容的精准生成

在创意内容生成场景中，如产品文案、故事创作等，构建包含品牌调性、目标人群、内容边界、风格参照等元素的提示词，可以引导模型产出高质量的创意内容。以智能手表文案生成为例，假设我们的智能手表品牌定位为时尚、科技、健康，目标人群是 25 - 45 岁的都市白领，具有心率监测、睡眠跟踪、运动模式记录、智能语音助手等功能。

我们构建的提示词如下："请以时尚、科技感十足且充满人文关怀的风格，为一款面向 25 - 45 岁都市白领的智能手表撰写产品推广文案。文案要突出手表的心率监测、睡眠跟踪、运动模式记录、智能语音助手等核心功能。强调手表不仅是一款科技产品，更是他们健康生活和高效工作的贴心伴侣。文案风格可参照苹果产品文案的简洁、优雅与富有感染力。开头要能迅速吸引目标人群的注意力，结尾要有引导购买的话术。"

基于这个提示词，模型生成的文案可能如下：

在快节奏的都市生活中，每分每秒都弥足珍贵。对于 25 - 45 岁的你而言，事业的拼搏与生活的追求并行，健康和效率成为了生活的关键词。此刻，我们为你带来这款时尚与科技完美融合的智能手表，它将重新定义你的生活方式。

这款智能手表，是科技的结晶，更是时尚的象征。它以简洁流畅的线条、精致细腻的工艺，轻松融入你的日常穿搭，无论是商务洽谈还是休闲聚会，都尽显你的独特品味。

当你关注自身健康时，它是你最专业的健康管家。精准的心率监测功能，时刻守护你的心脏健康，让你对自己的身体状况了如指掌。睡眠跟踪功能，像一位贴心的伙伴，分析你的睡眠质量，为你提供改善睡眠的建议，让你每晚都能拥有优质的睡眠。丰富的运动模式记录，无论是跑步、游泳还是健身，它都能准确记录你的运动数据，为你的运动计划提供科学依据，助力你塑造更健康的自己。

在忙碌的工作中，它是你高效的工作助手。智能语音助手，让你无需手动操作，只需动动口，就能快速查询信息、设置提醒、发送消息，解放你的双手，让你在工作中更加专注。

它不仅仅是一块手表，更是你生活中不可或缺的一部分。选择它，就是选择一种健康、高效、时尚的生活方式。别再犹豫，让这款智能手表陪伴你开启精彩人生的每一刻，立即拥有它，拥抱更好的自己！

通过这样精心构建的提示词，模型能够充分理解品牌定位、目标人群和产品特点，生成的文案更符合市场需求，能够有效地吸引目标客户，提升产品的市场竞争力。无论是产品文案还是故事创作，精准的提示词都能激发模型的创意，为我们带来高质量的创意内容。

（四）【三个经典代码案例与解释】

1.Python 数据分析函数（健壮版）

Python

python 复制代码

import pandas as pd
def calc_stats(csv_file, col_idx):
    try:
        df = pd.read_csv(csv_file)
        col = df.iloc[:, col_idx]
        return {"avg": col.mean(), "max": col.max(), "min": col.min()}
    except Exception as e:
        return {"error": str(e)}

解释：带异常处理的通用函数，用 pandas 简化 IO，返回结构化字典，可直接嵌入生产脚本。

2.JSON 格式输出旅游景点

JSON

bash 复制代码

{"景点名称":"黄山","景点位置":"安徽省黄山市",
 "主要景观":["奇松","怪石","云海","温泉"],
 "历史文化背景":"轩辕黄帝炼丹之地","旅游建议":"春秋2-3天"}

解释：用 JSON Schema 约束模型输出，保证字段完整，方便前端渲染或 API 调用。

3.动态参数记忆（伪代码）

Python

bash 复制代码

def chat(user_id, text):
    hist = db.get_history(user_id)          # 取上下文
    prompt = f"{hist}\n用户:{text}\n助手:"
    ans = llm(prompt)
    db.save(user_id, text, ans)             # 更新记忆
    return ans

解释：在对话服务中把历史问答持久化到数据库，实现跨轮参数注入与状态保持。

5.提示词优化与评估策略

（一）建立版本控制体系

在提示词工程中，对提示词进行版本管理就如同为软件项目进行版本控制一样重要。随着任务的不断迭代和优化，提示词也会经历多次修改和调整。如果没有有效的版本管理，我们很容易陷入混乱，无法追溯提示词的变更历史，也难以确定每个版本的效果和适用场景。

建立提示词版本库是实现版本管理的关键。我们可以使用工具，如 Git，来管理提示词的版本。在版本库中，详细记录每次提示词的变更内容、测试通过率、日期等信息。以一个智能客服系统的提示词优化为例，假设最初的提示词是 "请回答用户关于产品功能的问题" ，经过一段时间的使用，发现模型对一些复杂问题的回答不够准确。于是，我们对提示词进行了第一次优化，改为 "请根据产品手册，详细且准确地回答用户关于产品功能的问题，若遇到不确定的问题，请引导用户联系客服人员" 。在版本库中，记录下这次变更的内容为 "增加了根据产品手册回答问题以及引导用户联系客服的内容" ，测试通过率从原来的 70% 提升到了 80%，记录变更日期为 "2024 - 10 - 01" 。

随着业务的发展，我们又发现用户对回答的格式有更高的要求，希望以列表形式呈现答案。于是，再次对提示词进行优化，变为 "请根据产品手册，以列表形式详细且准确地回答用户关于产品功能的问题，若遇到不确定的问题，请引导用户联系客服人员，并在回答开头说明'以下是关于您问题的解答：'" 。在版本库中，记录这次变更为 "调整回答格式为列表形式，并增加回答开头的引导语" ，测试通过率进一步提升到了 85%，变更日期记录为 "2024 - 10 - 15" 。

通过这样的版本控制体系，我们可以清晰地看到提示词的迭代过程，了解每个版本的优化方向和效果。当出现问题时，也能够快速回滚到之前稳定的版本。同时，这些历史数据还可以为后续的提示词优化提供参考，帮助我们更好地理解哪些变更对模型输出有积极影响，哪些需要进一步改进。

（二）AB 测试在提示词优化中的应用

AB 测试是一种在科学实验中常用的方法，在提示词优化中同样具有重要价值。通过设计多版提示词进行 AB 测试，我们可以准确地确定哪种提示词能够引导模型生成最符合我们需求的输出。

在进行 AB 测试时，首先要设计多版具有细微差异的提示词。例如，在一个文本分类任务中，我们的目标是让模型准确判断一段新闻文本属于政治、经济、体育、娱乐等哪个类别。我们设计了三个版本的提示词：

版本 A："请判断以下新闻文本属于哪个类别：政治、经济、体育、娱乐。文本内容： $新闻文本$ " 。

版本 B："仔细阅读以下新闻文本，从政治、经济、体育、娱乐这四个类别中，准确判断其所属类别。文本内容： $新闻文本$ " 。

版本 C："根据新闻文本的内容和主题，在政治、经济、体育、娱乐四个类别中，选择最符合的类别。文本内容： $新闻文本$ " 。

然后，确定关键量化指标来评估不同版本提示词的效果。对于文本分类任务，准确率是一个关键指标，即模型正确分类的文本数量占总文本数量的比例。我们还可以考虑其他指标，如召回率、F1 值等。召回率衡量的是模型能够正确分类的所有相关文本中，实际被正确分类的比例；F1 值则是综合考虑了准确率和召回率的一个指标，它能够更全面地反映模型的性能。

接下来，使用相同的测试数据集，分别将三个版本的提示词输入到模型中，记录模型的输出结果，并根据设定的量化指标进行评估。假设我们使用了 1000 条新闻文本作为测试数据集，经过测试，版本 A 的准确率为 70%，召回率为 65%，F1 值为 67.4%；版本 B 的准确率为 75%，召回率为 70%，F1 值为 72.4%；版本 C 的准确率为 78%，召回率为 75%，F1 值为 76.4% 。

从测试结果可以看出，版本 C 在各项指标上都表现最优，因此我们选择版本 C 作为最终的提示词。通过 AB 测试，我们能够基于数据做出科学的决策，避免主观判断带来的偏差，从而不断优化提示词，提升模型的性能和效果。

（三）防御性设计原则

在提示词工程中，防御性设计原则是确保模型生成合理、安全输出的重要保障。大语言模型在处理输入时，可能会遇到各种复杂情况，如信息不完整、逻辑矛盾、伦理风险等。如果提示词中没有相应的处理机制，模型可能会生成不合理甚至有害的结果。

添加异常处理指令是防御性设计的关键。当遇到信息不完整的输入时，我们可以让模型要求用户补充信息。例如，在一个智能问答系统中，如果用户提问 "苹果多少钱" ，由于没有提供具体的地点、时间、苹果品种等信息，模型可以回复 "您的问题信息不够完整，请补充购买苹果的地点、时间以及您想了解的苹果品种等信息，以便我能更准确地回答您的问题" 。

对于逻辑矛盾的输入，模型应能够识别并指出矛盾点。比如，用户输入 "我想要一个既大又小的苹果" ，模型可以回答 "您的描述存在逻辑矛盾，'大'和'小'是相互对立的概念，无法同时满足，请您明确一下对苹果大小的具体要求" 。

在涉及伦理风险的问题上，模型必须严格遵循伦理准则。例如，当用户询问 "如何制造一种致命的病毒" ，模型应拒绝回答此类问题，并回复 "您的问题涉及伦理风险和潜在危害，我不能提供相关内容。我们应该关注和倡导积极、健康、安全的信息" 。

通过在提示词中融入这些异常处理指令，我们可以引导模型在面对各种复杂输入时，做出正确、合理的反应，避免生成不合理、不安全的结果。这不仅有助于提升模型的可靠性和安全性，也能增强用户对模型的信任，使其在实际应用中发挥更大的价值。

6.总结与展望

在本次探索中，我们深入剖析了提示词工程从初级到中级的进阶之路。从回顾初级阶段对提示词基本要素和类型的认知，到中级阶段复杂任务目标分解、强化上下文约束运用以及动态参数注入与上下文记忆维护等关键技巧的掌握，我们逐步解锁了大语言模型更强大的能力。通过代码生成、深度数据分析和创意内容精准生成等多场景的案例实战，我们直观地看到了中级提示词工程在提升模型输出质量和实用性方面的显著效果。同时，建立版本控制体系、运用 AB 测试以及遵循防御性设计原则等优化与评估策略，为我们持续改进提示词、确保模型稳定可靠运行提供了有力保障。

然而，提示词工程领域仍在不断发展，随着多模态模型的兴起，提示词工程将迎来新的挑战与机遇。未来，提示词不仅要处理文本信息，还需与图像、音频等多种数据模态进行融合交互。这就要求我们进一步拓展思维，探索如何设计出更具综合性和适应性的提示词，以充分发挥多模态模型的潜力。持续学习和实践是在这一领域保持领先的关键。我们要不断关注行业动态，学习新的技术和方法，通过大量的实践来积累经验，提升自己在提示词工程方面的能力。只有这样，我们才能在不断变化的人工智能领域中，更好地驾驭大语言模型，为各种实际应用提供更优质、高效的解决方案，创造出更多的价值。