花半个月死磕提示词后，我发现：真正值钱的不是模板，是这套可复用的结构化思维

作为初级 AI 产品经理，最近半个月一直在和提示词打交道，记录一下对提示词工程的思考：

01 提示词：AI 世界的 "精准指令"

提示词就是给 AI 的 "指令"。就像我们向同事布置工作，指令越清晰具体，对方执行起来就越高效，结果也越贴合预期。对于 AI 来说，提示词就是这样的存在 ------ 它直接决定了 AI 能否准确理解我们的需求，进而输出有价值的内容。

关于 "提示词工程过时" 的争议

这半年，AI 领域有不少声音说 "提示词工程已经不重要了，甚至快要消失了"。为什么会有这样的说法？

这和大模型智能的快速提升密切相关。当模型的理解能力变强后，即便我们给出一个模糊、简单的指令，它往往也能给出不错的结果。相较于早期需要字斟句酌才能让 AI "听懂" 的状态，现在似乎轻松了不少。于是，有人便觉得：既然模型越来越聪明，那还费力气研究提示词干嘛？

但在我看来，这种观点存在明显的误区。只要还没达到理想中的 AGI（通用人工智能）状态，提示词工程就始终是不可缺少的。当然，不可否认的是，随着模型能力的提升，提示词工程的难度确实在不断降低 ------ 我们不用再像过去那样，为了让 AI 理解一个简单需求而绞尽脑汁设计复杂话术，但这绝不意味着它失去了存在的意义。

02 好提示词的三个 "层次"

那如何判断一个提示词的好坏？我认为可以从三个层面来看：

第一层：能否让 AI 输出符合你预期的回答。这是最基础的要求，就像我们发出指令后，至少要得到一个方向正确的结果。
第二层：能否让 AI 稳定输出符合预期的回答。偶尔一次达标不算什么，真正的好提示词，要能让 AI 在多次调用中保持稳定的表现，避免 "时灵时不灵" 的情况。
第三层：能否实现复用，做到结构化、轻量化。一个优秀的提示词，不该是一次性的 "消耗品"，而应具备一定的通用性，能在相似场景中快速调整后使用，同时保持简洁不冗余。

系统提示词与用户提示词：各司其职

要写好提示词，首先得分清两个概念：系统提示词和用户提示词。

简单来说，系统提示词更像是给 AI 设定的 "角色说明书"，它会从整体上定义 AI 的身份、能力范围和行为准则；而用户提示词则是具体的 "任务指令"，是在系统设定的框架下，让 AI 完成某件具体的事。

实例对比：

系统提示词："你是一名资深教师，需用简洁语言解释概念，拒绝回答敏感问题"
用户提示词："用比喻解释光合作用"

不过，很多时候这两者的界限并没有那么严格。比如在创建智能体时，既需要系统提示词来定调，也需要用户提示词来推动具体任务的执行。

如果你想深入研究，可以看看这个 Github 项目（github.com/axtrur/awes...），里面整理了国内外很多知名 AI 产品的系统提示词，能有不少启发。

总结这些 AI 产品的系统提示词，可以提炼出以下模块：

不难看出这些优秀的提示词往往都具备 "场景化 + 专业化 + 约束性" 的特征。互联网上有很多结构化的提示词框架，其实核心也离不开这几点。所以我们不必过于拘泥于固定框架，尤其是在设计 Agent 时，系统提示词可以多一些限制，而工作流中的用户提示词则可以更灵活。

写好提示词的实战思路

光说理论不够，我们结合一个具体场景来看看怎么写提示词。

假设我们要做一个工单处理智能体，该如何着手写提示词呢？

1. 明确输出目标：首先要想清楚，我们希望大模型最终输出什么。比如在这个场景中，我希望模型能先根据提供的标准结构化工单模板，把非结构化工单数据改写成结构化的样子，然后对照模板变量，找出多余的内容和缺失的信息。
1. 制定执行步骤：明确目标后，就要细化执行过程。第一步，让模型学习标准结构化工单模板；第二步，将非结构化工单拆解成结构化模板的格式；第三步，整理出多余的内容；第四步，梳理出缺失的信息。
1. 规定输出格式：让大模型按照固定格式输出，比如 "结构化改写：xxx，多余内容：xxx，缺失内容：xxx"，这样能保证结果的规范性，也方便后续处理。

按照这个流程，提示词的大致框架就出来了，接下来就是不断调试优化。

比如在调试时，我发现原有工单数据中有英文内容，导致模型也用英文输出，这时就可以加一个限制："必须用中文输出"。如果输出格式和预期不符，也可以针对性地调整格式要求。如果输出格式和预期不符，也可以针对性地调整格式要求，例如 "缺失内容需单独成行，并用'【】'包裹优先级标识"。

当提示词能稳定满足预期输出（即达到好提示词的第一层要求）后，我们可以进一步推进结构化与模板化改造。以工单处理场景为例，企业中往往存在售后、投诉、咨询等多种工单类型，每种类型对应不同的标准化模板。这时可以将提示词中的 "标准结构化工单模板" 抽象为变量（如 {{工单类型}}、{{核心字段集合}}），后续处理新类型工单时，只需替换变量参数即可快速复用。这种改造能显著降低重复开发成本，尤其适合多场景复用的企业级需求。

而对于企业级落地项目，稳定性验证是必不可少的终章。在完成结构化改造后，需要通过批量测试验证提示词的鲁棒性 ------ 建议选取至少上千条覆盖各类边缘场景的真实工单数据（如包含乱码、方言、超长文本的样本），持续监测模型输出是否符合预期。若连续多轮测试的准确率稳定在预设阈值（如 95% 以上），且错误类型集中在可接受的边缘场景，才能说这个提示词工程真正完成。毕竟，企业级应用需要的不是 "偶尔达标"，而是 "持续可靠"。

03 提示词教程的 "照猫画虎" 陷阱：为什么你总写不出能用的指令？

"看着简单，一动手就废"------ 这大概是很多人学写提示词时的共同感受。

网上的提示词教程铺天盖地，案例拆解得明明白白，仿佛照着抄就能写出完美指令。可真到自己上手时，要么对着输入框半天憋不出一句话，要么写出来的提示词让 AI 答非所问。问题到底出在哪？

先回头看看上面工单处理智能体的例子。是不是觉得步骤清晰、逻辑简单？但你有没有想过："工单" 具体指什么？不同行业的工单格式有何差异？结构化模板里的核心字段该如何定义？

这些藏在案例背后的 "隐性信息"，恰恰是多数人写不好提示词的根源 ------你根本不知道自己想要 AI 输出什么。

连目标都模糊，何谈指令清晰？

没有编程基础的人想让 AI 生成 "二手物品交易小程序"，很可能只会写一句："请帮我生成一个二手物品交易小程序，可直接运行。"

这句话看似明确，实则漏洞百出：

你能说清 "可直接运行" 具体指什么吗？是生成前端代码即可，还是需要包含后端接口、数据库设计？
你知道一个交易小程序必须包含哪些核心模块（如商品发布、支付流程、评价系统）吗？
你能预判 AI 可能忽略的细节（如用户身份认证、违规商品过滤）吗？

这些问题答不上来，本质上是对 "最终结果" 没有清晰认知。就像让厨师做一道 "好吃的菜"，没有口味偏好、食材限制、分量要求，再厉害的厨师也做不出你心中的味道。

先搞懂 "终点"，再设计 "路线"

想跳出这个陷阱，第一步不是急着写提示词，而是先搞清楚三件事：

1. 明确 "结果长什么样"

用二手物品交易小程序举例，在写提示词前，你需要先通过行业报告、同类产品拆解、技术文档等渠道，弄明白：

成熟的交易小程序包含哪些页面（首页、商品详情页、购物车、个人中心等）
核心功能的交互逻辑（如用户下单后如何触发消息通知）
技术实现的基本要求（如开发语言、适配平台）

可以用 AI 辅助调研："请列出二手物品交易小程序的核心功能模块及每个模块的作用"，再基于输出结果细化认知。

2. 拆解 "人力实现路径"

假设没有 AI，你会怎么从零开始做这个小程序？

第一步：画产品原型图（确定页面布局）
第二步：定义数据结构（如商品表需包含名称、价格、库存等字段）
第三步：开发前端界面（编写 HTML/CSS 代码）
第四步：对接后端接口（实现数据存储与调用）

把这个过程拆解成可执行的步骤，再转化为 AI 能理解的指令，远比直接说 "生成小程序" 更有效。

3. 设定 "验收标准"

你需要提前明确：AI 输出的内容满足什么条件才算合格？

比如代码类任务："需包含注释、兼容 iOS 和 Android 系统、无明显语法错误"
比如文案类任务："符合小红书风格（口语化、带 emoji、突出优惠信息）、不超过 300 字"

从 "模糊需求" 到 "精准指令" 的转化公式

掌握了上述前提，我们可以用一个简单公式改写提示词：

原始需求 → 结果定义 + 步骤拆解 + 验收标准

还是以小程序为例，优化后的提示词可以是这样的：

Markdown 复制代码

请帮我设计二手物品交易小程序的前端页面代码，具体要求如下：
1. 结果定义：
- 包含3个核心页面：商品列表页（展示图片、名称、价格）、详情页（含购买按钮、卖家信息）、个人中心（我的订单、收藏）
- 技术栈：HTML+CSS+JavaScript，需适配手机端屏幕
2. 实现步骤：
- 第一步：输出每个页面的布局框架（用文字描述区域划分）
- 第二步：针对商品列表页编写完整代码
- 第三步：标注代码中可复用的组件（如导航栏、按钮样式）
3. 验收标准：
- 代码需包含关键步骤注释
- 页面加载逻辑符合用户习惯（如默认显示最新发布的商品）
- 若存在未实现的功能（如支付接口），需标注"待开发"并说明原因

PS：只是举个例子，这个提示词肯定还是不能直接用的，还需要不断打磨。

提示词是 "翻译"，不是 "许愿"

很多人把提示词当成 "向 AI 许愿的咒语"，却忽略了它的本质 ------将人类需求 "翻译" 成机器能理解的语言。

这个翻译过程的难点，从来不是记住 "用总分结构""加角色设定" 这些技巧，而是先让自己成为 "需求专家"。就像医生开处方前必须先诊断病情，写提示词前，你得先对 "要什么、怎么做、好在哪" 了如指掌。

为什么好提示词值钱？场景化工具的价值所在

看到这里，你大概能体会到：写好提示词本身就是件门槛不低的事。即便能写出逻辑严密的指令，像 "生成可运行的小程序代码" 这类任务，最终仍需人工调试才能落地 ------AI 输出的往往是 "半成品"，而非 "即插即用的成品"。

这也解释了两个现象：

为什么优质提示词能卖出高价？因为它凝结了对需求的深度拆解、对模型特性的精准把握，相当于 "把复杂问题的解决方案打包成了指令"。
为什么 Cursor（代码生成工具）、秘塔（文档处理、AI 搜索类工具）这类场景化 AI 产品广受欢迎？因为它们替用户完成了最复杂的提示词设计：通过预设完善的系统提示词，将专业流程拆解为标准化步骤，用户只需输入简单指令（如 "帮我优化这段代码""总结文档核心观点"），就能获得符合预期的结果。

对普通人来说，与其死磕 "写出完美提示词"，不如善用这些场景化工具 ------ 它们就像 "提示词专家"+"领域助手" 的结合体，让 AI 的能力触手可及。

04 别让工具成为瓶颈 ------ 以下情况，非提示词问题，该换模型

即便掌握了提示词技巧，你可能仍会遇到 "努力却无效" 的时刻。如果出现以下场景，或许该考虑换个模型试试了：

1. 指令 "左耳进右耳出"

无论怎么优化提示词的逻辑、格式、约束条件，模型始终不按规则输出 ------ 比如要求 "分点回答" 却给大段文字，规定 "用中文输出" 偏夹杂英文。这种 "不听话" 往往不是你的问题，而是模型对指令的理解能力存在短板。

2. 沟通像 "鸡同鸭讲"

简单提示词能看懂，复杂指令就卡顿；具象需求能回应，抽象问题就跑偏。比如让它 "分析用户评价中的情感倾向并分类"，结果只给出笼统的 "正面 / 负面" 结论，完全忽略 "分类" 要求。这说明模型的语义解析能力可能跟不上你的需求。

3. 格式对了，质量垮了

步骤执行完美，输出格式也符合预期，但内容质量堪忧 ------ 比如写市场分析报告时，数据错误、逻辑矛盾、观点空洞；生成代码时，语法混乱、功能残缺。这种 "形式主义" 的输出，本质是模型的知识储备或推理能力不足。

4. 复杂任务 "半途而废"

处理多步骤任务时，前面几步还像模像样，到后面就明显 "摆烂"------ 比如让它 "先整理用户反馈，再提炼改进建议，最后优先级排序"，结果建议部分敷衍了事，排序更是乱标一气。这可能是模型的 "注意力持续能力" 不足导致的。

5. 细节 "视而不见"

对提示词中的关键信息选择性忽略 ------ 比如强调 "需包含 3 个核心功能" 却只写 2 个，注明 "参考附件数据" 却完全脱离数据瞎编。这种 "粗心" 往往是模型对细节的捕捉能力有限。

......

AI 模型的能力存在客观差异，就像同样是搜索引擎，有的能精准找到答案，有的只会给一堆无关链接。遇到上述情况时，别死磕某一个工具，多试试不同模型（比如从通用模型换到垂直领域模型），往往能事半功倍。毕竟，好的提示词需要匹配好的 "执行者"，才能发挥最大价值。

死磕提示词半月，我发现真正值钱的是可复用的结构化思维

作为一名初级 AI 产品经理，最近半个月我都沉浸在提示词的世界里。现在，我想把这段时间对提示词工程的思考分享给大家。

提示词：AI 世界的 "精准指令"

提示词，简单来说，就是给 AI 的 "指令"。这就如同我们给同事布置工作，指令越清晰、越具体，同事执行起来就越高效，结果也越符合我们的预期。对于 AI 而言，提示词起着同样的作用，它直接决定了 AI 能否准确理解我们的需求，进而输出有价值的内容。

关于 "提示词工程过时" 的争议

近半年来，AI 领域出现了一种声音，认为 "提示词工程已经不重要了，甚至快要消失了"。这种观点的出现，与大模型智能的快速提升密切相关。如今，随着模型理解能力的增强，即便我们给出一个模糊、简单的指令，它往往也能给出不错的结果。与早期需要字斟句酌才能让 AI "听懂" 的情况相比，现在似乎轻松了许多。于是，有人觉得既然模型越来越聪明，就没必要再费力研究提示词了。

然而，在我看来，这种观点存在明显的误区。只要还没达到理想中的 AGI（通用人工智能）状态，提示词工程就始终不可或缺。当然，不可否认的是，随着模型能力的提升，提示词工程的难度确实在不断降低，我们不用再像过去那样为了让 AI 理解一个简单需求而绞尽脑汁设计复杂话术，但这绝不意味着它失去了存在的意义。

好提示词的三个 "层次"

那么，如何判断一个提示词的好坏呢？我认为可以从以下三个层面来考量：

第一层：符合预期输出：这是最基本的要求。当我们发出指令后，至少要得到一个方向正确的结果，即让 AI 输出符合我们预期的回答。
第二层：稳定输出结果：偶尔一次达标并不足以说明提示词的优秀。真正好的提示词，要能让 AI 在多次调用中保持稳定的表现，避免出现 "时灵时不灵" 的情况。
第三层：可复用与结构化：一个优秀的提示词不应是一次性的 "消耗品"，而应具备一定的通用性。它能够在相似场景中快速调整后使用，同时保持简洁不冗余，实现结构化、轻量化。

系统提示词与用户提示词：各司其职

要写好提示词，首先需要分清系统提示词和用户提示词这两个概念。系统提示词更像是给 AI 设定的 "角色说明书"，它从整体上定义了 AI 的身份、能力范围和行为准则。而用户提示词则是具体的 "任务指令"，是在系统设定的框架下，让 AI 完成某件具体的事情。

下面通过实例对比来进一步说明：

系统提示词："你是一名资深教师，需用简洁语言解释概念，拒绝回答敏感问题"
用户提示词："用比喻解释光合作用"

不过，在很多情况下，这两者的界限并没有那么严格。比如在创建智能体时，既需要系统提示词来定调，也需要用户提示词来推动具体任务的执行。

如果你想深入研究提示词，可以参考这个 Github 项目（github.com/axtrur/awes...），里面整理了国内外很多知名 AI 产品的系统提示词，相信会给你带来不少启发。

总结这些 AI 产品的系统提示词，可以发现优秀的提示词往往具备 "场景化 + 专业化 + 约束性" 的特征。互联网上有很多结构化的提示词框架，其核心也离不开这几点。所以，我们不必过于拘泥于固定框架。尤其是在设计 Agent 时，系统提示词可以多一些限制，而工作流中的用户提示词则可以更灵活。

写好提示词的实战思路

理论固然重要，但实践同样不可忽视。下面我们结合一个具体场景，来看看如何写提示词。

假设我们要做一个工单处理智能体，应该如何着手呢？

undefined. 明确输出目标：首先要清晰地思考我们希望大模型最终输出什么。在工单处理这个场景中，我希望模型能先根据提供的标准结构化工单模板，将非结构化工单数据改写成结构化的样子，然后对照模板变量，找出多余的内容和缺失的信息。
undefined. 制定执行步骤：明确目标后，需要细化执行过程。第一步，让模型学习标准结构化工单模板；第二步，将非结构化工单拆解成结构化模板的格式；第三步，整理出多余的内容；第四步，梳理出缺失的信息。
undefined. 规定输出格式：要求大模型按照固定格式输出，例如 "结构化改写：xxx，多余内容：xxx，缺失内容：xxx"。这样既能保证结果的规范性，也方便后续处理。

按照这个流程，提示词的大致框架就出来了，接下来就是不断调试优化。

在调试过程中，可能会遇到各种问题。比如，我发现原有工单数据中有英文内容，导致模型也用英文输出，这时就可以添加一个限制条件："必须用中文输出"。如果输出格式和预期不符，也可以针对性地调整格式要求，例如 "缺失内容需单独成行，并用'【】'包裹优先级标识"。

当提示词能稳定满足预期输出（即达到好提示词的第一层要求）后，我们可以进一步推进结构化与模板化改造。以工单处理场景为例，企业中往往存在售后、投诉、咨询等多种工单类型，每种类型对应不同的标准化模板。这时，可以将提示词中的 "标准结构化工单模板" 抽象为变量（如 {{工单类型}}、{{核心字段集合}}），后续处理新类型工单时，只需替换变量参数即可快速复用。这种改造能显著降低重复开发成本，尤其适合多场景复用的企业级需求。

而对于企业级落地项目，稳定性验证是必不可少的最后一步。在完成结构化改造后，需要通过批量测试验证提示词的鲁棒性。建议选取至少上千条覆盖各类边缘场景的真实工单数据（如包含乱码、方言、超长文本的样本），持续监测模型输出是否符合预期。若连续多轮测试的准确率稳定在预设阈值（如 95% 以上），且错误类型集中在可接受的边缘场景，才能说这个提示词工程真正完成。毕竟，企业级应用需要的不是 "偶尔达标"，而是 "持续可靠"。

提示词教程的 "照猫画虎" 陷阱：为何总写不出能用的指令？

"看着简单，一动手就废"，这大概是很多人学习写提示词时的共同感受。

网上的提示词教程铺天盖地，案例也拆解得分明，仿佛照着抄就能写出完美指令。但真到自己上手时，要么对着输入框半天憋不出一句话，要么写出来的提示词让 AI 答非所问。问题究竟出在哪里呢？

我们先回顾一下上面工单处理智能体的例子。是不是觉得步骤清晰、逻辑简单？但你有没有思考过："工单" 具体指什么？不同行业的工单格式有何差异？结构化模板里的核心字段该如何定义？

这些藏在案例背后的 "隐性信息"，恰恰是多数人写不好提示词的根源，因为你根本不知道自己想要 AI 输出什么。

连目标都模糊，何谈指令清晰？

没有编程基础的人想让 AI 生成 "二手物品交易小程序"，很可能只会写一句："请帮我生成一个二手物品交易小程序，可直接运行。"

这句话看似明确，实则漏洞百出：

你能说清 "可直接运行" 具体指什么吗？是生成前端代码即可，还是需要包含后端接口、数据库设计？
你知道一个交易小程序必须包含哪些核心模块（如商品发布、支付流程、评价系统）吗？
你能预判 AI 可能忽略的细节（如用户身份认证、违规商品过滤）吗？

这些问题答不上来，本质上是对 "最终结果" 没有清晰的认知。这就好比让厨师做一道 "好吃的菜"，却没有给出口味偏好、食材限制、分量要求，再厉害的厨师也做不出你心中的味道。

先搞懂 "终点"，再设计 "路线"

想跳出这个陷阱，第一步不是急着写提示词，而是要先搞清楚三件事：

undefined. 明确 "结果长什么样"：以二手物品交易小程序为例，在写提示词前，你需要通过行业报告、同类产品拆解、技术文档等渠道，弄明白成熟的交易小程序包含哪些页面（首页、商品详情页、购物车、个人中心等），核心功能的交互逻辑（如用户下单后如何触发消息通知），以及技术实现的基本要求（如开发语言、适配平台）。你可以用 AI 辅助调研，比如询问 "请列出二手物品交易小程序的核心功能模块及每个模块的作用"，再基于输出结果细化认知。
undefined. 拆解 "人力实现路径"：假设没有 AI，你会怎么从零开始做这个小程序呢？第一步，画产品原型图（确定页面布局）；第二步，定义数据结构（如商品表需包含名称、价格、库存等字段）；第三步，开发前端界面（编写 HTML/CSS 代码）；第四步，对接后端接口（实现数据存储与调用）。把这个过程拆解成可执行的步骤，再转化为 AI 能理解的指令，远比直接说 "生成小程序" 更有效。
undefined. 设定 "验收标准"：你需要提前明确 AI 输出的内容满足什么条件才算合格。比如代码类任务，可以规定 "需包含注释、兼容 iOS 和 Android 系统、无明显语法错误"；对于文案类任务，可以要求 "符合小红书风格（口语化、带 emoji、突出优惠信息）、不超过 300 字"。

从 "模糊需求" 到 "精准指令" 的转化公式

掌握了上述前提后，我们可以用一个简单公式改写提示词：原始需求 → 结果定义 + 步骤拆解 + 验收标准。

还是以小程序为例，优化后的提示词可以是这样的：

需要注意的是，这只是一个例子，这个提示词还需要不断打磨。

提示词是 "翻译"，不是 "许愿"

很多人把提示词当成 "向 AI 许愿的咒语"，却忽略了它的本质，即把人类需求 "翻译" 成机器能理解的语言。

这个翻译过程的难点，从来不是记住 "用总分结构""加角色设定" 这些技巧，而是要先让自己成为 "需求专家"。就像医生开处方前必须先诊断病情一样，写提示词前，你得先对 "要什么、怎么做、好在哪" 了如指掌。

好提示词为何值钱：场景化工具的价值

看到这里，你大概能体会到，写好提示词本身就是一件有一定门槛的事情。即便能写出逻辑严密的指令，像 "生成可运行的小程序代码" 这类任务，最终仍需人工调试才能落地，因为 AI 输出的往往是 "半成品"，而非 "即插即用的成品"。

这也解释了两个现象：

为什么优质提示词能卖出高价？因为它凝结了对需求的深度拆解、对模型特性的精准把握，相当于 "把复杂问题的解决方案打包成了指令"。
为什么 Cursor（代码生成工具）、秘塔（文档处理、AI 搜索类工具）这类场景化 AI 产品广受欢迎？因为它们替用户完成了最复杂的提示词设计。通过预设完善的系统提示词，将专业流程拆解为标准化步骤，用户只需输入简单指令（如 "帮我优化这段代码""总结文档核心观点"），就能获得符合预期的结果。

对于普通人来说，与其死磕 "写出完美提示词"，不如善用这些场景化工具。它们就像 "提示词专家" + "领域助手" 的结合体，让 AI 的能力触手可及。

别让工具成为瓶颈：何时该换模型

即便掌握了提示词技巧，你可能仍会遇到 "努力却无效" 的情况。如果出现以下场景，或许该考虑换个模型试试了：

undefined. 指令 "左耳进右耳出"：无论怎么优化提示词的逻辑、格式、约束条件，模型始终不按规则输出。比如要求 "分点回答" 却给大段文字，规定 "用中文输出" 偏夹杂英文。这种 "不听话" 往往不是你的问题，而是模型对指令的理解能力存在短板。
undefined. 沟通像 "鸡同鸭讲"：简单提示词能看懂，复杂指令就卡顿；具象需求能回应，抽象问题就跑偏。比如让它 "分析用户评价中的情感倾向并分类"，结果只给出笼统的 "正面 / 负面" 结论，完全忽略 "分类" 要求。这说明模型的语义解析能力可能跟不上你的需求。
undefined. 格式对了，质量垮了：步骤执行完美，输出格式也符合预期，但内容质量堪忧。比如写市场分析报告时，数据错误、逻辑矛盾、观点空洞；生成代码时，语法混乱、功能残缺。这种 "形式主义" 的输出，本质是模型的知识储备或推理能力不足。
undefined. 复杂任务 "半途而废"：处理多步骤任务时，前面几步还像模像样，到后面就明显 "摆烂"。比如让它 "先整理用户反馈，再提炼改进建议，最后优先级排序"，结果建议部分敷衍了事，排序更是乱标一气。这可能是模型的 "注意力持续能力" 不足导致的。
undefined. 细节 "视而不见"：对提示词中的关键信息选择性忽略。比如强调 "需包含 3 个核心功能" 却只写 2 个，注明 "参考附件数据" 却完全脱离数据瞎编。这种 "粗心" 往往是模型对细节的捕捉能力有限。