你的 Prompt 都该重写？

大家好，这里是架构资源栈！

大家总说模型会 过拟合数据 ，但很少有人注意到：Prompt 也会过拟合模型。

很多开发者遇到过这种情况：新模型明明更强，但接入后效果不升反降，甚至用户还嫌弃。比如当 Cursor 第一次接入 GPT-5 时，网上一度骂声一片，直到官方和 OpenAI 一起做了 Prompt 调优，体验才逐渐反转。

结论很简单： 👉 模型升级时，不重写 Prompt = 用老钥匙开新锁，必然卡壳。

下面从三个角度聊聊，为什么 Prompt 不能一招鲜吃遍天。

1. Prompt 格式差异

不同模型对输入格式的"偏好"差异巨大。

OpenAI 系列 ：从早期到现在，几乎一直偏爱 Markdown，官方教程和系统提示大多都是这种格式。
Anthropic Claude 系列 ：则更适配 XML。Claude 3.5 的系统提示直接就是 XML，因为它在训练中接触了大量 XML 数据，自然更懂这一套。

案例：同样一段 XML 格式 Prompt，Claude 表现出色，而 GPT-4 可能就完全不行。

所以换模型时，如果你还抱着老 Prompt 不放，就像让一个没学过 LaTeX 的人硬读公式，效果可想而知。

模型并不会平均对待 Prompt 的每个位置。

一篇 2025 年的跨语言研究表明：

这意味着：在 RAG 场景下，你放在 Prompt 开头还是结尾的示例，直接决定了模型能不能答好问题。

除了格式和位置，不同模型本身也有"性格差异"。

问题是，大多数人写 Prompt 时都在 跟模型的偏差作对。比如反复加"Be concise"，但如果新模型本身已经足够简洁，这些约束就成了赘余，反而影响效果。

与其强行矫正，不如利用模型的默认倾向。如果模型总会加几个 JSON 字段，与其拼命阻止，不如考虑接受并调整下游逻辑，结果可能更稳定。

换句话说： 👉 Prompt 就是"模型的 API"，新版本上线，API 可能改了，你不更新调用方式，必然踩坑。

如果你在做 LLM 应用，可以尝试以下三步：

这样，你就能快速判断 是否需要重写 Prompt，而不是把问题归咎于"新模型不行"。

喜欢就奖励一个"👍"和"在看"呗~