引言
大模型的能力越来越强,但想让它们真正为我们所用,Prompt 的设计依然是关键。很多人一开始写 Prompt 会觉得"玄学",效果时好时坏。其实在长期实践中,是有一些规律可循的。本文结合我在不同任务和模型上的实际经验,整理了 12 条写 Prompt 的心得,希望对你有所帮助。
一、理解模型差异
-
不同模型各有所长
-
一个复杂任务,未必一个模型就能搞定。
-
示例:大纲生成 → Claude 效果最佳;超长文阅读理解 → Kimi 表现更好。
-
-
单任务多模型协同
-
用不同模型取长补短,往往能解决单个模型卡住的问题。
-
示例:GPT 写代码失败 → Claude 写一版 → 再交给 GPT 改 → 最终完成任务。
-
-
模型能力的边界
-
如果 Prompt 调整无效,很可能不是写法的问题,而是模型本身能力不足。
-
建议:多尝试不同模型,先验证可行性。
-
二、结构化参考信息
-
大量信息放在 system,而不是 prompt
- 否则会干扰模型对指令的执行。
-
帮模型梳理参考数据
-
将网页数据、文件数据分类标注清楚。
-
让模型知道"这是什么、那是什么",而不是一堆乱糟糟的文本。
-
-
养成好的信息整理习惯
- 尽管未来模型可能能自动处理复杂信息,但目前手动整理仍然很重要。
三、优化指令表达
-
最重要的要求放在最后
- 模型往往对结尾的指令更敏感。
-
必要时重复强调
- Prompt 里的冗余有时是必须的,尤其当你发现模型总是忽略某个关键点时。
-
保持简洁,特别是 Claude
- Claude 在"大纲生成"任务上验证过:指令越简单,效果越好。
-
不要中英文混用
- 英文任务就用英文 Prompt,中文任务就用中文 Prompt,能提高稳定性。
四、任务拆分与工具辅助
- 复杂任务拆分成多条 Prompt
- 单条 Prompt 可能无法完成复杂任务,拆分后往往效果更好。
- 善用 Prompt 工具
- 例如 Kimi 的 Prompt 专家,能快速生成一个可用的初稿,再自己调整优化,更省时间。
五、关于评测任务的特别经验
-
如果任务是让 LLM 做评测:
-
推荐用 GPT-4o,因为它的判断更接近人工标准。
-
能力较弱的模型在复杂任务上评分偏差大。
-
在综述写作评测中,我们明显看到 GPT-4o 的结果比其他模型更可靠。
-
总结
写好 Prompt 并不是玄学,而是技巧与经验的积累。
-
选对模型,发挥其所长;
-
整理好信息,让模型"看懂";
-
优化表达,简单、清晰、重点突出;
-
学会拆分与协同,复杂任务分步完成;
-
多借助工具,节省时间和精力。
最终目标,不是追求一条"完美 Prompt",而是找到一个"稳定、可复现的流程",让模型更高效地为我们服务。
要不要我帮你把这篇博客写得更"故事化",比如加一些失败案例和对比实验?这样读者会觉得更有代入感。