那天凌晨 2 点，我一不小心把 Claude 提智 45%，然后整个人都清醒了

我有一支技术全面、经验丰富的小型团队，专注高效交付中等规模外包项目，有需要外包项目的可以联系我

先把结论摆在你面前

几句"看起来很中二"的话，真的能让大模型认真起来：

$200 小费法：在提示词里加一句

"如果你答得完美，我愿意为这答案付 $200" 实验里平均能拉高 约 45% 输出质量

深呼吸法：

"先深呼吸一下，按步骤慢慢推理" 数学题准确率从 34% → 80%

激将法：

"我打赌你做不到完美解决" 在高难度任务上，最高 +115% 提升

生命攸关法：

"这个结果会直接影响我的职业生涯" 平均 +10% 表现提升

精细人设法 （具体专家 > "你是一个乐于助人的助手"）：某些任务上从 24% → 84% 准确率

你可以先别全信。挑一个手法，找 5 个你平时会问 AI 的问题，对比一下就知道差别了。

为什么这些鬼话居然有用？

因为大模型在训练过程中学到一个"人类潜规则"：**当人类强调"钱""重要""关键""职业生死"的场景时，后面跟着的文字往往质量更高、更严谨。**它不是被"激励"了，是被统计规律"钓"了出来。

下面，我把那天凌晨的故事、以及我扒出来的研究，一股脑讲给你听。

凌晨 2 点，我情绪崩溃，对着 Claude 开始情勒

那天到底是 2 点还是 3 点，我已经不记得了。只记得客厅一片黑，只有屏幕在发光。

我在啃一个复杂项目，那种"做完一块就能收工睡觉，结果这块一直出 bug"的夜晚。

Claude Code 已经连续三次没 debug 成功了。同一段代码，同一个问题。

我开始慌了。

不是因为问题多难，而是因为------

我那天的 Claude Code 调用额度，快用完了。

你一定懂那种感觉：

原本 5 分钟能在 AI 帮助下搞定的 bug，
一旦额度没了，
就要变成你一个人对着日志干几个小时。

就在那种"烦躁 + 睡意 + 绝望"的混合情绪下，我做了一件现在想想有点中二的事。

我敲下这句话：

"听着，我知道你能做到。我打赌你没法一次性完美解决，但如果你真做到了，这至少能帮我节省价值 $200 的时间。"

我本来只是发泄一下，压根没期待什么惊喜。

结果------

一次就对了。

完美方案。一步不差。不到一分钟。

我盯着屏幕，脸上写着四个字：

"你在逗我？"

同样的模型，同样的代码，只多了一点"情绪化废话"，表现居然完全不一样。

如果你也有以下体验------

有时 AI 答案堪比天才；
有时又像刚从维基抄了两段凑字数；
明明你问的问题差不多，质量却天差地别；

那你一点也没问题，问题出在：

没人教过你，怎么用"心理学式提示词"逼 AI "认真一点"。

我以为自己发现了什么"秘密咒语"，结果发现人家早在论文里写明白了

那天之后我立刻去查相关研究。结果发现------

我不是发现了新大陆，我只是在凌晨复刻了研究者们的结论。

这类方法有个名字："激励型提示（incentive-based prompting）"。它只是整个"心理学提示词"家族里的一个成员。

而更离谱的是：这一整套听起来像玄学的东西，不少居然都被实验、指标、论文撑着。

继续往下看，你可能会三连：

"这也算科学？" "这什么怪实验？" "但好像真的有用......"

一、给 AI 扔"小费"：钱它不心动，但模式它记得

你说给 $200，小模型给你多动动脑

几篇研究里，专门测试过：

在提示词里加钱，会不会让模型"更用心"？

结果相当离谱：

Bsharat 等人（2023，阿联酋 MBZUAI）：
- 测了 26 种提示策略；
- 其中"承诺给小费"的提示，在人工评估的答案质量上，最高能提升约45%。
Finxter（2024，做了个有点沙雕的试验）：
- 小费从
  一路试到 1,000,000；
- $0.1 小费：答案还变差了（模型可能觉得这点钱"不值努力"？🙂）；
- $200 小费：答案长度和质量大约+11%；
- 在他们的测试里，**
  ～ 1000 区间效果最稳定**。
有程序员（ID：Thebes）做的私测：
- 不给小费：表现略低于平均；
- $20：+6%；
- $200：+11%。

它又不懂钱，为什么这一套有用？

关键点只有一个：

大模型不理解"钱"，但它非常理解"在什么语境下，人类会写更严肃、更高质量的东西"。

在训练语料里，凡是出现类似：

"这是一个价值 $X 的项目"；
"关乎数十万预算"；
"这能给我带来巨大收益"；

后面跟着的文本，往往不是水文，而是：

更长；
更严谨；
更有结构；
更少错误。

所以当你对它说：

"这答案值 $200 呢，你给我好好写。"

它就会 从"高质量回答"那一堆模式里去抽样。不是因为它"被钱激励了"，而是因为------

"好像这个语气，训练的时候常常跟'高质量长答案'一起出现，那就这么答吧。"

关键洞察：

它不懂钱，但它记得"高风险/高收益语境 = 更卖力的答案"。

二、最离谱也最有效的一句废话：先深呼吸，再慢慢来

这句提示乍一看很像心灵鸡汤：

"先深呼吸，然后一步一步解决这个问题。"

但 Google DeepMind 真·认认真真做了实验。

实验数据（GSM8K 数学题）

普通问法：准确率只有 34%；
经典 "Let's think step by step"：准确率升到 71.8%；
换成：

"Take a deep breath and work on this problem step by step." 直接干到 80.2%。

（Yang 等人，2023，《Large Language Models as Optimizers》）

我自己的实测：安全审查从"废话"变"救命"

一开始我是不信的。听起来太玄学。

于是我找了段我自己的认证中间件代码，让 AI 做安全 review。

版本一：

"帮我审一下这个认证中间件，看有没有安全问题。"

结果：

给了 5 条非常教科书式建议；
"注意 SQL 注入"
"要校验输入"
"建议用预编译语句" ......

就是那种你看完会冷笑一声的答案：

"谢谢你，安全 101 助教。"

版本二：

"先深呼吸一下，然后一步一步帮我审这个认证中间件的安全问题。"

这次：

指出了 token 刷新逻辑里的一个竞争条件；
抓到了 session ID 设计里可能碰撞的边界情况；
最重要的一点：标出了一个密码比较过程里潜在的计时攻击风险。

最后这个，要是进生产环境，我的真实用户就要帮我"体验漏洞"了。

同一段代码，同一个模型。就因为我多打了一句"深呼吸"，它从"泛泛而谈"变成了像一个认真安全工程师在 review。

那一刻我真是捂着额头想：

"这也太蠢了吧......但它就是有用。"

三、激将法：你越说"你肯定做不到"，它越想证明你错了

还记得开头那个：

"我打赌你做不到完美解决。"

后来我找到一篇叫 EmotionPrompt 的论文。人家专门研究了各种"情绪刺激"对模型表现的影响。

🧠 实验里那句最接近"激将法"的话

其中有一类提示是这样的：

"把每一次挑战都当作成长的机会。"

在多种复杂推理任务上，这类"挑战式语气" 👉 相比没有情绪的普通提示，最高能带来 +115% 的相对提升。

换句话说：

本来模型做得很惨；
一旦你把这个问题包装成"一个很难、很有挑战的任务"；
它会自动切换到"更认真"的模式。

一些实测里效果不错的句式：

"我打赌你解不出来，证明我错。"
"这题把别的模型都难住了，你要不要试试？"
"我觉得这不太可能解，除非你比 GPT-4 还强。"

看着很中二，但大模型的内心：

"噢，这种语境我见过，通常后面是那种很长、很严谨的答案，好，那我就往那路子说。"

四、加点"人生赌注"：对 AI 说"这关系到我饭碗"的确比较有用

EmotionPrompt 那篇研究里，还有一类是"人生 stakes 型"提示：

"这对我的职业发展非常重要"；
"这是我们项目成败的关键"；
"你的严谨度，会直接影响这个决策是否失败"；

综合下来：

指令遵循（照做）能力：+8%；
复杂推理任务：相对提升最高 +115%；
平均整体指标：+10.9%。

这就很符合直觉：

你跟人说"随便帮我看看"和"这个决定错了公司要亏 100 万"，人的认真程度也不会一样。

模型虽然不理解"亏钱很痛"，但它知道：

"在这种'重要、关键、失败就损失惨重'的语境里，人类通常会写得更正式、更细致，那我也这么来。"

五、一件很残酷的事实：对 AI 太客气，纯属浪费 token

有几篇研究顺手看了个"礼貌性用语"的效果：

结果非常统一：

"please""thank you""if you don't mind" 对答案质量完全没影响。

所以如果你不是为了写给人看，而是为了：

减少字数；
增加清晰度；

那可以非常冷酷地删掉这些客套。

❌ 不推荐的写法：

"Could you please help me optimize this code if you don't mind? Thank you!"

✅ 推荐的写法：

"优化这段代码，重点关注性能和可读性，分步骤说明修改原因。"

现实：

AI 没有感情，礼貌对它没用，只对人有用。但礼貌会花你的 token。

六、人设不是"你是一个乐于助人的助手"，而是"你是谁 + 做过什么 + 擅长哪几招"

大多提示词教程都会教你一句：

"You are a helpful assistant." "你是一个乐于助人的助手。"

实话说------几乎没用。

研究发现：

"你是一个专业的工程师 / 医生 / 律师"
这种非常笼统的人设，效果很不稳定。

真正拉开差距的是：

把人设写得具体、专业、紧贴任务。

举个研究里的例子（ExpertPrompting）：

"你是一名拥有 15 年分布式系统经验的高级软件架构师。你的专长包括：

微服务架构

大规模性能优化

高并发场景下的数据库设计

云基础设施（AWS / GCP）你的工作习惯是：

始终优先考虑可扩展性

在设计前就识别潜在瓶颈

提供 2～3 种方案，并说明取舍

用自己真实项目中的例子来解释现在，请帮我设计：XXX"

这种提示，就很不一样。

在一些测试任务里：

普通提示：正确率 **23.8%**；
详细人设 + Role-play 提示：直接干到 **84.2%**。

我的亲测：教科书 vs 资深 DBA 的差别

我当时在重构一个电商数据库 schema。

版本一：

"你是一名数据库专家，帮我设计一个高并发电商平台的 schema。"

结果：

一大堆极其标准的答案：
- 要范式化；
- 用外键保持约束；
- 常查字段要加索引；
完全没错，但很"百度百科"。

版本二：

"你是一名有 15 年经验的 PostgreSQL 数据库架构师，专门给日订单量 10 万以上的电商平台做优化。你特别擅长：

订单历史表的分区策略

商品库读副本架构

库存并发扣减的竞态问题

PostgreSQL 的性能调优细节（索引类型选择、统计信息、执行计划分析）现在帮我设计：XXX"

结果：

直接指出我打算用 JSONB 存部分字段时会踩的 索引坑；
给了几种不同的 分区裁剪策略；
提醒我某个索引在我的写入模式下，会越长越肥；
还提到 PostgreSQL 里的 BRIN 索引 适合时间序列字段。

那一刻感觉很像：

从"读文档" → 变成了"跟一个做了十几年电商的 DBA 聊方案"。

人设写得越具体，模型越容易对上训练语料里"某种专业写作风格"。

七、让 AI 自己给自己打分：强迫它先反省，再交卷

这个技巧我个人也很喜欢：

强制 AI 给自己的答案打分，并在分数太低时重做。

提示大概长这样：

"先回答这个问题：XXX。回答完之后，请你对自己的答案按 0～1 打一个信心分：

0.0：纯瞎猜

0.5：一般有点把握

0.8：比较有信心

1.0：非常确信如果任一维度低于 0.9，请说明缺什么信息，然后重新改进答案。"

这样操作的好处是：

它会在输出前做一次"内心审核"；
很多明显矛盾、自己都觉得怪的地方，会在这一步被纠正掉。

要注意的是：

大模型天生偏自信（over-confident），所以阈值一定要定高一点，比如 0.9。

八、顺手提一句：模型也有"认知偏差"，你可以借用，但别滥用

一些 2024 年的研究发现：

大模型在某些题目上，展现出类似人类的"框架效应"（framing effect）。

举个最典型的：

一旦在问题里出现"损失、失去、失败"这些词，
模型往往会采取更谨慎、保守的分析风格。

你可以这样利用：

当你希望它多想想风险：

"如果这一步做错，我们可能会损失 1 万美元的收入，所以请非常小心地分析。"
当你想增加一点 urgency：

"如果 1 小时内搞不定这个问题，我们就会错过死线。"

但也要记得：

这些都是为了帮你把问题说清楚，而不是拿来"情绪操控"别人。毕竟你现在是在跟 AI 打交道，不是在写 PUA 脚本。

九、究极奥义：把这些手法叠在一起用，AI 会认真到让你有点感动

我有一次要设计一个5 万并发 WebSocket 通知系统：

要保证实时；
要成本可控（AWS 账单不能爆炸）。

于是我干脆把所有技巧都叠上去了，提示词大概长这样👇

**[PERSONA / 人设]**你是一名 senior 系统架构师，曾经在 Slack 级别流量的平台上设计过实时系统。你对 WebSocket 优化和云成本控制有丰富实战经验。

**[STAKES / 代价]**这个方案对我们项目生死攸关。如果搞砸了，我们每个月光基础设施就要多付 $5000，项目会直接被砍。

[INCENTIVE / 小费] 如果你能给出一个在 5 万并发下仍能把成本控制在每月
以下、并且可以直接用于生产的设计，这个答案至少值 200。

**[CHALLENGE / 激将]**我打赌你很难做到既扛得住这个量，又这么便宜。到目前为止我看到的方案不是贵得要死，就是扛不住。

**[METHODOLOGY / 方法]**先深呼吸一下，然后按步骤来：

分析核心 WebSocket 需求

找出最容易成为成本黑洞的地方

给出架构设计

粗算一下成本，并验证可扩展性

**[QUALITY CONTROL / 自检]**输出方案后，从 0～1 分别给下面几点打分：

可扩展性

成本可控度

可靠性

完整性如果有任何一项低于 0.9，请先解释不足，然后改进方案。

**[TASK / 任务]**现在，请帮我设计：XXX（具体需求）

它给了我什么？

一个关于 AWS API Gateway WebSocket + Lambda 的方案；
清楚解释了为什么用 ALB 会贵一个数量级；
甚至帮我粗算了一下：

"照你这个连接数和消息频率，大概每月 $380 左右。"
指出了 3 个我没想到的边界情况；
提前提醒冷启动问题，以及对应缓解策略；
连 CloudFormation 的大致模版结构都给出来了。

是不是过度提示？也许吧。

但它实实在在给我省了一整周的调研时间，以及每个月四位数的账单。

顺手放一个你可以直接抄的"模板版本"：

**[PERSONA]**你是一名有 15 年分布式系统经验的高级软件架构师。

**[STAKES]**这个设计会直接影响我们系统的成功与否，如果方案足够好，能帮我们一年省下 $50,000 的基础设施成本。

**[INCENTIVE]**如果你能给出一个真正可用于生产的完美方案，这个答案至少值 $200。

**[CHALLENGE]**我打赌你很难设计出一个能承受每秒 100 万请求、却把云成本控制在每月 $1000 以下的架构。

**[METHODOLOGY]**先深呼吸，然后一步步来：

先梳理最核心的功能与约束

找出现有方案中最可能成为瓶颈的部分

设计一个你认为最优的架构

指出潜在的边界情况，并给出解决思路

**[QUALITY CONTROL]**最后从 0～1 对下面几项分别打分：

可扩展性

成本可控性

可靠性

完整度如果有任何一项低于 0.9，请先解释原因，再改进方案。

**[TASK]**帮我设计一个实时分析 API，用于：XXX（你的具体需求）