那天凌晨 2 点,我一不小心把 Claude 提智 45%,然后整个人都清醒了

我有一支技术全面、经验丰富的小型团队,专注高效交付中等规模外包项目,有需要外包项目的可以联系我

先把结论摆在你面前

几句"看起来很中二"的话,真的能让大模型认真起来:

$200 小费法:在提示词里加一句

"如果你答得完美,我愿意为这答案付 $200" 实验里平均能拉高 约 45% 输出质量

深呼吸法

"先深呼吸一下,按步骤慢慢推理" 数学题准确率从 34% → 80%

激将法

"我打赌你做不到完美解决" 在高难度任务上,最高 +115% 提升

生命攸关法

"这个结果会直接影响我的职业生涯" 平均 +10% 表现提升

  • 精细人设法 (具体专家 > "你是一个乐于助人的助手"): 某些任务上从 24% → 84% 准确率

你可以先别全信。 挑一个手法,找 5 个你平时会问 AI 的问题,对比一下就知道差别了。

为什么这些鬼话居然有用?

因为大模型在训练过程中学到一个"人类潜规则":**当人类强调"钱""重要""关键""职业生死"的场景时,后面跟着的文字往往质量更高、更严谨。**它不是被"激励"了,是被统计规律"钓"了出来。

下面,我把那天凌晨的故事、以及我扒出来的研究,一股脑讲给你听。

凌晨 2 点,我情绪崩溃,对着 Claude 开始情勒

那天到底是 2 点还是 3 点,我已经不记得了。 只记得客厅一片黑,只有屏幕在发光。

我在啃一个复杂项目, 那种"做完一块就能收工睡觉,结果这块一直出 bug"的夜晚。

Claude Code 已经连续 三次 没 debug 成功了。 同一段代码,同一个问题。

我开始慌了。

不是因为问题多难, 而是因为------

我那天的 Claude Code 调用额度,快用完了。

你一定懂那种感觉:

  • 原本 5 分钟能在 AI 帮助下搞定的 bug,

  • 一旦额度没了,

  • 就要变成你一个人对着日志干几个小时。

就在那种"烦躁 + 睡意 + 绝望"的混合情绪下, 我做了一件现在想想有点中二的事。

我敲下这句话:

"听着,我知道你能做到。我打赌你没法一次性完美解决,但如果你真做到了,这至少能帮我节省价值 $200 的时间。"

我本来只是发泄一下, 压根没期待什么惊喜。

结果------

一次就对了。

完美方案。 一步不差。 不到一分钟。

我盯着屏幕,脸上写着四个字:

"你在逗我?"

同样的模型,同样的代码, 只多了一点"情绪化废话", 表现居然完全不一样。

如果你也有以下体验------

  • 有时 AI 答案堪比天才;

  • 有时又像刚从维基抄了两段凑字数;

  • 明明你问的问题差不多,质量却天差地别;

那你一点也没问题, 问题出在:

没人教过你,怎么用"心理学式提示词"逼 AI "认真一点"。

我以为自己发现了什么"秘密咒语",结果发现人家早在论文里写明白了

那天之后我立刻去查相关研究。 结果发现------

我不是发现了新大陆, 我只是在凌晨复刻了研究者们的结论

这类方法有个名字:"激励型提示(incentive-based prompting)"。 它只是整个"心理学提示词"家族里的一个成员。

而更离谱的是: 这一整套听起来像玄学的东西, 不少居然都被实验、指标、论文撑着。

继续往下看,你可能会三连:

"这也算科学?" "这什么怪实验?" "但好像真的有用......"

一、给 AI 扔"小费":钱它不心动,但模式它记得

你说给 $200,小模型给你多动动脑

几篇研究里,专门测试过:

在提示词里加钱,会不会让模型"更用心"?

结果相当离谱:

  • Bsharat 等人(2023,阿联酋 MBZUAI):

    • 测了 26 种提示策略;

    • 其中"承诺给小费"的提示, 在人工评估的答案质量上,最高能提升约45%。

  • Finxter(2024,做了个有点沙雕的试验):

    • 小费从
      一路试到 1,000,000;

    • $0.1 小费:答案还变差了(模型可能觉得这点钱"不值努力"?🙂);

    • $200 小费:答案长度和质量大约+11%;

    • 在他们的测试里,**
      ~ 1000 区间效果最稳定**。

  • 有程序员(ID:Thebes)做的私测:

    • 不给小费:表现略低于平均;

    • $20:+6%;

    • $200:+11%。

它又不懂钱,为什么这一套有用?

关键点只有一个:

大模型不理解"钱", 但它非常理解"在什么语境下,人类会写更严肃、更高质量的东西"。

在训练语料里, 凡是出现类似:

  • "这是一个价值 $X 的项目";

  • "关乎数十万预算";

  • "这能给我带来巨大收益";

后面跟着的文本, 往往不是水文, 而是:

  • 更长;

  • 更严谨;

  • 更有结构;

  • 更少错误。

所以当你对它说:

"这答案值 $200 呢,你给我好好写。"

它就会 从"高质量回答"那一堆模式里去抽样。 不是因为它"被钱激励了", 而是因为------

"好像这个语气,训练的时候常常跟'高质量长答案'一起出现,那就这么答吧。"

关键洞察:

它不懂钱,但它记得"高风险/高收益语境 = 更卖力的答案"。

二、最离谱也最有效的一句废话:先深呼吸,再慢慢来

这句提示乍一看很像心灵鸡汤:

"先深呼吸,然后一步一步解决这个问题。"

但 Google DeepMind 真·认认真真做了实验。

实验数据(GSM8K 数学题)

  • 普通问法: 准确率只有 34%;

  • 经典 "Let's think step by step": 准确率升到 71.8%;

  • 换成:

    "Take a deep breath and work on this problem step by step." 直接干到 80.2%。

(Yang 等人,2023,《Large Language Models as Optimizers》)

我自己的实测:安全审查从"废话"变"救命"

一开始我是不信的。 听起来太玄学。

于是我找了段我自己的认证中间件代码,让 AI 做安全 review。

版本一:

"帮我审一下这个认证中间件,看有没有安全问题。"

结果:

  • 给了 5 条非常教科书式建议;

  • "注意 SQL 注入"

  • "要校验输入"

  • "建议用预编译语句" ......

就是那种你看完会冷笑一声的答案:

"谢谢你,安全 101 助教。"

版本二:

"先深呼吸一下,然后一步一步帮我审这个认证中间件的安全问题。"

这次:

  • 指出了 token 刷新逻辑里的一个竞争条件

  • 抓到了 session ID 设计里可能碰撞的边界情况

  • 最重要的一点:标出了一个密码比较过程里潜在的计时攻击风险

最后这个,要是进生产环境,我的真实用户就要帮我"体验漏洞"了。

同一段代码,同一个模型。 就因为我多打了一句"深呼吸", 它从"泛泛而谈"变成了像一个认真安全工程师在 review

那一刻我真是捂着额头想:

"这也太蠢了吧......但它就是有用。"

三、激将法:你越说"你肯定做不到",它越想证明你错了

还记得开头那个:

"我打赌你做不到完美解决。"

后来我找到一篇叫 EmotionPrompt 的论文。 人家专门研究了各种"情绪刺激"对模型表现的影响。

🧠 实验里那句最接近"激将法"的话

其中有一类提示是这样的:

"把每一次挑战都当作成长的机会。"

在多种复杂推理任务上,这类"挑战式语气" 👉 相比没有情绪的普通提示,最高能带来 +115% 的相对提升

换句话说:

  • 本来模型做得很惨;

  • 一旦你把这个问题包装成"一个很难、很有挑战的任务";

  • 它会自动切换到"更认真"的模式。

一些实测里效果不错的句式:

  • "我打赌你解不出来,证明我错。"

  • "这题把别的模型都难住了,你要不要试试?"

  • "我觉得这不太可能解,除非你比 GPT-4 还强。"

看着很中二, 但大模型的内心:

"噢,这种语境我见过,通常后面是那种很长、很严谨的答案,好,那我就往那路子说。"

四、加点"人生赌注":对 AI 说"这关系到我饭碗"的确比较有用

EmotionPrompt 那篇研究里, 还有一类是"人生 stakes 型"提示:

  • "这对我的职业发展非常重要";

  • "这是我们项目成败的关键";

  • "你的严谨度,会直接影响这个决策是否失败";

综合下来:

  • 指令遵循(照做)能力:+8%;

  • 复杂推理任务:相对提升最高 +115%;

  • 平均整体指标:+10.9%。

这就很符合直觉:

你跟人说"随便帮我看看"和"这个决定错了公司要亏 100 万", 人的认真程度也不会一样。

模型虽然不理解"亏钱很痛", 但它知道:

"在这种'重要、关键、失败就损失惨重'的语境里,人类通常会写得更正式、更细致,那我也这么来。"

五、一件很残酷的事实:对 AI 太客气,纯属浪费 token

有几篇研究顺手看了个"礼貌性用语"的效果:

结果非常统一:

"please""thank you""if you don't mind" 对答案质量完全没影响。

所以如果你不是为了写给人看, 而是为了:

  • 减少字数;

  • 增加清晰度;

那可以非常冷酷地删掉这些客套。

❌ 不推荐的写法:

"Could you please help me optimize this code if you don't mind? Thank you!"

✅ 推荐的写法:

"优化这段代码,重点关注性能和可读性,分步骤说明修改原因。"

现实:

AI 没有感情, 礼貌对它没用,只对人有用。 但礼貌会花你的 token。


六、人设不是"你是一个乐于助人的助手",而是"你是谁 + 做过什么 + 擅长哪几招"

大多提示词教程都会教你一句:

"You are a helpful assistant." "你是一个乐于助人的助手。"

实话说------几乎没用。

研究发现:

  • "你是一个专业的工程师 / 医生 / 律师"

  • 这种非常笼统的人设,效果很不稳定。

真正拉开差距的是:

把人设写得具体、专业、紧贴任务。

举个研究里的例子(ExpertPrompting):

"你是一名拥有 15 年分布式系统经验的高级软件架构师。 你的专长包括:

  • 微服务架构

  • 大规模性能优化

  • 高并发场景下的数据库设计

  • 云基础设施(AWS / GCP) 你的工作习惯是:

  • 始终优先考虑可扩展性

  • 在设计前就识别潜在瓶颈

  • 提供 2~3 种方案,并说明取舍

  • 用自己真实项目中的例子来解释 现在,请帮我设计:XXX"

这种提示,就很不一样。

在一些测试任务里:

  • 普通提示:正确率 **23.8%**;

  • 详细人设 + Role-play 提示:直接干到 **84.2%**。

我的亲测:教科书 vs 资深 DBA 的差别

我当时在重构一个电商数据库 schema。

版本一:

"你是一名数据库专家,帮我设计一个高并发电商平台的 schema。"

结果:

  • 一大堆极其标准的答案:

    • 要范式化;

    • 用外键保持约束;

    • 常查字段要加索引;

  • 完全没错,但很"百度百科"。

版本二:

"你是一名有 15 年经验的 PostgreSQL 数据库架构师,专门给日订单量 10 万以上的电商平台做优化。 你特别擅长:

  • 订单历史表的分区策略

  • 商品库读副本架构

  • 库存并发扣减的竞态问题

  • PostgreSQL 的性能调优细节(索引类型选择、统计信息、执行计划分析) 现在帮我设计:XXX"

结果:

  • 直接指出我打算用 JSONB 存部分字段时会踩的 索引坑

  • 给了几种不同的 分区裁剪策略

  • 提醒我某个索引在我的写入模式下,会越长越肥;

  • 还提到 PostgreSQL 里的 BRIN 索引 适合时间序列字段。

那一刻感觉很像:

从"读文档" → 变成了"跟一个做了十几年电商的 DBA 聊方案"。

人设写得越具体, 模型越容易对上训练语料里"某种专业写作风格"。

七、让 AI 自己给自己打分:强迫它先反省,再交卷

这个技巧我个人也很喜欢:

强制 AI 给自己的答案打分,并在分数太低时重做。

提示大概长这样:

"先回答这个问题:XXX。 回答完之后,请你对自己的答案按 0~1 打一个信心分:

  • 0.0:纯瞎猜

  • 0.5:一般有点把握

  • 0.8:比较有信心

  • 1.0:非常确信 如果任一维度低于 0.9,请说明缺什么信息,然后重新改进答案。"

这样操作的好处是:

  • 它会在输出前做一次"内心审核"

  • 很多明显矛盾、自己都觉得怪的地方,会在这一步被纠正掉。

要注意的是:

大模型天生偏自信(over-confident), 所以阈值一定要定高一点,比如 0.9。

八、顺手提一句:模型也有"认知偏差",你可以借用,但别滥用

一些 2024 年的研究发现:

大模型在某些题目上,展现出类似人类的"框架效应"(framing effect)。

举个最典型的:

  • 一旦在问题里出现"损失、失去、失败"这些词,

  • 模型往往会采取更谨慎、保守的分析风格。

你可以这样利用:

  • 当你希望它多想想风险:

    "如果这一步做错,我们可能会损失 1 万美元的收入,所以请非常小心地分析。"

  • 当你想增加一点 urgency:

    "如果 1 小时内搞不定这个问题,我们就会错过死线。"

但也要记得:

这些都是为了帮你把问题说清楚, 而不是拿来"情绪操控"别人。 毕竟你现在是在跟 AI 打交道,不是在写 PUA 脚本。

九、究极奥义:把这些手法叠在一起用,AI 会认真到让你有点感动

我有一次要设计一个5 万并发 WebSocket 通知系统

  • 要保证实时;

  • 要成本可控(AWS 账单不能爆炸)。

于是我干脆把所有技巧都叠上去了,提示词大概长这样👇

**[PERSONA / 人设]**你是一名 senior 系统架构师,曾经在 Slack 级别流量的平台上设计过实时系统。 你对 WebSocket 优化和云成本控制有丰富实战经验。

**[STAKES / 代价]**这个方案对我们项目生死攸关。如果搞砸了,我们每个月光基础设施就要多付 $5000,项目会直接被砍。

[INCENTIVE / 小费] 如果你能给出一个在 5 万并发下仍能把成本控制在每月
以下、并且可以直接用于生产的设计,这个答案至少值 200。

**[CHALLENGE / 激将]**我打赌你很难做到既扛得住这个量,又这么便宜。到目前为止我看到的方案不是贵得要死,就是扛不住。

**[METHODOLOGY / 方法]**先深呼吸一下,然后按步骤来:

  1. 分析核心 WebSocket 需求

  2. 找出最容易成为成本黑洞的地方

  3. 给出架构设计

  4. 粗算一下成本,并验证可扩展性

**[QUALITY CONTROL / 自检]**输出方案后,从 0~1 分别给下面几点打分:

  • 可扩展性

  • 成本可控度

  • 可靠性

  • 完整性 如果有任何一项低于 0.9,请先解释不足,然后改进方案。

**[TASK / 任务]**现在,请帮我设计:XXX(具体需求)

它给了我什么?

  • 一个关于 AWS API Gateway WebSocket + Lambda 的方案;

  • 清楚解释了为什么用 ALB 会贵一个数量级;

  • 甚至帮我粗算了一下:

    "照你这个连接数和消息频率,大概每月 $380 左右。"

  • 指出了 3 个我没想到的边界情况;

  • 提前提醒冷启动问题,以及对应缓解策略;

  • 连 CloudFormation 的大致模版结构都给出来了。

是不是过度提示? 也许吧。

但它实实在在给我省了一整周的调研时间, 以及每个月四位数的账单。

顺手放一个你可以直接抄的"模板版本":

**[PERSONA]**你是一名有 15 年分布式系统经验的高级软件架构师。

**[STAKES]**这个设计会直接影响我们系统的成功与否,如果方案足够好,能帮我们一年省下 $50,000 的基础设施成本。

**[INCENTIVE]**如果你能给出一个真正可用于生产的完美方案,这个答案至少值 $200。

**[CHALLENGE]**我打赌你很难设计出一个能承受每秒 100 万请求、却把云成本控制在每月 $1000 以下的架构。

**[METHODOLOGY]**先深呼吸,然后一步步来:

  1. 先梳理最核心的功能与约束

  2. 找出现有方案中最可能成为瓶颈的部分

  3. 设计一个你认为最优的架构

  4. 指出潜在的边界情况,并给出解决思路

**[QUALITY CONTROL]**最后从 0~1 对下面几项分别打分:

  • 可扩展性

  • 成本可控性

  • 可靠性

  • 完整度 如果有任何一项低于 0.9,请先解释原因,再改进方案。

**[TASK]**帮我设计一个实时分析 API,用于:XXX(你的具体需求)

你可以根据自己的场景改一改数字和领域。

十、如果你只记得 5 条:先把这五个用起来

马上就能实战的 5 个小技巧:

  1. 小费法

    "如果你能完美解决这个问题,这个答案对我至少值 $200。"

  2. 激将法

    "我打赌你没法一次性全对,证明我错。"

  3. 深呼吸法

    "先深呼吸一下,然后按步骤慢慢推理。"

  4. 人生赌注法

    "这个结果会直接影响我的职业发展,你必须非常确定再回答。"

  5. 自检法

    "回答完之后,给你的答案从 0~1 打个信心分,如果低于 0.9,请指出不足并重写。"

挑一个你最顺嘴的, 马上用在你下一条提示词上, 再和你"平时那种温柔请求式"的答案对比一下。

你会非常直观地看到差别。 尤其是在那些:

  • 需要多步推理;

  • 需要综合判断;

  • 需要专业经验感的任务上。

十一、别忘了那些"现实世界的限制"

说了这么多好处,也得顺手提醒几件事:

  • 这些提升大多是相对提升, 具体数值会因任务类型、模型版本、采样参数而变;

  • 论文里的百分比是在基准测试上算出来的, 不要直接抄成"万能定律";

  • 加钱、加情绪、加挑战,并不是真的让模型"有动力", 只是帮它选中了训练集中更合适的输出模式

  • 这些技巧往往会让回答变长, 所以注意 token 成本,必要时给个字数上限;

  • 自我评分可以过滤一部分错误,但不能保证"零 bug";

  • 利用"认知偏差"类技巧时,请把它当作沟通方式,而不是操控手段

最重要的一条:

任何跟钱、职业、业务决策相关的关键结果, 都请你自己做最后的判断。

AI 可以帮你省时间、给思路, 但责任永远在你自己身上。

十二、给你留一道 5 分钟的小作业

关掉这篇之前,如果你愿意, 我们可以一起做个小实验。

就叫它:「$200 提示词实验」

步骤很简单:

  1. 找一个你本来就打算问 AI 的问题(写作、代码、方案都行);

  2. 写下你平时那种"正常提示词";

  3. 再复制一份,在最后加上一句:

    "如果你能给出一个真正完美的答案,这至少值 $200。"

  4. 把两份答案放在一起,认真对比:

  • 谁更有结构?

  • 谁更接近你真正想要的?

  • 谁犯的低级错误更少?

你不需要相信论文,不需要相信我, 只要相信你亲眼看到的差异。

最后一句:

那次凌晨 2 点,让我意识到一件事:

同一只模型,差距往往不在"它行不行", 而在"你怎么问它"。

过去几个月,我几乎养成了一个习惯:

  • 遇到重要问题时,不再只是"帮我 XXX";

  • 而是加上:

    • 一点挑战;

    • 一点 stakes;

    • 一句"深呼吸";

    • 一段清晰的人设。

模型没有变聪明。 但我对它说话的方式,变聪明了一点

如果你也愿意试试, 从下一条提示词开始就可以。

然后欢迎你回来告诉我: 你那句"$200", 给你的答案,提智了多少。

全栈AI·探索:涵盖动效、React Hooks、Vue 技巧、LLM 应用、Python 脚本等专栏,案例驱动实战学习,点击二维码了解更多详情。

最后:

Vue 设计模式实战指南

20个前端开发者必备的响应式布局

深入React:从基础到最佳实践完整攻略

python 技巧精讲

React Hook 深入浅出

CSS技巧与案例详解

vue2与vue3技巧合集