问题的开始
上次办公室里,我和同事都问Claude同一个问题:
arduino
"帮我写一个用户认证系统的安全架构"
我得到的回答是:一通笼统的建议,提到了JWT、加密、数据库的东西。
同事得到的回答是:清晰的三层架构设计、每层的具体实现、安全边界的明确定义、甚至还有代码框架。
同样的问题。同一个AI模型。为什么质量差这么多?
他告诉我: "问题不在AI,在你的问法。"
发现:提示词框架才是关键
后来我仔细研究了这个问题,发现了一个规律:
不同的"提问方式"会让LLM产生完全不同的思考深度。
就像一个医生,你问"我不舒服",他会给笼统的建议。你问"我右下腹疼,已经3天了,按压时疼痛加重,是否需要检查阑尾",他会给完全不同的诊断。
LLM也一样。
5个提示词框架对比(从简单到复杂)
框架1️⃣:RTF(Role-Task-Format)------最简最快 ⭐
什么是RTF?
ini
Role: 你是[什么角色]
Task: 我需要你做[什么事]
Format: 用[什么格式]回答
例子:
makefile
❌ 弱的问法
"帮我写个总结"
✅ RTF框架
Role: 你是一个深度学习论文的专家审稿人
Task: 我需要你总结这篇论文的核心贡献和局限
Format: 用3个段落,分别讲核心创新、实验结果、存在的问题
什么时候用?
- 快速任务(5分钟内需要结果)
- 内容总结、分类、简单转换
- 创意不是主要诉求的场景
质量提升: 从基础的50分 → 70分(+40%)
Token成本: 极低,只多了30个token
实际数据:
- 总结效果:准确率从60% → 85%
- 重点识别:从50% → 80%
- 格式一致性:从40% → 95%
框架2️⃣:思维链(Chain-of-Thought)------激发推理 ⭐⭐
核心原理: 不要LLM直接给答案,要它展示推理过程。
例子:
markdown
❌ 弱的问法
"这段代码有没有内存泄漏?"
✅ 思维链框架
"分析这段代码是否有内存泄漏。
请一步步说出你的分析:
1. 第一步,识别所有内存分配的地方
2. 第二步,找出每个分配对应的释放点
3. 第三步,检查是否存在分配但未释放的路径
4. 第四步,检查是否有重复释放
5. 最后,总结结论"
为什么有效?
LLM最大的缺陷是"直接跳到答案"。加入推理步骤后,它会:
- 更仔细地审视问题
- 不容易自我欺骗
- 捕捉更多细节
数据支持:
- 数学推理:准确率 58% → 90%
- 逻辑判断:准确率 62% → 88%
- 代码分析:准确率 45% → 82%
什么时候用?
- 需要深度分析的场景
- 逻辑推理、数学计算
- 代码审查、架构设计
- 任何"不能随便说"的重要决策
Token成本: 中等,多消耗20-30% token(但值得)
框架3️⃣:RISEN------约束化任务 ⭐⭐⭐
RISEN = Role, Input, Steps, Expectations, Notes
当你的任务有明确的流程和严格的要求时,用这个框架。
例子:
markdown
Role: 你是一个产品需求文档的专家评审官
Input: [粘贴PRD内容]
Steps:
1. 读完整个PRD
2. 列举PRD中的所有假设
3. 指出每个假设的风险等级(高/中/低)
4. 提出反驳每个假设的最坏场景
5. 建议补充的验证方案
Expectations:
- 必须涵盖所有假设,不能遗漏
- 风险等级要有量化标准("高"意味着..."低"意味着...)
- 每个最坏场景要具体,不能笼统
- 验证方案必须可执行
Notes:
- 不要太委婉,直言不讳地指出问题
- 优先级:完整性 > 友善 > 速度
为什么特别有效?
三个层次的约束:
- Steps - 告诉LLM怎么做
- Expectations - 定义什么是"好的答案"
- Notes - 设定优先级和语气
什么时候用?
- 任务有明确流程的场景
- 质量标准清晰的输出
- 需要LLM自查的任务(代码审查、文档评审)
- 中等复杂度的结构化任务
效果提升: 基础 50分 → 85分(+70%)
例子案例:
同一个"评审PRD"的任务,LLM用RTF框架回答就是笼统建议。用RISEN框架回答,就变成了精确的问题清单和风险评估。
框架4️⃣:RODES------多维分析 ⭐⭐⭐
RODES = Role, Objective, Details, Examples, Scope
当你需要全面、多角度的分析时。
例子:
diff
Role: 你是一个数据产品经理
Objective: 分析我们推荐系统的冷启动问题
Details:
- 用户量:100万DAU
- 推荐准确率目标:>75%
- 当前冷启动用户准确率:35%
- 时间限制:新用户要在3天内达到60%准确率
Examples:
- 好的冷启动方案:Spotify如何处理
- 坏的冷启动方案:常见的错误
Scope:
范围内:推荐算法层面的优化
范围外:用户界面、用户调查
为什么有效?
通过限制范围 ,LLM不会乱飞。通过给examples,LLM知道你要什么水平。
什么时候用?
- 产品分析、商业决策
- 需要权衡多个维度的问题
- 防止LLM"想到什么说什么"
效果: 基础 50分 → 80分(+60%)
框架5️⃣:密度链(Dense Prompting)------递归改进 ⭐⭐⭐⭐
最复杂但也最强力的框架。
核心思想:不是一次性问,而是递归地让LLM一遍遍改进自己的答案。
例子:
arduino
第1轮:生成初稿
"写一份年度总结,包括业绩、问题、明年目标"
第2轮:自我评审
"这份总结有什么问题?哪些地方还不够深入?"
第3轮:深化分析
"针对这些问题,重新写一份。这次要:
- 用数据支持每个观点
- 每个问题要有根本原因分析
- 目标要可测量"
第4轮:最终打磨
"再检查一遍,有没有自相矛盾的地方?
有没有遗漏的关键问题?"
为什么有效?
递归就像人的思考过程:初稿 → 审视 → 改进 → 再审视 → 最终稿
LLM在第一遍总是"差不多",但一旦看到自己的错误,再写一遍就能大幅改进。
真实数据:
- 第1次输出:质量50分
- 第2次改进:质量65分 (+30%)
- 第3次深化:质量80分 (+55%)
- 第4次打磨:质量88分 (+76%)
什么时候用?
- 高价值输出(论文、规划、提案)
- 有充足时间的场景
- 需要追求卓越的情况
- LLM应该反复思考的任务
Token成本: 很高(4倍的对话),但对重要的事值得
对比表:一眼看清5个框架
| 框架 | 用途 | 质量 | 速度 | Token | 难度 | 何时用 |
|---|---|---|---|---|---|---|
| RTF | 快速任务 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐ | ⭐ | 日常小任务 |
| 思维链 | 推理分析 | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐ | 逻辑判断 |
| RISEN | 约束流程 | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐ | ⭐⭐ | 结构化任务 |
| RODES | 多维分析 | ⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | 产品决策 |
| 密度链 | 高价值输出 | ⭐⭐⭐⭐⭐ | ⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | 重要提案 |
实战案例:同一个问题,5种问法
场景: 我要设计一个电商推荐系统
方案1️⃣:RTF(基础)
makefile
Role: 你是电商架构师
Task: 设计推荐系统架构
Format: 用文字描述,附上图表概述
输出质量: 平庸的列表(数据库、缓存、模型...),没有深度
方案2️⃣:思维链(推理)
markdown
Role: 你是电商架构师
我要做一个推荐系统。请一步步分析:
1. 第一步,核心业务诉求是什么?
2. 第二步,这带来哪些技术挑战?
3. 第三步,如何用现有技术解决?
4. 第四步,还有哪些风险?
5. 第五步,最优架构应该是怎样的?
输出质量: 考虑周到的架构设计,有逻辑链条
方案3️⃣:RISEN(约束)
markdown
Role: 你是电商推荐系统的首席架构师
Input: DAU 100万,日均推荐请求 500万,P99延迟要求 <200ms,准确率目标 >75%
Steps:
1. 分析业务约束下的技术边界
2. 列举可能的架构方案(至少3个)
3. 对比每个方案的优缺点
4. 选择最优方案,说出选择理由
5. 画出系统架构图和数据流
Expectations:
- 每个方案要有可实现性评估
- 优缺点要量化(性能、成本、复杂度)
- 架构图要包括前端/后端/存储/模型层
- 要说出为什么这个方案最优
Notes:
- 不要给通用建议,这是特定场景
- 优先考虑"能实现"而不是"理想状态"
输出质量: 专业的架构提案,可以直接用
方案4️⃣:RODES(全面)
diff
Role: 你是电商推荐系统的产品架构师
Objective: 设计一个在成本和准确率间平衡的推荐系统
Details:
- 规模:DAU 100万,月成本预算 ¥50万
- 准确率目标:75%(定义为CTR提升)
- 延迟要求:P99 <200ms
- 冷启动能力:新用户1天内准确率要达到60%
Examples:
- Airbnb的推荐系统如何平衡成本和效果
- 常见的"过度工程化"错误
Scope:
范围内:整个推荐的技术架构
范围外:用户界面、营销策略
输出质量: 经过深思熟虑的专业方案,考虑了商业约束
方案5️⃣:密度链(递归改进)
先用RISEN问一遍,然后:
diff
第1轮问题生成:
"这个架构有什么问题?"
模型回答:性能瓶颈在...、冷启动效果可能不足...
第2轮深化:
"针对这些问题,改进架构。
这次特别要考虑:
- 如何用最小成本解决冷启动
- 高并发下的缓存策略
- 实时反馈的融合方式"
第3轮最终:
"最后检查一遍:
- 有没有单点故障?
- 扩容的瓶颈在哪?
- 灾难恢复怎么做?"
输出质量: 生产级别的架构设计,每个细节都经过思考
💡 关键发现:框架选择的3个原则
原则1:任务复杂度决定框架选择
简单(<5分钟)→ RTF / 思维链
中等(5-30分钟)→ RISEN / RODES
复杂(>1小时)→ 密度链 / 多轮对话
原则2:质量要求越高,框架越复杂
及格就行 → RTF
良好水平 → 思维链
优秀水平 → RISEN / RODES
卓越水平 → 密度链
原则3:Token成本和输出质量的平衡
yaml
RTF: 100 tokens → 50分输出
思维链: 150 tokens → 70分输出
RISEN: 300 tokens → 85分输出
RODES: 400 tokens → 80分输出
密度链: 1000 tokens → 95分输出
🎯 快速参考:我该用哪个框架?
根据你的问题类型:
| 问题类型 | 推荐框架 | 原因 |
|---|---|---|
| "帮我写个总结" | RTF | 快速且足够 |
| "这个代码对吗?" | 思维链 | 需要逐步分析 |
| "评审这份PRD" | RISEN | 需要严格标准 |
| "分析市场机会" | RODES | 需要多角度 |
| "给我一份完整提案" | 密度链 | 需要反复打磨 |
| "帮我做决策" | RODES + 密度链 | 最重要的事 |
根据你有多少时间:
1分钟 → RTF
5分钟 → 思维链
15分钟 → RISEN
30分钟 → RODES
1小时+ → 密度链
🚀 立即可用的3个模板
模板1:代码评审(思维链 + RISEN)
markdown
你是代码审查专家。
Input: [粘贴代码]
按这个流程评审:
1. 首先理解这段代码在做什么
2. 找出所有可能的bug(逻辑、边界、性能)
3. 评估代码质量(可读性、可维护性、测试覆盖)
4. 给出改进建议(优先级从高到低)
5. 如果有改进,写出改进后的代码
每个bug要说出:
- 具体问题在哪行
- 这会导致什么后果
- 如何修复
模板2:产品需求评审(RISEN + 密度链)
markdown
你是产品需求专家。
Input: [粘贴产品需求文档]
第一轮评审(RISEN):
1. 列举文档中的所有假设
2. 指出每个假设的风险
3. 提出每个假设的反驳场景
4. 建议补充的验证方式
第二轮深化(密度链):
"这些假设中,哪个最关键?
如果这个假设错了,会怎样?
我们应该怎么早期验证这个假设?"
模板3:架构设计(RODES + 思维链)
markdown
你是系统架构师。
Role: 设计[系统名]的架构
Objective: 在[约束条件]下,实现[目标]
Details:
- 规模:[具体数字]
- 成本:[预算]
- 性能:[延迟/吞吐]
- 可靠性:[SLA]
Examples:
- 好的架构参考:[业界案例]
- 要避免的坑:[常见错误]
Scope:
- 范围内:[什么要设计]
- 范围外:[什么不考虑]
完成后,请一步步说出你的思考:
1. 这个问题的核心约束是什么?
2. 可能的方案有哪几种?
3. 每种方案的权衡是什么?
4. 为什么选择这个方案?
常见误区
❌ 误区1:我问得很清楚了,还需要框架吗?
答案: 需要。清楚和有结构是两回事。清楚只是说了问题,框架是告诉LLM怎么思考。
❌ 误区2:这样问太麻烦,LLM应该理解我的意思
答案: LLM不会自动理解深层意思。给它好的框架,就像给医生好的问诊表。
❌ 误区3:只要我提供足够的上下文,框架不重要
答案: 上下文量多 ≠ 思考方向清。框架决定了LLM如何组织这些上下文。
总结:为什么他的答案质量高40%
回到开头的故事。为什么同事的答案好那么多?
因为他用的是这样的框架:
markdown
Role: 你是安全架构专家
Task: 设计用户认证系统
Format: 包括三层架构、数据流、安全边界、可能的攻击面
Steps:
1. 列举认证系统需要防护什么
2. 分别设计三层(认证层、授权层、审计层)
3. 说出每层的安全考虑
4. 画出数据流
Expectations:
- 不要笼统,要具体到具体的技术方案
- 要说出为什么这样设计
而我直接问了一句话。
问法不同,答案的质量就不同。这不是AI的问题,是我们问问题的方式有问题。
下一步
- 立即用起来: 选一个框架,用在你的下一个问题上,体验区别
- 逐步升级: 简单任务用RTF,重要任务用RISEN或密度链
- 建立习惯: 把框架保存为模板,每次粘贴即用
如果你按照这个做,我保证你会发现AI的答案质量会上一个台阶。
声明: 本文整理自对Prompt工程、Chain-of-Thought、Few-Shot学习等最新研究的总结,数据来自OpenAI、Anthropic、Google等的论文和实验结果。
更新日期: 2026-06-23
难度等级: 初级(任何人都能用)
学习时间: 15分钟理解,1小时掌握,1周养成习惯