根据Prompt判断用户明确要什么

一、第一张图:作答维度

这张表格定义了评估一个模型回复时,需要从哪几个方面去分析,以及每个方面具体看什么。

| 作答维度 | 详细需求 |

| 需求理解 | 判断模型是否准确理解了用户问题的真实意图。<br举例:用户问"邓超" → ① 判定是指明星邓超,而不是同名其他人;② 明确要回复哪些内容才能满足基本需求(如明星的基础信息、演艺经历、代表作等)。 |

| 真实性判断 | 检查模型回复中是否有事实错误。如果有错,必须指出错误内容,并给出正确的信息+可靠信源(如百度百科)。<br举例:"邓超生日日期有误,正确是XXXX年XX月XX日,来源:百度百科链接"。 |

| 理想回复 | 并不是要写出完整答案,而是说明在当前模型回复的基础上还可以补充什么信息、优化什么格式,让回复更丰富、更易读、重点更突出。<br例如:可以增加作品表格、按时间线排列经历、添加获奖列表等。 |

总结:

  • 需求理解 → 方向对不对

  • 真实性判断 → 信息准不准

  • 理想回复 → 还能怎样更好(不是重写,而是提优化建议)

二、第二张图:试标说明

这张图给出了具体打分的方法和规则,用来对模型回复进行定量评价。

  1. 评估分档(0-4分)

| 分数 | 含义 | 简要解释 |

|||-|

| 0分 | 完全没用 | 回复与问题无关,或者完全没有提供任何有价值信息。 |

| 1分 | 只有一点用 | 回复中有极少信息勉强沾边,但整体没用。 |

| 2分 | 部分可用 | 回复里有一部分内容可以采纳,但还有明显缺陷或缺失。 |

| 3分 | 整体基本可用 | 整体满足需求,没有大错,但离"好用"还有差距(如不够丰富、格式不佳等)。 |

| 4分 | 好用 | 完全满足用户需求,信息准确、组织清晰、细节到位,使用体验好。 |

  1. 打分类型

要求评估者注明该回复所基于的内容形式:

  • 仅图片:回复只有图片(如生成了一张图)。

  • 仅视频:回复只有视频。

  • 纯文本:回复只有文字。

这个分类用于区分不同模态的回复,方便后续统计或模型优化。

  1. 备注格式参考

当给出的分数不是满分(或存在明显问题时),需要填写备注。推荐格式如下:

整体评价:

问题说明:

问题1:xxx

问题2:xxx

问题3:xxx

  • 整体评价:用一两句话概括回复的主要优缺点。

  • 问题说明:分条列出具体问题(可对应上面的"真实性判断""需求理解不足""格式混乱"等)。

三、这两张图如何一起使用?

在实际的模型评估任务中,流程通常是:

  1. 拿到一个用户问题(例如"邓超是谁?")和模型生成的回复。

  2. 按第一张图的三个维度进行分析:

  • 模型有没有理解用户要的是明星邓超?

  • 模型回复里的信息(生日、作品等)是否真实?如果有错,记下来并给出正确信息+信源。

  • 模型回复还可以怎样优化(比如加表格、补充近期作品、整理时间线)?

  1. 根据分析结果,对照第二张图的0-4分档打分。
  • 如果模型完全答非所问 → 0分。

  • 如果答了一点点相关但几乎没用 → 1分。

  • 如果部分信息可用但漏了很多 → 2分。

  • 如果整体能解决问题但不够好 → 3分。

  • 如果完美满足、信息准确、组织优秀 → 4分。

  1. 填写备注(尤其是非4分时),按格式列出问题。
相关推荐
咖啡星人k2 小时前
MonkeyCode Prompt工程实践:如何写出高质量的AI编程需求描述
prompt·ai编程·monkeycode
CJH(本人账号)17 小时前
【AI安全】大模型安全威胁:Prompt注入与模型防御策略
人工智能·安全·机器学习·语言模型·云计算·prompt
情绪总是阴雨天~17 小时前
检索增强生成 (RAG) 四大检索策略详解
数据库·prompt·检索增强
xian_wwq1 天前
【学习笔记】「大模型安全:攻击面演化史」第 01 篇 Prompt Injection
笔记·学习·prompt
小江的记录本1 天前
【Spring全家桶】Spring AI核心原理、大模型集成、Prompt工程、RAG实现、AI Agent开发(附《思维导图》+《面试高频考点清单》)
java·人工智能·spring boot·后端·spring·面试·prompt
糖果店的幽灵1 天前
Spring AI 从入门到精通-Prompt 工程
java·spring·prompt
逐梦苍穹1 天前
我开源了一个Claude Code历史可视化工具:本地Prompt一键浏览、搜索、导出
人工智能·开源·prompt·codex·claudecode
syso_稻草人2 天前
OpenSpec、Spec-Driven Development 与 CreateNow:AI 编码为什么开始从 Prompt 走向 Spec
人工智能·prompt
meilindehuzi_a2 天前
全栈 AI 必修课:基于 Node.js 与 LLM 的渐进式提示词工程实践
人工智能·node.js·prompt