根据Prompt判断用户明确要什么

一、第一张图:作答维度

这张表格定义了评估一个模型回复时,需要从哪几个方面去分析,以及每个方面具体看什么。

| 作答维度 | 详细需求 |

| 需求理解 | 判断模型是否准确理解了用户问题的真实意图。<br举例:用户问"邓超" → ① 判定是指明星邓超,而不是同名其他人;② 明确要回复哪些内容才能满足基本需求(如明星的基础信息、演艺经历、代表作等)。 |

| 真实性判断 | 检查模型回复中是否有事实错误。如果有错,必须指出错误内容,并给出正确的信息+可靠信源(如百度百科)。<br举例:"邓超生日日期有误,正确是XXXX年XX月XX日,来源:百度百科链接"。 |

| 理想回复 | 并不是要写出完整答案,而是说明在当前模型回复的基础上还可以补充什么信息、优化什么格式,让回复更丰富、更易读、重点更突出。<br例如:可以增加作品表格、按时间线排列经历、添加获奖列表等。 |

总结:

  • 需求理解 → 方向对不对

  • 真实性判断 → 信息准不准

  • 理想回复 → 还能怎样更好(不是重写,而是提优化建议)

二、第二张图:试标说明

这张图给出了具体打分的方法和规则,用来对模型回复进行定量评价。

  1. 评估分档(0-4分)

| 分数 | 含义 | 简要解释 |

|||-|

| 0分 | 完全没用 | 回复与问题无关,或者完全没有提供任何有价值信息。 |

| 1分 | 只有一点用 | 回复中有极少信息勉强沾边,但整体没用。 |

| 2分 | 部分可用 | 回复里有一部分内容可以采纳,但还有明显缺陷或缺失。 |

| 3分 | 整体基本可用 | 整体满足需求,没有大错,但离"好用"还有差距(如不够丰富、格式不佳等)。 |

| 4分 | 好用 | 完全满足用户需求,信息准确、组织清晰、细节到位,使用体验好。 |

  1. 打分类型

要求评估者注明该回复所基于的内容形式:

  • 仅图片:回复只有图片(如生成了一张图)。

  • 仅视频:回复只有视频。

  • 纯文本:回复只有文字。

这个分类用于区分不同模态的回复,方便后续统计或模型优化。

  1. 备注格式参考

当给出的分数不是满分(或存在明显问题时),需要填写备注。推荐格式如下:

整体评价:

问题说明:

问题1:xxx

问题2:xxx

问题3:xxx

  • 整体评价:用一两句话概括回复的主要优缺点。

  • 问题说明:分条列出具体问题(可对应上面的"真实性判断""需求理解不足""格式混乱"等)。

三、这两张图如何一起使用?

在实际的模型评估任务中,流程通常是:

  1. 拿到一个用户问题(例如"邓超是谁?")和模型生成的回复。

  2. 按第一张图的三个维度进行分析:

  • 模型有没有理解用户要的是明星邓超?

  • 模型回复里的信息(生日、作品等)是否真实?如果有错,记下来并给出正确信息+信源。

  • 模型回复还可以怎样优化(比如加表格、补充近期作品、整理时间线)?

  1. 根据分析结果,对照第二张图的0-4分档打分。
  • 如果模型完全答非所问 → 0分。

  • 如果答了一点点相关但几乎没用 → 1分。

  • 如果部分信息可用但漏了很多 → 2分。

  • 如果整体能解决问题但不够好 → 3分。

  • 如果完美满足、信息准确、组织优秀 → 4分。

  1. 填写备注(尤其是非4分时),按格式列出问题。
相关推荐
在路上走着走着12 天前
Prompt Engineering 入门指南:从原理到上手
人工智能·prompt
coft12 天前
Loop Engineering — 从“写 prompt“到“设计循环“,AI Agent 的下一次进化
人工智能·prompt
CoLiuRs12 天前
从 Prompt 到 Loop:AI 工程到底在卷什么
人工智能·prompt
AI 小老六12 天前
GEPA 架构拆解:让 Prompt 和 Skill 优化不靠玄学
数据库·人工智能·ai·架构·开源·prompt
凯丨12 天前
从写 Prompt 到Loop Engineering:AI 编程的下一次跃迁
prompt
奋飛12 天前
从 Prompt 到 Agent:LangChain 究竟解决了什么问题
ai·langchain·prompt·agent
沪漂阿龙13 天前
Context Engineering:比 Prompt Engineering 更重要的上下文工程
人工智能·langchain·prompt
猿人谷13 天前
从 Prompt Engineering 到 Loop Engineering:AI 编程正在进入“闭环工程”时代
大数据·人工智能·prompt
取个鸣字真的难13 天前
Image2 生成 PPT 的最后分水岭:Prompt
人工智能·prompt·powerpoint
啾啾Fun13 天前
【LLM 应用优化】Prompt Caching:LLM 调用成本降 90% 的底层机制与实战策略
缓存·prompt