根据Prompt判断用户明确要什么

一、第一张图：作答维度

这张表格定义了评估一个模型回复时，需要从哪几个方面去分析，以及每个方面具体看什么。

| 作答维度 | 详细需求 |

| 需求理解 | 判断模型是否准确理解了用户问题的真实意图。<br举例：用户问"邓超" → ① 判定是指明星邓超，而不是同名其他人；② 明确要回复哪些内容才能满足基本需求（如明星的基础信息、演艺经历、代表作等）。 |

| 真实性判断 | 检查模型回复中是否有事实错误。如果有错，必须指出错误内容，并给出正确的信息+可靠信源（如百度百科）。<br举例："邓超生日日期有误，正确是XXXX年XX月XX日，来源：百度百科链接"。 |

| 理想回复 | 并不是要写出完整答案，而是说明在当前模型回复的基础上还可以补充什么信息、优化什么格式，让回复更丰富、更易读、重点更突出。<br例如：可以增加作品表格、按时间线排列经历、添加获奖列表等。 |

总结：

二、第二张图：试标说明

这张图给出了具体打分的方法和规则，用来对模型回复进行定量评价。

| 分数 | 含义 | 简要解释 |

|||-|

| 0分 | 完全没用 | 回复与问题无关，或者完全没有提供任何有价值信息。 |

| 1分 | 只有一点用 | 回复中有极少信息勉强沾边，但整体没用。 |

| 2分 | 部分可用 | 回复里有一部分内容可以采纳，但还有明显缺陷或缺失。 |

| 3分 | 整体基本可用 | 整体满足需求，没有大错，但离"好用"还有差距（如不够丰富、格式不佳等）。 |

| 4分 | 好用 | 完全满足用户需求，信息准确、组织清晰、细节到位，使用体验好。 |

要求评估者注明该回复所基于的内容形式：

这个分类用于区分不同模态的回复，方便后续统计或模型优化。

当给出的分数不是满分（或存在明显问题时），需要填写备注。推荐格式如下：

整体评价：

问题说明：

问题1：xxx

问题2：xxx

问题3：xxx

三、这两张图如何一起使用？

在实际的模型评估任务中，流程通常是：