2.4 自动化评测答疑机器人的表现-大模型ACP模拟题-真题

真题

真题1：哪些是生成阶段的评估指标？哪些是召回阶段的评估指标？

整体回答质量的评估：
- Answer Correctness，用于评估 RAG 应用生成答案的准确度。

生成环节的评估：
- Answer Relevancy，用于评估 RAG 应用生成的答案是否与问题相关。
- Faithfulness，用于评估 RAG 应用生成的答案和检索到的参考资料的事实一致性。
召回阶段的评估：
- Context Precision，用于评估 contexts 中与准确答案相关的条目是否排名靠前、占比高（信噪比）。
- Context Recall，用于评估有多少相关参考资料被检索到，越高的得分意味着更少的相关参考资料被遗漏。

单选题

Answer Correctness 指标综合了以下哪两个维度的评估？
A. 语义相似度和生成速度
B. 事实准确度和上下文相关性
C. 语义相似度和事实准确度
D. 上下文召回率和生成流畅度
答案：C
Faithfulness 指标主要评估生成答案的哪一特性？
A. 与问题的相关性
B. 与检索资料的事实一致性
C. 生成文本的语法正确性
D. 答案的简洁性
答案：B
Context Recall 的核心目标是？
A. 提高检索文本的排名
B. 确保所有相关参考资料被检索到
C. 优化生成答案的语义相似度
D. 减少生成答案的冗余信息
答案：B
以下哪项措施最可能提升 Context Recall？
A. 调整生成模型的温度参数
B. 补充知识库中缺失的相关内容
C. 对生成答案进行人工校验
D. 使用更短的查询语句
答案：B
若 Context Precision 得分低，以下哪种方法最有效？
A. 增加检索的文本段数量
B. 引入重排序（Rerank）机制
C. 降低生成模型的温度参数
D. 扩充知识库的无关内容
答案：B
Answer Relevancy 指标关注的是生成答案的哪方面？
A. 与问题的相关性
B. 与检索资料的一致性
C. 生成文本的长度
D. 答案的多样性
答案：A
在 Ragas 中，事实准确度的计算依赖于什么方法？
A. 直接比较文本字符串
B. 通过大模型生成观点列表并对比
C. 计算文本的词频相似度
D. 使用预定义的规则模板
答案：B
若 Answer Correctness 低但 Context Recall 高，可能的问题出现在？
A. 检索阶段
B. 生成阶段
C. 知识库内容不足
D. 查询改写失败
答案：B
语义相似度的计算通常使用以下哪种方法？
A. 欧氏距离
B. 余弦相似度
C. 曼哈顿距离
D. Jaccard 相似度
答案：B
以下哪项是召回阶段的评估指标？
A. Answer Relevancy
B. Context Precision
C. Faithfulness
D. Answer Correctness
答案：B

多选题

生成阶段的评估指标包括哪些？（多选）
A. Answer Relevancy
B. Faithfulness
C. Context Precision
D. Context Recall
答案：A, B
召回阶段的评估指标包括哪些？（多选）
A. Context Precision
B. Context Recall
C. Answer Correctness
D. Faithfulness
答案：A, B
以下哪些方法可能提升 Context Recall？（多选）
A. 补充知识库内容
B. 更换更优的 Embedding 模型
C. 对查询进行改写
D. 增加重排序机制
答案：A, B, C
影响 Answer Correctness 的因素包括哪些？（多选）
A. 语义相似度
B. 事实准确度
C. 检索文本的排名
D. 知识库的完备性
答案：A, B
若 Context Precision 低，可能采取的措施有哪些？（多选）
A. 引入重排序模型
B. 优化查询语句
C. 增加生成答案的长度
D. 更换 Embedding 模型
答案：A, B, D
Faithfulness 指标的评估需要对比哪些内容？（多选）
A. 生成答案与问题
B. 生成答案与检索资料
C. 生成答案与知识库
D. 生成答案与人工标注答案
答案：B, C
以下哪些是 Ragas 的评估指标？（多选）
A. Answer Relevancy
B. Context Precision
C. Generation Speed
D. Context Recall
答案：A, B, D
在优化 RAG 系统时，若 Answer Correctness 低但 Context Recall 高，可能需要？（多选）
A. 调整生成模型的 Prompt
B. 降低生成模型的温度参数
C. 补充知识库内容
D. 更换更强大的生成模型
答案：A, B, D
以下哪些技术可能用于提升 Context Precision？（多选）
A. 查询改写
B. 重排序（Rerank）
C. 增加检索文本数量
D. 优化 Embedding 模型
答案：A, B, D
Ragas 中的语义相似度计算可能涉及哪些步骤？（多选）
A. 文本向量化
B. 余弦相似度计算
C. 观点列表生成
D. 事实准确度对比
答案：A, B

原文链接

aliyun_acp_learning/大模型ACP认证教程/p2_构造大模型问答系统/2_4_自动化评测答疑机器人的表现.ipynb at main · AlibabaCloudDocs/aliyun_acp_learning · GitHub