真题
真题1:哪些是生成阶段的评估指标?哪些是召回阶段的评估指标?
- 整体回答质量的评估:
- Answer Correctness,用于评估 RAG 应用生成答案的准确度。
- 生成环节的评估:
- Answer Relevancy,用于评估 RAG 应用生成的答案是否与问题相关。
- Faithfulness,用于评估 RAG 应用生成的答案和检索到的参考资料的事实一致性。
- 召回阶段的评估:
- Context Precision,用于评估 contexts 中与准确答案相关的条目是否排名靠前、占比高(信噪比)。
- Context Recall,用于评估有多少相关参考资料被检索到,越高的得分意味着更少的相关参考资料被遗漏。
单选题
- Answer Correctness 指标综合了以下哪两个维度的评估?
A. 语义相似度和生成速度
B. 事实准确度和上下文相关性
C. 语义相似度和事实准确度
D. 上下文召回率和生成流畅度
答案:C - Faithfulness 指标主要评估生成答案的哪一特性?
A. 与问题的相关性
B. 与检索资料的事实一致性
C. 生成文本的语法正确性
D. 答案的简洁性
答案:B - Context Recall 的核心目标是?
A. 提高检索文本的排名
B. 确保所有相关参考资料被检索到
C. 优化生成答案的语义相似度
D. 减少生成答案的冗余信息
答案:B - 以下哪项措施最可能提升 Context Recall?
A. 调整生成模型的温度参数
B. 补充知识库中缺失的相关内容
C. 对生成答案进行人工校验
D. 使用更短的查询语句
答案:B - 若 Context Precision 得分低,以下哪种方法最有效?
A. 增加检索的文本段数量
B. 引入重排序(Rerank)机制
C. 降低生成模型的温度参数
D. 扩充知识库的无关内容
答案:B - Answer Relevancy 指标关注的是生成答案的哪方面?
A. 与问题的相关性
B. 与检索资料的一致性
C. 生成文本的长度
D. 答案的多样性
答案:A - 在 Ragas 中,事实准确度的计算依赖于什么方法?
A. 直接比较文本字符串
B. 通过大模型生成观点列表并对比
C. 计算文本的词频相似度
D. 使用预定义的规则模板
答案:B - 若 Answer Correctness 低但 Context Recall 高,可能的问题出现在?
A. 检索阶段
B. 生成阶段
C. 知识库内容不足
D. 查询改写失败
答案:B - 语义相似度的计算通常使用以下哪种方法?
A. 欧氏距离
B. 余弦相似度
C. 曼哈顿距离
D. Jaccard 相似度
答案:B - 以下哪项是召回阶段的评估指标?
A. Answer Relevancy
B. Context Precision
C. Faithfulness
D. Answer Correctness
答案:B
多选题
- 生成阶段的评估指标包括哪些?(多选)
A. Answer Relevancy
B. Faithfulness
C. Context Precision
D. Context Recall
答案:A, B - 召回阶段的评估指标包括哪些?(多选)
A. Context Precision
B. Context Recall
C. Answer Correctness
D. Faithfulness
答案:A, B - 以下哪些方法可能提升 Context Recall?(多选)
A. 补充知识库内容
B. 更换更优的 Embedding 模型
C. 对查询进行改写
D. 增加重排序机制
答案:A, B, C - 影响 Answer Correctness 的因素包括哪些?(多选)
A. 语义相似度
B. 事实准确度
C. 检索文本的排名
D. 知识库的完备性
答案:A, B - 若 Context Precision 低,可能采取的措施有哪些?(多选)
A. 引入重排序模型
B. 优化查询语句
C. 增加生成答案的长度
D. 更换 Embedding 模型
答案:A, B, D - Faithfulness 指标的评估需要对比哪些内容?(多选)
A. 生成答案与问题
B. 生成答案与检索资料
C. 生成答案与知识库
D. 生成答案与人工标注答案
答案:B, C - 以下哪些是 Ragas 的评估指标?(多选)
A. Answer Relevancy
B. Context Precision
C. Generation Speed
D. Context Recall
答案:A, B, D - 在优化 RAG 系统时,若 Answer Correctness 低但 Context Recall 高,可能需要?(多选)
A. 调整生成模型的 Prompt
B. 降低生成模型的温度参数
C. 补充知识库内容
D. 更换更强大的生成模型
答案:A, B, D - 以下哪些技术可能用于提升 Context Precision?(多选)
A. 查询改写
B. 重排序(Rerank)
C. 增加检索文本数量
D. 优化 Embedding 模型
答案:A, B, D - Ragas 中的语义相似度计算可能涉及哪些步骤?(多选)
A. 文本向量化
B. 余弦相似度计算
C. 观点列表生成
D. 事实准确度对比
答案:A, B
原文链接
aliyun_acp_learning/大模型ACP认证教程/p2_构造大模型问答系统/2_4_自动化评测答疑机器人的表现.ipynb at main · AlibabaCloudDocs/aliyun_acp_learning · GitHub