2.4 自动化评测答疑机器人的表现-大模型ACP模拟题-真题

真题

真题1:哪些是生成阶段的评估指标?哪些是召回阶段的评估指标?
  • 整体回答质量的评估:
    • Answer Correctness,用于评估 RAG 应用生成答案的准确度。
  • 生成环节的评估:
    • Answer Relevancy,用于评估 RAG 应用生成的答案是否与问题相关。
    • Faithfulness,用于评估 RAG 应用生成的答案和检索到的参考资料的事实一致性。
  • 召回阶段的评估:
    • Context Precision,用于评估 contexts 中与准确答案相关的条目是否排名靠前、占比高(信噪比)。
    • Context Recall,用于评估有多少相关参考资料被检索到,越高的得分意味着更少的相关参考资料被遗漏。

单选题

  1. Answer Correctness 指标综合了以下哪两个维度的评估?
    A. 语义相似度和生成速度
    B. 事实准确度和上下文相关性
    C. 语义相似度和事实准确度
    D. 上下文召回率和生成流畅度
    答案:C
  2. Faithfulness 指标主要评估生成答案的哪一特性?
    A. 与问题的相关性
    B. 与检索资料的事实一致性
    C. 生成文本的语法正确性
    D. 答案的简洁性
    答案:B
  3. Context Recall 的核心目标是?
    A. 提高检索文本的排名
    B. 确保所有相关参考资料被检索到
    C. 优化生成答案的语义相似度
    D. 减少生成答案的冗余信息
    答案:B
  4. 以下哪项措施最可能提升 Context Recall?
    A. 调整生成模型的温度参数
    B. 补充知识库中缺失的相关内容
    C. 对生成答案进行人工校验
    D. 使用更短的查询语句
    答案:B
  5. 若 Context Precision 得分低,以下哪种方法最有效?
    A. 增加检索的文本段数量
    B. 引入重排序(Rerank)机制
    C. 降低生成模型的温度参数
    D. 扩充知识库的无关内容
    答案:B
  6. Answer Relevancy 指标关注的是生成答案的哪方面?
    A. 与问题的相关性
    B. 与检索资料的一致性
    C. 生成文本的长度
    D. 答案的多样性
    答案:A
  7. 在 Ragas 中,事实准确度的计算依赖于什么方法?
    A. 直接比较文本字符串
    B. 通过大模型生成观点列表并对比
    C. 计算文本的词频相似度
    D. 使用预定义的规则模板
    答案:B
  8. 若 Answer Correctness 低但 Context Recall 高,可能的问题出现在?
    A. 检索阶段
    B. 生成阶段
    C. 知识库内容不足
    D. 查询改写失败
    答案:B
  9. 语义相似度的计算通常使用以下哪种方法?
    A. 欧氏距离
    B. 余弦相似度
    C. 曼哈顿距离
    D. Jaccard 相似度
    答案:B
  10. 以下哪项是召回阶段的评估指标?
    A. Answer Relevancy
    B. Context Precision
    C. Faithfulness
    D. Answer Correctness
    答案:B

多选题

  1. 生成阶段的评估指标包括哪些?(多选)
    A. Answer Relevancy
    B. Faithfulness
    C. Context Precision
    D. Context Recall
    答案:A, B
  2. 召回阶段的评估指标包括哪些?(多选)
    A. Context Precision
    B. Context Recall
    C. Answer Correctness
    D. Faithfulness
    答案:A, B
  3. 以下哪些方法可能提升 Context Recall?(多选)
    A. 补充知识库内容
    B. 更换更优的 Embedding 模型
    C. 对查询进行改写
    D. 增加重排序机制
    答案:A, B, C
  4. 影响 Answer Correctness 的因素包括哪些?(多选)
    A. 语义相似度
    B. 事实准确度
    C. 检索文本的排名
    D. 知识库的完备性
    答案:A, B
  5. 若 Context Precision 低,可能采取的措施有哪些?(多选)
    A. 引入重排序模型
    B. 优化查询语句
    C. 增加生成答案的长度
    D. 更换 Embedding 模型
    答案:A, B, D
  6. Faithfulness 指标的评估需要对比哪些内容?(多选)
    A. 生成答案与问题
    B. 生成答案与检索资料
    C. 生成答案与知识库
    D. 生成答案与人工标注答案
    答案:B, C
  7. 以下哪些是 Ragas 的评估指标?(多选)
    A. Answer Relevancy
    B. Context Precision
    C. Generation Speed
    D. Context Recall
    答案:A, B, D
  8. 在优化 RAG 系统时,若 Answer Correctness 低但 Context Recall 高,可能需要?(多选)
    A. 调整生成模型的 Prompt
    B. 降低生成模型的温度参数
    C. 补充知识库内容
    D. 更换更强大的生成模型
    答案:A, B, D
  9. 以下哪些技术可能用于提升 Context Precision?(多选)
    A. 查询改写
    B. 重排序(Rerank)
    C. 增加检索文本数量
    D. 优化 Embedding 模型
    答案:A, B, D
  10. Ragas 中的语义相似度计算可能涉及哪些步骤?(多选)
    A. 文本向量化
    B. 余弦相似度计算
    C. 观点列表生成
    D. 事实准确度对比
    答案:A, B

原文链接

aliyun_acp_learning/大模型ACP认证教程/p2_构造大模型问答系统/2_4_自动化评测答疑机器人的表现.ipynb at main · AlibabaCloudDocs/aliyun_acp_learning · GitHub

相关推荐
guanshiyishi26 分钟前
ABeam 德硕 | 中国汽车市场(2)——新能源车的崛起与中国汽车市场机遇与挑战
人工智能
极客天成ScaleFlash1 小时前
极客天成NVFile:无缓存直击存储性能天花板,重新定义AI时代并行存储新范式
人工智能·缓存
Uzuki1 小时前
AI可解释性 II | Saliency Maps-based 归因方法(Attribution)论文导读(持续更新)
深度学习·机器学习·可解释性
careybobo1 小时前
海康摄像头通过Web插件进行预览播放和控制
前端
澳鹏Appen2 小时前
AI安全:构建负责任且可靠的系统
人工智能·安全
杉之2 小时前
常见前端GET请求以及对应的Spring后端接收接口写法
java·前端·后端·spring·vue
喝拿铁写前端2 小时前
字段聚类,到底有什么用?——从系统混乱到结构认知的第一步
前端
蹦蹦跳跳真可爱5892 小时前
Python----机器学习(KNN:使用数学方法实现KNN)
人工智能·python·机器学习
再学一点就睡2 小时前
大文件上传之切片上传以及开发全流程之前端篇
前端·javascript
视界宝藏库3 小时前
多元 AI 配音软件,打造独特音频体验
人工智能