2.4 自动化评测答疑机器人的表现-大模型ACP模拟题-真题

真题

真题1:哪些是生成阶段的评估指标?哪些是召回阶段的评估指标?
  • 整体回答质量的评估:
    • Answer Correctness,用于评估 RAG 应用生成答案的准确度。
  • 生成环节的评估:
    • Answer Relevancy,用于评估 RAG 应用生成的答案是否与问题相关。
    • Faithfulness,用于评估 RAG 应用生成的答案和检索到的参考资料的事实一致性。
  • 召回阶段的评估:
    • Context Precision,用于评估 contexts 中与准确答案相关的条目是否排名靠前、占比高(信噪比)。
    • Context Recall,用于评估有多少相关参考资料被检索到,越高的得分意味着更少的相关参考资料被遗漏。

单选题

  1. Answer Correctness 指标综合了以下哪两个维度的评估?
    A. 语义相似度和生成速度
    B. 事实准确度和上下文相关性
    C. 语义相似度和事实准确度
    D. 上下文召回率和生成流畅度
    答案:C
  2. Faithfulness 指标主要评估生成答案的哪一特性?
    A. 与问题的相关性
    B. 与检索资料的事实一致性
    C. 生成文本的语法正确性
    D. 答案的简洁性
    答案:B
  3. Context Recall 的核心目标是?
    A. 提高检索文本的排名
    B. 确保所有相关参考资料被检索到
    C. 优化生成答案的语义相似度
    D. 减少生成答案的冗余信息
    答案:B
  4. 以下哪项措施最可能提升 Context Recall?
    A. 调整生成模型的温度参数
    B. 补充知识库中缺失的相关内容
    C. 对生成答案进行人工校验
    D. 使用更短的查询语句
    答案:B
  5. 若 Context Precision 得分低,以下哪种方法最有效?
    A. 增加检索的文本段数量
    B. 引入重排序(Rerank)机制
    C. 降低生成模型的温度参数
    D. 扩充知识库的无关内容
    答案:B
  6. Answer Relevancy 指标关注的是生成答案的哪方面?
    A. 与问题的相关性
    B. 与检索资料的一致性
    C. 生成文本的长度
    D. 答案的多样性
    答案:A
  7. 在 Ragas 中,事实准确度的计算依赖于什么方法?
    A. 直接比较文本字符串
    B. 通过大模型生成观点列表并对比
    C. 计算文本的词频相似度
    D. 使用预定义的规则模板
    答案:B
  8. 若 Answer Correctness 低但 Context Recall 高,可能的问题出现在?
    A. 检索阶段
    B. 生成阶段
    C. 知识库内容不足
    D. 查询改写失败
    答案:B
  9. 语义相似度的计算通常使用以下哪种方法?
    A. 欧氏距离
    B. 余弦相似度
    C. 曼哈顿距离
    D. Jaccard 相似度
    答案:B
  10. 以下哪项是召回阶段的评估指标?
    A. Answer Relevancy
    B. Context Precision
    C. Faithfulness
    D. Answer Correctness
    答案:B

多选题

  1. 生成阶段的评估指标包括哪些?(多选)
    A. Answer Relevancy
    B. Faithfulness
    C. Context Precision
    D. Context Recall
    答案:A, B
  2. 召回阶段的评估指标包括哪些?(多选)
    A. Context Precision
    B. Context Recall
    C. Answer Correctness
    D. Faithfulness
    答案:A, B
  3. 以下哪些方法可能提升 Context Recall?(多选)
    A. 补充知识库内容
    B. 更换更优的 Embedding 模型
    C. 对查询进行改写
    D. 增加重排序机制
    答案:A, B, C
  4. 影响 Answer Correctness 的因素包括哪些?(多选)
    A. 语义相似度
    B. 事实准确度
    C. 检索文本的排名
    D. 知识库的完备性
    答案:A, B
  5. 若 Context Precision 低,可能采取的措施有哪些?(多选)
    A. 引入重排序模型
    B. 优化查询语句
    C. 增加生成答案的长度
    D. 更换 Embedding 模型
    答案:A, B, D
  6. Faithfulness 指标的评估需要对比哪些内容?(多选)
    A. 生成答案与问题
    B. 生成答案与检索资料
    C. 生成答案与知识库
    D. 生成答案与人工标注答案
    答案:B, C
  7. 以下哪些是 Ragas 的评估指标?(多选)
    A. Answer Relevancy
    B. Context Precision
    C. Generation Speed
    D. Context Recall
    答案:A, B, D
  8. 在优化 RAG 系统时,若 Answer Correctness 低但 Context Recall 高,可能需要?(多选)
    A. 调整生成模型的 Prompt
    B. 降低生成模型的温度参数
    C. 补充知识库内容
    D. 更换更强大的生成模型
    答案:A, B, D
  9. 以下哪些技术可能用于提升 Context Precision?(多选)
    A. 查询改写
    B. 重排序(Rerank)
    C. 增加检索文本数量
    D. 优化 Embedding 模型
    答案:A, B, D
  10. Ragas 中的语义相似度计算可能涉及哪些步骤?(多选)
    A. 文本向量化
    B. 余弦相似度计算
    C. 观点列表生成
    D. 事实准确度对比
    答案:A, B

原文链接

aliyun_acp_learning/大模型ACP认证教程/p2_构造大模型问答系统/2_4_自动化评测答疑机器人的表现.ipynb at main · AlibabaCloudDocs/aliyun_acp_learning · GitHub

相关推荐
元岳数字人小元1 小时前
AI 数字人开发公司浅谈 虚拟数字人打造景区新服务
人工智能·人机交互·交互
哦哦~9211 小时前
AI赋能生物医学:从临床数据到药物分子性质预测实战培
人工智能·生物医学·药物分子
brucelee1861 小时前
OpenClaw 浏览器控制(Chrome MCP)完整教程
前端·chrome
GIS数据转换器1 小时前
城市排水生命线安全运行监测平台深度解析
java·运维·人工智能·python·安全·数据挖掘·无人机
虫无涯1 小时前
本地离线大模型实战:Ollama + Llama 3.1 8B 全流程部署(适配VSCode Continue代码助手)
人工智能
ct9781 小时前
React 状态管理方案深度对比
开发语言·前端·react
Rocky Ding*1 小时前
Latent Consistency Models:一篇读懂扩散模型的少步生成核心基础知识
人工智能·深度学习·机器学习·ai作画·stable diffusion·aigc·ai-native
大山佬1 小时前
AI 边缘部署:MCU 上的轻量级目标检测,从 YOLO 到 TFLite Micro 的全链路优化
人工智能
数睿数据无代码开发2 小时前
深度解析smardaten数据大屏:六大核心功能重塑可视化开发
人工智能·信息可视化
陈猪的杰咪2 小时前
GitHub Copilot 2026计费新规:AI Credits消耗解析与节省策略
人工智能·ai·架构·github·copilot