阿里云云计算ACA - ACP认证考试模拟试卷二

一、阿里云云计算ACP认证考试

二、基本要求解读

[（一）主流 ACP 方向（云计算 / 云安全 / 大数据等）题型](#（一）主流 ACP 方向（云计算 / 云安全 / 大数据等）题型)

[（二）大模型 ACP（特殊）](#（二）大模型 ACP（特殊）)

（三）答题规则

[三、阿里云云计算ACA - ACP认证考试模拟试卷](#三、阿里云云计算ACA - ACP认证考试模拟试卷)

[（一）单选题：70 题 × 1 分 = 70 分](#（一）单选题：70 题 × 1 分 = 70 分)

[1. 以下哪种用法不能有效利用 system 角色提示词?](#1. 以下哪种用法不能有效利用 system 角色提示词?)

[2. 通义听悟主要聚焦于哪种类型的数据处理能力？](#2. 通义听悟主要聚焦于哪种类型的数据处理能力？)

[3. 你需要大模型对用户输入的新闻内容进行分类（体育/经济/娱乐三种）。为提升准确性且便于程序解析，以下哪个提示词更合理？](#3. 你需要大模型对用户输入的新闻内容进行分类（体育/经济/娱乐三种）。为提升准确性且便于程序解析，以下哪个提示词更合理？)

[4. 在切片向量化与存储阶段，以下哪种 Embedding 模型是 OpenAI 提供的？](#4. 在切片向量化与存储阶段，以下哪种 Embedding 模型是 OpenAI 提供的？)

[5. 实现早停法（early stopping）时，通常在哪种情况下停止训练？](#5. 实现早停法（early stopping）时，通常在哪种情况下停止训练？)

[6. 如果你基于网页版的大模型写了以下提示词。（请你生成一份一季度财务报告）。以下哪些建议是合理的，可以帮助改进这个提示词？](#6. 如果你基于网页版的大模型写了以下提示词。（请你生成一份一季度财务报告）。以下哪些建议是合理的，可以帮助改进这个提示词？)

[7. 在问题处理策略中，通过将复杂问题拆解为更小、更易管理的部分来改善理解的是哪个方法？](#7. 在问题处理策略中，通过将复杂问题拆解为更小、更易管理的部分来改善理解的是哪个方法？)

[8. 在top_p=0.5的设置下，大模型的输出会有什么特点？](#8. 在top_p=0.5的设置下，大模型的输出会有什么特点？)

[9. 公司新发了《远程办公规定》，你想让现有答疑机器人掌握这份规定的内容。基于已经搭建好的RAG应用，你应该怎么做？](#9. 公司新发了《远程办公规定》，你想让现有答疑机器人掌握这份规定的内容。基于已经搭建好的RAG应用，你应该怎么做？)

[10. 在优化后的答疑机器人中，以下哪种方法可以节省资源？](#10. 在优化后的答疑机器人中，以下哪种方法可以节省资源？)

[11. 如何从百炼大模型的接口返回结果中获取模型生成的文本？](#11. 如何从百炼大模型的接口返回结果中获取模型生成的文本？)

[12. 某公司推出了一款 "大小模型协同" 系统，使用小模型处理常规问答，大模型处理复杂推理或文档分析。系统还采用了多智能体架构，然而系统经常把一些简单 FAQ 也交给大模型处理，浪费了算力。为了解决该问题，以下哪种做法最有效？](#12. 某公司推出了一款 “大小模型协同” 系统，使用小模型处理常规问答，大模型处理复杂推理或文档分析。系统还采用了多智能体架构，然而系统经常把一些简单 FAQ 也交给大模型处理，浪费了算力。为了解决该问题，以下哪种做法最有效？)

[13. 在以下代码片段中，model="qwen-plus"的作用是什么？](#13. 在以下代码片段中，model="qwen-plus"的作用是什么？)

[14. 在检索召回阶段，以下哪种方法用于在检索后减少无关信息？](#14. 在检索召回阶段，以下哪种方法用于在检索后减少无关信息？)

[15. 在大模型的问答工作流程中，哪个阶段负责将Token转化为固定维度的向量？](#15. 在大模型的问答工作流程中，哪个阶段负责将Token转化为固定维度的向量？)

[16. 在文档切片过程中，以下哪种切片方法会包含周围的句子作为上下文窗口？](#16. 在文档切片过程中，以下哪种切片方法会包含周围的句子作为上下文窗口？)

[17. 使用Python notebook调用大模型API处理调查问卷时，以下哪个步骤不是必要的？](#17. 使用Python notebook调用大模型API处理调查问卷时，以下哪个步骤不是必要的？)

[18. 下列关于利用列表给通义千问大模型增加记忆的描述中，哪一项是不正确的？](#18. 下列关于利用列表给通义千问大模型增加记忆的描述中，哪一项是不正确的？)

[19. 你正在基于某视觉理解大模型开发一个门店巡检系统（检查垃圾桶是否盖好、操作是否整洁、水池是否洗干净等），但发现用大模型同时识别判断场景、给出判断结果的效果总是不好，以下哪种改进方案能更低成本地解决这一问题？](#19. 你正在基于某视觉理解大模型开发一个门店巡检系统（检查垃圾桶是否盖好、操作是否整洁、水池是否洗干净等），但发现用大模型同时识别判断场景、给出判断结果的效果总是不好，以下哪种改进方案能更低成本地解决这一问题？)

[20. 在检索召回阶段，以下哪些方法通过滑动窗口检索补充相邻切片？](#20. 在检索召回阶段，以下哪些方法通过滑动窗口检索补充相邻切片？)

[21. 在检索阶段，一般是如何找到知识库中最相关的文本段的？](#21. 在检索阶段，一般是如何找到知识库中最相关的文本段的？)

[22. 以下哪个步骤不是 RAG 工作流程中 "建立索引" 阶段的一部分？](#22. 以下哪个步骤不是 RAG 工作流程中 “建立索引” 阶段的一部分？)

[23. 为了让大模型能够回答私域知识问题，以下哪种方法更加简便且高效？](#23. 为了让大模型能够回答私域知识问题，以下哪种方法更加简便且高效？)

[24. 在文档切片过程中，以下哪种切片方法可以精确控制 Token 数量？](#24. 在文档切片过程中，以下哪种切片方法可以精确控制 Token 数量？)

[25. 某大模型客服系统被攻击者通过提示词注入获取知识库元数据，以下哪个措施能更有效防范这一问题？选项：](#25. 某大模型客服系统被攻击者通过提示词注入获取知识库元数据，以下哪个措施能更有效防范这一问题？选项：)

[26. 百炼提供了一系列 LlamaIndex 组件，其主要目的是什么？](#26. 百炼提供了一系列 LlamaIndex 组件，其主要目的是什么？)

[27. 在保存与加载索引时，index.storage_context.persist方法的主要作用是什么？](#27. 在保存与加载索引时，index.storage_context.persist方法的主要作用是什么？)

[28. 你在为一个创意写作工具调整大模型生成内容，以下哪个参数可以用来控制生成内容的多样性？](#28. 你在为一个创意写作工具调整大模型生成内容，以下哪个参数可以用来控制生成内容的多样性？)

[29. 在RAG应用的多轮对话中，query_engine的主要作用是什么？](#29. 在RAG应用的多轮对话中，query_engine的主要作用是什么？)

[30. 某电商平台计划使用 RAG 模型构建智能客服系统，帮助用户查询商品信息。以下关于该系统的评测方法，哪一项是正确的？](#30. 某电商平台计划使用 RAG 模型构建智能客服系统，帮助用户查询商品信息。以下关于该系统的评测方法，哪一项是正确的？)

[31. 某律所在优化法律问答机器人应用时发现它总是无法准确回答交通法的内容，应优先？](#31. 某律所在优化法律问答机器人应用时发现它总是无法准确回答交通法的内容，应优先？)

[32. 如果将 top_p 设置为一个非常小的值，例如 0.1，模型的生成结果会有什么特点？](#32. 如果将 top_p 设置为一个非常小的值，例如 0.1，模型的生成结果会有什么特点？)

[33. 在优化检索效果时，若知识库内容充足但精确率低，以下哪种方法是合理的？](#33. 在优化检索效果时，若知识库内容充足但精确率低，以下哪种方法是合理的？)

[34. 在提示词框架中，以下哪些要素可以用于明确大模型的具体任务？](#34. 在提示词框架中，以下哪些要素可以用于明确大模型的具体任务？)

[35. 以下哪个提示词示例最有效地利用了分隔符来区分不同的要素？](#35. 以下哪个提示词示例最有效地利用了分隔符来区分不同的要素？)

[36. 以下哪种方式不符合"优化RAG过程"的最佳实践？](#36. 以下哪种方式不符合"优化RAG过程"的最佳实践？)

[37. 以下描述中哪一项不属于通过多智能体进行文档质量检测的优势?](#37. 以下描述中哪一项不属于通过多智能体进行文档质量检测的优势?)

[38. 某 RAG 系统回答"张伟是哪个部门的"时，总是只检索到一个无关切片，导致答案不准确。为改进检索效果，下列哪种做法有助于改善这个问题？](#38. 某 RAG 系统回答“张伟是哪个部门的”时，总是只检索到一个无关切片，导致答案不准确。为改进检索效果，下列哪种做法有助于改善这个问题？)

[39. 假设你需要统计每种意图出现的次数，以下哪个代码片段实现了这个功能？](#39. 假设你需要统计每种意图出现的次数，以下哪个代码片段实现了这个功能？)

[40. 在大语言模型微调的训练循环中，哪个步骤负责计算模型输出与真实标签之间的差异？](#40. 在大语言模型微调的训练循环中，哪个步骤负责计算模型输出与真实标签之间的差异？)

[41. 你准备了一批 txt 格式的公司制度文档，准备将其用于 RAG，若要让 RAG 后续能快速进行相似度检索，下列哪项是必需的？](#41. 你准备了一批 txt 格式的公司制度文档，准备将其用于 RAG，若要让 RAG 后续能快速进行相似度检索，下列哪项是必需的？)

[42. 在 Answer Correctness 的计算过程中，事实准确度是通过什么模型生成的？](#42. 在 Answer Correctness 的计算过程中，事实准确度是通过什么模型生成的？)

[43. Ragas 提供的以下哪些指标用于评估生成答案与检索资料的事实一致性？](#43. Ragas 提供的以下哪些指标用于评估生成答案与检索资料的事实一致性？)

[44. 在开发过程中，你发现大模型调用某工具函数时常因输入参数格式错误而失败，最可能的原因是？](#44. 在开发过程中，你发现大模型调用某工具函数时常因输入参数格式错误而失败，最可能的原因是？)

[45. 使用模型检查点（checkpointing）保存模型时，一般会保存哪种情况下的模型？](#45. 使用模型检查点（checkpointing）保存模型时，一般会保存哪种情况下的模型？)

[46. 我们可以使用比较成熟的RAG应用测试框架Ragas来评估RAG应用的效果，Ragas包含了多种评测指标，其中faithfulness、answer_relevancy、context_recall、context_precision指标中，哪个指标仅评估生成阶段的性能?](#46. 我们可以使用比较成熟的RAG应用测试框架Ragas来评估RAG应用的效果，Ragas包含了多种评测指标，其中faithfulness、answer_relevancy、context_recall、context_precision指标中，哪个指标仅评估生成阶段的性能?)

[47. 在RAG应用的多轮对话中，custom_chat_history的主要作用是什么？](#47. 在RAG应用的多轮对话中，custom_chat_history的主要作用是什么？)

[48. 你开发了一个专用于医疗场景问答的RAG应用，为了找到优化方向，需要对其进行评测。以下哪个是参与评测必不可少的群体？](#48. 你开发了一个专用于医疗场景问答的RAG应用，为了找到优化方向，需要对其进行评测。以下哪个是参与评测必不可少的群体？)

[49. 在下列应用场景中，哪一个最不适合采用单Agent模式进行处理？](#49. 在下列应用场景中，哪一个最不适合采用单Agent模式进行处理？)

[50. 你发现 RAG 应用召回的切片内容虽然和问题相关，但并不包含真实答案。最优先的排查和改进方向是什么？](#50. 你发现 RAG 应用召回的切片内容虽然和问题相关，但并不包含真实答案。最优先的排查和改进方向是什么？)

[51. 在代码中，Dataset.from_dict(data_samples) 的主要作用是什么？](#51. 在代码中，Dataset.from_dict(data_samples) 的主要作用是什么？)

[52. LlamaIndex 在创建 RAG 应用时，第一步 SimpleDirectoryReader 是将知识文件解析为?](#52. LlamaIndex 在创建 RAG 应用时，第一步 SimpleDirectoryReader 是将知识文件解析为?)

[53. 在以下代码片段中，api_key=os.getenv("DASHSCOPE_API_KEY")的作用是什么？](#53. 在以下代码片段中，api_key=os.getenv("DASHSCOPE_API_KEY")的作用是什么？)

[54. 在ask_llm_route函数中，如果问题类型是"文档审查"，会使用哪个提示词？](#54. 在ask_llm_route函数中，如果问题类型是“文档审查”，会使用哪个提示词？)

[55. 你想通过语音命令操作网页，例如，用户说 "我想煮 2 杯咖啡"，系统转译语音后，根据用户位置和互动意图确定位置并点击 "下单" 按钮。由于 UI 复杂，哪项技术最适合精准锚点点击目标按钮？](#55. 你想通过语音命令操作网页，例如，用户说 “我想煮 2 杯咖啡”，系统转译语音后，根据用户位置和互动意图确定位置并点击 “下单” 按钮。由于 UI 复杂，哪项技术最适合精准锚点点击目标按钮？)

[56. 在意图识别中，使用提示词的主要作用是什么？](#56. 在意图识别中，使用提示词的主要作用是什么？)

[57. 人工智能按照技术实现的不同可被划分为多个子领域。以下描述错误的是？](#57. 人工智能按照技术实现的不同可被划分为多个子领域。以下描述错误的是？)

[58. 如果让大语言模型输出意图分类置信度，但我们发现大语言模型意图分类结果的置信度普遍较低，应该如何处理？](#58. 如果让大语言模型输出意图分类置信度，但我们发现大语言模型意图分类结果的置信度普遍较低，应该如何处理？)

[59. 在大模型知识问答增强RAG的方案中，哪个技术是通过提出多个相关查询来提高问题理解的广度和深度？](#59. 在大模型知识问答增强RAG的方案中，哪个技术是通过提出多个相关查询来提高问题理解的广度和深度？)

[60. 在大模型对话的 API 中，assistant 角色的作用是什么？](#60. 在大模型对话的 API 中，assistant 角色的作用是什么？)

[61. 下面哪个 Python 库函数常用于计算 F1 分数?](#61. 下面哪个 Python 库函数常用于计算 F1 分数?)

[62. 在设计LLM提示词时使用少样本提示，以下哪项不是提高模型性能的建议？](#62. 在设计LLM提示词时使用少样本提示，以下哪项不是提高模型性能的建议？)

[63. 在RAG应用的多轮对话中，LlamaIndex提供了什么工具？](#63. 在RAG应用的多轮对话中，LlamaIndex提供了什么工具？)

[64. 在构建 RAG 应用时，以下哪种向量存储方案提供完善的监控和管理工具？](#64. 在构建 RAG 应用时，以下哪种向量存储方案提供完善的监控和管理工具？)

[65. 模型微调最适合以下解决哪种问题？](#65. 模型微调最适合以下解决哪种问题？)

[66. 在切片向量化与存储阶段，以下哪些是较旧的 Embedding 模型？](#66. 在切片向量化与存储阶段，以下哪些是较旧的 Embedding 模型？)

[67. 在 qwen2.5-1.5b 模型训练时，当训练损失持续下降但验证损失开始上升时，说明模型处于什么状态？](#67. 在 qwen2.5-1.5b 模型训练时，当训练损失持续下降但验证损失开始上升时，说明模型处于什么状态？)

[68. API AssistantAgent 示例代码_forward_and_submit_outputs 函数的核心功能是什么](#68. API AssistantAgent 示例代码_forward_and_submit_outputs 函数的核心功能是什么)

[69. 哪---个项目强调了软件开发中多智能体协作的组织结构扁平化，并能够直接根据用户请求生成全面的软件开发文档套件？](#69. 哪—个项目强调了软件开发中多智能体协作的组织结构扁平化，并能够直接根据用户请求生成全面的软件开发文档套件？)

[70. 在LLM提示词中，思维链技术与标准提示相比，主要优势是什么？](#70. 在LLM提示词中，思维链技术与标准提示相比，主要优势是什么？)

[（二）多选题：30 题 × 1 分 = 30 分](#（二）多选题：30 题 × 1 分 = 30 分)

[1. 以下哪些场景适合设置较高的top_p值？](#1. 以下哪些场景适合设置较高的top_p值？)

[2. 在ask_llm_route函数中，以下哪些是提示词中规定的角色背景？](#2. 在ask_llm_route函数中，以下哪些是提示词中规定的角色背景？)

[3. 在优化 context recall 指标时，以下哪些措施是可行的？](#3. 在优化 context recall 指标时，以下哪些措施是可行的？)

[4. 在构建有效的提示词时，以下哪些是清晰表达需求的关键要素？](#4. 在构建有效的提示词时，以下哪些是清晰表达需求的关键要素？)

[5. 在以下代码段中，哪些是设置模型训练参数的例子？](#5. 在以下代码段中，哪些是设置模型训练参数的例子？)

[6. 某金融智能风控系统在高峰期偶尔出现模型不可用的情况，以下哪些方案可以作为降级策略？](#6. 某金融智能风控系统在高峰期偶尔出现模型不可用的情况，以下哪些方案可以作为降级策略？)

[7. 在自定义提示词模板中，以下哪些是预设的部分信息？](#7. 在自定义提示词模板中，以下哪些是预设的部分信息？)

[8. 你通过RAG为用户提供商品推荐服务。用户反馈说，在搜索"包子"时，推荐结果中经常出现"书包"的商品信息。后台分析发现，召回阶段确实会夹杂部分无关商品的信息。以下哪些措施能够有效提升该系统的推荐效果？](#8. 你通过RAG为用户提供商品推荐服务。用户反馈说，在搜索“包子”时，推荐结果中经常出现”书包”的商品信息。后台分析发现，召回阶段确实会夹杂部分无关商品的信息。以下哪些措施能够有效提升该系统的推荐效果？)

[9. 在切片向量化与存储阶段，以下哪些是 compare_embeddings 函数的参数？](#9. 在切片向量化与存储阶段，以下哪些是 compare_embeddings 函数的参数？)

[10. 小明开发了一款基于通义千问的 AI 写作助手小程序，计划在微信小程序平台上线。目前小程序已经开发完成，但尚未提交任何合规备案申请。根据相关规定，小明应该如何操作？](#10. 小明开发了一款基于通义千问的 AI 写作助手小程序，计划在微信小程序平台上线。目前小程序已经开发完成，但尚未提交任何合规备案申请。根据相关规定，小明应该如何操作？)

[11. 哪种形式可以用作提示词的分隔符？](#11. 哪种形式可以用作提示词的分隔符？)

[12. 在RAG应用的多轮对话中，以下哪些方法可以用于改写用户问题？](#12. 在RAG应用的多轮对话中，以下哪些方法可以用于改写用户问题？)

[13. 以下哪些情况可能导致大模型检索不准确？](#13. 以下哪些情况可能导致大模型检索不准确？)

[14. 在 Answer Correctness 的计算过程中，以下哪些是语义相似度的计算方法？](#14. 在 Answer Correctness 的计算过程中，以下哪些是语义相似度的计算方法？)

[15. 下列代码片段中，哪些涉及模型训练过程中的正则化或优化策略？](#15. 下列代码片段中，哪些涉及模型训练过程中的正则化或优化策略？)

[16. 你写了一个提示词"请用适合简报的形式，以每篇100字的篇幅总结今早的十大新闻"，你希望大模型能按照提示词完成任务，以下哪些方案可行？](#16. 你写了一个提示词“请用适合简报的形式，以每篇100字的篇幅总结今早的十大新闻”，你希望大模型能按照提示词完成任务，以下哪些方案可行？)

[17. 以下哪些方法可以让大模型能够回答私域知识问题？](#17. 以下哪些方法可以让大模型能够回答私域知识问题？)

[18. 在 Answer Correctness 的计算过程中，以下哪些是大模型的作用？](#18. 在 Answer Correctness 的计算过程中，以下哪些是大模型的作用？)

[19. 为了尽量减少大模型应用的幻觉，以下哪些措施是有效的？](#19. 为了尽量减少大模型应用的幻觉，以下哪些措施是有效的？)

[20. 在示例中，以下哪些是提示词中规定的任务要求？](#20. 在示例中，以下哪些是提示词中规定的任务要求？)

[21. 在以下代码片段中，哪些操作有助于生成更具创造性的文本？](#21. 在以下代码片段中，哪些操作有助于生成更具创造性的文本？)

[22. 在 qwen-plus 对 messages 进行回答后，如果你想按照当前对话基础继续提问，需要怎么做？ LLM_MODEL=DashScope(model name="qwen-plus") messages= $ChatMessage(role=MessageRole.SYSTEM, content="你负责教育内容开发公司的答疑，你的名字叫公司小蜜，你要回答学员的问题。"), ChatMessage(role=MessageRole.USER, content="你好")$ ](#22. 在 qwen-plus 对 messages 进行回答后，如果你想按照当前对话基础继续提问，需要怎么做？ LLM_MODEL=DashScope(model name="qwen-plus") messages=[ChatMessage(role=MessageRole.SYSTEM, content="你负责教育内容开发公司的答疑，你的名字叫公司小蜜，你要回答学员的问题。"), ChatMessage(role=MessageRole.USER, content="你好")])

[23. 在切片向量化与存储阶段，以下哪些是 compare_embedding_models 函数的参数？](#23. 在切片向量化与存储阶段，以下哪些是 compare_embedding_models 函数的参数？)

[24. 实现早停法（early stopping）策略时，考虑的条件可能包括：](#24. 实现早停法（early stopping）策略时，考虑的条件可能包括：)

[25. 在ask_llm_route函数中，以下哪些是提示词中规定的任务要求？](#25. 在ask_llm_route函数中，以下哪些是提示词中规定的任务要求？)

[26. GraphRAG 技术的优势包括哪些？](#26. GraphRAG 技术的优势包括哪些？)

[27. 一家教育科技公司拟开发 AI 教学产品，以下哪些方案能体现 "个性化、智能化、普惠教育"？](#27. 一家教育科技公司拟开发 AI 教学产品，以下哪些方案能体现 “个性化、智能化、普惠教育”？)

[28. temperature参数如何影响候选Token的概率分布？](#28. temperature参数如何影响候选Token的概率分布？)

[29. 在 context precision 的计算过程中，以下哪些是判断 contexti 是否相关的依据？](#29. 在 context precision 的计算过程中，以下哪些是判断 contexti 是否相关的依据？)

[30. Ragas 提供的以下哪些指标用于评估召回阶段？](#30. Ragas 提供的以下哪些指标用于评估召回阶段？)

[四、致备考 ACP 的每一位同学](#四、致备考 ACP 的每一位同学)

一、阿里云云计算ACP认证考试

请认真阅读考试须知后，准备好相关资料开始进行防作弊验证。验证通过后将正式开始考试。

答题开始即开始计时，中途不可暂停，如超时则自动提交

1、考试共 (100) 道题，总分100分，及格分数80分

2、考试需在（120分钟）内交卷，过程中无法暂停，请提前安排好时间；如未及时交卷，则本次考试作废

3、推荐使用 Chrome 浏览器（版本：73及以上的正式版本），或Firefox浏览器（版本：66及以上的正式版本)

4、开始答题前会进行身份验证，需要您拍摄并上传身份证人像面照片，并按照系统要求开启摄像头进行面部识别

5、考试过程中请保持摄像头开启并对准面部，系统会不定时进行抓拍，并与身份证照片做对比，如发现作弊行为，您的考试成绩将作废

6、考试过程中，系统将判断您的浏览器状态，如发现最小化浏览器、切换标签页、窗口缩小或扩大等行为，以及弹出广告弹窗，将会给出警告。如果次数过多您的考试成绩将作废

7、考试前请关闭即时通信软件以及其他可能会有弹窗的软件，以免影响您的考试

二、基本要求解读

阿里云 ACP 考试以客观题 为主，无主观题、无实验题 ，整体为120 分钟、100 题、满分 100 分、 80 分及格。

（一）主流 ACP 方向（云计算 / 云安全 / 大数据等）题型

单选题 ：70 题 × 1 分 = 70 分
- 四选一，只有 1 个正确答案
- 侧重基础概念、产品功能、操作流程、简单场景判断
多选题 ：30 题 × 1 分 = 30 分
- 五选多，多选、少选、错选均不得分
- 侧重架构设计、方案选型、多产品组合、最佳实践、安全策略

（二）大模型 ACP（特殊）

单选题 ：50 题 × 1 分 = 50 分
多选题 ：25 题 × 2 分 = 50 分
总分100 分 ，及格线80 分

（三）答题规则

闭卷机考，中途不可暂停、不可回看、提交后无法修改
超时自动交卷
全程摄像头监控，切屏 / 弹窗过多会被警告

三、阿里云云计算ACA - ACP认证考试模拟试卷

备注：模拟试题库对应模拟试题按70:30-单选题-多选题，真题一般50:25

部分题对应代码在网络抓取中未提取到，暂时可忽略，适当猜测题库题型即可！

（一）单选题：70 题 × 1 分 = 70 分

1. 以下哪种用法不能有效利用 system 角色提示词?

A. 限制模型的输出行为

B. 设定对话的背景和目标

C. 直接回答用户问题

D. 提供特定领域的知识

2. 通义听悟主要聚焦于哪种类型的数据处理能力？

A. 将图像转换为高质量的视频内容

B. 结合图像和文本进行创造性内容生成

C. 基于音频内容生成文字记录、摘要及翻译

3. 你需要大模型对用户输入的新闻内容进行分类（体育/经济/娱乐三种）。为提升准确性且便于程序解析，以下哪个提示词更合理？

A. 请根据下面提供的内容判断其类别（体育 / 经济 / 娱乐），只输出判断结果。内容是

B. 请根据下面提供的内容判断其类别（体育 / 经济 / 娱乐）。先输出思考过程，再在最后一行用 "结论。" 开头写明类别。内容是

C. 请根据下面提供的内容判断其类别（体育 / 经济 / 娱乐），以 JSON 格式输出，"reason" 原因，"type" 类别。如 $体育 / 经济 / 娱乐$ 内容是

D. 请根据下面提供的内容判断其类别（体育 / 经济 / 娱乐），用符号分隔。思考过程 | 类别结果。内容是...

4. 在切片向量化与存储阶段，以下哪种 Embedding 模型是 OpenAI 提供的？

A. text-embedding-3-small

B. text-embedding-v2

C. 增加模型的训练数据

5. 实现早停法（early stopping）时，通常在哪种情况下停止训练？

A. 验证集损失连续 n 轮不再下降

B. 验证集准确率达到 100%

C. 训练集损失达到最小值

D. 训练集准确率连续 n 轮上升

6. 如果你基于网页版的大模型写了以下提示词。（请你生成一份一季度财务报告）。以下哪些建议是合理的，可以帮助改进这个提示词？

A. 提供公司特有的财务报告格式模板或示例，以确保生成的报告符合格式要求。

B. 提供具体的财务数据和关键指标，以便模型能够准确地填充报告。

C. 指定该报告的期望长度。

D. 以上所有

7. 在问题处理策略中，通过将复杂问题拆解为更小、更易管理的部分来改善理解的是哪个方法？

A. RAG-Fusion问题过滤融合

B. Multi-Query多路召回

C. Sentence Sliding句子滑窗

D. Decomposition问题分解

8. 在top_p=0.5的设置下，大模型的输出会有什么特点？

A. 输出内容非常多样化

B. 输出内容相对单一

C. 输出内容完全随机

9. 公司新发了《远程办公规定》，你想让现有答疑机器人掌握这份规定的内容。基于已经搭建好的RAG应用，你应该怎么做？

A. 在提示词模板中增加远程办公规定的内容

B. 将新文档分块后更新向量数据库

C. 微调大模型以确保大模型能理解新规定的内容

D. 使用纯规则引擎匹配

10. 在优化后的答疑机器人中，以下哪种方法可以节省资源？

A. 根据问题类型选择不同的提示词和工作流程

B. 增加模型的训练数据

C. 减少模型的推理时间

11. 如何从百炼大模型的接口返回结果中获取模型生成的文本？

A. python pythonprint(completion.message.content)

B. python pythonprint(completion.choices $0$ .message)

C. python pythonprint(completion.choices.message.content)

D. python pythonprint(completion.choices $0$ .message.content)

12. 某公司推出了一款 "大小模型协同" 系统，使用小模型处理常规问答，大模型处理复杂推理或文档分析。系统还采用了多智能体架构，然而系统经常把一些简单 FAQ 也交给大模型处理，浪费了算力。为了解决该问题，以下哪种做法最有效？

A. 在 Planner Agent 中增加任务复杂度判断逻辑，优先调用小模型处理简单 FAQ

B. 对小模型进行额外训练，提升其对更多类型问题的处理能力，从而减轻大模型负担

C. 在工具函数描述中添加更多示例，让大模型能更准确区分不同请求的复杂度

D. 为 Summary Agent 提供更多训练数据，确保最终回答更加全面

13. 在以下代码片段中，model="qwen-plus"的作用是什么？

A. 指定使用的模型

B. 增加输出的多样性

C. 使输出更具确定性

14. 在检索召回阶段，以下哪种方法用于在检索后减少无关信息？

A. 重排序

B. 问题改写

C. 问题扩写

15. 在大模型的问答工作流程中，哪个阶段负责将Token转化为固定维度的向量？

A. 输入文本分词化

B. Token向量化

C. 大模型推理

16. 在文档切片过程中，以下哪种切片方法会包含周围的句子作为上下文窗口？

A. 句子窗口切片

B. Token 切片

C. 句子切片

17. 使用Python notebook调用大模型API处理调查问卷时，以下哪个步骤不是必要的？

A. 安装并配置API软件依赖库

B. 编写代码循环遍历每份问卷并调用大模型接口

C. 为每种可能的问卷答案编写详细的人工判断逻辑

18. 下列关于利用列表给通义千问大模型增加记忆的描述中，哪一项是不正确的？

A. 每次交互前，可以在列表中添加新的对话记录

B. 列表中存储的信息会随每次请求自动清除

C. 列表可以作为上下文连同新问题一起发送给模型

19. 你正在基于某视觉理解大模型开发一个门店巡检系统（检查垃圾桶是否盖好、操作是否整洁、水池是否洗干净等），但发现用大模型同时识别判断场景、给出判断结果的效果总是不好，以下哪种改进方案能更低成本地解决这一问题？

A. 增加更多的监控摄像头，给大模型更多的输入信息

B. 收集一批高质量的监控画面数据，面向巡检任务微调大模型

C. 改进当前的数据输入，减少监控画面的分辨率，避免引入干扰信息

D. 用物体分割小模型圈出识别区域，然后抠图输入给大模型检测状态

20. 在检索召回阶段，以下哪些方法通过滑动窗口检索补充相邻切片？

A. 滑动窗口检索

B. 问题改写

C. 重排序

21. 在检索阶段，一般是如何找到知识库中最相关的文本段的？

A. 通过 embedding 模型比较用户输入与各文本段的语义相似度

B. 找出过往历史对话经常涉及的文本段，每次回复时都输入给大模型

C. 比较用户输入与各文本段的重合字数

D. 由大模型来判断哪个文本段最相关

22. 以下哪个步骤不是 RAG 工作流程中 "建立索引" 阶段的一部分？

A. 将用户问题转换为向量表示

B. 将长文本切成更小的片段

C. 将文档解析为纯文本

D. 将文本片段转换为向量表示

23. 为了让大模型能够回答私域知识问题，以下哪种方法更加简便且高效？

A. 微调模型

B. 训练新模型

C. 通过提示词传递私域知识

24. 在文档切片过程中，以下哪种切片方法可以精确控制 Token 数量？

A. Token 切片

B. 句子切片

C. 句子窗口切片

25. 某大模型客服系统被攻击者通过提示词注入获取知识库元数据，以下哪个措施能更有效防范这一问题？选项：

A. 改进提示词，确保模型在回答问题时避免回答列表形式的内容

B. 改进提示词，让大模型避免回答这类问题

C. 改进提示词，并且在输入阶段过滤无数据 "关键词

D. 在知识库检索前严格限制应用的数据访问权限，避免泄露公开信息

26. 百炼提供了一系列 LlamaIndex 组件，其主要目的是什么？

A. 方便继续使用熟悉的 LlamaIndex API 构建 RAG应用

B. 提高模型训练速度

C. 减少数据存储需求

27. 在保存与加载索引时，index.storage_context.persist方法的主要作用是什么？

A. 将索引保存为本地文件

B. 将指定文件夹中的文件加载为document对象

C. 将文本向量化

28. 你在为一个创意写作工具调整大模型生成内容，以下哪个参数可以用来控制生成内容的多样性？

A. temperature

B. stream

C. max_token

D. api_key

29. 在RAG应用的多轮对话中，query_engine的主要作用是什么？

A. 创建用于提问的引擎

B. 增加模型的训练数据

C. 减少模型的推理时间

30. 某电商平台计划使用 RAG 模型构建智能客服系统，帮助用户查询商品信息。以下关于该系统的评测方法，哪一项是正确的？

A. 生成模块是系统的核心，应优先优化生成阶段的知识总结能力。

B. 应重点评估检索模块的表现，因为商品信息的准确性和相关性直接影响最终生成的结果。

C. 应对检索阶段和生成阶段分别进行评测，以便全面优化系统性能。

D. 评测时只需关注最终回答的准确性，因为用户的满意度主要取决于答案是否正确。

31. 某律所在优化法律问答机器人应用时发现它总是无法准确回答交通法的内容，应优先？

A. 在大模型提示词中强调要准确回答交通法内容

B. 进行query的改写

C. 优化文档切分策略

D. 补充交通法相关的训练数据

32. 如果将 top_p 设置为一个非常小的值，例如 0.1，模型的生成结果会有什么特点？

A. 生成结果长度会变短。

B. 生成结果更加保守，倾向于选择概率最高的少数几个词，多样性降低。

C. 生成结果长度会变长。

D. 生成结果更加多样化。

33. 在优化检索效果时，若知识库内容充足但精确率低，以下哪种方法是合理的？

A. 增加查询请求的并发量以加快响应速度

B. 增加知识库文档

C. 降低相似度阈值

D. 加入 rerank 的步骤

34. 在提示词框架中，以下哪些要素可以用于明确大模型的具体任务？

A. 任务目标（Object）

B. 上下文（Context）

C. （Role）

35. 以下哪个提示词示例最有效地利用了分隔符来区分不同的要素？

A. plaintext ... ## 任务目标写一首关于春天的诗 ## 受众儿童 ## 输出格式四行诗

B. plaintext ... 任务目标是写一首关于春天的诗，受众是儿童，输出格式是四行诗。

C. plaintext ... 任务目标，写一首关于春天的诗，受众，儿童，输出格式，四行诗

D. plaintext ... 任务目标写一首关于春天的诗受众儿童输出格式四行诗

36. 以下哪种方式不符合"优化RAG过程"的最佳实践？

A. 使用DashScope Parse解析文档,提取文本和图片信息

B. 使用通义千问API润色目录层级,补全缺失信息

C. 直接将原始PDF文档内容输入向量数据库

37. 以下描述中哪一项不属于通过多智能体进行文档质量检测的优势?

A. 可以更专业地针对每种错误类型进行检测

B. 相较于单一模型

C. 做汇总的智能体可以直接将结果拼接在一起输出

38. 某 RAG 系统回答"张伟是哪个部门的"时，总是只检索到一个无关切片，导致答案不准确。为改进检索效果，下列哪种做法有助于改善这个问题？

A. 换用更大参数量的大模型

B. 提高检索时的召回数量（Top K）

C. 放弃知识库，全部"对话式"推理

39. 假设你需要统计每种意图出现的次数，以下哪个代码片段实现了这个功能？

A. python intent_counts = {} for i in range(len(feedback_list)): intent = classify_intent(feedback_list $i$ $0$ ) intent_counts $intent$ += 1 print(intent_counts)

B. python intent_counts = {} for id, query in feedback_list: intent = classify_intent(query) intent_counts $intent$ = intent_counts.get(intent, 0) + 1 print(intent_counts)

C. python intent_counts = {} for id, query in feedback_list:intent = classify_intent(id) if intent in intent_counts: intent_counts $intent$ = 1 else: intent_counts $intent$ = 0 print(intent_counts)

D. python intent_counts = \[\] for query in feedback_list: intent = classify_intent(query $1$ ) intent_counts.append(intent) print(intent_counts)

40. 在大语言模型微调的训练循环中，哪个步骤负责计算模型输出与真实标签之间的差异？

A. 反向传播

B. 参数初始化

C. 梯度更新

D. 正向传播

41. 你准备了一批 txt 格式的公司制度文档，准备将其用于 RAG，若要让 RAG 后续能快速进行相似度检索，下列哪项是必需的？

A. 手动把 txt 文件改为 JSON 格式

B. 对文本进行嵌入（embedding）并将向量存进向量数据库

C. 先对这些 txt 文件进行加密存储

D. 在检索时把 txt 文件原样拼给大模型

42. 在 Answer Correctness 的计算过程中，事实准确度是通过什么模型生成的？

A. 大模型

B. Embedding 模型

C. 增加模型的训练数据

43. Ragas 提供的以下哪些指标用于评估生成答案与检索资料的事实一致性？

A. Faithfulness

B. Answer Relevancy

C. Context Precision

44. 在开发过程中，你发现大模型调用某工具函数时常因输入参数格式错误而失败，最可能的原因是？

A. 大模型运行时受到系统资源限制（如内存或处理延迟）影响，导致在处理复杂输入文本时发生数据截断或错误，生成错误的参数格式。

B. 用户输入中可能包含非标准符号或格式不规范的内容，误导大模型在调用参数时产生偏差。

C. 工具函数发生了变化，造成数据传输时自动转换格式出现问题，从而影响参数的正确生成。

D. 工具函数的参数描述信息不足，未明确规定输入参数的具体格式，导致大模型生成调用参数时出现偏差。

45. 使用模型检查点（checkpointing）保存模型时，一般会保存哪种情况下的模型？

A. 验证集性能最好的模型

B. 训练结束时的模型

C. 每次迭代后的模型

D. 训练初期的模型

46. 我们可以使用比较成熟的RAG应用测试框架Ragas来评估RAG应用的效果，Ragas包含了多种评测指标，其中faithfulness、answer_relevancy、context_recall、context_precision指标中，哪个指标仅评估生成阶段的性能?

A. faithfulness

B. context_precision

C. context_recall

47. 在RAG应用的多轮对话中，custom_chat_history的主要作用是什么？

A. 存储历史对话信息

B. 增加模型的训练数据

C. 减少模型的推理时间

48. 你开发了一个专用于医疗场景问答的RAG应用，为了找到优化方向，需要对其进行评测。以下哪个是参与评测必不可少的群体？

A. 算法工程师。只有算法工程师才可以更理解 RAG 应用的设计过程与细节。

B. 数据工程师。数据工程师对数据质量、数据管道和检索系统的底层逻辑有深刻理解。

C. 医疗专家。医疗专家具备领域专业知识，能够从临床实践和医学指南的角度验证 RAG 生成答案的准确性、安全性和实用性。

D. 前端工程师。只有前端工程师更理解用户的交互逻辑，是最懂用户需要的群体。

49. 在下列应用场景中，哪一个最不适合采用单Agent模式进行处理？

A. 自动驾驶汽车的路径规划与决策

B. 智能家居系统中，控制单个房间的温度与光线

C. 复杂工业生产线上，监控并优化整体生产流程

50. 你发现 RAG 应用召回的切片内容虽然和问题相关，但并不包含真实答案。最优先的排查和改进方向是什么？

A. 检查 Embedding 模型的类型及版本

B. 尝试调低 top_k，减少召回范围

C. 优先在弱关联层隐藏检索结果，只呈现大模型的最终回答

D. 为每一条切片附详细的前置叙述，希望大模型自动补齐缺失内容

51. 在代码中，Dataset.from_dict(data_samples) 的主要作用是什么？

A. 将字典数据转换为数据集

B. 增加模型的训练数据

C. 减少模型的推理时间

52. LlamaIndex 在创建 RAG 应用时，第一步 SimpleDirectoryReader 是将知识文件解析为?

A. Document 对象

B. 元素为 Document 对象的列表

C. 索引 index

D. 包含所有文字信息的字符串

53. 在以下代码片段中，api_key=os.getenv("DASHSCOPE_API_KEY")的作用是什么？

A. 设置API密钥

B. 增加输出的多样性

C. 使输出更具确定性

54. 在ask_llm_route函数中，如果问题类型是"文档审查"，会使用哪个提示词？

A. reviewed_prompt

B. translate_prompt

C. query_engine

55. 你想通过语音命令操作网页，例如，用户说 "我想煮 2 杯咖啡"，系统转译语音后，根据用户位置和互动意图确定位置并点击 "下单" 按钮。由于 UI 复杂，哪项技术最适合精准锚点点击目标按钮？

A. 引入安全审核机制，对所有操作进行预先校验，确保操作前先确定 UI 元素的合法性。

B. 标注页面上的可交互元素，然后结合视觉理解大模型识别并构建应该做出的点击动作。

C. 利用 RAG（检索增强生成）技术，动态检索界面说明文档来辅助识别目标按钮。

D. 采用提示词工程技术，通过优化语言描述指导模型从文本中推断出应操作的 UI 元素。

56. 在意图识别中，使用提示词的主要作用是什么？

A. 引导大模型生成符合预期的回答

B. 增加模型的训练数据

C. 减少模型的推理时间

57. 人工智能按照技术实现的不同可被划分为多个子领域。以下描述错误的是？

A. 机器学习和深度学习是各自独立的分支，主要差别在于使用了不同的模型

B. 机器学习是一门研究计算机如何在没有明确编程的情况下，通过对数据进行分析、学习，自动改进其行为或做出预测的学科

C. 深度学习算法试图模拟人类大脑的工作方式，其灵感来源于神经生物学

58. 如果让大语言模型输出意图分类置信度，但我们发现大语言模型意图分类结果的置信度普遍较低，应该如何处理？

A. 直接忽略置信度,使用预测结果

B. 设置一个置信度阈值

C. 重新训练大模型

59. 在大模型知识问答增强RAG的方案中，哪个技术是通过提出多个相关查询来提高问题理解的广度和深度？

A. Step Back 问题摘要

B. Multi-Query多路召回

C. Decomposition问题分解

60. 在大模型对话的 API 中，assistant 角色的作用是什么？

A. 提供用户输入

B. 监控对话的安全性

C. 设定对话的背景信息

D. 代表模型本身，返回生成的回复

61. 下面哪个 Python 库函数常用于计算 F1 分数?

A. sklearn.metrics.recall_score

B. sklearn.metrics.accuracy_score

C. sklearn.metrics.f1_score

D. sklearn.metrics.precision_score

62. 在设计LLM提示词时使用少样本提示，以下哪项不是提高模型性能的建议？

A. 精选代表性样本

B. 保持提示结构一致性

C. 依赖于模型的归纳能力

63. 在RAG应用的多轮对话中，LlamaIndex提供了什么工具？

A. 快速实现多轮对话

B. 增加模型的训练数据

C. 减少模型的推理时间

64. 在构建 RAG 应用时，以下哪种向量存储方案提供完善的监控和管理工具？

A. 云服务向量存储

B. 内存向量存储

C. 本地向量数据库

65. 模型微调最适合以下解决哪种问题？

A. 需要实时检索最新互联网信息的任务

B. 需要提升模型在特定任务的表现

C. 需要快速响应简单问答的任务

66. 在切片向量化与存储阶段，以下哪些是较旧的 Embedding 模型？

A. text-embedding-v2

B. text-embedding-v3

C. text-embedding-3-small

67. 在 qwen2.5-1.5b 模型训练时，当训练损失持续下降但验证损失开始上升时，说明模型处于什么状态？

A. 欠拟合

B. 过拟合

C. 训练失败

D. 训练成功

68. API AssistantAgent 示例代码_forward_and_submit_outputs 函数的核心功能是什么

A. 获取 Assistant 的回复

B. 创建新的 Assistant

C. 创建新的 Thread

D. 执行 function call 并将结果提交给服务器

E. 等待 Run 完成

F. 向 Assistant 提交用户 query

69. 哪---个项目强调了软件开发中多智能体协作的组织结构扁平化，并能够直接根据用户请求生成全面的软件开发文档套件？

A. 研究斯坦福小镇虚拟社区

B. 搭建虛拟动物社区

C. 用MetaGPT构建软件开发公司

70. 在LLM提示词中，思维链技术与标准提示相比，主要优势是什么？

A. 更快的响速度

B. 更高的推理透明度和可验证性

C. 更低的计算资源消耗

（二）多选题：30 题 × 1 分 = 30 分

1. 以下哪些场景适合设置较高的top_p值？

A. 创意写作

B. 诗歌生成

C. 新闻初稿

2. 在ask_llm_route函数中，以下哪些是提示词中规定的角色背景？

A. 文档纠错专家

B. 翻译专家

C. 增加模型的训练数据

3. 在优化 context recall 指标时，以下哪些措施是可行的？

A. 检查知识库

B. 更换 embedding 模型

C. 使用大模型改写 query

D. 增加模型的训练数据

4. 在构建有效的提示词时，以下哪些是清晰表达需求的关键要素？

A. 任务目标

B. 背景及上下文信息

C. 增加模型的训练数据

5. 在以下代码段中，哪些是设置模型训练参数的例子？

A. learning_rate = 0.001

B. model="qwen-7b - chat"

C. device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

D. optimizer = AdamW(model.parameters(), lr=learning_rate)

E. num_epochs = 3

F. batch_size = 64

6. 某金融智能风控系统在高峰期偶尔出现模型不可用的情况，以下哪些方案可以作为降级策略？

A. 增加 GPU 实例数量

B. 切换至规则引擎兜底

C. 使用备份模型继续服务

D. 关闭部分非核心功能

7. 在自定义提示词模板中，以下哪些是预设的部分信息？

A. 大模型的角色

B. 注意事项

C. 用户的问题

D. 输出的格式

8. 你通过RAG为用户提供商品推荐服务。用户反馈说，在搜索"包子"时，推荐结果中经常出现"书包"的商品信息。后台分析发现，召回阶段确实会夹杂部分无关商品的信息。以下哪些措施能够有效提升该系统的推荐效果？

A. 降低检索阶段的相似度阈值

B. 优化大模型的 prompt，强调要重点关注用户问题，避免输出无关商品信息

C. 在知识库中剔除书包相关的内容

D. 微调大模型，提高其在面对包含噪声数据的信息时筛选有效信息的能力

9. 在切片向量化与存储阶段，以下哪些是 compare_embeddings 函数的参数？

A. query

B. chunks

C. embedding_models

10. 小明开发了一款基于通义千问的 AI 写作助手小程序，计划在微信小程序平台上线。目前小程序已经开发完成，但尚未提交任何合规备案申请。根据相关规定，小明应该如何操作？

A. 直接上线，后续再补充备案材料。

B. 向应用商店提交应用，等待审核通过后再备案。

C. 下架小程序，停止运营。

D. 联系阿里云百炼大模型服务平台，咨询备案流程并按要求提交申请。

E. 无需备案，直接上线即可。

F. 先进行算法备案，获得备案号后再上线。

11. 哪种形式可以用作提示词的分隔符？

A. XML 标签

B. $\\langle \|CO\| \\rangle$

C. 大大

D. ...

E. ##

12. 在RAG应用的多轮对话中，以下哪些方法可以用于改写用户问题？

A. 使用CondenseQuestionChatEngine

B. 使用custom_prompt模板

C. 增加模型的训练数据

13. 以下哪些情况可能导致大模型检索不准确？

A. 文档中包含大量的图片信息，而当前的文档解析器无法有效提取和理解图片内容。

B. 使用了基于深度学习的语义搜索引擎，但模型训练数据不足，导致检索结果不准确。

C. 文档中包含复杂的表格结构，而简单的文本解析器无法理解表格单元格之间的关系。

D. 使用了复杂的文档解析器，导致解析速度慢，影响检索效率。

E. 索引构建过程中使用了错误的 embedding 模型，导致语义相似度计算错误。

F. 文档切片时，仅简单地按照字符长度进行分割，丢失了文档的语义信息。

14. 在 Answer Correctness 的计算过程中，以下哪些是语义相似度的计算方法？

A. 余弦相似度

B. 欧氏距离

C. 曼哈顿距离

D. 增加模型的训练数据

15. 下列代码片段中，哪些涉及模型训练过程中的正则化或优化策略？

A. weight_decay = 0.001

B. ACP 大模型-1.png

C. optimizer = SGD(model.parameters(), lr=0.01, momentum=0.9)

D. scheduler = StepLR(optimizer, step_size=10, gamma=0.1)

E. model = nn.Dropout(p=0.2)

F. criterion = nn.CrossEntropyLoss()

16. 你写了一个提示词"请用适合简报的形式，以每篇100字的篇幅总结今早的十大新闻"，你希望大模型能按照提示词完成任务，以下哪些方案可行？

A. 设计提示词，明确要求大模型要基于今天最新的新闻来总结，避免基于历史新闻总结

B. 设计提示词，结合 function call，让大模型回答时效性问题时，调用搜索工具

C. 整理历史新闻库，构建一个 RAG 应用，让大模型回答时参考知识库中的新闻

D. 使用阿里云百炼平台的 qwen-plus，并且调用 API 时设置 enable_search=True

17. 以下哪些方法可以让大模型能够回答私域知识问题？

A. 微调模型

B. 训练新模型

C. 通过提示词传递私域知识

D. 使用默认模型

18. 在 Answer Correctness 的计算过程中，以下哪些是大模型的作用？

A. 生成 answer 的观点列表

B. ground_truth 的观点列表

C. 增加模型的训练数据

19. 为了尽量减少大模型应用的幻觉，以下哪些措施是有效的？

A. 对生成内容进行后处理和验证

B. 使用参数量小更适合本地部署的模型

C. 引入知识库补充大模型缺少的行业知识

D. 在提示词中要求禁止虚构内容，遇到无法回答的问题可以直接回复不知道

20. 在示例中，以下哪些是提示词中规定的任务要求？

A. 审查文档中有没有错别字

B. 如果出现了错别字，指出错误并给出解释

C. "的" 和 "地" 混淆不算错别字

21. 在以下代码片段中，哪些操作有助于生成更具创造性的文本？

A. 提高temperature值

B. 增加max_tokens值

C. 提高presence_penalty值

22. 在 qwen-plus 对 messages 进行回答后，如果你想按照当前对话基础继续提问，需要怎么做？ LLM_MODEL=DashScope(model name="qwen-plus") messages= $ChatMessage(role=MessageRole.SYSTEM, content="你负责教育内容开发公司的答疑，你的名字叫公司小蜜，你要回答学员的问题。"), ChatMessage(role=MessageRole.USER, content="你好")$

A. 将大模型生成的 Assistant Message 添加到 messages 列表中

B. 对话历史跟着模型名称走，所以只要继续指定模型为 qwen-plus 就可以了

C. 大模型不支持多轮对话

D. 将新的 User Message 添加到 messages 列表中

23. 在切片向量化与存储阶段，以下哪些是 compare_embedding_models 函数的参数？

A. documents

B. question

C. ground_truth

24. 实现早停法（early stopping）策略时，考虑的条件可能包括：

A. 验证损失连续 n 轮不再下降

B. 验证损失达到预设阈值

C. 训练损失持续增加

D. 验证准确率连续提高

E. 训练准确率不再提高

F. 迭代次数达到预定最大值

25. 在ask_llm_route函数中，以下哪些是提示词中规定的任务要求？

A. 文档纠错专家需要言简意赅的回复

B. 翻译专家需要识别不同语言的文本并翻译为中文

C. 增加模型的训练数据

D. 减少模型的推理时间

26. GraphRAG 技术的优势包括哪些？

A. 准确回答具体问题

B. 处理需要深入理解的复杂查询

C. 提高模型训练速度

27. 一家教育科技公司拟开发 AI 教学产品，以下哪些方案能体现 "个性化、智能化、普惠教育"？

A. 自适应学习平台根据学生水平动态调整题库

B. 用 VR 实验室模拟替代昂贵的物理实验，降低教学成本

C. 方言识别系统辅助少数民族学生练习普通话

D. 选择题自动判卷，问答题错别字纠正

28. temperature参数如何影响候选Token的概率分布？

A. 低温度增加高概率Token的选择

B. 高温度增加低概率Token的选择

C. 低温度减少高概率Token的选择

29. 在 context precision 的计算过程中，以下哪些是判断 contexti 是否相关的依据？

A. question

B. ground_truth

C. 增加模型的训练数据

30. Ragas 提供的以下哪些指标用于评估召回阶段？

A. Context Precision

B. Context Recall

C. Answer Correctness

四、致备考 ACP 的每一位同学

这段时间的刷题、记知识点、反复理解架构，其实都在悄悄为你铺路。

ACP 考的不是死记硬背，而是思路清晰、细心稳重。考试时别慌，认真读题，看清单选还是多选，不确定的先标记，相信自己复习过的内容。

愿你：题题都眼熟，道道有把握，心态稳得住，细节不丢分，提笔从容自信，合笔如愿以偿。

**祝大家一次上岸，顺利拿证！**未来在云赛道上，越走越宽、越走越远 ✨

阿里云云计算ACA - ACP认证考试模拟试卷二

一、阿里云云计算ACP认证考试

二、基本要求解读

（一）主流 ACP 方向（云计算 / 云安全 / 大数据等）题型

（二）大模型 ACP（特殊）

（三）答题规则

三、阿里云云计算ACA - ACP认证考试模拟试卷

（一）单选题 ：70 题 × 1 分 = 70 分

1. 以下哪种用法不能有效利用 system 角色提示词?

2. 通义听悟主要聚焦于哪种类型的数据处理能力？

3. 你需要大模型对用户输入的新闻内容进行分类（体育/经济/娱乐三种）。为提升准确性且便于程序解析，以下哪个提示词更合理？

4. 在切片向量化与存储阶段，以下哪种 Embedding 模型是 OpenAI 提供的？

5. 实现早停法（early stopping）时，通常在哪种情况下停止训练？

6. 如果你基于网页版的大模型写了以下提示词。（请你生成一份一季度财务报告）。以下哪些建议是合理的，可以帮助改进这个提示词？

7. 在问题处理策略中，通过将复杂问题拆解为更小、更易管理的部分来改善理解的是哪个方法？

8. 在top_p=0.5的设置下，大模型的输出会有什么特点？

9. 公司新发了《远程办公规定》，你想让现有答疑机器人掌握这份规定的内容。基于已经搭建好的RAG应用，你应该怎么做？

10. 在优化后的答疑机器人中，以下哪种方法可以节省资源？

11. 如何从百炼大模型的接口返回结果中获取模型生成的文本？

13. 在以下代码片段中，model="qwen-plus"的作用是什么？

14. 在检索召回阶段，以下哪种方法用于在检索后减少无关信息？

15. 在大模型的问答工作流程中，哪个阶段负责将Token转化为固定维度的向量？

16. 在文档切片过程中，以下哪种切片方法会包含周围的句子作为上下文窗口？

17. 使用Python notebook调用大模型API处理调查问卷时，以下哪个步骤不是必要的？

18. 下列关于利用列表给通义千问大模型增加记忆的描述中，哪一项是不正确的？

20. 在检索召回阶段，以下哪些方法通过滑动窗口检索补充相邻切片？

21. 在检索阶段，一般是如何找到知识库中最相关的文本段的？

22. 以下哪个步骤不是 RAG 工作流程中 "建立索引" 阶段的一部分？

23. 为了让大模型能够回答私域知识问题，以下哪种方法更加简便且高效？

24. 在文档切片过程中，以下哪种切片方法可以精确控制 Token 数量？

25. 某大模型客服系统被攻击者通过提示词注入获取知识库元数据，以下哪个措施能更有效防范这一问题？ 选项：

26. 百炼提供了一系列 LlamaIndex 组件，其主要目的是什么？

27. 在保存与加载索引时，index.storage_context.persist方法的主要作用是什么？

28. 你在为一个创意写作工具调整大模型生成内容，以下哪个参数可以用来控制生成内容的多样性？

29. 在RAG应用的多轮对话中，query_engine的主要作用是什么？

30. 某电商平台计划使用 RAG 模型构建智能客服系统，帮助用户查询商品信息。以下关于该系统的评测方法，哪一项是正确的？

31. 某律所在优化法律问答机器人应用时发现它总是无法准确回答交通法的内容，应优先？

32. 如果将 top_p 设置为一个非常小的值，例如 0.1，模型的生成结果会有什么特点？

33. 在优化检索效果时，若知识库内容充足但精确率低，以下哪种方法是合理的？

34. 在提示词框架中，以下哪些要素可以用于明确大模型的具体任务？

35. 以下哪个提示词示例最有效地利用了分隔符来区分不同的要素？

36. 以下哪种方式不符合"优化RAG过程"的最佳实践？

37. 以下描述中哪一项不属于通过多智能体进行文档质量检测的优势?

38. 某 RAG 系统回答"张伟是哪个部门的"时，总是只检索到一个无关切片，导致答案不准确。为改进检索效果，下列哪种做法有助于改善这个问题？

39. 假设你需要统计每种意图出现的次数，以下哪个代码片段实现了这个功能？

40. 在大语言模型微调的训练循环中，哪个步骤负责计算模型输出与真实标签之间的差异？

41. 你准备了一批 txt 格式的公司制度文档，准备将其用于 RAG，若要让 RAG 后续能快速进行相似度检索，下列哪项是必需的？

42. 在 Answer Correctness 的计算过程中，事实准确度是通过什么模型生成的？

43. Ragas 提供的以下哪些指标用于评估生成答案与检索资料的事实一致性？

44. 在开发过程中，你发现大模型调用某工具函数时常因输入参数格式错误而失败，最可能的原因是？

45. 使用模型检查点（checkpointing）保存模型时，一般会保存哪种情况下的模型？

46. 我们可以使用比较成熟的RAG应用测试框架Ragas来评估RAG应用的效果，Ragas包含了多种评测指标，其中faithfulness、answer_relevancy、context_recall、context_precision指标中，哪个指标仅评估生成阶段的性能?

47. 在RAG应用的多轮对话中，custom_chat_history的主要作用是什么？

48. 你开发了一个专用于医疗场景问答的RAG应用，为了找到优化方向，需要对其进行评测。以下哪个是参与评测必不可少的群体？

49. 在下列应用场景中，哪一个最不适合采用单Agent模式进行处理？

50. 你发现 RAG 应用召回的切片内容虽然和问题相关，但并不包含真实答案。最优先的排查和改进方向是什么？

51. 在代码中，Dataset.from_dict(data_samples) 的主要作用是什么？

52. LlamaIndex 在创建 RAG 应用时，第一步 SimpleDirectoryReader 是将知识文件解析为?

53. 在以下代码片段中，api_key=os.getenv("DASHSCOPE_API_KEY")的作用是什么？

54. 在ask_llm_route函数中，如果问题类型是"文档审查"，会使用哪个提示词？

55. 你想通过语音命令操作网页，例如，用户说 "我想煮 2 杯咖啡"，系统转译语音后，根据用户位置和互动意图确定位置并点击 "下单" 按钮。由于 UI 复杂，哪项技术最适合精准锚点点击目标按钮？

56. 在意图识别中，使用提示词的主要作用是什么？

57. 人工智能按照技术实现的不同可被划分为多个子领域。以下描述错误的是？

58. 如果让大语言模型输出意图分类置信度，但我们发现大语言模型意图分类结果的置信度普遍较低，应该如何处理？

59. 在大模型知识问答增强RAG的方案中，哪个技术是通过提出多个相关查询来提高问题理解的广度和深度？

60. 在大模型对话的 API 中，assistant 角色的作用是什么？

61. 下面哪个 Python 库函数常用于计算 F1 分数?

62. 在设计LLM提示词时使用少样本提示，以下哪项不是提高模型性能的建议？

63. 在RAG应用的多轮对话中，LlamaIndex提供了什么工具？

64. 在构建 RAG 应用时，以下哪种向量存储方案提供完善的监控和管理工具？

65. 模型微调最适合以下解决哪种问题？

66. 在切片向量化与存储阶段，以下哪些是较旧的 Embedding 模型？

67. 在 qwen2.5-1.5b 模型训练时，当训练损失持续下降但验证损失开始上升时，说明模型处于什么状态？

68. API AssistantAgent 示例代码_forward_and_submit_outputs 函数的核心功能是什么

69. 哪---个项目强调了软件开发中多智能体协作的组织结构扁平化，并能够直接根据用户请求生成全面的软件开发文档套件？

70. 在LLM提示词中，思维链技术与标准提示相比，主要优势是什么？

（二）多选题 ：30 题 × 1 分 = 30 分

1. 以下哪些场景适合设置较高的top_p值？

2. 在ask_llm_route函数中，以下哪些是提示词中规定的角色背景？

3. 在优化 context recall 指标时，以下哪些措施是可行的？

（一）单选题：70 题 × 1 分 = 70 分

25. 某大模型客服系统被攻击者通过提示词注入获取知识库元数据，以下哪个措施能更有效防范这一问题？选项：

（二）多选题：30 题 × 1 分 = 30 分