大模型LLM ACA - ACP认证考试模拟试卷六答案参考

[一、大模型LLM ACA - ACP认证考试](#一、大模型LLM ACA - ACP认证考试)

[二、大模型LLM ACA - ACP认证考试模拟试卷](#二、大模型LLM ACA - ACP认证考试模拟试卷)

[（一）单选题：70 题 × 1 分 = 70 分](#（一）单选题：70 题 × 1 分 = 70 分)

[1. 正确答案: A](#1. 正确答案: A)

[2. 正确答案: C](#2. 正确答案: C)

[3. 正确答案: C](#3. 正确答案: C)

[4. 正确答案: B](#4. 正确答案: B)

[5. 正确答案: A](#5. 正确答案: A)

[6. 正确答案: C](#6. 正确答案: C)

[7. 正确答案: A](#7. 正确答案: A)

[8. 正确答案: C](#8. 正确答案: C)

[9. 正确答案: C](#9. 正确答案: C)

[10. 正确答案: A](#10. 正确答案: A)

[11. 正确答案: C](#11. 正确答案: C)

[12. 正确答案: A](#12. 正确答案: A)

[13. 正确答案: A](#13. 正确答案: A)

[14. 正确答案: A](#14. 正确答案: A)

[15. 正确答案: B](#15. 正确答案: B)

[16. 正确答案: B](#16. 正确答案: B)

[17. 正确答案: D](#17. 正确答案: D)

[18. 正确答案: D](#18. 正确答案: D)

[19. 正确答案: A](#19. 正确答案: A)

[20. 正确答案: C](#20. 正确答案: C)

[21. 正确答案: A](#21. 正确答案: A)

[22. 正确答案: D](#22. 正确答案: D)

[23. 正确答案: A](#23. 正确答案: A)

[24. 正确答案: C](#24. 正确答案: C)

[25. 正确答案: B](#25. 正确答案: B)

[26. 正确答案: A](#26. 正确答案: A)

[27. 正确答案: B](#27. 正确答案: B)

[28. 正确答案: A](#28. 正确答案: A)

[29. 正确答案: F](#29. 正确答案: F)

[30. 正确答案: A](#30. 正确答案: A)

[31. 正确答案: A](#31. 正确答案: A)

[32. 正确答案: C](#32. 正确答案: C)

[33. 正确答案: C](#33. 正确答案: C)

[34. 正确答案: C](#34. 正确答案: C)

[35. 正确答案: A](#35. 正确答案: A)

[36. 正确答案: B](#36. 正确答案: B)

[37. 正确答案: D](#37. 正确答案: D)

[38. 正确答案: D](#38. 正确答案: D)

[39. 正确答案: B](#39. 正确答案: B)

[40. 正确答案: B](#40. 正确答案: B)

[41. 正确答案: A](#41. 正确答案: A)

[42. 正确答案: A](#42. 正确答案: A)

[43. 正确答案: B](#43. 正确答案: B)

[44. 正确答案: A](#44. 正确答案: A)

[45. 正确答案: D](#45. 正确答案: D)

[46. 正确答案: A](#46. 正确答案: A)

[47. 正确答案: B](#47. 正确答案: B)

[48. 正确答案: A](#48. 正确答案: A)

[49. 正确答案: A](#49. 正确答案: A)

[50. 正确答案: B](#50. 正确答案: B)

[51. 正确答案: B](#51. 正确答案: B)

[52. 正确答案: A](#52. 正确答案: A)

[53. 正确答案: D](#53. 正确答案: D)

[54. 正确答案: C](#54. 正确答案: C)

[55. 正确答案: C](#55. 正确答案: C)

[56. 正确答案: C](#56. 正确答案: C)

[57. 正确答案: C](#57. 正确答案: C)

[58. 正确答案: B](#58. 正确答案: B)

[59. 正确答案: B](#59. 正确答案: B)

[60. 正确答案: B](#60. 正确答案: B)

[61. 正确答案: C](#61. 正确答案: C)

[62. 正确答案: D](#62. 正确答案: D)

[63. 正确答案: C](#63. 正确答案: C)

[64. 正确答案: D](#64. 正确答案: D)

[65. 正确答案: A](#65. 正确答案: A)

[66. 正确答案: D](#66. 正确答案: D)

[67. 正确答案: B](#67. 正确答案: B)

[68. 正确答案: A](#68. 正确答案: A)

[69. 正确答案: A](#69. 正确答案: A)

[70. 正确答案: D](#70. 正确答案: D)

[（二）单选题：30 题 × 1 分 = 30 分](#（二）单选题：30 题 × 1 分 = 30 分)

[1. 正确答案: ABC](#1. 正确答案: ABC)

[2. 正确答案: AB](#2. 正确答案: AB)

[3. 正确答案: ACDEF](#3. 正确答案: ACDEF)

[4. 正确答案: ABC](#4. 正确答案: ABC)

[5. 正确答案: AB](#5. 正确答案: AB)

[6. 正确答案: ACD](#6. 正确答案: ACD)

[7. 正确答案: AB](#7. 正确答案: AB)

[8. 正确答案: AB](#8. 正确答案: AB)

[9. 正确答案: CDEF](#9. 正确答案: CDEF)

[10. 正确答案: AB](#10. 正确答案: AB)

[11. 正确答案: CD](#11. 正确答案: CD)

[12. 正确答案: ACD](#12. 正确答案: ACD)

[13. 正确答案: CDF](#13. 正确答案: CDF)

[14. 正确答案: ABC](#14. 正确答案: ABC)

[15. 正确答案: ABC](#15. 正确答案: ABC)

[16. 正确答案: BD](#16. 正确答案: BD)

[17. 正确答案: AB](#17. 正确答案: AB)

[18. 正确答案: ABCD](#18. 正确答案: ABCD)

[19. 正确答案: AB](#19. 正确答案: AB)

[20. 正确答案: ABDF](#20. 正确答案: ABDF)

[21. 正确答案: BCD](#21. 正确答案: BCD)

[22. 正确答案: ACD](#22. 正确答案: ACD)

[23. 正确答案: A,B](#23. 正确答案: A,B)

[24. 正确答案: AC](#24. 正确答案: AC)

[25. 正确答案: AD](#25. 正确答案: AD)

[26. 正确答案: AC](#26. 正确答案: AC)

[27. 正确答案: AC](#27. 正确答案: AC)

[28. 正确答案: AB](#28. 正确答案: AB)

[29. 正确答案: ACD](#29. 正确答案: ACD)

[30. 正确答案: AB](#30. 正确答案: AB)

一、大模型LLM ACA - ACP认证考试

探索未来智能的钥匙------ACA-ACP大模型工程师认证专栏导读（含十套模拟真题和真题精选）

请认真阅读考试须知后，准备好相关资料开始进行防作弊验证。验证通过后将正式开始考试。

答题开始即开始计时，中途不可暂停，如超时则自动提交

1、考试共 (100) 道题，总分100分，及格分数80分。（模拟试题库对应模拟试题按70:30-单选题-多选题，真题一般50:25 ）

2、考试需在（120分钟）内交卷，过程中无法暂停，请提前安排好时间；如未及时交卷，则本次考试作废

3、推荐使用 Chrome 浏览器（版本：73及以上的正式版本），或Firefox浏览器（版本：66及以上的正式版本)

4、开始答题前会进行身份验证，需要您拍摄并上传身份证人像面照片，并按照系统要求开启摄像头进行面部识别

5、考试过程中请保持摄像头开启并对准面部，系统会不定时进行抓拍，并与身份证照片做对比，如发现作弊行为，您的考试成绩将作废

6、考试过程中，系统将判断您的浏览器状态，如发现最小化浏览器、切换标签页、窗口缩小或扩大等行为，以及弹出广告弹窗，将会给出警告。如果次数过多您的考试成绩将作废

7、考试前请关闭即时通信软件以及其他可能会有弹窗的软件，以免影响您的考试

**祝大家一次上岸，顺利拿证！**未来在云赛道上，越走越宽、越走越远 ✨

二、大模型LLM ACA - ACP认证考试模拟试卷

大模型LLM ACA - ACP认证考试模拟试卷六

（一）单选题：70 题 × 1 分 = 70 分

1. 正确答案: A

本题考查LlamaIndex框架中查询引擎创建的基本概念。

A选项正确，因为在LlamaIndex框架中，query_engine = index.as_query_engine()是标准的创建查询引擎的方法，该方法从已构建的索引对象生成一个可查询的引擎实例，用于后续的问答和检索操作。

B选项错误，因为设置召回切片最大数量需要通过retriever参数或相关配置项来实现，而不是as_query_engine()方法的主要作用。

C选项错误，因为重排序切片数量的设置通常通过rerank参数或专门的重排序器配置来完成，与查询引擎的创建过程不同。

2. 正确答案: C

本题考查数据集准备对模型微调效果影响的知识点。

C选项错误，因为忽视数据平衡性会导致模型偏向样本数量多的类别，在训练过程中学习到有偏的特征表示，从而影响模型在少数类别上的表现，最终导致整体微调效果不佳。

A选项正确，因为精心筛选与应用场景高度相关的样本能够提高模型在特定领域的适应性，有助于获得更好的微调效果。

B选项正确，因为大规模收集数据可以增强模型的泛化能力，提供更多样化的训练样本，有利于提升模型性能。

3. 正确答案: C

选项A错误：embedding 模型在检索阶段通常对预先切分好的文本块做向量化并进行相似度检索，不会改变文本块内部的原始顺序，更不会打乱句子或字符顺序。顺序错乱通常发生在文本解析或切分阶段。
选项B错误：rerank 模型的作用是在候选段落/文档之间进行重排序，它不会对字符级或句子级内容做重新排列，因此不可能导致句子被"截断并被另一句话接上"的现象。
选项C正确：多栏（分栏）PDF 若未被正确解析，常见问题就是文本流顺序被错误合并，例如左栏一句话还未结束就被右栏的开头接上，导致日志里看到句子被另一句话打断。这与题干描述完全吻合。
选项D错误：大模型是否能准确还原内容与生成阶段有关，但题干提到的问题已在"召回的文本段"里出现，说明问题发生在检索/解析环节，而非大模型生成能力本身。

4. 正确答案: B

题干要求找出"不能保证关键数据的语义独立性与完整性"的做法。

A：针对不同数据类型采用差异化处理有助于保留各自的结构与语义（如表格结构、图像元信息、文本层级），总体上有利于语义独立性与完整性，属于正向做法。
B：将标题下的所有文本合并成一个段落会打乱原有的层级、段落、列表等结构边界，容易把多个语义单元糅合在一起，使关键数据缺乏清晰边界与上下文，因而无法保证语义独立性与完整性。
C：为表格的每一行/单元格扩写并补充各级标题与表头字段说明，能为单元格数据提供充分上下文，使其可以独立理解，明显有助于语义独立与完整。
D：明确要求每个语义单元具有清晰边界与完整上下文，正是保证语义独立性与完整性的核心原则。

综合判断，B项是不能保证语义独立性与完整性的做法。

5. 正确答案: A

本题考查RAG应用中多轮对话实现工具的选择。

A选项正确，因为LlamaIndex是一个完整的框架，提供了专门用于构建多轮对话系统的组件和工具，支持上下文管理和历史对话处理，能够快速实现多轮对话功能。

B选项错误，因为SimpleDirectoryReader主要用于读取目录中的文档数据，是数据加载工具，不具备多轮对话的核心功能。

C选项错误，因为VectorStoreIndex主要用于向量存储和检索，虽然对RAG系统很重要，但不能直接实现多轮对话功能。

6. 正确答案: C

本题考查大模型交互中的上下文管理和对话连续性策略。

A选项正确，因为提供完整的对话历史能够帮助大模型理解完整的语境，保持对话的连贯性和个性化特征，有利于模型基于完整背景进行准确回应。

B选项正确，因为利用上下文管理机制保留最近几轮对话是平衡性能和连续性的有效策略，既能维持必要的上下文信息，又能避免过长的历史记录影响效率。

C选项错误，因为每次发送新问题时清空前一次问答结果会破坏对话的连续性，导致模型无法获取历史上下文信息，无法实现个性化的交互体验。所以选项C是最不推荐的策略。

7. 正确答案: A

本题考查提示词工程中输出格式规范的作用。

A选项正确，因为在提示词中规定输出格式能够引导大模型按照预设的结构进行响应，确保输出数据的一致性和可预测性，便于后续处理和分析。

B选项错误，因为规定输出格式并不会增加模型的训练数据，这只是在推理阶段对模型输出的约束。

C选项错误，因为输出格式的规定主要影响的是输出的结构化程度，而不是直接影响模型的推理时间。

8. 正确答案: C

本题考查RAG应用优化策略和意图识别的应用场景。

C选项正确，因为通过意图识别可以区分用户问题是内部流程相关还是通识性问题，针对不同类型问题采用不同处理策略，内部问题利用RAG检索企业知识库获得准确答案，通识性问题则直接由大模型回答。

A选项错误，因为完全禁用RAG会失去对内部流程问题的高准确率优势。

B选项错误，因为扩大RAG检索范围可能引入不相关信息，且无法解决通识性问题质量差的根本原因。

9. 正确答案: C

本题考查思维链技术在大语言模型应用中的适用场景。

C选项正确，因为思维链技术专门用于解决需要多步推理和逻辑分析的复杂问题，数学难题通常涉及详细的计算步骤和严密的逻辑推导过程，正是思维链技术发挥优势的最佳场景。

A选项错误，因为简单的问答任务如询问天气等事实性问题，不需要复杂的推理过程，使用思维链技术会造成资源浪费。

B选项错误，因为写日记等创意写作任务更注重流畅性和自然性，过多的推理步骤反而会影响文本的连贯性。

10. 正确答案: A

本题考查文档切片方法的选择原则和适用场景。

A选项正确，因为Token切片能够精确控制每个切片中的Token数量，通过预设的Token阈值来确保每个片段都符合指定的数量要求，这对于需要严格控制输入长度的模型应用场景非常重要。

B选项错误，因为句子切片以句子为单位进行分割，无法精确控制Token数量，不同句子的长度差异很大，可能导致某些切片超出Token限制。

C选项错误，因为句子窗口切片虽然考虑了上下文连续性，但仍然基于句子长度进行切分，同样无法保证严格的Token数量控制。

11. 正确答案: C

A:错误。Assistant API作为上层封装，仍受底层模型与平台的配额、速率限制与合规规则约束，不具备绕过调用限制的能力。

B:错误。Assistant API是推理与编排接口，不提供对底层模型训练过程的控制；即便平台支持微调，也不属于"完全控制模型底层训练"。

C:正确。百炼的Assistant API通常内置会话管理、工具调用（如联网搜索、知识库/检索等）、上下文状态维护等能力，降低开发者自行实现这些功能的复杂度，从而简化Agent开发。

D:错误。Assistant API的主要优势在于能力编排与工具集成，并非开放底层未公开的模型参数；它不会让开发者随意修改大模型API未提供的低层参数，因而不构成"更灵活"的低层参数控制。

12. 正确答案: A

本题考查代码中index.as_query_engine方法的功能作用。

A选项正确，因为index.as_query_engine方法的主要作用是创建一个查询引擎，该引擎可以接收用户的问题并返回相应的答案，这是其核心功能。

B选项错误，因为该方法并不涉及增加模型训练数据的功能，它主要用于查询而非训练过程。

C选项错误，因为该方法的主要目的不是减少推理时间，而是提供查询接口来处理用户请求。

13. 正确答案: A

A. 蒸馏小模型：通过知识蒸馏将大模型压缩为更小参数量的模型，直接减少权重存储和计算时的激活/缓存开销，显著降低显存需求，是减小显存占用的有效手段。
B. 扩大允许的输入 Token 长度：更长的序列会线性增加注意力的KV缓存（以及可能的中间激活）大小，显著增大推理时显存占用，不利于节省显存。
C. 微调现有模型：微调提升效果但不改变基座模型参数规模（除非采用结构性压缩/蒸馏/剪枝等）。常规微调（包括LoRA在推理合并后）并不降低模型在推理时的显存占用。
D. 提高模型批量任务数量（增大batch size）：批量越大，需要并行保留的激活/缓存越多，推理显存占用随之增加，不利于减少显存。

综上，只有A有助于减少显存需求。

14. 正确答案: A

本题考查RAG应用中处理大规模文本数据的技术选择。

A选项正确，因为GraphRAG是专门设计用于处理大规模文本数据的先进技术，它通过图结构来组织和检索信息，能够有效处理海量文档并建立实体间的关系连接，提供更精准的检索和推理能力。

B选项错误，因为自然语言处理虽然重要，但它是基础技术而非专门针对大规模数据处理的RAG架构。

C选项错误，因为机器学习是通用概念，不能准确描述RAG应用中处理大规模文本数据的具体技术方案。

15. 正确答案: B

题目要求'分步骤查询'，先抽取名单，再逐个查询部门信息，这是典型的多步推理/多步检索-查询编排场景。

A. ReRank（重排序）：用于对已检索到的文档进行排序优化，不能将任务拆成多个步骤并串联执行，不适合。
B. MultiStepQueryEngine（多步查询）：支持将复杂问题拆分为多个子查询，并将中间结果用于后续查询，正好匹配"先找名单，再逐个查部门"的流程，最适合。
C. SimpleDirectoryReader（读取本地文档）：仅是数据加载/读取工具，不涉及查询编排或多步逻辑，不适合。
D. HyDE（假想文档生成）：通过生成假想文档来提升单次检索召回，与多步串联查询不同，不适合。

16. 正确答案: B

A：query 是形如 (id, "问题") 的元组，直接传给 classify_intent 不符合预期（应传入问题文本），错误。
B：query $1$ 正好是问题文本字符串，传给 classify_intent 并打印意图，符合需求，正确。
C：item $0$ 是 id（整数），传给 classify_intent 不正确；且题目只要求打印问题的意图。
D：feedback_list $i$ 仍是元组，未取出问题文本，错误。

遍历列表并分类每个问题的实现

17. 正确答案: D

A. 正向传播：用于将输入通过模型得到输出并计算损失值，但不计算损失对参数的梯度。
B. 批标准化：是一种层/技术，在前向阶段进行归一化和在训练时维护统计量，本身不是"计算梯度的步骤"；其梯度计算也发生在整体的反向传播过程中，因此不能作为该问题的答案。
C. 优化算法选择：指选择如SGD、Adam等优化器，用于利用已计算好的梯度更新参数，但不负责计算梯度。
D. 反向传播：通过链式法则计算损失函数对各层参数的梯度，是梯度计算的核心步骤，正确答案。

18. 正确答案: D

题干强调"知识库内容充足但召回率低"，说明问题不在文档数量，而在检索匹配能力。

A 增加并发只提升吞吐/响应速度，不影响召回率，错误。

B 提高相似度阈值会使筛选更严格，通常进一步降低召回率，错误；提升召回应降低阈值或增加topK。

C 增加知识库文档在内容已充足的前提下不能针对性改善召回，甚至可能增加噪声，错误。

D 更换embedding模型可以显著改善语义匹配质量与覆盖度，是针对低召回的合理举措，正确。

19. 正确答案: A

本题考查提示词工程中输入格式规范化的基本概念。

A选项正确，因为【输入如下】是提示词设计中常用的标准化输入标识符，用于明确区分输入内容和输出要求，这种格式有助于模型准确识别用户提供的具体问题或数据。

B选项错误，因为增加模型的训练数据属于模型优化策略，与提示词中的输入格式规定无关。

C选项错误，因为减少模型的推理时间是性能优化目标，不是提示词输入格式的内容。注意输入格式的标准化对于提升AI模型的理解准确性具有重要意义。

20. 正确答案: C

A选项侧重于识别内容错误（事实或逻辑错误），与"营销表达"并非同一维度，无法全面覆盖营销用语、夸张措辞、促销语气等，故不全面。

B选项逐条识别词汇仅限于词级别，容易漏掉语境型营销表达、句式结构、语气和修辞（如夸大承诺、紧迫感、行动号召），覆盖面不足。

C选项通过一次性生成所有类型的识别结果（如营销词汇、夸张/绝对化表述、主观煽动语气、行动号召、价格/折扣诱导、无法验证的承诺等），能从多维度全面检查，是最全面的识别方法。

D选项让模型自动修改内容属于纠正/重写而非识别检测，且可能掩盖问题，不利于全面识别与追踪。

因此C正确。

21. 正确答案: A

本题考查RAG应用中向量存储方案的功能特性对比。

A选项正确，因为云服务向量存储通常提供完整的向量数据库功能，支持向量相似性搜索与标量属性过滤的混合检索，能够同时处理高维向量数据和结构化元数据查询。

B选项错误，因为内存向量存储主要关注向量的快速检索性能，通常不提供复杂的标量字段索引和混合查询能力。

C选项错误，因为本地向量数据库虽然可能支持基本的向量操作，但在混合检索功能方面往往不如云服务成熟，且扩展性和维护成本较高。

22. 正确答案: D

题干强调"约束应答风格，使其符合特定人群的阅读习惯"。

A 角色（Role）：用于设定模型扮演的身份（如老师、律师），会影响语气和风格，但其目标是贴合角色而非特定受众的阅读习惯，间接作用而非最直接要素。
B 输出格式（Output Fomat）：规定输出的结构与排版（如列表、表格、JSON），主要控制格式而非语体风格与语言难度，不直接针对"阅读习惯"。
C 上下文（Context）：提供背景信息与任务细节，帮助内容相关性与准确性，但不负责限制表达风格以适应特定人群。
D 受众（Audience）：明确目标读者（如儿童、行业专家、老年用户），直接决定语言难度、术语密度、例子选择与语气，从而使应答风格符合该人群的阅读习惯。因此D为正确答案。

23. 正确答案: A

本题考查意图识别在答疑机器人中的应用机制。

A选项正确，因为ask_llm_route函数的核心功能是根据用户输入的问题类型进行分类，并据此选择相应的提示词模板和处理工作流程，从而实现智能化的路由分发。

B选项错误，因为该函数并不涉及模型训练数据的扩充，其主要职责是推理阶段的路由选择。

C选项错误，因为虽然合理的路由可能间接影响性能，但减少推理时间并非该函数的主要设计目标。

24. 正确答案: C

本题考查RAG应用中表格数据处理的最佳实践方法。

C选项正确，因为使用kv形式（键值对）能够结构化地保留表格的行列关系和单元格语义信息，将表格数据转换为可检索的键值对格式，既保持了原始表格的结构特征，又便于后续的向量化处理和相似性查询。

A选项错误，因为将表格转换为纯文本会丢失重要的表格结构信息，如行列关系、单元格对应关系等关键语义信息。

B选项错误，因为将表格转换为图片无法进行文本检索和语义理解，完全失去了结构化数据的优势，不利于RAG系统的查询处理。

25. 正确答案: B

题干强调"非定期、自动"分析，属于可中断、批处理型负载，关键目标是在满足业务需求前提下最大化降低成本。逐项分析如下：

A 按量付费（On-Demand）GPU：无需长期承诺，适合不定期任务，但单位价格最高，仅在无法容忍中断或对稳定性有强需求时更合适；在追求最低成本时并非最优。
B 抢占式实例（Spot）+中断自动恢复：Spot价格通常较按量付费低30%～90%，非常适合可容忍中断的批处理/异步任务。只要设计好检查点、队列、断点续跑与容错机制，就能在保证任务完成的同时显著降低成本，最符合题意中的"最大化降低运行成本"。
C 自购显卡搭建本地服务器：一次性资本开支高、维护与运维复杂、能耗与折旧成本大；且负载不定期会导致大量闲置，整体TCO通常更高，不符合最低成本目标。
D 预付费（包年包月）GPU：适合长期、稳定、高利用率场景。对于不定期任务，预付费会在空闲时段造成浪费，性价比不如Spot。

综合来看，B在满足任务可中断与自动恢复的前提下能显著降低成本，是最佳选择。

26. 正确答案: A

句子窗口检索通常指先以句子为最小粒度进行检索以提升相关性（减少无关内容），再将命中句子的前后若干句一并纳入作为"窗口"，以提供必要上下文。这带来的核心优势是检索更精确，同时不丢失生成所需的语境。

选项A：正确。句子级检索提升了检索阶段的精确性；窗口扩展（邻近句）又保证了生成阶段的信息完整性与上下文连贯性。
选项B：错误。该方法属于检索与上下文构建策略调整，并未改变大模型内部的注意力机制结构或参数。
选项C：不成立/不稳健。上下文可能变短从而略有加速，但句子级索引与窗口拼接也可能增加片段数量，整体并非该方法的主要或普遍优势。
选项D：错误。按句子切分与窗口扩展通常会增加索引条目与冗余片段，往往提高而非降低存储需求。

句子窗口检索的核心优势是通过精准检索（句子级）和上下文扩展（窗口级）平衡检索精度与生成质量，其他选项均不符合其设计目标。

27. 正确答案: B

本题考查如何构建有效的用户查询语句来指导大语言模型进行文本扩写的知识点。

选项B正确，因为该查询语句明确要求模型"详细描述"未来的太空旅行，提供了具体的扩写方向和内容范围，与系统提示词中"专业的写作助手"角色高度匹配，能够引导模型产生丰富详实的文本内容。

选项A错误，因为"太空旅行很酷"只是一个简单的评价性陈述，缺乏具体的扩写指导要求。

选项C错误，因为"太空旅行"仅是一个主题词，过于简短，没有提供任何扩写的具体指示。

选项D错误，因为虽然提出了具体问题，但聚焦于好处和坏处的分析，与题目要求的"扩写一段关于太空旅行的文字"目标不完全一致。

28. 正确答案: A

A 通过让大模型进行任务拆解并调用维修系统与会议系统的 API，是端到端自动化的方案，既能处理自然语言中的多意图与上下文（如识别具体要维修的设备、定位"下午会议"对应的会议条目），又能把操作落到现有系统中，减少人工参与且保证流程与审计合规。

B 不调用现有系统，只生成文本结果，无法在实际系统中生效，存在合规与数据一致性问题，因此不可行。

C 将任务指派给人并让人去创建工单与调整会议，依赖人工执行，不能最大化减少人力投入。

D 关键词+规则匹配虽可自动调用 API，但对复杂、多样的自然语言请求鲁棒性差，维护成本高，难以准确解析诸如"下午会议"的上下文和歧义处理，整体有效性与可扩展性不如 A。

综上，A 最符合"有效且尽量减少人力投入"的要求。

29. 正确答案: F

题目询问用于指定大模型回应风格或语气的要素。最直接、专门用于设定语气与风格的是"角色（persona）"。通过设定角色（如'作为一位礼貌的客服'、'以学术而严谨的口吻回答'），可以明确控制输出的语气、风格与立场。各选项分析如下：

A. 输出格式：主要规定结构与呈现形式（如JSON、表格、项目符号），关注输出的排版与结构，而非语气与风格。虽然可以在格式说明里附带风格要求，但它本质上不是专门为语气而设。
B. 样例：通过示例可间接示范并引导风格（few-shot），但它是以示范方式影响，而非明确"指定"语气的核心要素；更像是辅助。
C. 任务目标：描述要做什么（目的与期望结果），不主要用于控制语气或风格。
D. 上下文：提供背景与相关信息，帮助理解问题与约束，不直接决定语气。
E. 输入数据：要被处理的原始内容，通常不决定模型的表达语气。
F. 角色：用于设定模型的身份/人设/语气（如正式、幽默、同理心等），是指定回应风格或语气的最直接要素。因此F正确。

30. 正确答案: A

本题考查RAG系统评估指标与优化策略的知识点。

A选项正确，因为answer correctness得分较低说明模型回答的准确性不足，而context recall和context precision较高表明检索到的相关信息质量良好，问题出现在如何利用这些信息生成答案的环节，通过优化prompt可以改善模型对检索信息的理解和利用能力。

B选项错误，因为增加训练数据主要解决模型基础能力不足的问题，而当前情况是检索质量良好但答案生成质量差，训练数据不是关键因素。

C选项错误，因为减少推理时间与提高答案正确性没有直接关系，且可能会影响模型的思考和生成质量。

31. 正确答案: A

题干要求选择"系统角色提示词"来构建可进行代码审查的 AI 助手。

A 与 D 属于 system 角色，其中：A 明确设定为资深代码审查专家，强调发现 bug、性能瓶颈、风格问题，并要求提供详细修改建议与解释，能有效指导助手的行为，最契合需求；

D 虽然是 system，但设定为初级程序员，能力不足，不适合作为代码审查助手的系统指令。

B 是 user 角色文本，用于用户提交需求，不是系统提示词；

C 是 assistant 角色文本，是对话中的助手回复，不是系统提示词。

因此最佳选项为 A，原答案正确。

32. 正确答案: C

本题考查微软AutoGen项目的多智能体对话框架特性及其人机交互优势。

C选项正确，因为微软AutoGen的多智能体对话框架设计核心就是支持人与多个智能体同时进行对话交互，通过这种协同方式可以整合人类的专业判断和智能体的计算能力，共同解决复杂问题，这是该框架的重要优势所在。

A选项错误，因为研究智能体间社会关系并非该框架的主要设计目标，而是更关注实用性的协作解决问题。

B选项错误，因为虽然AutoGen可以辅助软件开发，但并不能自动完成全部开发流程，仍需要人类的指导和监督。

33. 正确答案: C

C是最合理的技术改进。对极简、含糊查询（如"找张伟"）在检索前用大模型进行问题改写/扩充（Query Rewriting/Expansion、多查询生成）能自动增加上下文与关键词（如部门、职位、别名、联系方式、相关文档类型等），显著提升召回与匹配效果，是RAG常用且有效的手段。

A将所有文档发布成内部Wiki并不能直接解决检索召回问题；资料形式改变不等同于检索质量提升，且有较大迁移与维护成本。

B在回答阶段再修改用户问题为时已晚：检索已发生，丢失的相关文档无法补回，还可能引入与文档不符的回答偏差；正确做法是在检索前进行改写。

D让用户输入更多关键词是将负担转嫁给用户，降低体验且不具备技术优化属性，用户往往也不知道该补充哪些信息，不能稳定提升检索效果。

34. 正确答案: C

选项A：通过分配"肿瘤科医生"角色会显著偏向肿瘤语境，易将 NSC 一律理解为肿瘤相关术语。这不能在不同语境（如神经生物学 vs 肿瘤病理）中消除歧义，反而可能造成系统性误译。
选项B：要求在缩写后标注全称有助于输出可读性与可核查性，但并未提供判别依据，模型仍需先"猜"含义。如果判别错了，括号中的全称仍是错误的，因而不能解决核心的歧义问题，只能作为辅助规范。
选项C：提供少量上下文关联示例（few-shot）并明确在不同段落（"干细胞培养" vs "肺癌病理"）下 NSC 的对应含义，这是消除歧义的最佳实践：在提示中给出语境---缩写映射规则，模型可据此在不同上下文中稳定选择正确释义，显著降低误译。
选项D：直接要求优先译为"神经干细胞"会引入单向偏置，忽略肿瘤领域中文献中 NSC 可能代表"非小细胞癌"的情况，不能真正消除歧义，且在肿瘤相关段落下会产生错误。

综上，C 最能在不同语境中明确 NSC 的正确释义，原答案正确。

35. 正确答案: A

本题考查RAG应用中多轮对话处理机制的核心概念。

A选项正确，因为CondenseQuestionChatEngine的主要功能是将用户的当前问题与历史对话上下文相结合，改写为一个包含完整语义信息的新查询。这样做可以确保检索系统能够理解用户问题的真实意图，即使用户在后续对话中使用了指代或省略的表达方式。

B选项错误，因为CondenseQuestionChatEngine并不涉及模型训练数据的扩充，它只是在推理阶段对查询进行预处理。

C选项错误，因为该组件的主要目的不是减少推理时间，实际上还可能略微增加处理时间，但能显著提升检索准确性。

36. 正确答案: B

多智能体（Multi-Agent）理念强调将复杂任务分解为若干可协作的专长代理，每个代理使用合适的模型、Prompt或工具完成特定子任务，从而实现更好的鲁棒性、可控性与可扩展性。

A：只用DashScopeParse解析文档、其他步骤手动完成，不符合多智能体的自动化与模块化思想，且对复杂RAG优化（如检索增强、重排序、评估与反馈迭代）支持不足。
B：将复杂任务拆分为多个子任务，并为不同子任务选择合适的模型、Prompt或代码逻辑，正是Multi-Agent的核心实践，适用于RAG流程中的检索、分块、索引、查询理解、重排序、答案生成与评估等环节。
C：将所有步骤整合到一个大型Prompt中一次性完成，属于单体式方案，难以调试与迭代，易受上下文长度与指令歧义影响，不符合多智能体的分工协作理念。
D：仅使用通义千问API完成所有处理，工具单一、缺乏多代理与多工具协作，难以覆盖RAG优化所需的解析、检索、重排、评测等模块，灵活性与可控性不足。

综上，B最符合Multi-Agent思想并更适合复杂RAG优化任务。

37. 正确答案: D

本题考查AI模型训练过程中不同阶段的目标和特点。

D选项正确，因为基于人类反馈的强化学习阶段（RLHF）专门通过收集人类对模型输出的评价和偏好数据，利用强化学习算法调整模型参数，使模型输出更符合人类的价值观、偏好和道德标准。

A选项错误，因为预训练阶段主要是让模型学习语言的基础模式和知识，不涉及人类偏好的调整。

B选项错误，因为监督微调阶段虽然使用标注数据进行训练，但主要是提升特定任务的性能，而非专门针对人类偏好优化。

C选项错误，因为应用部署阶段是模型训练完成后的实际使用阶段，不涉及模型参数的调整。

38. 正确答案: D

在 LlamaIndex 中，node_postprocessors 作用于检索得到的节点结果（Node/NodeWithScore）进行"后处理"，包括相似度阈值过滤、交叉编码器重排（rerank）、去重、裁剪、窗口扩展等。因此 D 正确。

A：设置召回文本段个数一般由检索器（retriever）的 similarity_top_k 等参数控制，虽存在 TopKNodePostprocessor 可在后处理中再裁剪数量，但"设置召回个数"并非 node_postprocessors 的核心或唯一作用，表述不准确。
B：修改 prompt 模板与提示词构建/响应综合器相关，非 node_postprocessors 的职责，错误。
C："句子窗口检索"本质是通过 SentenceWindowNodePostprocessor 在检索后对节点进行窗口扩展，属于一种具体的后处理方式。虽然可以通过 node_postprocessors 实现，但它仍归类为后处理，概括性不如 D。

综上，D 为最准确的答案。

39. 正确答案: B

本题考查RAG系统中索引阶段文本向量化的核心作用。

选项B正确，因为在RAG系统的建立索引阶段，文本向量化是将原始文本转换为高维向量空间中的数字表示，这样可以计算向量间的相似度来实现语义检索，使系统能够找到与查询最相关的文档片段。

A选项错误，因为文本向量化并不增加模型训练数据，它只是将文本转换为可计算的数字形式。

C选项错误，因为向量化过程本身不会减少模型推理时间，相反还需要额外的计算开销，其主要目的是为了实现有效的相似度匹配。

40. 正确答案: B

A: 计算损失值，不进行参数更新。

B: 调用优化器根据已计算的梯度对模型参数进行更新，这是权重（梯度）更新的实际步骤。

C: 将模型置为训练模式（影响BN/Dropout等），不执行参数更新。

D: 进行反向传播，计算梯度，但不对参数进行更新，需配合optimizer.step()才能完成权重更新。

前向计算（outputs = model(inputs)）→, 计算损失（loss = criterion(...）→反向传播（loss.backward()）→, 梯度更新（optimizer.step()）

41. 正确答案: A

本题考查大语言模型提示词构建中分隔符的选择原则。

A选项相对最优，因为使用了成对的<<和>>符号，具有较好的可读性和区分度。虽然格式上有些不规范（使用了全角符号），但在三个选项中是最完整的格式。

B选项存在问题，因为<--和-->格式不够简洁，且右侧缺少闭合符号（<--机器人>应该是<--机器人-->），格式不一致。

C选项错误，因为完全缺少闭合符号，只有开始标记没有结束标记，会导致解析困难。

注意：实际应用中，建议使用规范的半角符号，如 <<用户>> 或 <用户>，并保持格式一致性。

42. 正确答案: A

本题考查切片向量化与存储阶段中Embedding模型定义的方法。

A选项正确，因为embedding_models字典是专门用于定义和管理要测试的Embedding模型的标准方法，通过字典形式可以清晰地配置不同模型的参数和测试条件。

B选项错误，因为增加模型的训练数据属于模型训练阶段的操作，与定义要测试的模型没有直接关系。

C选项错误，因为减少模型的推理时间是性能优化的目标，而不是定义测试模型的方法。

43. 正确答案: B

本题考查top_p参数在不同应用场景中的设置策略。

B选项正确，因为生成新闻初稿和代码需要较高的准确性和一致性，设置较低的top_p值（如0.1-0.3）可以限制模型只从概率最高的词汇中选择，减少随机性，确保输出内容的专业性和准确性。新闻需要事实准确，代码需要语法正确，都不适合高随机性。

A选项错误，因为较高的top_p值会增加输出的随机性和多样性，虽然适合创意写作，但会降低新闻和代码的准确性和可靠性。

C选项错误，因为默认top_p值通常较高（如0.9），更适合通用场景，而新闻和代码生成需要更低的top_p值来保证质量。

44. 正确答案: A

本题考查优化检索效果的方法，重点在于提升大模型对参考信息查找效率的技术手段。

A选项正确，因为使用结构化的文档格式能够帮助大模型更好地理解和组织信息，通过清晰的层次结构、标签和元数据，模型可以快速定位相关内容，显著提升检索效率。

B选项错误，因为增加模型的训练数据主要影响模型的基础能力，而不是直接影响检索时的查找效率。

C选项错误，因为减少模型的推理时间是性能优化的目标，但与提升对参考信息的查找效率没有直接关系，检索效率关注的是信息定位的准确性而非速度。

45. 正确答案: D

从工程与产品化流程来看，POC 已经证明系统在部分常见问题上的可行性，下一步的首要任务是建立可复现、覆盖全面、能反映业务风险的评测体系。对于法律类 RAG 系统，评测集必须由法律专家参与构建，明确哪些回答算正确、风险分级如何定义、边界与反例如何设计，并覆盖不同合同类型、条款变体与异常场景，以便后续做迭代优化与回归测试。因此 D 最优先。

A 降低相似度阈值、增加召回段数：这是检索层面的参数调优，属于手段而非目标，且会引入噪声、增加成本和时延，可能降低精度。在缺乏权威评测集的情况下盲目调整容易"拍脑袋"优化，甚至造成退化，因此不应在评测体系之前优先进行。
B 优化前端界面：界面体验重要，但在验证核心能力（准确性、稳健性、风险可控）之前优化前端属于"前置美化"，优先级低于建立评测与质量基线。
C 针对 POC 问题反复优化：容易对 POC 的有限用例过拟合，不能保证在更广泛合同与问题上的泛化表现。应先由专家构建系统性的评测集与指标，再进行针对性的优化与回归测试。
D 请法律专家参与构建评测集：能提供权威标注与验收标准，建立覆盖面与难度分层，支撑后续检索阈值、chunk 策略、提示词、模型选择等迭代，并形成离线/在线的质量监控闭环，最符合"POC 后产品化"的优先路径。

46. 正确答案: A

本题考查LlamaIndex框架中默认提示词模板的参数含义。

A选项正确，因为query_str在LlamaIndex的默认提示词模板中专门用来表示用户输入的问题或查询语句，这是系统用来理解用户需求的核心变量。

B选项错误，因为从向量库中检索到的上下文信息通常用context_str或其他相关变量表示，而不是query_str。

C选项错误，因为大模型的角色通常是通过system_prompt或role参数来定义的，与query_str无关。

47. 正确答案: B

本题考查大模型应用系统成本优化中的资源分配策略。

选项B正确，因为在实际应用中，不同任务对模型能力的需求存在显著差异，复杂任务如创意写作、深度分析需要大规模LLM，而简单任务如基础问答、文本分类可以由小型LLM高效完成，这样既能保证性能又能显著降低计算成本和响应时间。

A选项错误，因为统一使用最大规模LLM会造成严重的资源浪费，简单任务无需复杂的模型参数就能达到满意效果，过度配置会增加不必要的计算开销。

选项C错误，因为固定使用同一规模LLM虽然简化了配置管理，但无法根据各Agent的具体任务需求进行优化，可能导致某些Agent资源过剩或不足，整体效率低下。

48. 正确答案: A

本题考查Embedding模型版本更新的知识点。

A选项正确，因为text-embedding-v3是OpenAI发布的最新文本嵌入模型版本，相比v2版本在性能、准确性和处理能力方面都有显著提升，支持更高质量的向量化处理。

B选项错误，因为text-embedding-v2虽然是较早的版本，但已经被v3所取代，在性能和功能上不如最新版本。

C选项错误，因为增加训练数据只是一种改进模型的方法策略，并不是一个具体的Embedding模型版本名称，无法与v2、v3等具体版本进行比较。

49. 正确答案: A

本题考查文档结构化处理和检索优化方法的知识点。

A选项正确，因为Markdown格式具有良好的结构化特性，通过标题层级、列表、表格等标记能够清晰地组织文档内容，便于检索系统识别和理解文档结构，从而提升检索效果。

B选项错误，因为增加模型训练数据主要影响模型的学习能力和泛化性能，与文档本身的结构性无关。

C选项错误，因为减少模型推理时间是性能优化范畴，关注的是计算效率而非文档结构质量。

50. 正确答案: B

本题考查AI大模型功能边界和应用场景识别的知识点。

选项B正确，因为Qwen-Max作为大型语言模型，具备强大的文本生成能力，可以理解和分析教育领域的知识结构，生成符合教学要求的课程文案内容，这是其核心功能之一。

A选项错误，因为Qwen-Max主要专注于文本处理和理解，虽然可以描述图像内容，但不具备直接进行图像设计的功能。

C选项错误，因为视频剪辑需要专门的视频处理算法和图形计算能力，Qwen-Max作为文本为主的语言模型，无法直接执行视频剪辑操作。

51. 正确答案: B

在RAG评测中，测试集的ground_truth需要具有权威性、可验证性和一致性，通常应由领域专家依据权威资料进行标注。

A：由框架通过向大模型生成答案不可靠，容易引入幻觉和偏见，且会导致评测与被评模型同源，产生循环评估问题，不能称为"ground truth"。

B：领域专家具备必要的专业知识和判断标准，能在明确的标注规范下产出高质量、可复核的真值，是业界最佳实践。

C：数据工程师虽能构建数据与流程，但不一定具备该领域的专业判断力，独立编写真值风险较大。

D：算法工程师更擅长模型与评估方法设计，同样不保证具备领域知识。可接受的做法是专家标注或从权威来源抽取并经专家复核，工程师与工具可辅助但不替代专家标注。

52. 正确答案: A

A：在实例化优化器时通过 lr 参数直接指定了训练中实际使用的学习率（基础/初始学习率），这是真正"设置学习率"的代码。
B：这是定义损失函数，与学习率无关。
C：这是学习率调度器，设置的是学习率随训练步数/轮次如何变化的策略，依赖于优化器中已设定的初始 lr，本身不直接设定初始学习率；更准确地说是"设置学习率调度"。
D：只是定义了一个变量 learning_rate 的数值，若不传入优化器并不会影响训练过程，不能算作设置训练中的学习率。

在优化器（如 Adam）中，lr=learning_rate 直接设置了初始学习率，是训练过程中学习率的基准值。

53. 正确答案: D

选项A（正则表达式直接提取文本）：不适合。PDF 和 DOCX 是复杂的二进制/结构化格式，正则表达式无法直接解析其容器结构；即便先解包也极其脆弱，容易丢失结构与编码信息。
选项B（手动复制粘贴）：不可扩展、效率低、易出错，不适合面向 RAG 的批量与自动化处理。
选项C（OCR）：仅在文档为扫描件或图片型 PDF 时才适用。对数字原生的 PDF/Word 使用 OCR 会引入识别错误且成本高，不是通用的"最适合"方案。
选项D（专门库如 PyPDF2、python-docx）：这是标准做法，可直接从数字原生 PDF 和 DOCX 提取文本与部分结构信息，适合后续分块、索引和嵌入等 RAG 流程。需注意 PyPDF2 在某些 PDF 上存在局限，可根据需要替换/补充为 pypdf、pdfminer.six、pdfplumber、Apache Tika 等；对扫描件再结合 OCR 即可。

综上，D 最适合。

54. 正确答案: C

本题考查RAG应用中视觉模型应用场景的选择原则。

C选项正确，因为视觉模型擅长处理非结构化、复杂的图像信息，当图片包含不规则布局、图表、手写体、复杂表格等难以通过OCR准确提取的内容时，需要使用视觉模型进行深层次解析和理解。

A选项错误，因为简单的命令行截图主要包含规整的文字信息，可以通过OCR技术直接转换为文本，无需使用复杂的视觉模型。

B选项错误，因为清晰的文本截图同样适合使用OCR技术处理，视觉模型的优势在于处理复杂、非标准格式的图像内容。

55. 正确答案: C

题目的意图是：正确的会话结构应由 system 负责设定助手身份或行为，user 提出需求/问题，assistant 再进行回答。
A：把"你是一个诗歌生成器。"放在了 user 角色里，这是对 system 指令的误用；同时把用户需求"我想写一首关于秋天的诗。"放在了 assistant 角色里，角色颠倒，错误。
B：system 正确设定了身份，但第二条是 assistant 的发言，缺少 user 的提问，无法体现"用户（user）提问方式"，不符合要求。
C：system 用于设定"你是一个诗歌生成器。"，user 提出了"我想写一首关于秋天的诗。"，角色与内容匹配，最符合规范。
D：两条都是 system，第二条本应是用户请求却放在了 system，明显错误。

system（可选）→ 设定 AI 身份，user → 用户真实提问，assistant

56. 正确答案: C

本题考查Qwen系列模型不同版本的区别和特点。

C选项正确，因为Qwen-7B预训练模型是经过大规模数据预训练后的基础版本，未针对特定任务进行过多调整，保持了模型的基础能力。

A选项错误，因为Qwen-7B-Chat是专门针对对话任务优化的版本，已经过特定任务调整。

B选项错误，因为Qwen-Max线上模型是功能更强的在线服务版本，通常经过了多轮优化和调整，不是基础的预训练版本。

注意区分基础预训练模型与针对特定任务优化的模型版本。

57. 正确答案: C

从整体业务效果与用户体验角度，RAG 应用的核心目标是生成正确有用的答案，因此单一指标中最能代表端到端性能的是 answer_correctness。它综合反映了检索与生成两个环节的实际成效，是最贴近用户价值的"总指标"。

A. context_precision：衡量检索到的内容中有多少是与问题相关。高精度虽好，但可能牺牲召回，且不能直接保证最终答案正确，不能单独代表整体性能。
B. context_recall：衡量检索是否覆盖所需信息。高召回会带来噪声，并不直接等价于答案正确，同样不能单独代表整体性能。
C. answer_correctness：直接评估最终答案是否正确/与参考一致，端到端地反映检索和生成的综合表现，是最能代表整体性能的单指标。
D. faithfulness：衡量答案是否被上下文支持，可减少幻觉，但若上下文本身不完整或有误，答案即使"忠实"也未必正确；只能衡量可靠性维度，不能代表整体效果。

因此选择 C 更合理。A/B/D 仅评估局部环节，而 C（answer_correctness）是唯一端到端衡量 RAG 最终输出质量的指标。

58. 正确答案: B

在微调过程中，学习率决定每次参数更新的步长大小，直接影响模型对新数据的适应速度：学习率越大，权重变化越快，模型越快"学到"新知识；学习率越小，更新更谨慎，学习速度变慢。

A. 批大小：影响梯度估计的噪声和每个迭代的计算量，但不直接决定参数更新的步长大小，属于间接影响学习动态的因素。

C. 训练轮数（epochs）：决定总的训练迭代次数和训练量，影响最终学到多少而非每次更新的速度，不是直接控制学习速度的参数。

D. 正则化系数：约束参数规模、防止过拟合，影响学习的稳定性和泛化，而非直接控制学习速度。

因此，最直接控制学习新知识速度的参数是学习率（B）。

59. 正确答案: B

本题考查多Agent系统在大规模灾害救援中的设计原则。

B选项正确，因为在多Agent系统中，合理的通信策略是提升整体效能的关键。仅在必要时进行信息交换可以有效减少通信开销，避免网络拥塞，提高系统响应速度和可扩展性。

A选项错误，因为所有Agent采用相同算法和策略会缺乏灵活性，无法适应不同子任务的特殊需求，降低系统整体效率。

C选项错误，因为中心化控制器存在单点故障风险，在大规模分布式环境中容易成为性能瓶颈，影响系统的可靠性和实时性。

60. 正确答案: B

本题考查Llamaindex框架中文档读取和索引创建的相关知识。

选项B正确，因为SimpleDirectoryReader是Llamaindex中专门用于从目录读取文档的类，它能够自动扫描指定目录中的所有文档文件，并将它们转换为适合构建索引的格式。当存储目录不存在时，SimpleDirectoryReader会读取文档内容并配合VectorStoreIndex创建新的索引。

A选项错误，因为VectorStoreIndex主要用于创建向量存储索引，而不是读取文档。

C选项错误，因为StorageContext是用于管理存储上下文的类，不负责文档读取功能。

61. 正确答案: C

本题考查大模型插件功能与应用场景的匹配关系。

C选项正确，因为图像生成服务专门用于根据文本描述创建图像内容，能够将用户的文字描述转化为相应的视觉画面，完全符合题目中"根据描述创造一幅画"的需求。

A选项错误，因为代码解释器主要用于执行和解释编程代码，无法处理图像创作任务。

B选项错误，因为图像识别服务的功能是分析和识别已存在的图像内容，而不是根据描述生成新图像。

62. 正确答案: D

A: 按标点分割在很多情况下能得到句子级切片，通常比纯长度切分更合理，但仍可能因缩写、引用、对话、长句跨句依赖等问题导致语义被割裂，且句子之间的上下文常被打断，不能保证语义完整。

B: 按字符数分割是最机械的方式，容易在词中间截断，完全不考虑语义或词界，语义保留最差。

C: 按 token 长度分割相比字符更稳妥（不会在词中间截断），但仍是任意边界，不考虑段落结构、话题转移或论证逻辑，语义连贯性无法保证。

D: 语义分割模型会依据话题边界、段落结构、语篇连贯等特征将文本切成语义完整的单元（如段落或主题块），最有可能保留完整语义信息。

因此原答案 D 正确。

63. 正确答案: C

问题的核心是用户的输入经常缺少关键信息（如"我要读研""请假"），导致检索与生成无法准确对齐。这种情况下优先优化的方向应是让查询更完整、更具可检索性。逐项分析如下：

A. 更换更快的向量数据库：提升的是检索速度而非检索质量。当查询本身信息不全时，即便检索更快也不会提高命中率和结果相关性，无法解决根因。
B. 调整大模型的 top_p 参数：top_p主要影响生成的多样性与随机性，对查询信息缺失导致的检索偏差无本质改善，可能反而带来不稳定输出。
C. 结合历史常见问题，使用大模型对query进行改写：这是典型的查询改写/扩展策略（query rewriting/expansion），能基于常见意图和上下文将短、泛、信息缺失的查询改写为更具体、可检索的表达，从而显著提升召回与相关性，最贴合题目中的问题。
D. 优化文档切分策略：可以改善检索到的片段质量，但当用户查询缺失关键条件时，仍难以命中正确内容。属于次要优化，不是当前最优先。

64. 正确答案: D

A. stream：仅控制是否以流式方式返回结果，不影响生成内容的随机性或一致性。
B. max_token：限制输出的最大长度，可能导致截断，但不会消除采样随机性，无法保证每次相同结果。
C. api_key：用于鉴权，与生成策略无关，不影响结果的稳定性或一致性。
D. seed：设置随机种子，控制采样过程的随机性。在相同模型版本与相同参数条件下，设置相同的 seed 能尽可能让同一提示词产生一致结果，因此为正确答案。

65. 正确答案: A

本题考查智能体系统中上下文管理与记忆机制优化的知识点。

A选项正确，因为引入上下文感知的动态记忆机制能够智能识别和优先保留关键信息，通过选择性记忆减少不必要信息对上下文的占用，有效缓解大模型上下文压力，提升智能体规划性能。

B选项错误，因为固定窗口长度或固定tokens长度截断虽然简单直接，但可能丢失重要的历史信息，无法智能区分关键与非关键信息，不是最优解决方案。

C选项错误，因为Transformer-XL等注意力机制变种虽然能处理更长上下文，但并未解决信息冗余问题，反而可能加剧计算负担，不能从根本上缓解上下文压力。

66. 正确答案: D

题干关注"明确指定大模型输出的格式和类型"。

A（仅使用上下文）：上下文能提供背景知识，但对输出结构的约束较弱，容易产生格式漂移或冗余信息，无法可靠地保证字段名、类型或层级结构的一致性。
B（仅使用角色）：角色设定主要影响语气与立场（如专家、客服），对输出格式并不足以形成严格约束，仍可能出现自由叙述，难以确保结构化输出。
C（仅使用任务目标）：任务目标明确"做什么"，但不定义"怎么组织输出"。仅描述目标常导致模型以自然语言自由发挥，难以稳定产出统一的格式或类型（如固定JSON结构）。
D（结合输出格式和样例）：明确给出输出格式（例如字段要求、JSON Schema、类型约束）并配合正反样例或Few-shot示例，可显著提高格式遵循度与一致性，减少歧义，是业界常用且最有效的做法。

综合比较，D最能"明确指定输出的格式和类型"。

67. 正确答案: B

目标是让同一商品描述对不同用户产生略有差异的输出，需要增加生成的随机性。

B项通过提高temperature（≈0.9）并且不固定seed，可以让采样更随机，从而产生轻微差异的结果，是正确做法。

A. 启用enable_search是检索增强，与输出随机性关系不大，不能保证同一提示词对不同用户产生差异。

B. 提高temperature并不固定seed会增加采样的多样性，使同一提示词在不同请求中产生略有差异的文本，符合需求。

C. temperature=0.0是贪心解码，输出几乎完全确定，同一提示词会得到相同结果，与需求相反。

D. 使用完全相同的提示词在相同温度且固定seed的情况下会得到相同输出，即使不固定seed，提示词相同本身并不是设置项，不能保证差异；因此不能作为解决方案。

68. 正确答案: A

本题考查相似度检索参数配置的相关知识点。

A选项正确，因为similarity_top_k参数用于控制相似度检索时返回的结果数量，设置为5表示系统会检索并返回与查询最相似的前5个文档切片，这是该参数的核心功能。

B选项错误，因为similarity_top_k参数仅影响检索阶段的返回结果数量，并不涉及模型训练数据的增减。

C选项错误，因为该参数主要影响检索结果的数量而非推理时间，增加top_k值可能会略微增加处理时间而不是减少。

69. 正确答案: A

本题考查RAGAS评估指标中Context Recall指标的具体含义和评估目标。

A选项正确，因为Context Recall指标专门用于衡量在RAG系统中相关参考资料被成功检索到的比例，即评估检索组件将与问题相关的文档片段正确召回的能力，这是该指标的核心定义。

B选项错误，因为RAG应用生成答案的准确度主要由其他指标如Faithfulness来评估，而不是Context Recall。

C选项错误，因为生成答案与问题的相关性通常通过Answer Relevance等指标来衡量，Context Recall关注的是检索到的上下文质量而非答案本身的相关性。

70. 正确答案: D

本题考查多模态场景下RAG系统的内容安全合规检查范围。

D选项正确，因为系统内部的查询日志记录属于系统运维数据，不涉及用户敏感信息或对外输出内容，仅用于系统性能监控和故障排查，所以不需要进行内容安全合规检查。

A选项错误，因为用户提交的文本描述可能包含敏感信息或不当言论，需要进行内容安全检查。

B选项错误，因为用户上传的发票图片可能被恶意利用进行信息泄露或攻击，需要进行图像内容安全检查。

C选项错误，因为机器人返回的报销审批结果作为对外输出内容，需要确保合规性检查。

（二）单选题：30 题 × 1 分 = 30 分

1. 正确答案: ABC

本题考查问题改写技术中还原用户真实意图的方法。

A选项正确，因为使用大模型扩充用户问题能够理解用户输入的深层含义，并通过模型的推理能力扩展和丰富原始查询，从而更好地捕捉用户的真实需求。

B选项正确，因为将单一查询改写为多步骤查询可以分解复杂问题，逐步澄清用户意图，使检索系统更准确地理解用户的实际需求。

C选项正确，因为用假设文档来增强检索（HyDE）通过生成假设性文档来桥接用户查询与实际文档之间的语义差距，有效还原用户的真实信息需求。

注意这些方法都是在检索前对用户查询进行预处理，以提高后续检索的准确性。

2. 正确答案: AB

本题考查top_p参数在不同应用场景中的设置原则。

A选项正确，因为新闻初稿需要高度准确和一致的内容输出，较低的top_p值可以确保模型选择概率最高的词汇，减少不确定性，保证信息的准确性和客观性。

B选项正确，因为代码生成需要精确的语法和逻辑结构，较低的top_p值有助于模型产生标准化的代码片段，避免出现语法错误或不规范的编程表达。

C选项错误，因为创意写作需要丰富的想象力和多样性，较高的top_p值能够允许更多样化的词汇选择，激发创造性思维，而较低的top_p值会限制创作的灵活性和创新性。

3. 正确答案: ACDEF

逐项判断如下：

A：正确。将 functions 设计为字典（键为函数名、值为可调用对象）便于根据名称进行动态查找和调用，这是最直接的好处。
B：错误。Python 类的初始化参数类型没有此类限制，完全可以接收列表、元组、字典等多种类型，字典并非"唯一选择"。
C：正确。提供一个函数映射表能让智能体按需调用不同函数来完成不同用户请求，是此设计的核心目的之一。
D：正确。以字典聚合多函数，便于扩展与维护（增删改工具更方便），在多工具/多任务场景下具备更好的可扩展性。
E：正确。字典的键值对结构天然适合存放函数相关信息（例如名称到函数对象，或名称到包含元数据的结构）。
F：正确。尽管"functions 作为字典"主要解决的是按名调度问题，但在实际的 API/工具调用链路中，LLM 往往输出 JSON/字典形式的参数，调用时可使用 **kwargs 将字典参数动态传入对应的函数（如 functions $name$ (**args)）。因此将函数和其调用参数均以字典为中介，确实提升了参数传递的灵活性与动态性。

4. 正确答案: ABC

本题考查提示词工程中输出格式规范的理解。

A选项正确，因为JSON格式是结构化输出的标准格式，便于程序解析和处理，确保输出的一致性和可读性。

B选项正确，因为label取值限制为0或1体现了分类任务的二元判断要求，这种约束确保了输出结果的标准化和准确性。

C选项正确，因为reason字段需要提供错误原因的详细说明，这是质量控制的重要组成部分。

本题所有选项均为正确答案，注意在提示词设计中明确规定输出格式、取值范围和内容要求的重要性。

5. 正确答案: AB

本题考查top_p参数对AI模型生成内容多样性的影响机制。

A选项正确，因为top_p值越大，表示模型在生成时考虑的概率分布范围越广，会从更多的候选词中进行选择，所以生成内容越多样化。

B选项正确，因为top_p值越小，模型只考虑概率最高的少数词汇，选择范围受限，所以生成内容趋于固定和确定。

C选项错误，因为top_p参数直接影响模型的采样策略，对生成内容的多样性和随机性有显著影响。

注意top_p参数是控制文本生成随机性的重要超参数。

6. 正确答案: ACD

逐项分析如下：

A. 评估 answer 与 ground_truth 的相似度，从而计算 answer_correctness：正确。RAGAS 在有标准答案（ground truth）时，常用嵌入相似度（如余弦相似）或LLM判别来衡量生成答案与标准答案的一致性，embedding 模型可直接用于该指标。
B. 评估每个 chunk 之间的相似度、从而剔除离群点：不属于 RAGAS 指标计算。该操作更多是数据预处理或检索阶段的工程流程，与 RAGAS 的评测指标无直接对应关系。
C. 评估 context 与 answer 的相似度，从而计算 faithfulness：正确（在 embedding 方案下）。RAGAS 的faithfulness核心是衡量答案是否被给定上下文支持。虽然官方更推荐基于LLM的陈述抽取与验证，但也提供/允许用嵌入相似度等轻量方法作为近似实现，embedding 模型可在该指标中直接发挥作用。
D. 评估 answer 与 query 的相似度，从而计算 answer_relevancy：正确。answer_relevancy 衡量答案与用户问题的相关性，embedding 相似度是常见实现方式之一，embedding 模型在此指标中直接参与计算。

综上，embedding 模型在 A、C、D 三个指标中直接参与，B 属于前置处理，不是评测指标。

7. 正确答案: AB

A 正确：分隔符有助于对内容进行结构化与标准化，形成统一的版式或段落边界，便于阅读和解析。
B 正确：分隔符的核心用途是明确各要素（如指令、数据、示例、元信息）之间的界限，减少歧义与串扰。
C 错误：分隔符并非为了让文档"更复杂"，而是为了更清晰、更易读。
D 错误：使用分隔符不是为了增加字数，而是在不必要增加信息量的前提下提升结构清晰度。
E 错误：分隔符的使用应有明确目的与逻辑，随意分割会破坏结构与理解。
F 错误：分隔符不会直接提高模型运行速度，更多是提升解析清晰度与鲁棒性。496. 正确答案: A,B

本题考查文档解析与切片阶段的优化策略，重点关注切片长度过短时的改进方法。

8. 正确答案: AB

本题考查自定义提示词模板的组成部分知识。

A选项正确，因为在自定义提示词模板中，大模型的角色是预设的核心信息之一，需要提前设定好AI的身份和职责。

B选项正确，因为注意事项也是模板中预设的重要部分，用于指导AI在回答时需要遵循的规则和限制条件。

C选项错误，因为用户的问题是动态输入的内容，不是预设的模板信息，每次使用时都会不同。

D选项错误，虽然输出格式可能是模板的一部分，但并非所有提示词模板都必须预设输出格式，这不是核心的预设信息。

9. 正确答案: CDEF

对各选项的逐项分析如下：

A（系统的可维护性和可扩展性）：这是通用的软件工程与系统架构层面的非功能性属性，确实重要，但并非直接针对RAG检索与生成链路的优化要素。题干强调"优化RAG应用"，更侧重影响检索与生成效果、效率和用户交互的因素，因此A不应作为本题的核心选项。
B（最新的深度学习模型和算法）：是否"最新"并不是优化RAG的关键决定因素。RAG优化更强调针对具体数据与任务的适配，如文档结构、检索策略、提示与解析、用户查询习惯等，而不是盲目追新。选择合适且稳定的模型往往比追逐最新更实际。
C（文档的结构和内容特点）：高度相关。文本的结构（段落、标题、表格、代码块）、粒度（chunking）、标注与元数据会直接影响索引与召回质量，是RAG优化的核心因素之一。
D（大模型的解析方式和理解能力）：相关且关键。生成阶段取决于模型如何利用检索到的上下文（解析格式、对引用的使用、指令遵循、上下文窗口限制等），这直接影响回答的准确性与可用性。
E（检索的效率和速度）：相关且关键。检索效率影响整体响应时延与用户体验，同时检索策略（如k值、过滤、向量/关键词混合检索）会影响召回与精度的平衡，是优化的重要维度。
F（用户提问的习惯和可能的提问方式）：相关且关键。理解用户的常见表达、术语、意图与上下文，有助于查询改写、同义词扩展、索引策略与评测设计，从而显著提升检索与生成效果。

综上，与RAG优化直接相关且具备针对性的因素为C、D、E、F。A与B更偏通用或不具备直接性，因此不选。原答案CDEF与上述分析一致。

10. 正确答案: AB

本题考查文档切片方法的选择原则，重点在于不同切片技术对长文档处理和上下文保持能力的差异。

A选项正确，因为句子窗口切片通过保留相邻句子的连接关系，能够有效维持文档的语义连贯性，特别适合长文档处理。

B选项正确，因为语义切片基于文本的语义边界进行分割，能够在保持上下文完整性的同时处理长文档，避免语义断裂问题。

C选项错误，因为Token切片仅按固定长度进行机械分割，不考虑语义连续性，容易破坏上下文关系，不适合需要保持上下文的长文档处理场景。

11. 正确答案: CD

A：错误。自动化评测并不意味着由大模型来自主制定评测指标，评测目标、维度和打分标准应由业务/产品/评测人员制定，模型最多充当判分器或助理。

B：错误。自动化不等于评测集必须由大模型生成。虽可用大模型辅助生成或扩充样本，但核心评测集通常需要基于业务场景设计与验证，完全依赖模型生成存在偏差与失真风险，且这不是"自动化"的必要条件。

C：正确。这里的"自动化"强调用程序化流程与（可选的）大模型判分等方式减少人工逐条查验，实现批量、可复现、可持续的评测工作，即从手工验收转为机器/模型驱动的评测。

D：正确。要让自动化评测有意义，前提之一是评测集与评测标准要由业务专家参与制定与把关，确保覆盖关键业务场景与评价维度，否则自动化只是在不可靠数据上重复执行，难以反映真实业务效果。

A、B 错误指标和评测集需人工主导，而非模型完全生成

12. 正确答案: ACD

逐项分析：

A 正确：top_p（核采样）限定从累计概率达到 p 的最可能词中采样。较低的 top_p 意味着候选集合更小，更偏向高概率词，输出更一致、更稳定、但多样性降低。
B 错误：temperature 越低，概率分布越陡峭，模型更偏向选择最高概率词，随机性与多样性降低；不是增加多样性。
C 正确：temperature 与 top_p 都控制随机性/多样性，且存在耦合效应。实践中通常建议只调整其中一个（另一个保持默认）即可达到预期的风格与稳定性，避免难以预测的组合效应。
D 正确：较高的 temperature 会平坦化概率分布，增加随机性，从而提高生成内容的多样性。

B 错低 temperature → 稳定性↑，多样性↓ 高 temperature → 稳定性↓，多样性↑

13. 正确答案: CDF

A 梯度裁剪：用于稳定训练、防止梯度爆炸的可选技巧，并非每个训练循环都必须执行。
B 模型保存：属于训练过程的工程管理（如checkpoint），通常在若干步或每个epoch进行，不是训练循环中更新参数的必需步骤。
C 正向传播：必须步骤，用于计算模型输出与损失。
D 反向传播：必须步骤，用于根据损失计算参数梯度。
E 超参数调整：通常在训练外部或跨实验进行，不是每个训练循环的必备步骤。
F 梯度更新：必须步骤，通过优化器将梯度应用到参数以完成学习。

ABE 属于增强或辅助操作，非训练循环最小必需步骤

14. 正确答案: ABC

本题考查提示词中分隔符的使用规范。A、B、C选项都正确，因为在提示词工程中，【】、<<、<<<等符号都可以作为分隔符使用。

A选项【】方括号在提示词工程中常被用作分隔符，能够清晰地划分不同的内容块或参数区域，在中文环境中使用广泛。

B选项<<双尖括号在提示词设计中可作为分隔符使用，特别是在模板化提示词中用于标识变量或占位符，在编程和标记语言中常见。

C选项<<<三尖括号同样可以作为分隔符，提供更强的视觉区分度，适合需要多层次分隔的复杂提示词结构。分隔符的选择没有绝对标准，关键是保持一致性和可读性。

15. 正确答案: ABC

本题考查优化后答疑机器人的功能范围和输出能力。

A选项正确，因为文档审查结果是答疑机器人的基础功能之一，能够对上传的文档进行内容分析和审查并输出相应结果。

B选项正确，因为公司内部文档查询结果属于答疑机器人的核心功能，可以检索企业内部知识库并返回相关文档信息。

C选项正确，因为内容翻译结果体现了答疑机器人的扩展能力，能够处理多语言场景下的翻译需求。

注意本题为多选题，三个选项均属于优化后答疑机器人的合理输出范围。

16. 正确答案: BD

A：错。流式输出仅改变响应的传输与呈现方式，不会直接提升模型生成内容的质量或正确性。

B：对。流式让用户更早看到内容、边看边等，显著降低感知延迟，阅读体验更好。

C：错。流式不会提高模型实际生成速度或缩短完成全部内容的总耗时，只是缩短首字节/首屏时间，提升感知速度；若题意为"整体加快回复速度"，不成立。

D：对。流式通过持续发送数据保持连接活跃，能减少由于长时间无数据传输导致的网关/代理/客户端超时风险，相比非流式更不易超时（虽非绝对避免）。

流式输出的核心优势是优化用户体验和提升网络稳定性，而非直接影响模型性能。适用于实时交互场景如聊天机器人、长文本生成，但需结合前端优化以最大化用户体验提升。

17. 正确答案: AB

本题考查私有知识问答场景中直接传入参考信息可能带来的技术问题。

A选项正确，因为提示词长度有限制，直接传入大量私域知识参考信息容易超出模型输入窗口限制，导致信息被截断或无法完整处理。

选项B正确，因为当传入的参考信息过长时，模型需要处理更多数据，计算复杂度增加，从而降低处理效率和响应速度。

选项C错误，因为模型能够理解私域知识，关键在于如何有效地将知识传递给模型，而不是模型本身的理解能力问题。

D选项错误，因为直接传入参考信息通常有助于提高生成内容的准确性，而不是导致不准确，问题主要在于处理方式和效率方面。

18. 正确答案: ABCD

本题考查检索召回阶段用户意图还原的方法。

A选项正确，因为问题改写能够将用户的原始查询转换为更准确表达其真实需求的形式，提升检索效果。

选项B正确，因为问题扩写通过添加相关词汇和语义信息，能够更好地理解用户的潜在意图。

C选项正确，因为基于用户画像扩展上下文可以结合用户的历史行为和偏好信息，更精准地推断用户的真实需求。

D选项正确，因为提取标签有助于识别查询中的关键实体和概念，从而还原用户的核心意图。

注意所有这些方法都是在检索前处理用户查询的重要手段。

19. 正确答案: AB

本题考查知识库召回功能的应用场景和作用。

A选项正确，因为内容研究与分析是知识库召回的核心应用场景之一，通过召回相关知识内容来支持研究分析工作。

选项B正确，因为教材和课程开发需要从知识库中召回相关的教学资源、知识点等内容作为开发基础。

选项C错误，因为增加模型的训练数据属于模型训练阶段的工作，不是知识库召回的直接功能。

D选项错误，因为减少模型的推理时间是模型优化的目标，与知识库召回功能无直接关系。

注意区分知识库召回的实际应用场景与其他AI开发环节的区别。

20. 正确答案: ABDF

A. numpy：图像本质上是数组，numpy可进行矩阵/数组运算，是图像处理的基础工具之一（需配合其他库进行读写），可视为用于处理图像。

B. OpenCV：经典的计算机视觉库，支持图像与视频的读取、处理、分析，明确正确。

C. pandas：主要用于表格/数据框处理，不针对图像或视频处理，错误。

D. TensorFlow：深度学习框架，含有tf.image等模块，可进行图像的读取、增强与处理；也能处理视频帧序列，正确。

E. requests：HTTP请求库，用于网络请求与下载，非图像/视频处理库，错误。

F. moviepy：专用于视频编辑与处理（剪辑、合成、加特效、提取帧等），正确。

A 作为基础支持库入选，B/D/F 是专业多媒体库，C/E 无关

21. 正确答案: BCD

选项A：等全部内容生成后一次性返回。通常会增加用户的感知等待时间，无法及时获取反馈或中途调整，整体上不利于体验（除非结果极短或对一致性有特殊要求），因此不推荐作为提升体验的手段。
选项B：展示任务处理进度。能缓解用户的不确定感，设定预期，增强可控感与信任，显著改善长耗时任务的体验，正确。
选项C：生成的内容流式输出。降低感知延迟，让用户可边看边等、必要时提前中断或调整，也利于较长内容的消费，属于通用的UX优化手段，正确。
选项D：将任务分解为多个步骤，并将分步执行过程展示给用户。对于复杂任务，分步展示有助于透明度、可理解性与中途校正，从而提高信任与效率（实际产品中可控制展示粒度以避免信息过载），总体上有助于体验，正确。

提升用户体验的核心是减少等待焦虑和增强交互透明性

22. 正确答案: ACD

A：正确。代码用 SimpleDirectoryReader(path).load_data() 读取出多个 Document，然后通过 "\n".join( $doc.text for doc in documents$ ) 将所有文本合并成一个字符串，再创建一个新的 Document，等于把多个 Document 合并为一个。
B：错误。代码只是进行中英文标点的替换归一化，不涉及对"乱码"进行清洗或纠错，不能称为对乱码内容的清洗。
C：正确。将中文标点（如，！？，）替换为英文标点，常见目的是让英文句子切分器或基于英文标点的分割逻辑更好工作，避免因为不识别中文标点而导致切分不充分，使 chunk 过长。
D：正确。SimpleDirectoryReader(path).load_data() 会把指定文件夹中的文件加载为多个 Document 对象，尽管函数最终把它们合并并返回一个 Document，但加载行为本身是存在的，描述并不矛盾。

码仅替换特定标点符号，未涉及乱码检测或修复

23. 正确答案: A,B

本题考查标签提取在信息检索系统中的应用场景和时机。

A选项正确，因为在建立索引时，需要从文档切片中提取结构化标签，这是为了后续检索时能够快速定位相关内容。

B选项正确，因为在检索时，需要从用户问题中提取对应的标签进行过滤，这样可以提高检索的精准度和效率。

C选项错误，因为建立索引时应该处理的是文档内容而非用户问题，用户问题是在检索阶段才出现的输入。注意标签提取的时机与具体应用场景密切相关，建立索引和检索是两个不同的阶段。

24. 正确答案: AC

A. 正确。CosyVoice 是一个文本转语音（TTS）模型，支持多说话人、零样本/少样本变声、跨语言等能力。

B. 错误。CosyVoice 是语音生成模型，不是视频生成模型，不能直接生成视频。

C. 正确。CosyVoice 支持实时流式语音合成，可分片/增量输出以实现低延迟播放。

D. 错误。语音识别（ASR）是语音转文本任务，与 CosyVoice 的 TTS 职能不同；CosyVoice 不用于 ASR。

25. 正确答案: AD

本题考查智能客服系统中术语翻译的准确性保障方案。

A选项正确，因为手动整理术语及其翻译作为提示词，能够确保模型获得准确、权威的术语对应关系，避免翻译错误。

D选项正确，因为RAG技术可以动态检索领域术语数据库，实时获取最新的准确术语翻译，保证专业性和时效性。

B选项错误，因为跳过未知术语会导致信息丢失，影响用户体验和问题解决效果。

C选项错误，因为仅凭3条示例无法覆盖复杂的术语翻译需求，模型推断容易产生错误，准确性难以保障。

26. 正确答案: AC

A 对：把密钥放在环境变量中而不是硬编码到仓库，可以避免被提交到版本控制或日志中，降低泄漏风险。虽然不是绝对安全，但确实显著降低风险。

B 错：是否减少代码行数取决于具体用法。若不依赖 SDK 的自动读取，你还需要写从环境读取的代码，行数未必更少；而"减少代码行数"的好处本质上来自于 C。

C 对：许多 SDK（包括 DashScope SDK）会自动从约定的环境变量（如 DASHSCOPE_API_KEY）读取密钥，从而无需在代码中显式传入，这正是将其配置为环境变量的常见原因。

D 错：使用环境变量不会让程序运行更快，与性能无直接关系。

27. 正确答案: AC

选项A：提供期望的JSON结构示例，能明确字段名、层级与数据类型，强约束输出格式，显著提升结构化抽取的准确性与一致性，强烈有助于目标达成。

选项B：调低温度可减少随机性，可能略微降低输出多样性、减少偏题与花样格式，但并不能确保按指定字段与结构输出，且对结构化约束的作用远弱于明确的格式与示例，因此不是最关键的助力。

选项C：在目标中明确"输出JSON格式"，能够直接设定输出约束，减少多余文本和跑题，使模型将结果用机器可解析的结构返回，是实现结构化抽取的关键做法。

选项D：要求先总结再提取会引入不必要的中间步骤，可能在总结时丢失细节或产生偏差，反而不利于精确字段抽取；相比之下直接约束输出格式与给出示例更有效。

综上，最有助于达成目标的两个选项是A和C。

字段复杂，可追加示例邮件+对应 JSON，增强模型理解。使用函数调用直接绑定 JSON Schema，进一步标准化输出

28. 正确答案: AB

本题考查Answer Correctness计算过程中事实准确度评估的核心要素。

A选项正确，因为在Answer Correctness的计算中，需要将生成答案中的观点列表与标准答案进行对比，以评估事实准确性。

B选项正确，因为ground_truth的观点列表作为标准参考，用于与answer的观点列表进行比较，确定答案的正确性。

C选项错误，因为增加模型的训练数据虽然能提升模型性能，但不是事实准确度的直接比较对象。

D选项错误，因为减少模型的推理时间属于效率优化范畴，与事实准确度的比较无关。

注意，事实准确度比较的是答案内容本身的观点匹配程度。

29. 正确答案: ACD

依据我国对互联网信息服务算法的监管框架（如《互联网信息服务算法备案管理规定》《生成式人工智能服务管理暂行办法》《互联网信息服务深度合成管理规定》），凡使用生成式/深度合成等算法，向公众提供服务的AIGC应用，一般需要进行算法备案及相关安全合规流程；不对公众提供服务的企业内部工具通常不在备案范围内。

A 基于AIGC的智能客服系统：面向公众（客户）提供生成式内容服务，需进行算法备案。
B 使用机器学习算法进行数据分析的企业内部工具：仅内部使用，不面对公众，通常无需算法备案。
C 基于大模型的AI写作工具：向公众提供文本生成服务，属于生成式AI服务，需进行算法备案。
D 利用深度学习进行图像生成的绘画软件：面向公众提供图像生成（深度合成）服务，需进行算法备案。

无需备案：仅限企业内部使用，不向公众开放，不符合"向境内公众提供"的备案条件

30. 正确答案: AB

本题考查top_p参数对候选Token筛选范围的影响机制。

A选项正确，因为top_p参数设置较高的值时，会保留累积概率达到该阈值的更多Token，从而扩大了候选Token的选择范围。

选项B正确，因为当top_p值较低时，只保留累积概率达到较小阈值的Top Token，这显著减少了候选Token的数量和范围。

选项C错误，因为高top_p值实际上会扩大而非减少候选Token的范围，与选项C描述的效果相反。

注意top_p参数本质上是通过概率累积阈值来控制候选集合大小的核心参数。