61题
使用 LlamaIndex 构建 RAG 应用时,若需提升检索结果的精准度,以下哪种方案最有效?
A. 增大文本切片的长度,减少切片数量
B. 引入 Rerank 重排模型对初步检索结果二次筛选
C. 降低 Embedding 模型的维度,减少计算量
D. 减少 similarity_top_k 的值,减少召回数量
答案:B
解析:A. 增大切片长度易破坏语义完整性,可能引入冗余信息,降低检索精准度;B. Rerank 模型能基于更精细的语义理解对初步召回结果打分排序,筛选出与查询最相关的片段,是提升检索精准度的核心有效方案;C. 降低 Embedding 模型维度会丢失语义信息,导致向量表征精度下降,反而降低检索效果;D. 减少召回数量可能遗漏相关文档,影响检索完整性,无法提升精准度,因此 B 正确。
62题
以下代码用于实现大模型 API 调用的重试机制,请问存在哪些问题?
|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| python import requests def call_llm_api_with_retry(prompt, retry_times=3): for i in range(retry_times): try: response = requests.post( url="https://api.example.com/llm", json={"prompt": prompt} ) response.raise_for_status() return response.json() except Exception as e: print(f"重试第 {i+1} 次,错误:{e}") return None |
A. 未设置重试间隔,可能触发 API 限流
B. 捕获所有异常,可能掩盖严重错误
C. 未判断响应数据格式是否正确
D. 重试次数固定,无法适配不同错误场景
答案:ABCD
解析:A. 无重试间隔会导致短时间内多次重试,触发 API 限流机制,加剧调用失败;B. 捕获所有 Exception 会掩盖如内存溢出等严重错误,不利于问题排查;C. 仅判断 HTTP 状态码正确,未校验返回数据是否为有效 JSON 或符合预期格式,可能导致后续解析失败;D. 固定重试次数不合理,如网络中断可重试,而 API Key 无效重试无意义,应按错误类型动态调整,因此 ABCD 均正确。
63题
关于大模型的 System Prompt,以下描述错误的是?
A. 用于设定模型的角色和行为准则
B. 会占用模型的上下文窗口长度
C. 仅在第一次对话中生效,后续对话不生效
D. 可用于限制模型的输出范围和格式
答案:C
解析:A. System Prompt 核心作用之一是设定模型角色(如"资深工程师")和行为准则(如"仅用专业术语回答");B. System Prompt 属于模型输入的一部分,会占用上下文窗口长度,过长可能影响用户输入和历史对话的容纳量;C. 错误,在多轮对话中,System Prompt 通常会持续存在于上下文窗口中,全程约束模型行为;D. 可通过 System Prompt 限制输出范围(如"仅回答计算机相关问题")和格式(如"输出 JSON 格式"),因此 C 正确。
64题
使用 LangChain 调用大模型时,以下哪个组件用于将自然语言查询转换为向量?
A. ChatOpenAI
B. OpenAIEmbeddings
C. ConversationChain
D. VectorStore
答案:B
解析:A. ChatOpenAI 是 LangChain 中用于调用大模型对话功能的组件;B. OpenAIEmbeddings 是 Embeddings 类的实现,专门用于将自然语言文本(如查询、文档)转换为向量表示;C. ConversationChain 用于构建多轮对话流程;D. VectorStore 用于存储和检索向量,不负责向量转换,因此 B 正确。
65题
以下哪些属于大模型微调过程中的数据质量要求?
A. 数据样本需与目标任务高度相关
B. 数据中需包含大量重复样本,提升模型记忆效果
C. 数据标签需准确无误,避免标注错误
D. 数据量需充足,满足模型学习任务特征的需求
E. 数据格式需统一,符合模型输入要求
答案:ACDE
解析:A. 微调数据需贴合目标任务(如训练客服对话模型需用客服场景数据),否则模型无法学习有效特征;C. 标签错误会引导模型学习错误映射关系,严重影响微调效果;D. 数据量不足会导致模型欠拟合,无法充分学习任务规律;E. 统一数据格式(如固定的输入输出键名)能确保模型正常读取数据;B. 错误,重复样本会导致模型过拟合,降低泛化能力,因此 ACDE 正确。
66题
在 RAG 系统中,若用户查询为"请总结项目管理的核心流程",以下哪种文档切片方式最有利于模型生成准确答案?
A. 按固定 200 字符长度分割文档
B. 按"项目管理流程"相关的章节边界分割
C. 按标点符号随机分割
D. 将整个文档作为一个完整切片
答案:B
解析:A. 固定长度分割易割裂"项目管理流程"的完整逻辑,导致切片信息不完整;B. 按相关章节边界分割,能确保切片包含"项目管理核心流程"的完整语义单元,为模型生成准确答案提供充足依据;C. 随机按标点分割无法保证流程信息的完整性;D. 若文档过长,整个文档作为切片会超出模型上下文窗口,导致模型无法完整处理,因此 B 正确。
67题
以下代码用于大模型微调的优化器配置,请问代码的作用是什么?
|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| python from torch.optim import AdamW def configure_optimizer(model, lr=2e-5, weight_decay=0.01): no_decay = ['bias', 'LayerNorm.weight'] optimizer_grouped_parameters = [ { 'params': [p for n, p in model.named_parameters() if not any(nd in n for nd in no_decay)], 'weight_decay': weight_decay }, { 'params': [p for n, p in model.named_parameters() if any(nd in n for nd in no_decay)], 'weight_decay': 0.0 } ] optimizer = AdamW(optimizer_grouped_parameters, lr=lr) return optimizer |
A. 为模型不同参数设置不同的权重衰减策略
B. 动态调整学习率,提升微调效果
C. 冻结模型部分参数,减少计算量
D. 初始化模型参数,为微调做准备
答案:A
解析:代码核心逻辑是对模型参数进行分组并设置不同权重衰减;no_decay 列表指定了不需要权重衰减的参数(bias、LayerNorm.weight),其余参数设置 weight_decay=0.01,实现差异化权重衰减策略;B. 代码未涉及学习率动态调整(需学习率调度器如 StepLR);C. 未冻结参数(冻结需设置 requires_grad=False);D. 未进行参数初始化,仅配置优化器,因此 A 正确。
68题
关于大模型应用的算法备案,以下说法正确的是?
A. 所有大模型应用均需进行算法备案,无例外情况
B. 算法备案需在应用上线前完成
C. 备案完成后无需更新,永久有效
D. 仅需向大模型服务提供商提交备案材料即可
答案:B
解析:A. 错误,部分简单应用(如仅调用大模型进行文本润色且无复杂算法逻辑)可能无需备案,需根据相关规定判断;B. 正确,根据《生成式人工智能服务管理暂行办法》,生成式 AI 应用上线前必须完成算法备案;C. 错误,若应用算法、功能发生重大变更,需重新提交备案;D. 错误,算法备案需向监管部门提交材料,并非仅向服务提供商提交,因此 B 正确。
69题
使用异步方式调用大模型 API 时,以下哪个 Python 库是常用的异步 HTTP 客户端?
A. requests
B. aiohttp
C. urllib
D. httplib2
答案:B
解析:A. requests 是同步 HTTP 客户端,不支持异步调用;B. aiohttp 是 Python 主流的异步 HTTP 客户端库,专门用于异步网络请求,适用于异步调用大模型 API;C. urllib 是 Python 标准库中的同步 HTTP 工具;D. httplib2 也是同步 HTTP 客户端,因此 B 正确。
70题
以下哪些指标可用于评估大模型微调的效果?
A. 损失值(Loss):训练集和验证集的损失变化趋势
B. 准确率(Accuracy):分类任务中预测正确的样本比例
C. BLEU 分数:生成任务中与参考文本的相似度
D. 响应时间:模型生成答案的耗时
E. 召回率(Recall):分类任务中正确预测的正样本比例
答案:ABCE
解析:A. 损失值直观反映模型学习效果,训练集和验证集损失稳步下降且最终稳定在较低水平,说明微调有效;B. 准确率是分类任务的核心评估指标,体现模型分类精准度;C. BLEU 分数适用于翻译、文本生成等任务,衡量生成文本与参考文本的匹配度;E. 召回率适用于分类任务,体现模型对正样本的识别能力;D. 响应时间是模型推理性能指标,与微调效果(模型学习能力)无关,因此 ABCE 正确。