大模型高级工程师考试练习题4

31、在大模型应用开发中,以下哪些属于数据预处理的核心环节?

A.对文本数据进行去重和清洗

B.将非结构化数据(如PDF、图片)转换为结构化文本

C.为模型训练数据添加标签

D.调整模型的学习率

E.对长文本进行分块处理

F.优化模型的网络结构

答案:ABCE

解析:数据预处理是针对输入数据的处理环节,核心目标是提升数据质量和适配模型输入要求;A.文本去重清洗可去除冗余、无效数据,提升数据纯度,是核心预处理环节;B.非结构化数据转结构化文本,能将PDF、图片等格式的数据转化为模型可理解的文本形式,属于核心预处理;C.为训练数据添加标签,是监督式微调等场景下的关键预处理步骤,让模型能学习到输入与输出的对应关系;E.长文本分块可适配模型上下文窗口长度限制,属于针对文本数据的预处理;D.调整学习率、F.优化网络结构均属于模型训练/调优环节,而非数据预处理,因此排除。

32、关于大模型的上下文窗口(Context Window),以下描述正确的有哪些?

A.上下文窗口长度决定了模型能处理的输入文本最大长度

B.增大上下文窗口长度一定会提升模型的推理效果

C.不同大模型的上下文窗口长度可能不同

D.上下文窗口仅包含用户当前输入的查询文本

E.上下文窗口可包含历史对话信息,实现多轮对话能力

F.上下文窗口长度越小,模型推理速度通常越快

答案:ACEF

解析:A.上下文窗口的核心定义就是模型单次能接收和处理的最大文本长度,是其核心属性;B.错误,增大上下文窗口可能带来计算成本上升、推理速度下降等问题,且若数据质量差,反而可能降低推理效果,并非"一定"提升;C.正确,不同架构、不同量级的大模型,设计的上下文窗口长度(如4k、8k、32k)存在明显差异;D.错误,上下文窗口不仅包含当前查询,还可包含系统提示词、历史对话、参考文档等多类文本;E.正确,将历史对话纳入上下文窗口,是大模型实现多轮对话的核心机制;F.正确,上下文窗口越小,模型需要处理的文本数据量越少,推理时的计算量和耗时也会相应降低。

33、使用 LangChain 构建 RAG 应用时,以下哪些组件属于"检索(Retrieval)"环节的核心?

A.VectorStore

B.Embeddings

C.LLMChain

D.Retriever

E.PromptTemplate

F.DocumentLoader

答案:ABD

解析:RAG的检索环节核心是"从数据源中找到与查询相关的信息";A.VectorStore(向量数据库)用于存储文档的向量表示,是检索的核心数据载体;B.Embeddings(嵌入模型)用于将用户查询和文档转换为向量,是实现语义检索的基础;D.Retriever(检索器)是LangChain中封装检索逻辑的核心组件,负责从VectorStore中召回相关文档;C.LLMChain是用于连接模型和提示词的执行链,属于"生成(Generation)"环节;E.PromptTemplate是提示词模板,用于构建生成环节的输入;F.DocumentLoader是文档加载组件,属于"数据预处理"环节,因此排除C、E、F。

34、以下哪些操作可以有效提升大模型生成内容的准确性?

A.在提示词中明确任务目标和输出要求

B.为模型提供相关的参考文档或上下文信息

C.减少模型的输出长度限制

D.使用少样本(Few-shot)示例引导模型生成

E.提高模型的温度(Temperature)参数

F.对生成结果进行多轮校验和修正

答案:ABDF

解析:A.清晰的任务目标和输出要求能减少模型的理解偏差,直接提升生成内容的准确性;B.提供参考文档/上下文,能为模型生成内容提供事实依据,避免凭空生成错误信息(RAG的核心逻辑);D.少样本示例能直观展示正确的生成逻辑和结果,引导模型贴合预期,提升准确性;F.多轮校验修正可过滤生成内容中的错误,是提升最终结果准确性的有效手段;C.减少输出长度限制仅能控制内容篇幅,无法提升准确性,甚至可能因截断导致关键信息缺失;E.提高温度参数会增加生成内容的随机性,反而降低准确性,因此排除C、E。

35、在大模型 API 调用过程中,以下哪些属于常见的异常处理场景?

A.API Key 无效或过期

B.网络连接中断导致请求失败

C.请求参数格式错误(如缺少必填字段)

D.模型推理超时

E.生成的内容包含敏感信息

F.请求频率超出 API 限流阈值

答案:ABCDF

解析:异常处理针对的是API调用过程中的技术异常,而非生成内容的内容层面问题;A.API Key无效/过期会导致认证失败,是最常见的调用异常;B.网络中断会导致请求无法送达或响应无法接收,属于核心异常场景;C.参数格式错误会导致API无法解析请求,触发业务层面的异常;D.模型推理超时会导致请求超时失败,需处理重试或降级逻辑;F.请求频率超限会触发API的限流机制,返回限流错误,属于常见异常;E.生成内容含敏感信息属于内容审核范畴,而非API调用的技术异常,因此排除。

36、关于大模型的"温度(Temperature)"参数,以下说法正确的有哪些?

A.温度参数取值范围通常为 0~1

B.温度为 0 时,模型生成内容的随机性最低,结果最确定

C.温度越高,模型生成内容的多样性越强

D.温度参数仅影响模型的训练过程,与推理无关

E.对于需要精准回答的任务(如知识问答),建议设置较低的温度

F.对于创意生成类任务(如文案创作),建议设置较高的温度

答案:ABCEF

解析:温度参数是控制模型生成随机性的核心推理参数;A.主流大模型的温度参数默认取值范围为0++++1(部分模型可设置更高,但核心区间为0++++ 1);B.温度为0时,模型会选择概率最高的输出,随机性几乎为0,结果最稳定确定;C.温度越高,模型会更倾向于选择概率较低的token,生成内容的多样性和随机性越强;D.错误,温度参数仅作用于模型推理阶段 ,与训练过程无关;E.精准问答需要稳定、确定的结果,低温度(如0.1++++0.3)能避免随机错误;F.创意生成需要多样、灵活的结果,高温度(如0.7++++0.9)能提升内容的创新性,因此排除D。

37、以下哪些属于大模型应用的合规风险点?

A.未获得用户同意收集个人信息用于模型训练

B.生成内容涉及侵犯他人知识产权

C.未对生成式AI应用进行算法备案

D.模型推理速度过慢

E.生成内容包含虚假信息或误导性内容

F.未对用户输入的敏感信息进行脱敏处理

答案:ABCEF

解析:合规风险点聚焦于法律法规、隐私保护、内容规范等层面;A.违反《个人信息保护法》,未经同意收集个人信息用于训练属于核心合规风险;B.生成内容侵犯著作权、商标权等知识产权,会引发法律纠纷;C.违反《生成式人工智能服务管理暂行办法》,未备案上线属于行政违规风险;E.生成虚假/误导性内容可能违反广告法、反不正当竞争法等,引发合规问题;F.未脱敏处理用户敏感信息(如手机号、身份证),违反数据安全相关法规;D.模型推理速度慢属于技术性能问题,而非合规风险,因此排除。

38、使用 Python 调用大模型 API 时,以下代码片段中哪些是正确的异步调用方式?

A.python

import aiohttp

async def call_llm_api(prompt):

async with aiohttp.ClientSession() as session:

async with session.post(

url="https://api.example.com/llm",

json={"prompt": prompt}

) as resp:

return await resp.json()

B.python

import requests

def call_llm_api(prompt):

resp = requests.post(

url="https://api.example.com/llm",

json={"prompt": prompt}

)

return resp.json()

C.python

import asyncio

async def call_llm_api(prompt):

loop = asyncio.get_event_loop()

resp = await loop.run_in_executor(

None,

lambda: requests.post("https://api.example.com/llm", json={"prompt": prompt})

)

return resp.json()

D.python

import httpx

async def call_llm_api(prompt):

async with httpx.AsyncClient() as client:

resp = await client.post(

url="https://api.example.com/llm",

json={"prompt": prompt}

)

return resp.json()

答案:AD

解析:异步调用的核心是使用异步IO库,避免阻塞线程;A.正确,使用aiohttp(异步HTTP库)的ClientSession发起异步POST请求,符合异步调用规范;D.正确,使用httpx.AsyncClient(支持异步的HTTP库)发起异步请求,是Python中主流的异步API调用方式;B.错误,requests是同步HTTP库,该代码为纯同步调用;C.错误,虽然使用了asyncio,但内部仍调用同步的requests.post,仅通过线程池包装,并非真正的异步调用,因此排除B、C。

39、在 RAG 系统中,以下哪些属于"增强(Augmentation)"环节的操作?

A.将检索到的相关文档片段拼接至用户查询后

B.对检索结果进行重排,提升优质片段的优先级

C.使用嵌入模型将用户查询转换为向量

D.将拼接后的文本作为输入传递给大模型生成答案

E.从向量数据库中检索与查询向量相似的文档

F.对生成的答案进行格式校验

答案:ABD

解析:RAG的"增强"环节是指"将检索到的信息增强到模型输入中",连接检索和生成;A.将相关文档片段拼接至查询后,是增强环节的核心操作,让模型能基于检索信息生成答案;B.对检索结果重排,能提升优质片段的权重,让增强后的输入更有效;D.将拼接后的文本(查询+检索片段)传入模型,是增强环节的最终落地步骤;C.查询向量化、E.向量检索均属于"检索(Retrieval)"环节;F.答案格式校验属于"生成后处理"环节,因此排除C、E、F。

40、以下哪些指标可以用于评估大模型问答应用的效果?

A.准确率(Accuracy):回答与标准答案的匹配程度

B.召回率(Recall):检索到的相关文档占所有相关文档的比例

C.响应时间(Response Time):从用户提问到返回答案的耗时

D.流畅度(Fluency):生成回答的语言通顺程度

E.相关性(Relevance):回答与用户问题的关联程度

F.参数量(Parameter Count):模型的参数规模大小

答案:ABCDE

解析:评估指标需针对"问答应用的效果",包括准确性、效率、体验等维度;A.准确率直接衡量回答的正确性,是核心评估指标;B.召回率衡量RAG系统检索环节的有效性,影响最终问答效果;C.响应时间衡量应用的性能效率,是用户体验的关键指标;D.流畅度衡量生成回答的语言质量,影响用户可读性;E.相关性衡量回答是否贴合用户问题,避免答非所问;F.参数量是模型本身的属性,与问答应用的实际效果无直接关联,因此排除F。

相关推荐
老胡全房源系统1 天前
房产中介管理系统哪一款适合中介?
大数据·人工智能
IT_陈寒1 天前
Python 3.12性能优化实战:5个让你的代码提速30%的新特性
前端·人工智能·后端
GISer_Jing1 天前
智能体基础执行模式实战:拆解、决策、并行、自优化
人工智能·设计模式·aigc
千金裘换酒1 天前
Leetcode 二叉树中序遍历 前序遍历 后序遍历(递归)
算法·leetcode·职场和发展
效率客栈老秦1 天前
Python Trae提示词开发实战(2):2026 最新 10个自动化批处理场景 + 完整代码
人工智能·python·ai·prompt·trae
Jerryhut1 天前
背景建模实战:从帧差法到混合高斯模型的 OpenCV 实现
人工智能·opencv·计算机视觉
duyinbi75171 天前
YOLO11-MAN:多品种植物叶片智能识别与分类详解
人工智能·分类·数据挖掘
姓蔡小朋友1 天前
算法-双指针
算法
D_FW1 天前
数据结构第三章:栈、队列与数组
数据结构·算法