31、在大模型应用开发中,以下哪些属于数据预处理的核心环节?
A.对文本数据进行去重和清洗
B.将非结构化数据(如PDF、图片)转换为结构化文本
C.为模型训练数据添加标签
D.调整模型的学习率
E.对长文本进行分块处理
F.优化模型的网络结构
答案:ABCE
解析:数据预处理是针对输入数据的处理环节,核心目标是提升数据质量和适配模型输入要求;A.文本去重清洗可去除冗余、无效数据,提升数据纯度,是核心预处理环节;B.非结构化数据转结构化文本,能将PDF、图片等格式的数据转化为模型可理解的文本形式,属于核心预处理;C.为训练数据添加标签,是监督式微调等场景下的关键预处理步骤,让模型能学习到输入与输出的对应关系;E.长文本分块可适配模型上下文窗口长度限制,属于针对文本数据的预处理;D.调整学习率、F.优化网络结构均属于模型训练/调优环节,而非数据预处理,因此排除。
32、关于大模型的上下文窗口(Context Window),以下描述正确的有哪些?
A.上下文窗口长度决定了模型能处理的输入文本最大长度
B.增大上下文窗口长度一定会提升模型的推理效果
C.不同大模型的上下文窗口长度可能不同
D.上下文窗口仅包含用户当前输入的查询文本
E.上下文窗口可包含历史对话信息,实现多轮对话能力
F.上下文窗口长度越小,模型推理速度通常越快
答案:ACEF
解析:A.上下文窗口的核心定义就是模型单次能接收和处理的最大文本长度,是其核心属性;B.错误,增大上下文窗口可能带来计算成本上升、推理速度下降等问题,且若数据质量差,反而可能降低推理效果,并非"一定"提升;C.正确,不同架构、不同量级的大模型,设计的上下文窗口长度(如4k、8k、32k)存在明显差异;D.错误,上下文窗口不仅包含当前查询,还可包含系统提示词、历史对话、参考文档等多类文本;E.正确,将历史对话纳入上下文窗口,是大模型实现多轮对话的核心机制;F.正确,上下文窗口越小,模型需要处理的文本数据量越少,推理时的计算量和耗时也会相应降低。
33、使用 LangChain 构建 RAG 应用时,以下哪些组件属于"检索(Retrieval)"环节的核心?
A.VectorStore
B.Embeddings
C.LLMChain
D.Retriever
E.PromptTemplate
F.DocumentLoader
答案:ABD
解析:RAG的检索环节核心是"从数据源中找到与查询相关的信息";A.VectorStore(向量数据库)用于存储文档的向量表示,是检索的核心数据载体;B.Embeddings(嵌入模型)用于将用户查询和文档转换为向量,是实现语义检索的基础;D.Retriever(检索器)是LangChain中封装检索逻辑的核心组件,负责从VectorStore中召回相关文档;C.LLMChain是用于连接模型和提示词的执行链,属于"生成(Generation)"环节;E.PromptTemplate是提示词模板,用于构建生成环节的输入;F.DocumentLoader是文档加载组件,属于"数据预处理"环节,因此排除C、E、F。
34、以下哪些操作可以有效提升大模型生成内容的准确性?
A.在提示词中明确任务目标和输出要求
B.为模型提供相关的参考文档或上下文信息
C.减少模型的输出长度限制
D.使用少样本(Few-shot)示例引导模型生成
E.提高模型的温度(Temperature)参数
F.对生成结果进行多轮校验和修正
答案:ABDF
解析:A.清晰的任务目标和输出要求能减少模型的理解偏差,直接提升生成内容的准确性;B.提供参考文档/上下文,能为模型生成内容提供事实依据,避免凭空生成错误信息(RAG的核心逻辑);D.少样本示例能直观展示正确的生成逻辑和结果,引导模型贴合预期,提升准确性;F.多轮校验修正可过滤生成内容中的错误,是提升最终结果准确性的有效手段;C.减少输出长度限制仅能控制内容篇幅,无法提升准确性,甚至可能因截断导致关键信息缺失;E.提高温度参数会增加生成内容的随机性,反而降低准确性,因此排除C、E。
35、在大模型 API 调用过程中,以下哪些属于常见的异常处理场景?
A.API Key 无效或过期
B.网络连接中断导致请求失败
C.请求参数格式错误(如缺少必填字段)
D.模型推理超时
E.生成的内容包含敏感信息
F.请求频率超出 API 限流阈值
答案:ABCDF
解析:异常处理针对的是API调用过程中的技术异常,而非生成内容的内容层面问题;A.API Key无效/过期会导致认证失败,是最常见的调用异常;B.网络中断会导致请求无法送达或响应无法接收,属于核心异常场景;C.参数格式错误会导致API无法解析请求,触发业务层面的异常;D.模型推理超时会导致请求超时失败,需处理重试或降级逻辑;F.请求频率超限会触发API的限流机制,返回限流错误,属于常见异常;E.生成内容含敏感信息属于内容审核范畴,而非API调用的技术异常,因此排除。
36、关于大模型的"温度(Temperature)"参数,以下说法正确的有哪些?
A.温度参数取值范围通常为 0~1
B.温度为 0 时,模型生成内容的随机性最低,结果最确定
C.温度越高,模型生成内容的多样性越强
D.温度参数仅影响模型的训练过程,与推理无关
E.对于需要精准回答的任务(如知识问答),建议设置较低的温度
F.对于创意生成类任务(如文案创作),建议设置较高的温度
答案:ABCEF
解析:温度参数是控制模型生成随机性的核心推理参数;A.主流大模型的温度参数默认取值范围为0++++1(部分模型可设置更高,但核心区间为0++++ 1);B.温度为0时,模型会选择概率最高的输出,随机性几乎为0,结果最稳定确定;C.温度越高,模型会更倾向于选择概率较低的token,生成内容的多样性和随机性越强;D.错误,温度参数仅作用于模型推理阶段 ,与训练过程无关;E.精准问答需要稳定、确定的结果,低温度(如0.1++++0.3)能避免随机错误;F.创意生成需要多样、灵活的结果,高温度(如0.7++++0.9)能提升内容的创新性,因此排除D。
37、以下哪些属于大模型应用的合规风险点?
A.未获得用户同意收集个人信息用于模型训练
B.生成内容涉及侵犯他人知识产权
C.未对生成式AI应用进行算法备案
D.模型推理速度过慢
E.生成内容包含虚假信息或误导性内容
F.未对用户输入的敏感信息进行脱敏处理
答案:ABCEF
解析:合规风险点聚焦于法律法规、隐私保护、内容规范等层面;A.违反《个人信息保护法》,未经同意收集个人信息用于训练属于核心合规风险;B.生成内容侵犯著作权、商标权等知识产权,会引发法律纠纷;C.违反《生成式人工智能服务管理暂行办法》,未备案上线属于行政违规风险;E.生成虚假/误导性内容可能违反广告法、反不正当竞争法等,引发合规问题;F.未脱敏处理用户敏感信息(如手机号、身份证),违反数据安全相关法规;D.模型推理速度慢属于技术性能问题,而非合规风险,因此排除。
38、使用 Python 调用大模型 API 时,以下代码片段中哪些是正确的异步调用方式?
A.python
import aiohttp
async def call_llm_api(prompt):
async with aiohttp.ClientSession() as session:
async with session.post(
url="https://api.example.com/llm",
json={"prompt": prompt}
) as resp:
return await resp.json()
B.python
import requests
def call_llm_api(prompt):
resp = requests.post(
url="https://api.example.com/llm",
json={"prompt": prompt}
)
return resp.json()
C.python
import asyncio
async def call_llm_api(prompt):
loop = asyncio.get_event_loop()
resp = await loop.run_in_executor(
None,
lambda: requests.post("https://api.example.com/llm", json={"prompt": prompt})
)
return resp.json()
D.python
import httpx
async def call_llm_api(prompt):
async with httpx.AsyncClient() as client:
resp = await client.post(
url="https://api.example.com/llm",
json={"prompt": prompt}
)
return resp.json()
答案:AD
解析:异步调用的核心是使用异步IO库,避免阻塞线程;A.正确,使用aiohttp(异步HTTP库)的ClientSession发起异步POST请求,符合异步调用规范;D.正确,使用httpx.AsyncClient(支持异步的HTTP库)发起异步请求,是Python中主流的异步API调用方式;B.错误,requests是同步HTTP库,该代码为纯同步调用;C.错误,虽然使用了asyncio,但内部仍调用同步的requests.post,仅通过线程池包装,并非真正的异步调用,因此排除B、C。
39、在 RAG 系统中,以下哪些属于"增强(Augmentation)"环节的操作?
A.将检索到的相关文档片段拼接至用户查询后
B.对检索结果进行重排,提升优质片段的优先级
C.使用嵌入模型将用户查询转换为向量
D.将拼接后的文本作为输入传递给大模型生成答案
E.从向量数据库中检索与查询向量相似的文档
F.对生成的答案进行格式校验
答案:ABD
解析:RAG的"增强"环节是指"将检索到的信息增强到模型输入中",连接检索和生成;A.将相关文档片段拼接至查询后,是增强环节的核心操作,让模型能基于检索信息生成答案;B.对检索结果重排,能提升优质片段的权重,让增强后的输入更有效;D.将拼接后的文本(查询+检索片段)传入模型,是增强环节的最终落地步骤;C.查询向量化、E.向量检索均属于"检索(Retrieval)"环节;F.答案格式校验属于"生成后处理"环节,因此排除C、E、F。
40、以下哪些指标可以用于评估大模型问答应用的效果?
A.准确率(Accuracy):回答与标准答案的匹配程度
B.召回率(Recall):检索到的相关文档占所有相关文档的比例
C.响应时间(Response Time):从用户提问到返回答案的耗时
D.流畅度(Fluency):生成回答的语言通顺程度
E.相关性(Relevance):回答与用户问题的关联程度
F.参数量(Parameter Count):模型的参数规模大小
答案:ABCDE
解析:评估指标需针对"问答应用的效果",包括准确性、效率、体验等维度;A.准确率直接衡量回答的正确性,是核心评估指标;B.召回率衡量RAG系统检索环节的有效性,影响最终问答效果;C.响应时间衡量应用的性能效率,是用户体验的关键指标;D.流畅度衡量生成回答的语言质量,影响用户可读性;E.相关性衡量回答是否贴合用户问题,避免答非所问;F.参数量是模型本身的属性,与问答应用的实际效果无直接关联,因此排除F。