大模型高级工程师考试练习题1

1、以下哪些情况可能导致大模型检索不准确?

A.文档中包含大量的图片信息,而当前的文档解析器无法有效提取和理解图片内容。

B.使用了基于深度学习的语义搜索引擎,但模型训练数据不足,导致检索结果不准确。

C.文档中包含复杂的表格结构,而简单的文本解析器无法理解表格单元格之间的关系。

D.使用了复杂的文档解析器,导致解析速度慢,影响检索效率。

E.索引构建过程中使用了错误的 embedding 模型,导致语义相似度计算错误。

F.文档切片时,仅简单地按照字符长度进行分割,丢失了文档的语义信息。

答案:ABCEF

解析:复杂文档解析器导致解析速度慢,主要影响的是检索效率,而非检索的准确性。


2、关于 Qwen-Max、CosyVoice 和 moviepy 的协同使用,以下哪些说法是正确的?

A.CosyVoice 可以将文本转换为音频。

B.CosyVoice 的主要功能是视频剪辑。

C.moviepy 可以直接将文本转换为视频。

D.Qwen-Max 主要用于生成视频字幕。

E.moviepy 可以用来获取音频文件的持续时间,用于生成字幕。

F.使用这三个工具的典型流程是,Qwen-Max -> CosyVoice -> moviepy。

答案:AEF

解析:B.CosyVoice 主要功能是语音合成,将文本转化为语音,而不是视频剪辑;C.moviepy 是一个用于视频编辑的 Python 库,但它不能直接将文本转换为视频,需要结合其他操作来实现;D.Qwen-Max 是一个语言模型,主要用于生成文本等自然语言处理任务,而不是专门用于生成视频字幕,虽然可以生成字幕相关文本,但这不是其主要功能。


3、小李正在使用大模型服务平台开发一款 AI 语音助手 APP。为了确保 APP 能够顺利上线,小李在开发过程中应注意哪些事项?

A.关注《生成式人工智能服务管理暂行办法》的最新动态,及时调整 APP 的功能和策略。

B.在 APP 上线前完成算法备案手续。

C.忽略备案要求,尽快上线抢占市场。

D.对用户生成的 AIGC 内容进行审核和过滤,避免传播违规信息。

E.收集用户数据前需获得用户明确同意,并保障用户数据安全。

F.在 APP 中明确告知用户该应用使用了 AIGC 技术。

答案:ABDEF

解析:C 严重错误。未备案即上线属于违法行为,将面临处罚。


4、以下哪些因素会影响 RAG 系统的性能?

A.硬件资源的限制

B.文档的质量和数量

C.向量数据库的类型和配置

D.查询语句的表达方式

E.所使用的预训练语言模型的大小和性能

F.切片方法的选择

答案:ABCDEF

解析:影响RAG系统性能的因素涵盖多个维度:A.硬件资源限制会直接影响模型推理、检索速度等核心环节的效率,进而影响整体性能;B.文档质量越高、数量越充足且贴合检索需求,越能为RAG系统提供优质数据源,反之则会降低性能;C.向量数据库的类型适配度和配置合理性,决定了语义检索的效率和准确性,是影响性能的关键;D.查询语句表述是否清晰、精准,会影响系统对用户需求的理解,进而影响检索结果的匹配度;E.预训练语言模型的大小和性能直接关系到语义理解、内容生成的质量,是RAG系统的核心能力支撑;F.合理的切片方法能保留文档语义完整性,不当切片会破坏信息逻辑,降低检索和生成效果。因此以上所有因素均会影响RAG系统性能。


5、通过 Llamaindex 创建 RAG 应用,这段代码有哪些问题?

python

query_engine = index.as_query_engine( similarity_top_k=3,

streaming=True, node_postprocessors=[

DepthScopeRank(top_n=8, model="gte-rerank"), SimilarityPostprocessor(similarity_cutoff=1)]

)

response = query_engine.retrieve("需求分析使用的工具是什么?")

response.print_response_stream()

A. query_engine 不支持 retrieve

B. 重排选中的 chunk 数大于初步召回的 chunk 数

C.相似度阈值设置过高

D.Llamaindex 在 RAG 回答时不可以使用流式输出

答案:ABC

解析:A.在Llamaindex中,query_engine的核心方法是query(),retrieve()是retriever对象的方法,query_engine不支持retrieve()调用,此为代码核心问题;B.代码中similarity_top_k=3表示初步召回3个chunk,而DepthScopeRank的top_n=8表示重排时要选中8个chunk,重排选中数量大于初步召回数量,逻辑矛盾,无法实现;C.相似度阈值similarity_cutoff=1设置过高,通常相似度阈值取值范围在0-1之间,设置为1意味着仅匹配度完全一致的chunk才会被保留,实际应用中几乎无法满足,导致检索失效;D.错误,Llamaindex的query_engine支持通过streaming=True开启流式输出,print_response_stream()可正常使用,因此D不属于代码问题。


6、以下哪些描述符合基于语义的文档切片的理念?

A.使用机器学习模型对文档进行语义分析,并根据语义边界进行切分。

B.在 Chunk 中添加上下文信息,例如标题、父级列表项等。

C.将代码模块单独切出来,并标注其编程语言。

D.将文档按照固定长度进行切分。

E.将表格的每个单元格作为一个独立的 Chunk。

F.根据文档的结构,例如标题、段落、列表等进行切分

答案:ABCF

解析:D 固定长度切片(如 512 字符)是机械式方法,会破坏句子、段落或逻辑单元的完整性,违背语义切片理念。E 将完整表格(或逻辑子表)作为一个 Chunk,或转换为 Markdown 等保留结构的格式更符合语义切片理念。


7、下列关于将 AgentModule 类设计为基类的原因,正确的有哪些?

python

class AgentModule():

def init(self, name: str, description: str):

self.name = name

self.description = description

def call(self, query:str):

return self.query(query)

def query(self, query:str):

pass

A. 简化子类中的构造函数,减少重复代码

B. 由于 Python 不支持多重继承,因此需要这样设计

C.允许每个子类定义自己的 query 方法,增加灵活性

D.作为一个基类,可以方便地隐藏私有属性,保护数据

E.提供统一的 call 方法以便通过相同的方式调用所有子类

F.使得多个不同的代理模块可以共享相同的接口,实现代码复用

答案:ACEF

解析:B Python 支持多重继承,因此该选项的说法本身错误,设计基类与 Python 是否支持多重继承无关;D 基类的设计主要是为了实现代码复用和统一接口,而不是为了隐藏私有属性,Python 中通过命名约定来表示私有属性,与基类的设计并无直接关系。


8、关于大模型在文本处理中的局限性,以下哪些陈述是准确的?

A.即使有合适的系统提示词,大模型生成的内容仍需人工复审以保证质量。

B.大模型技术已经完全成熟,能够无差错地执行所有文本转换和润色任务。

C.大模型可能在处理特定领域专业术语时出现误解。

D.大模型对用户查询的依赖性强,如果查询表述不清,结果可能偏离预期。

E.在没有明确指示的情况下,大模型可能无法自动识别源语言和目标语言。

答案:ACDE

解析:大模型技术还在不断发展和完善中,存在局限性,不能无差错地执行所有文本转换和润色任务。


9、在使用大语言模型时,什么是 "样例" 的作用?

A.确定目标用户

B.辅助模型生成单一答案

C.明确限制模型的回答长度

D.提供有指导性的案例

E.设定模型的情感色彩

F.抽象出实现方案

答案:BDE

解析:A 属于用户分析,C 属于长度控制,F 不属于样例的作用。


10、在下面的代码片段中,哪些是微调大语言模型训练循环中必要的步骤?

A.model.train ()

B.loss = criterion (predictions, targets)

C.predictions = model (inputs)

D.optimizer.step ()

E.optimizer.zero_grad ()

F.loss.backward ()

答案:ABCDEF

解析:微调大语言模型的训练循环需遵循完整的参数更新逻辑,各步骤均为必要环节:A.model.train()用于将模型切换到训练模式,开启梯度计算等训练相关配置;E.optimizer.zero_grad()用于清空上一轮迭代的梯度,避免梯度累积影响当前训练;C.predictions = model(inputs)是模型接收输入数据并生成预测结果的核心推理步骤;B.loss = criterion(predictions, targets)通过损失函数计算预测结果与真实标签的差异,是训练的核心评价指标;F.loss.backward()实现损失的反向传播,计算模型各参数的梯度;D.optimizer.step()根据反向传播得到的梯度,更新模型参数,完成一轮训练迭代。缺少任一环节都会导致训练逻辑不完整,无法实现有效微调。


相关推荐
草莓熊Lotso2 小时前
Python 进阶核心:字典 / 文件操作 + 上下文管理器实战指南
数据结构·c++·人工智能·经验分享·笔记·git·python
乐迪信息4 小时前
乐迪信息:目标检测算法+AI摄像机:煤矿全场景识别方案
人工智能·物联网·算法·目标检测·目标跟踪·语音识别
学术小白人6 小时前
【EI会议征稿通知】2026年智能感知与自主控制国际学术会议(IPAC 2026)
人工智能·物联网·数据分析·区块链·能源
HyperAI超神经6 小时前
在线教程丨 David Baker 团队开源 RFdiffusion3,实现全原子蛋白质设计的生成式突破
人工智能·深度学习·学习·机器学习·ai·cpu·gpu
ASKED_20199 小时前
End-To-End之于推荐: Meta GRs & HSTU 生成式推荐革命之作
人工智能
liulanba9 小时前
AI Agent技术完整指南 第一部分:基础理论
数据库·人工智能·oracle
自动化代码美学9 小时前
【AI白皮书】AI应用运行时
人工智能
小CC吃豆子9 小时前
openGauss :核心定位 + 核心优势 + 适用场景
人工智能
一瞬祈望9 小时前
⭐ 深度学习入门体系(第 7 篇): 什么是损失函数?
人工智能·深度学习·cnn·损失函数