LMCC大模型认证 青少年组 第一轮模拟样题
题目总数:22 总分数:100
选择题
第 1 题 单选题
在掩码语言模型预训练中,核心任务"掩码预测"的主要目的是什么
A.
学习语言的深层双向上下文表征
B.
评估模型最终的分类准确率
C.
专门优化模型的文本生成流畅度
D.
减少模型训练所需的计算资源
答案
A
第 2 题 单选题
小明和小华在学习大语言模型时,尝试让它写太空探险的故事。
小明的提示词是:"写一个关于太空探险的故事。" 小华的提示词是:"请你扮演一位经验丰富的科幻小说家,为中学生写一个大约 500 字 的短篇故事。故事的主角是一位名叫'星尘'的年轻宇航员,他在探索一颗未知行星时, 意外发现了一个古老外星文明的遗迹。故事风格要紧张刺激,结局要留下悬念。" 结果小华生成的故事比小明更好。从提示词工程的角度分析,为什么小华能获得远比 小明更好的结果?
A.
因为小华提问时,大语言模型的知识库恰好更新了与"外星文明"相关的数据,所以能写出更具体的内容。
B.
因为小华的提示词更长、更复杂,根据提示工程原理,投入的文字量与生成质量成 正比,只要提示词足够长,效果就会更好。
C.
因为小华的提示词为模型设定了明确的角色、目标受众和具体约束,有效地引导了 模型的思维链,使其在庞大的可能性空间中聚焦于一个高质量的输出方向。
D.
因为大语言模型具有真正的创造力和情感理解能力,小华的提示词中"紧张刺激"和 "悬念"等词语激发了它的创作灵感。
答案
C
第 3 题 单选题
Transformer 架构中,使大语言模型能够有效处理长距离依赖关系的关键组件是:
A.
前馈神经网络
B.
层归一化
C.
自注意力机制
D.
残差连接
答案
C
第 4 题 单选题
指令微调的主要目的是什么?
A.
让模型从零开始学习海量无标注数据中的通用知识。
B.
增强模型理解和遵循人类指令或意图的能力,并改善其输出风格。
C.
大幅降低模型的基础参数量,以提高推理速度。
D.
专门用于修复模型在预训练阶段产生的事实性错误。
答案
B
第 5 题 单选题
大语言模型中存在的社会偏见,其主要根源最可能是:
A.
模型训练时使用的 GPU 硬件存在设计缺陷。
B.
模型 Transformer 架构中的注意力机制算法存在固有偏差。
C.
模型从预训练数据中学习了现实世界中存在的社会偏见。
D.
模型在指令微调阶段,工程师有意注入了有偏见的指令。
答案
C
第 6 题 单选题
目前主流的生成式大语言模型(如 GPT 系列)的核心架构通常基于:
A.
编码器模型
B.
编码器-解码器模型
C.
解码器模型
D.
卷积神经网络模型
答案
C
第 7 题 单选题
用于指令微调的数据通常具有什么典型特征?
A.
大规模、无标注的原始网页文本。
B.
由(指令/问题, 期望输出)配对组成的监督数据集。
C.
纯粹的代码仓库和编程语言片段。
D.
未经处理的原始音频和图像数据。
答案
B
第 8 题 单选题
关于"贪心搜索"和"束搜索"这两种解码策略,以下哪种说法是最准确的?
A.
贪心搜索因为每次都选最好的,所以总能生成最完美、最富有创造力的句子。
B.
束搜索需要同时考虑多条路径,计算起来更复杂,但它更有可能找到一个整体上更通顺、更合理的句子。
C.
束搜索的速度通常比贪心搜索更快,因为它是并行的。
D.
这两种策略没有本质区别,无论用哪一种,AI 生成的句子质量都完全一样。
答案
B
第 9 题 单选题
大模型"人类对齐"的核心目标是使得模型的行为:
A.
在所有的数学计算上达到零误差。
B.
无限接近地在所有任务上超越人类专家水平。
C.
符合人类的价值观、意图,并做到安全、有帮助。
D.
其内部神经网络的计算过程对人类完全透明可解释。
答案
C
第 10 题 单选题
大语言模型在解决一道复杂的数学应用题时,生成了一段非常长的思考过程,其中包含了将问题分解为多个子步骤、对每个步骤进行详细解释、并逐步推导出中间结 果。这种推理模式的主要优势是什么?
A.
能够确保最终答案的正确性,避免计算错误。
B.
通过展示详尽的思维过程,提高了解题逻辑的可解释性和可靠性。
C.
显著减少了模型处理问题所需的总时间和计算资源。
D.
主要目的是为了生成更多的文本内容,使回答看起来更丰富。
答案
B
第 11 题 单选题
关于 AI 智能体的角色配置文件设置,下列哪个说法是最准确的?
A.
角色配置文件的主要作用是限制智能体的知识量,防止它回答超出范围的问题。
B.
角色配置文件设置一旦完成就无法改变,智能体将严格按照初始设定运行。
C.
角色配置文件是定义智能体核心身份、行为准则和对话风格的关键,通常通过初始系统指令实现。
D.
角色配置文件的功能与用户每次对话的提问内容作用相同,都是为智能体提供临时信息。
答案
C
第 12 题 单选题
在评估一个代码生成智能体时,我们常使用 Pass@K 指标。假设我们有一个包含 n=100 个编程问题的测试集。对于每个问题,让智能体独立生成 k=5 个不同的代码解 决方案。如果对于某个问题,生成的 5 个方案中有任意一个能够通过单元测试,该问 题就被视为"已解决"。最终,在 100 个问题中,有 60 个问题被成功解决。
根据上述描述,以下关于 Pass@K 的计算和解释,哪一项是正确的?
A.
这里 K=5, Pass@5 = (60 / 100) * 100% = 60%。这表示随机抽取一个生成方案,其 通过测试的概率是 60%。
B.
这里 K=5, Pass@5 = (60 / 100) * 100% = 60%。这表示通过生成 5 个方案,智能体 成功解决其中 60%问题的能力。
C.
这里 K=100, Pass@100 = (60 / 100) * 100% = 60%。这表示智能体解决了测试集 中 60%的问题。
D.
这里 K=5, 但正确的计算方式应为 Pass@5 = (60 / (100 * 5)) * 100% = 12%。 这表示所有生成方案的总通过率。
答案
B
第 13 题 单选题
下列哪一项通常不属于对大语言模型进行系统评测的核心内容?
A.
模型训练所用 GPU 集群的实时功耗与散热效率
B.
模型在问答、摘要、代码生成等任务上的准确率与流畅度
C.
模型输出是否存在社会偏见、歧视性内容等安全性问题
D.
模型在数学推理、常识推理等复杂任务上的泛化能力
答案
A
第 14 题 单选题
在 Transformer 的自注意力机制中,关于 Query、Key 和 Value 的来源,以下哪一 项描述是最准确的?
A.
Query、Key 和 Value 是由三个完全不同的、随机初始化的参数矩阵生成的,与输入序列无关。
B.
Key 和 Value 是输入序列的嵌入向量本身,而 Query 是目标序列的嵌入向量本身。
C.
Query 来自编码器的最终隐藏状态,而 Key 和 Value 来自解码器的输入序列。
D.
Query、Key 和 Value 是由同一个输入向量通过三个不同的线性变换层(权重矩阵) 投影得到的。
答案
D
第 15 题 单选题
下列哪一项不属于测试时间拓展(Test Time Scaling,TTS)技术?
A.
对单个测试样本进行多种变换(如翻转、裁剪),并将所有变换版本的预测结果进行集成。
B.
在模型推理时,仍然随机丢弃部分神经元,进行多次前向传播并将结果平均,以模拟集成效果提升健壮性。
C.
为每个测试样本定义一个辅助任务(如旋转图片预测),利用该样本对模型进行一 步梯度下降微调,再完成主任务预测。
D.
在一个大型源数据集上预训练模型,然后在一个较小的目标数据集上对模型的所有 权重进行微调。集上对模型的所有权重进行微调。
答案
D
第 16 题 单选题
为了保障社会群体的"公平安全",避免模型输出产生歧视性内容,最关键的缓解方法是在哪个阶段介入?
A.
仅在模型推理部署后,通过实时过滤敏感词来屏蔽有害输出。
B.
主要依靠扩大模型规模,期望其自动学习并消除偏见。
C.
在模型预训练和微调阶段,系统性地清洗数据和引入公平性约束。
D.
完全依赖第三方评测机构在发布前进行一次性的偏见评估。
答案
C
第 17 题 单选题
当前意义上的"大语言模型"最显著的特征不包括以下哪一项?
A.
模型参数量巨大,但仅在特定领域的小规模数据上训练。
B.
展现出强大的涌现能力,如推理、编程和创造性写作。
C.
基于"下一个词预测"等自监督目标在海量互联网文本上训练。
D.
具有强大的上下文学习能力,无需梯度更新即可根据提示完成新任务。
答案
A
第 18 题 单选题
基于强化学习的推理能力优化方法面临的主要挑战是什么?
来源:6547网题库 6547.cn/wenku/list/35