H C IE - A I 笔试题
1.以下关于Google论文中标准transformer structure优点描述正确的有哪些选项?(多选)
++A.可以获取输入的全局依赖信息。++
++B.Transformer的Encoder和Decoder可以并行独立计算,训练效率高。++
++C.计算资源利用率高,特征学习能力强。++
++D.每个block的输入输出维度不变,易于扩展和调整。++
2.关于Transformer的计算维度,以下正确的是哪一选项? 单选。
- 在前馈神经网络中,输入和输出的维度都保持不变,为 (N,D)
- ++在多头自注意力机制中,查询(q)、键(k)和值(v)的维度都相同,且等于嵌入维度D。++
- 在多头自注意力机制中,如果头数为H,则最终的输出维度是 (N,H,D)
- 输入序列经过词嵌入和位置编码后,得到的矩阵维度为 (N,D),其中N是序列长度D是嵌入维度。
解析:C错误是因为多头是拼接在一起,输出的维度是(N*H, D)。D错误是因为编码后输出的维度是三维的,应该是(1,N,D)
3.在MoE模型中,每个专家模型通常是一个前馈神经网络(FNN),它也可以是更复杂的网络结构,但FNN是最常见的选择。判断
++○ 对++
○ 错
4.智能客服作为常见的AI应用,以下哪些需求是正确的? 多选。
++A.智能问答系统,回答客户常见问题。++
++B.自然语言处理能力,理解客户意图。++
C.知识库,快速维护知识库内容。
D.知识提炼,客户提问时用一次对话准确答复,不提供个性化多轮对话。
5.涌现能力是指当大模型突破某个规模时,性能显著提升,表现出让人惊艳、意想不到的能力,比如语言理解能力、生成能力、逻辑推理能力等。从目前经验来说,模型参数在哪个区间更可能产生涌现能力? 单选
○ A.100B到1000B区间
++○ B.100亿到1000亿区间++
○ C.10亿到100亿区间
○ D.1T到10T区间
6.大模型通过知识库弥补预训练后大模型在某些专业领域的短板,或特别强化在某些细分场景下的能力,并提升回复的准确性和相关性。 判断
++○ 对++
○ 错
7.华为盘古大模型3.0是面向行业的大模型,以下哪一项不是华为定义的L1行业大模型? 单选
○ A.盘古数字人大模型
++○ B.盘古科学计算大模型++
○ C.盘古汽车大模型
○ D.盘古政务大模型
8.大模型的训练包括预训练、微调、RLHF等,关于各个阶段的作用,以下哪项描述是错误的? 单选
○ A.微调的作用是让模型适配下游任务
○ B.RLHF的作用是让大模型输出合法合规
○ C.预训练决定了模型的基础能力
++○ D.微调的作用是增强模型基础能力,通过高质量数据集弥补预训练阶段数据集质量不高的问题++
9.大模型离实际业务的需求(常见的基本精度要求≥90%)仍然还有一定差距,无法直接开箱即用,所以需要基于业务构建的数据集对大模型进行微调。以下哪些选项描述是正确的? 多选
++□ A.学习特定场景下语料,和预训练的通用语料区分开,增大预训练和特定任务的差异++
++□ B.改善大模型在特定任务下的输出效果++
++□ C.减少幻觉现象的发生++
□ D.改善大模型在特定任务下的过拟合问题
10.以下关于大模型数据集特点的描述中,错误的是哪一项? 单选
○ A.所需数据量大,需要占用较大存储空间
○ B.大模型训练流程分为预训练和微调等阶段,每个阶段所需数据集不同
○ C.预训练所需数据种类广泛
++○ D.针对专业场景使用专业数据集,内容相对单一++
11.Data--Juicer是开源的一站式数据处理系统,它的数据预处理包含以下哪些流程? 多选
++□ A.数据收集++
++□ B.质量评估++
++□ C.精调参数++
++□ D.数据处理++
12.以下哪哪一项不是常见的大语言模型训练数据的预处理方法? 单选
++○ A.数据爬取++
○ B.隐私处理
○ C.过滤
○ D.数据格式规整
13.以下关于MoE门控网络描述错误的是哪个选项? 单选
++○ A.训练MoE模型时,门控网络参数会冻结++
○ B.专家的个数不会影响门控网络的神经元数量
○ C.门控网络也是一个神经网络
○ D.门控网络作用是为输入选择一组专家
14.FlashlashAttention能够能够显著减少神经网络的计算量和存储需求,从而加速模型的训练和推理过程。 判断
○ 对
++○ 错++
15.FlashAttention通过对于++SRAM++ 的利用和减少++_HBM++的访问次数,实现了计算效率的提升。(请填写英文缩写)
16.在Transformer自注意力机制中,以下哪一项是多头自注意力(Mlulti--Head Attention)相比单头自注意力(Single--Head Attention)的优势? 单选
○ A.多头自注意力能够增加模型的并行能力,从而提高模型资源利用率
○ B.多头自注意力能减少计算量
○ C.多头自注意力能够并行处理多个查询
++○ D.多头自注意力能的捕捉不同位置的输入之间的更多交互信息++
17.以下关于CLIP模型描述错误的是哪个选项? 单选
○ A.CLIP模型中通过对比学习的方式来关联图像和文本信息
○ B.CLIP模型可作为图像生成模型获取图像特征的部分
++○ C.CLIP模型获取图像特征的部分是一个扩散模型++
○ D.CLIP模型中提取文本语音信息的部分可以是一个Transformer模型
解析:CLIP 模型获取图像使用的是Vsion Transfomers模型,获取文本使用的是Transformer模型
18.Self-attention相比普通的Attention机制允许模型关注输入序列++内部++的依赖关系。(请输入中文)
19.FlashAttention通过减少对a的访问次数和b资源的利用,实现了内存节省和计算加速。a和b对应以下哪个选项? 单选
○ A.SRAM和ALU
++○ B.HBM和SRAM++
○ C.HBM和DDRAM
○ D.L1缓存和ALU
20.大模型出现后,小模型并没有完全消失,以下哪个选项是小模型存在的价值? 单选
○ A.小模型可以解决的问题更多
○ B.小模型通过优化数据集也可涌现出思维链能力
++○ C.小模型在简单场景做的很好++
○ D.多个小模型组合可以完成复杂且不明确的任务
21.某企业有一个基于caffe框架训练好的模型,需要将其转换为昇腾AI处理器支持的离线模型,以下哪个工具可以完成该功能? 单选
○ A.MindSpore框架
++○ B.AOE工具++
○ C.mxVision工具
○ D.mxRec工具
22.昇腾硬件虚拟化会让容器使用的硬件资源与其他容器隔离,这些硬件资源包含以下哪些选项? 多选
++□ A.NPU内存++
++□ B.AICore++
++□ C.AI CPU++
□ D.Storage
23.昇腾为所有的Atlas服务器提供AI处理器容器化和虚拟化支持,以下哪些选项是错误的? 多选
++□ A.虚拟化管理方式实现统一规格资源的分配和回收处理,不满足多用户反复申请不同规格的资源操作请求++
□ B.可实现多个用户同时申请同一台服务器资源
++□ C.虚拟化分配昇腾硬件资源最小单位是NPU,一个VNPU包含一个或多个NPU++
++□ D.一台Atlas 800T A2服务器有八块NPU,所以最多支持8名用户申请虚拟化资源++
24.某公司计划将基于GPU+PyTorch开发的某大模型在昇腾服务器上微调,该公司工程师第一步需要完成的操作是什么? 单选
++○ A.迁移可行性分析++
○ B.模型迁移适配
○ C.模型精度评估
○ D.模型选型
25.训练大模型对训练服务器系统提出了众多挑战。例如,芯片算力遇到的挑战是其增长速度远不及模型参数和训练数据的增长速度,内存遇到的挑战是内存容量增长速度未及所需。 判断
++○ 对++
○ 错
26.以下哪一项不是模块化数据中心方案的特点? 单选
++○ A.相对于传统数据中心,对部署环境的要求更高++
○ B.可以在工厂预集成和预调试
○ C.容易扩容
○ D.相对于传统数据中心,部署更快
27.在智算中心网络的物理架构中,可以将AI计算集群区的物理网络区分为以下几个平面:参数面、++样本面++、业务面和管理面。(请填写中文)
28.大模型单batch训练的总时间受以下哪些因素影响? 多选
++□ A.数据加载时间++
++□ B.模型前向和反向计算时间++
++□ C.优化器更新参数时间++
++□ D.多设备间并行计算的全部通信时间++
29.迁移到昇腾服务器上的模型在训练过程中出现loss持续上升的情况,出现该问题后需要排查以下哪些因素? 多选
□ A.训练数据是否存在个别异常
++□ B.混合精度配置是否合理++
++□ C.学习率设置是否合理++
++□ D.是否使用大量FP16数据类型,导致部分网络梯度计算不稳定++
解析:A.训练数据是否存在个别异常 引起的现象是损失率出现毛刺
30.数据加载是影响模型迁移性能调优的一大因素,以下关于数据加载优化描述正确的是哪些选项? 多选
++□ A.数据尽可能存放在NVMe盘上,提高读写速度++
□ B.NLP任务中,可以选取长度近似的样本进行训练,这样可以减少余训练量,不会产生其他影响可以尝试预取数据,减少数据读取时间
++□ C.对于NPU预页处理数据比较慢的模型,例如Deep Learning Recommendation Model,可以考虑将预处理放到datasets里用CPU多num_workers处理数据++
++□ D.处理数据可以尝试预取数据,减少数据读取时间++
31.DeepSpeed是一种深度学习训练优化工具,旨在通过分布式训练和混合精度技术来提高训练速度和节省资源。它是一个开源的Python库,可以在多个硬件平台上运行。 判断
++○ 对++
○ 错
32.一个拥有3B参数的模型在使用FP16训练时,大约需要多大内存来存储模型参数? 单选
○ A.9GB
○ B.1.5GB
○ C.3GB
++○ D.6GB++
33.ZeRO++是构建在ZeRO之上的通信优化策略系统,可以提高大模型的训练效率,以下哪些选项是它的关键设计? 多选
++□ A.量化权重(qwz)++
++□ B.量化梯度(qgz)++
++□ C.分层分区ZeRo(hpz)++
□ D.DeepNVMe
解析:选项D,DeepNVMe是一种利用 NVMe 存储扩展内存的技术,主要用于解决内存容量限制,不属于 ZeRO++ 的核心通信优化设计。
34.DeepSpeed中ZeRO-Infinity不仅可以将模型参数卸载到CPU上,还可以将其卸载到NVMe硬盘上。 判断
++○ 对++
○ 错
- MindInsight帮助帮助用户可视化训练过程,性能调优,超参调优,++精度++调试,训练对比。(请填入两个字中文)
36.Mindformers精度调优对训练过程进行分析,用户需要感知训练过程中算子的输入和输出数据,异步dump和同步dump操作步骤中哪一项不同? 单选
○ A.启动网络训练脚本
○ B.解析Dump数据文件
○ C.设置Dump环境变量
++○ D.创建json配置文件++
37.MindPet专注于低参微调算法的开发对外提供低参微调算法接口,包含LoRA Adapter、Prefix-tuning Adapter、prompt-tuning Adapter,和Mindformers套件一起直接实现低参微调。 判断
++○ 对++
○ 错
38.MindFormers套件的目标是构建一个全流程开发套件,提供业内主流的Transformer类预训练模型和SOTA下游任务应用,涵盖丰富的并行特性。以下哪些描述是正确的? 多选
++□ A.包含大模型评估++
++□ B.包含大模型推理部署++
++□ C.包含大模型微调++
++□ D.包含大模型数据预处理++
- MindFormers与 ++MindPet++两者结合,通过PetAdapter整合两个部件,可以实现模型低参微调。
40.对大模型进行全参微调和低参微调所需的数据量差别不大,主要差别是训练时长和资源需求 判断
○ 对
++○ 错++
41.经过预训练得到的大模型无法直接用于下游任务,可通过下面哪些方法让大模型适配下游任务? 多选
□ A.特征工程
++□ B.检索增强生成(RAG)++
++□ C.微调++
++□ D.提示工程++
- 某工程师想要让一个不具备中文能力的 LLM 快速具备中文能力,应该采用以下哪种方法? 单选
○ A. 二次预训练后使用中文数据进行微调
++○ B. 直接使用中文数据进行微调++
○ C. 扩充词表(在原有词表里面加上中文 token)后使用中文数据进行微调
○ D. 给模型外挂中文知识库
- 以下哪些选项是P--Tuning V2方法相较于V1的改进点?(多选)
□ A. 采用4位NormalFloat
++□ B. 舍弃词汇Mapping的Verbalizer的使用++
++□ C. 基于多任务数据集的Prompt进行预训练,然后再适配的下游任务++
++□ D. 移除Reparameterization加速训练方式++
- 以下哪个选项是PPO算法中Reference Model的作用?(单选)
○ A. 给定状态下模型的期望回报
○ B. 输出给定状态下采取每个动作的概率
++○ C. 计算策略比率,限制更新幅度++
○ D. 评估response的分值
- 使用以下哪些方法编写Prompt可以让大模型更好的理解并完成任务?(多选)
□ A. Prompt的长度尽可能长
□ B. Prompt的长度尽可能短
++□ C. 寻求结构化的输出++
++□ D. 使用分隔符清晰地表示输入的不同部分++
-
针对大模型有很多围绕Prompt的研究,有一种方法是将问题拆解为多个步骤,然后每个步骤继续拆解,当全部拆解完成后模型会使用搜索方法去验证其中某条线路是否可行,如果不行会继续尝试,直到得出最终结果并验证通过,这种方法的名称是++TOT++(请填写英文)(填空)
-
模型部署过程中,要考虑端侧设备的实时性和延时,往往采用++低++精度数据更有利于适应下游任务。(请填入中文)
-
某工程师打算使用CPU部署13B的模型,若使用FP16精度且不考虑量化,那他选用的电脑内存至少为++32++GB才能部署。(请填写阿拉伯数字8的倍数)(填空)
-
在LLM推理过程中,以下哪个阶段对内存带宽要求比较高?(单选)
○ A. 反向传播
++○ B. Decoding++
○ C. Preill
○ D. Encoding
解析:LLM推理过程中,Prefill对算力峰值要求比较高,decoding对内存带宽要求比较高
- KV Cache可以加速LLM推理,以下哪个选项描述是正确的?(单选)
○ A. LLM推理过程中只关注邻近token,距离输出较远的token会缓存Key和Value,LLM判断需要使用的时候才会再次计算
++○ B. Text Embedding在推理过程中不会改变,相同的token计算得到的Key和Value是一样的++
○ C. 计算硬件包含L1缓存和DRAM内存,通过将Key和Value放在L1缓存中,可以提高芯片计算效率
○ D. 不同的token向量化后在向量空间的距离不一样,距离相近的token可利用对方的Key和Value加速自己Key和Value的计算
- 在部署大模型时通常会进行压缩,以下哪些选项属于大模型压缩的原因?(多选)
++□ A. 模型压缩可以降低专用推理芯片设计难度++
++□ B. 模型压缩可以降低算力消耗++
□ C. 模型压缩可以提高输出准确率
++□ D. 模型压缩可以降低内存占用++
- LLM的推理包含以下哪些阶段?(多选)
++□ A. Prefill++
++□ B. Decoding++
□ C. Encoding
□ D. Comparing
- FoundationModel很可能提供带偏见的答案,因为模型从训练数据集中提取到偏激言论和不恰当的暗示。为避免这种情况,开发人员应给所有训练数据打上标签,将带有不同标签的言论放到不同的分类编码集中,让Foundation Model从零开始再次训练得到不带偏见的答案。(判断)
○ 对
++○ 错++
解析:不是从零开始训练
54.Open-Sora作为一个开源项目,以下描述哪些是错误的?(多选)
++□ A.Open-Sora方案将复现成本降低了80%++
□ B.Open-Sora训练时可以直接处理任意分辨率的视频,无需缩放
□ C.Open-Sora提供了视频处理到训练推理的全流程解决方案
++□ D.由openAI团队开源,旨在为广大用户提供一个高效且用户友好的视频制作方案++
- 以下哪一项不是常见的数据预处理工具?(单选)
○ A. Macaw-LLM
○ B. Data-Juicer
○ C. Jellyfish
++○ D. WordPiece(++ ++是一种tokenizer分词工具++ ++)++
- 混合精度训练是一种深度学习训练技术,它在训练模型时采用了哪些数据类型?(多选)
++□ A.FP32++
□ B.BF16
□ C.INT8
++□ D.FP16++
- ModelArts数据框架包含数据采集、数据筛选、数据标注、数据集版本管理功能,支持自动化和半自动化的数据筛选功能,但不支持自动化的数据标注 。(判断)
○ 对
++○ 错++
-
在Transformer中,Decoder进行注意力计算时,采用了++masked++ (请输入英文)操作遮挡后面的词,计算过程中V和++K++ (请输入英文缩写)使用Encoder编码信息矩阵计算, ++Q++ (请输入英文缩写)使用上一层输出进行计算。(填空)
-
在使用深度学习框架(如TensorFlow或PyTorch)时,开发者无需关心GEMM操作的优化,因为框架会自动处理这些底层优化。(判断)
++○ 对++
○ 错
- 关于Transformer的计算过程,以下哪一项描述是错误的?(单选)
++○ A. 在自注意力计算中,每个词与相邻的词进行注意力系数计算++
○ B. 通过Softmax计算每一个单词对于其他单词的注意力系数
○ C. Transformer首先对输入序列进行词嵌入和位置编码,得到输入序列的表示
○ D. Transformer的损失函数通常采用交叉熵损失
- 在自注意力机制中,以下哪些因素会影响注意力权重系数的计算?(多选)
++□ A. 序列中元素的相对位置信息++
++□ B. 多头注意力机制的头部数量++
□ C. encoder block的数量
++□ D. 输入序列的长度++
算结果;答案B 不同的头要连接在一起叠加,所以头的数量会影响结果;答案D 输入序列长度不同,矩阵大解析:根据自注意力计算的公式判断,答案A 输入向量的位置不同,点乘的数值不同会计小不同计算结果就不同。
- 在注意力机制中,对于Query、Key和Value的计算,以下哪些选项描述是正确的?(多选题)(多选)
□ A. Query、Key、Value的维度在Multi-Head Attention中可能不同
++□ B. Value的维度可以与Query和Key不同++
++□ C. Query和Key的维度必须相同,以便进行点积运算++
++□ D. Query、Key和Value通常是由输入数据经过线性变换得到的++
解析:选项A,多注意力头的维度必须是相通的;选项B、C,Q和K 的维度必须相同才能做矩阵计算,V的维度可以不与Q K相同;选项D ,矩阵乘法本质就是线性变换
- 多头注意力机制(MHA)需要缓存多组Q和K,Grouped-Query Attention对此进行优化,将v分为多个组,每组共享一份公共的Q和K,可以节省内存。(判断)
○ 对
++○ 错++
解析:MHA指的是Q和K 分成多组,而不是V分成多组,本质上是将计算V的矩阵分成多个共享的组,既能实现多个不同方面特征的提取,又能节省内存。
-
相比于Prompt-Tuning和P-Tuning,Prefix-Tuning不再将Prompt加在输入的Embedding层,而是将其作为可学习的前缀,放置在Transformer模型中的每一层,具体表现形式为++past_key_values++(请填写英文)(填空)
-
通过Function Call,大模型可以具备调用工具的能力,以下哪项关于Function Call的说法是错误的?(单选)
○ A. 定义Function的时候只需要用文字来描述,无需真正用代码实现
○ B. 大模型在用户输入问题的时候会分析是否调用Function
++○ C. 如果大模型根据用户输入认为需要调用Function,会根据之前的Function描述生成一段代码,执行后得到结果++
○ D. 在定义Function时需要指定函数名、函数用途、参数名、参数描述
-
昇腾NPU专为AI计算设计,Cube占比高,单个时钟周期最大可以完成(++4096++)次运算。(请填入阿拉伯数字)(填空)
-
某工程师需要将PyTorch+GPU训练的大模型迁移到昇腾服务器上,在正式迁移前需要完成哪些准备工作?(多选)
++□ A. 保证选定的模型能在GPU上运行++
++□ B. 在PyTorch+GPU训练平台上输出大模型的精度和性能基线++
++□ C. NPU驱动固件、CANN软件toolkit、二进制算子包以及PyTorch框架的安装++
++□ D. 替换昇腾不亲和算子++
- RoCE是一种允许通过以太网进行RDMA的网络协议,包含RoCEv1和RoCEv2两个版本,分别基于UDP和TCP实现。(判断)
○ 对
++○ 错++
解析:RoCE v1基于以太网数据链路层,RoCE V2基于UDP/IP 协议实现的。
69.HCCL(Huawei Collective Communication Library,华为集合通信库)是基于昇腾AI处理器的高性能集合通信库,提供单机多卡、多机多卡集合通信原语,在PCIe、HCCS和RoCE高速链路实现集合通信功能,实现分布式训练。当昇腾网卡与交换机Qos(Quality of Service,服务质量)不匹配导致RDMA通信带宽下降时需要调整以下哪个配置?(单选)
++○ A.HCCL RDMA SL++
○ B.HCCL_INTRA ROCE ENABLE
○ C.HCCL_BUFFSIZE
○ D.HCCL RDMA TC
解析: HCCL RDMA SL,SL(Service Level)主要用于区分 RDMA 通信的服务级别,与 QoS 中的优先级映射相关
70.DeepSpeed提供分布式训练管理、内存优化和模型压缩等,支持基于PyTorch和mindSpore构建,以帮助开发者更好地管理和优化大规模深度学习训练任务。(判断)
○ 对
++○ 错++
解析:DeepSpeed是微软推出的分布式训练框架,只支持Pytorch构建的模型,不支持华为的mindSpore构建模型
- 某公司打算采用 Adam 优化器并使用混合精度训练大模型,已知模型参数量为 7B,那么 Model States 的内存总开销为多少?(单选)
++○ A.112GB++
○ B.56G
○ C.14GB
○ D.28GB
解析:模型参数需要7×10⁹ × 2 字节 = 14GB,优化器状态(Adam 优化器需要为每个参数存储 2 个 FP32 状态)需要7×10⁹× 2(状态数)× 4 字节 = 56GB,梯度需要14GB(混合精度训练中梯度通常也以 FP16 存储,与参数开销相同),合计112GB。
- DeepSpeed中内置了多种压缩方法、专门帮助开发者压缩模型的库是++Compression++(请填写英文)(填空)
73.某公司打算采用Adam优化器并使用混合精度训练大模型,在Model States的内存总开销中开销占用最多的是哪一部分?(单选)
++○ A.Optimi zerstates++
○ B.Gradients
○ C.LoSS
○ D.Parameters
解析:Model States指模型在运行和训练过程中的关键数据,Adam 优化器需要额外存储动量和二阶矩等状态信息,这些状态的数量通常是参数数量的 2 倍,且优化器状态常需用 FP32 以保证精度,因此其内存开销占比最大
74.使用Mindformers大模型套件,大模型训练时定义训练参数,以下哪个参数属于优化器配置参数?(单选)
○ A.loss_scale_value
○ B.scale_factor
○ C.sink_size
++○ D.learning_rate++
75.MindPet专注于低参微调算法的开发,对外提供低参微调算法接口,包含LoRA Adapter、Prefix-tuning Adapter、prorpt-tuning Adapter和Mindformers套件一起直接实现低参微调。(判断)
++○ 对++
○ 错
76..MindFormers大模型套件中低参微调支持了多个模型微调算法,不包含以下哪个选项?(单选)
○ A.Prompt-tuning
○ B.P-tuning
++○ C.GPT++
○ D.LOR
77.Mindormers大模型套件支持断点续训,以下哪些配置代码描述是正确的?(多选)
++□ A.在run_xxx.yaml中配置load_checkpoint,并将resume_training改为True++
++□ B.在TrainingArguments中配置resume_from_checkpoint为checkpoint文件夹路径,并将resume_training参数设置为True++
++□ C.在Trainer.train中配置train_checkpoint参数为checkpoint文件夹路径,并将resume_training参数设置为True++
++□ D.在Trainer.finetune中配置finetune_checkpoint参数为checkpoint文件,并将resume_training参数设置为True++
解析:只要是和resume(连续)相关的都是正确选项。
78.MindFormers整体设计中提供了多种组件,方便用户对模型进行训练和微调。以下哪些描述是错误的?(多选)
++□ A. Trainer组件开发依赖于PyTorch原生的并行能力和注册机制++
++□ B. Config组件包含模型配置、训练配置、环境配置等信息,主要提供两种使用方式:1.config配置文件;2.Trainer高阶接口++
□ C. Parallel组件开发集成了MindSpore原生的并行配置
□ D. Pipeline组件提供了面向任务设计的推理接口
79.使用SFT方法对大模型进行微调时不包含以下哪个步骤?(单选)
○ A.评估模型性能
++○ B.压缩模型参数++
○ C.获取预训练模型
○ D.对模型进行微调
80.与PPO相比,DPO做了哪些优化?(多选)
□ A.引入了额外的参数层,降低了模型更新时的计算量
++□ B.去除PPO的采样过程,只存在训练流程++
□ C.采用了更高效的编码器,加速模型收敛
++□ D.去除Reward Model和Critic model++
解析:选项A、C都是模型相关的内容,而PPO和DPO是流程相关的内容。DPO相比于PPO减少了数据采用、去除了奖励模型和批判模型。
81.Prompt-Tuning的思想是冻结主模型全部参数,在训练数据前加入一小段Prompt,只训练Prompt的词嵌入层。(判断)
++○ 对++
○ 错
82.某公司在选择基础模型并用微调适配公司业务时,需要考虑以下哪些必要因素?(多选)
++□ A.模型参数量++
++□ B.训练模型使用的深度学习框架++
++□ C.模型擅长领域++
++□ D.训练服务器硬件架构++
解析:选项D指的是微调时服务器的硬件架构,用以判断硬件是否能够完成微调认为,这里的架构不是CPU架构。
83.ICL(In--Context Learning)的优化分为两个阶段,精调和推理,以下哪些选项属于推理阶段的优化方法?(多选)
□ A.自监督ICL训练
□ B.有监督ICL训练
++□ C.Prompt设计++
++□ D.打分函数++
解析:A和B都属于 微调阶段的方法。Prompt设计和打分函数是推理阶段的方法
84.企业部署新的大模型应用,以下哪些描述是正确的?(多选)
□ A.原来使用的基础模型不好用,这次重新选择新的基础模型,但原来的应用已经部署好了,继续保留原来的基础模型同时使用
++□ B.闭源模型一般维护在发布厂商的相关大模型服务平台,此类平台版本升级频繁,需要企业后期不断进行适配,所以企业有能力开发的话选择开源模型更好,固定一个版本减少维护的麻烦++
++□ C.模型预训练以后,需要经过有监督微调和人类对齐,费时费力++
++□ D.数据准备需要经过数据收集、数据清洗、格式转化、信息抽取等步骤++
85.以下哪个选项限制了LLM的长序列生成?(单选)
○ A.当序列长度增加时,需要同步扩大模型的规模,否则模型回答效果很差
++○ B.KV Cache会导致内存使用过多或增加推理时延++
○ C.序列长度的增加会导致计算量呈指数级增长
○ D.当序列长度增加时,LLM无法准确捕捉提问者的语义信息
解析:限制LLM序列生成长度的原因是自注意力计算时的KV缓存,大模型的上下文长度4K、23K等参数,都是受KV Cache影响。
- LLM推理的++Prefill++阶段对芯片峰值算力要求比较高。(请填写英文)(填空)
87.LLM压缩面临的挑战包括依赖重新训练的压缩方案开销较大、依赖原始数据的压缩方案变得很昂贵、压缩后需要大量修改推理代码才能才能实现推理加速。(判断)
○ 对
++○ 错++
88.某公司希望对外提供文生图服务,适合在服务器上部署哪一个模型?(单选)
○ A.ChatGLM2
○ B.LLAMA2
○ C.MAE
++○ D.Stable Diffusion++
89.Foundation Model从头开发要花费数百万美元,但从长远来看,它们可发挥重要作用。对于数据科学家来说,可以更快速、更经济地使用Foundation Model开发新的机器学习应用程序,以下哪些是可以使用的Foundation Model?(多选)
++□ A.CLIP++
++□ B.BERT++
□ C.ResNet
++□ D.GLM++
解析:RestNet是算法模型,等同于Transformers,不是基础模型。
90.客户业务上有智能客服需求,计划上线大模型应用。客户需要提供的业务需求包含如何降低人力成本、支持多轮次对话、用户意图识别、训练硬件资源数量、用户回复延迟时间等。(判断)
++○ 对++
○ 错
91.LLaMA2是LLaMA的升级版本,以下哪个描述是错误的?(单选)
○ A.LLaMA2经过更大规模的数据训练,其训练数据量比LLaMA多了40%
++○ B.LLaMA2模型参数量分为7B、13B、33B和65B,同时包含基础模型和指令微调模型++
○ C.为了确保LLaMA2在实际应用中更具有帮助性和安全性,它包含了超过100万个人类偏好的注释
○ D.LLaMA2的主要优点之一是它可以免费用于研究和商业用途
解析:LLaMa2 模型尺寸只有7B、13B、70B三种
92.人工智能大模型诞生后,大多数应用都还是从云侧提供服务,如chatGPT、文心一言等。以下哪些选项是大模型云侧应用的缺点?(多选)
□ A.算力扩容复杂
++□ B.数据安全问题++
++□ C.云侧算力中心维护复杂++
++□ D.网络延迟++
93.某公司在训练模型时打算采用混合精度训练,以下哪一项不是它相比于单精度训练的优点?(单选)
++○ A.溢出错误出现概率低++
○ B.训练成本低
○ C.训练效率高
○ D.通信效率高
解析:混合精度训练会使用低精度(如 FP16)存储部分参数或梯度,低精度的数值范围更小,反而更容易出现溢出错误(如梯度消失或爆炸)
94.字节对编码(BPE)是一种基于字符的二元编码策略,其基本原理是将连续的字符对进行编码,从而实现对单词的识别和分割。 判断
++○ 对++
○ 错
95.John想要训练一个MoE大模型来代替已有的LLM,在训练和使用MoE模型过程中以下描述正确的有哪些选项? 多选
++□ A.微调阶段,泛化能力不足,易引起过拟合++
++□ B.相同计算资源下,MoE可以实现更大的参数量,性能可能较好++
□ C.参数量稀疏,推理时占用显存较低
++□ D.推理时使用较少的专家,计算资源使用较少++
解析:MOE专家模型在推理阶段,并不能减少显存的占用,因为整个模型参数都被加载,它减少的是计算量,只有被激活的专家参数才需要计算。
96.在Transformer自注意力机制中,以下哪一项是多头自注意力(Multi--Head Attention)相比单头自注意力(Single--Head Attention)的优势? 单选
○ A.多头自注意力能够并行处理多个查询
○ B.多头自注意力能够减少计算量
○ C.多头自注意力能够增加模型的并行能力,从而提高模型资源利用率
++○ D.多头自注意力能够捕捉不同位置的输入之间的更多交互信息++
97.关于Transformer的计算维度,以下正确的是哪一选顶? 单选
○ A.在前馈神经网络中,输入和输出的维度都保持不变,为(N,D)
○ B.在多头自注意力机制中,如果头数为H,则最终的输出维度是(N,H,D)
○ C.输入序列经过词嵌入和位置编码后,得到的矩阵维度为(N,D),其中N是序列长度,D是嵌入维度
++○ D.在多头自注意力机制中,查询(q)、键(k)和值(v)的维度都相同,且等于嵌入维度D++
解析:这里的答案并不完全准确,选项D和前面的选择题有矛盾的地方,但是正确答案是D,这里做特殊记忆。
98.以下大模型中不属于MoE模型的是哪个选项? 单选
○ A.GLaM
○ B.Mixtral 8x7B
++○ C.MAE++
○ D.Switch Transformer
解析:选项B从模型名称就可以看出是MOE,选型D 意为切换Transformer 就是MOE的含义。答案在A和D之间选择。
资料:GLaM 是谷歌提出的一类通用语言模型(Generalist Language Model)。它是基于 Transformer 架构的 decoder only 模型,同时也是一种混合专家(Mixture of Experts,MoE)模型。
99.Ascend Docker Runtime是MindX DL的基础组件,用于为所有的训练或推理作业提供昇腾AI处理器容器化支持,以下哪些选项是正确的? 多选
++□ A.使用户AI作业能够以Docker容器的方式平滑运行在昇腾设备之上,同时不影响原生Docker使用方式++
□ B.与Docker部分解耦,通过修改Docker代码,Ascend Docker Runtime可以独立运行
++□ C.提供run包部署,用户安装后即可用Docker创建挂载NPU的容器++
++□ D.与用户现有平台和系统平滑适配,不影响原Docker的命令接口++
++解析:++Ascend Docker Runtim到底是否需要依赖原生docker运行呢?答案A和B是矛盾的,只能从中选一个。
100.某企业使用CANN来开发大模型应用,但对华为软件架构了解不多,以下哪项功能是CANN不能提供的? 单选
○ A.使用C/C++标准开发规范
○ B.自适应梯度切分,图编译加速使能处理器并行加速
○ C.加速库提供FlashAttention算子
++○ D.保持AI框架不变,模型快速迁移至GPU运行++
解析:CANN是华为自家的算子开发库,目的是为了适配自家的NPU,当然不能快速迁移至GPU运行。
101.MindSpeed针对优化器所占用的内存进行了优化,关于优化器内存优化描述正确的是以下哪些选项? 多选
++□ A.优化器更新权重参数时经常使用FP32的数据类型,该数据类型占用内存较大,因此更新权重时使用FP16代替,这样在保证精度的前提下可以减少内存占用++
++□ B.模型在反向传播过程中,计算的梯度可以使用FP16数据类型保存,如果需要进入优化器中计算,再将梯度转化为FP32的数据类型++
++□ C.优化器使用FP32数据类型更新完权重参数后,权重的数据类型可以转换为FP16继续参与运算++
□ D.反向传播过程中,梯度由FP16转换为FP32后,该数据需要一直保存,否则在后续计算过程中会造成数据丢失,计算出现错误
解析:D选项显然不对,因为有重计算方法可以先将数据丢失以节省内存。
102.业务面网络一般采用传统的TCP方式部署,参数面网络用于计算节点之间参数交换,要求高带宽无损网络。样本面网络用于计算节点访问存储节点,也有高带宽无损网络的诉求。 判断
++○ 对++
○ 错
103.基于华为Cloudrabric解决方案的智能无损数据中心网络中,可以部署以下哪些无损技术? 多选
++□ A.PFC++
++□ B.iQCN++
++□ C.AI ECN++
++□ D.iNOF++
解析:华为的智算中心嘛,当然所有的功能都支持,考试也是宣传产品的过程。
104.RoCE是一种允许通过以太网进行RDMA的网络协议,包含RoCEv1和RoCE2两个版本,分别基于UDP和TCP实现。 判断
○ 对
++○ 错++
解析:RoCEV1基于数据链路层,RoCE V2 基于UDP/IP实现。
105.某数据中心规划咨询阶段,通过RIQ模型识别出来市场风险位于第一象限,施工风险位于第四象限。以下哪些项对于风险应对措施的描述是正确的? 多选
□ A.对施工环节中的风险,制定降低风险概率的方案
□ B.对市场风险进行整体经济估算,通过测算预备风险准备金
++□ C.对施工环节中的风险,进行进度和经济评估,制定应急替代措施与方案++
++□ D.对市场风险进行拆解,分析关键环节,制定合理的商业营销策划方案进行应对++
解析:对于施工风险是制定应急方案而不是制定降低风险的方案(说明风险无法降低),对于市场风险要积极制定方案应对,而不是提前计算经济损失。
106.数据中心典型的能耗结构主要由IT设备能耗、供配电能耗、制冷能耗三部分组成 判断
++○ 对++
○ 错
- FabricInsight系统利用设备的++Telemetry++特性采集设备、接口、队列等Metrics数据进行分析、预测网络异常。 填空
解析:Telemetry 意为遥测数据。
108.数据加载也是影响迁移模型训练性能的一个因素,对于NLP任务,每次读取训练数据时,尽可能选取长度差异较大的样本,这样可以缓解同时读取近似长度样本带来的带宽压力。 判断
○ 对
++○ 错++
解析:显然是应该选取样本差异较小的样本
109.在大模型迁移精度调试过程中,超参数起到了重要的作用。以下关于超参数调优描述正确的是哪一项? 单选
○ A.优化器优先选择SGD优化器,可以减少计算量,降低训练对内存、通信等的压力
○ B.前期使用较大学习率使模型快速收敛,例如1e--3,随着训练迭代次数增加,学习率呈线性下降
○ C.为了保证平稳训练,batch_size应保证不变,避免数据波动对模型性能产生影响
++○ D.正确初始化权重可以帮助模型更快地收敛并提高性能。例如,通常使用小的高斯噪声或者使用T--fixup初始化++
解析:选项A应该是优选Adam优化器,选项B 应该是学习率非线性下降;选项B batch_size对模型性能无影响。
110.ZERO的优化方式有两种,ZERO--DP和ZERO--R,其中ZERO--DP旨在减少剩余内存消耗 判断
○ 对
++○ 错++
解析:ZERO--DP目的是为了解决单卡显存不足、计算时间长等问题。
111.使用MindFormers大模型套件,大模型训练时定义训练参数,以下哪个参数属于分布式配置参数独有? 单选
○ A.scale_window
○ B.learning_rate
++○ C.pipeline_stage++
○ D.batch_size
解析:只有流水线并行才是分布式训练相关的参数
112.MindFormers大模型套件有Parallel组件,从框架上可以支持以下哪些并行方式? 多选
++□ A.双副本并行++
□ B.网络并行
++□ C.优化器并行++
++□ D.模型并行++
解析:并行方式有数据并行(双副本并行)、优化器并行、模型并行
113.大模型进行全参微调时的内存占用包括以下哪几部分? 多选
++□ A.优化器参数++
++□ B.模型梯度++
++□ C.模型权重++
□ D.损失函数
解析:全参微调等同于预训练,预训练内存中的数据有优化器参数、权重参数、梯度参数。
114.在对大模型进行二次训练的时候,使用少量数据进行多个Epoch的训练,可能会导致大模型整个失效,无法给出有效的输出。 判断
++○ 对++
○ 错
解析:少量样本多轮次训练导致模型过拟合,最终使模型泛化能力丧失,即模型失效。
115.指令微调可以让大模型具有遵循用户指令的能力,但人工书写指令微调数据耗时费力,以下哪些属于指令微调数据自动生成技术? 多选
□ A.SELF--Generator
++□ B.SELF--QA++
++□ C.SELF--INSTRUCT++
++□ D.SELF--ALIGN++
116.随着大模型规模的不断增大,微调的成本也逐渐变高,提示工程可以在不更新模型参数的情况下使模型适配下游任务。 判断
++○ 对++
○ 错
117.VLLM是一个开源的大模型推理加速框架,包含以下哪些特性? 多选
++□ A.支持流式输出++
++□ B.支持张量并行推理++
++□ C.使用PagedAttention技术++
□ D.传入请求的Static Batching,而不是Continous Batching
解析:选项D,vllm使用的是Continous Batching,它能够根据输入长度和请求时间均衡的使用GPU算力,使GPU利用率更高。Static Batching是老一些的技术。
118.以下哪种方法无法降低大模型部署成本? 单选
○ A.使用专用推理硬件
○ B.模型压缩
++○ C.模型微调++
○ D.云端协同
119.与小模型相比,大模型训练对硬件设备提出了更高的要求,具体包括以下哪些选项? 多选
++□ A.大带宽++
++□ B.大显存(内存)++
++□ C.高算力++
□ D.低功耗
120.关于Transformer模型中的位置编码,以下哪些描述是正确的? 多选
++□ A.可以很好地表示不同位置之间的相对关系++
++□ B.为每个位置分配一个唯一的编码向量,向量是固定的,与输入序列内容无关++
□ C.位置编码只用于编码器的输入,解码器不需要
□ D.位置编码是一个固定的矩阵,与输入序列的维度相同
解析:选项A,如果使用相对位置编码可以表示文本的相对关系,选项B 向量编码和文本内容无关,选项C 编码器和解码器都需要位置编码,选项D 位置编码矩阵不是固定的,序列越长位置编码的矩阵也越大。
121.Transformer结构的模型,模型主要的计算量都来自自注意力机制。 判断
++○ 对++
○ 错
122.如图所示,以下哪个选项是错误的? 单选
○ A.每一台设备如果有Recv模块,都是接收上一台设备MatMul结果。
○ B.Device 0和Device 1之间的Send消息有两条,都涉及到MatMul结果的发送。
○ C.梯度计算需要最后一台设备最先计算,Device0必须等待Device1计算结果才能计算本台设备的梯度。
++○ D.MatMul矩阵乘法按列并行,划分到4台设备进行计算,为保证计算效率,放置在同一台服务器完成。++
解析:选项D 可以不放在同一个服务器上,高速网络可以使显卡在不同的服务器也能保证计算效率。
123.在Transformer自注意力机制中,查询(Query)、键(Key)和值(Value)通过点积方式计算注意力权重后,以下哪些选项不属于进行缩放(scaling)操作的原因? 多选
++□ A.防止点积结果过大导致Softmax函数进入饱和区++
++□ B.增加模型的非线性++
++□ C.确保注意力权重的分布更加均匀++
□ D.降低计算复杂度
解析:选项 A 存疑;选项 B:缩放是线性操作不会增加模型的非线性,非线性通常由激活函数(如 ReLU)引入,因此 B 不属于缩放的原因。选项 C:存疑。选项 D:存疑
124.在智算网络的参数面网络设计过程中,按照推荐的带宽规划策略,端到端收敛比一般设计成以下哪一项? 单选
++○ A.1:1++
○ B.1:2
○ C.1:10
○ D.2:1
125.关于智算中心网络中的参数面网络的服务器接入方式,可选择服务器多轨道接入同一个TOR,或者多轨道接入不同的TOR。以下关于两种方式的特点,哪些项是正确的? 多选
□ A.服务器多轨道接入同一个TOR对网络负载均衡要求相对较低
++□ B.服务器多轨道接入不同TOR的方式故障面更大++
□ C.服务器多轨道接入同一个TOR时,要求服务器在接入侧故障时支持借轨道通信
++□ D.服务器多轨道接入同一个TOR,故障面更小,对网络负载均衡要求更高++
解析:多轨道接入同一个TOR理解为多个机柜使用同一个交换机,多轨道接入不同TOR理解为一个机柜使用同一个交换机,故障面指的是交换机发生故障的数量。交换机用的多了故障面就大,交换机用的少了单个交换机的负载就高了。
126.在智算中心网络中,Leaf交换机可采用M-LAG部署和单机部署方式。以下关于两种部署方式的描述,错误的有哪些项? 多选
□ A.交换机采用M-LAG方式部署时,控制面独立,故障域隔离
□ B.交换机采用M-LAG方式部署时,服务器可以选择bond负载分担模式或bond主备模式
++□ C..如果服务器采用多IP不绑定的接入方式时,交换机一般推荐采用I-LAG方式部署++
++□ D.交换机采用M-LAG方式部署时,交换机之间无需部署连线++
解析:M-LAG(多机箱链路聚合)部署时,两台 Leaf 交换机控制面独立,形成独立故障域,选项A正确。M-LAG支持负载分担和主备模式,选项B正确。多 IP 不绑定的接入方式通常对应单链路连接,此时应采用单机部署而非 I-LAG(跨设备链路聚合),选项C错误。M-LAG之间部署交换机之间需要心跳线,选项D错误。
127.以下关于智算中心网络方案中使用的无损技术的描述,正确的有哪些项? 多选
++□ A.PFC技术主要解决拥塞导致的丢帧问题++
++□ B.Rail Group是一种网络级负载均衡技术,通过接口分组和智能编排,优选流量的负载分担出接口,以提升网络吞吐率++
++□ C.AIECN技术,通过iLossless智能无损算法动态调节ECN门限,以获得最大带宽与最小时延++
++□ D.iQCN技术是死锁预防,通过识别易造成PFC死锁的业务流,修改队列优先级,从而预防PFC死锁的发生++
128.基于华为Cloudabric解决方案的智能无损数据中心网络中,可以部署以下哪些无损技术? 多选
++□ A.PFC++
++□ B.iQCN++
++□ C.AI ECN++
++□ D.iNOF++
129.某工程师在昇腾服务器上训练迁移大模型时发现,loss出现毛刺现象,产生该问题的原因最可能是以下哪一个选项? 单选
++○ A.数据集存在问题++
○ B.CANN版本不正确
○ C.深度学习框架版本不正确
○ D.学习率设置过大
130.Mindformers整体设计中提供了多种组件,方便用户对模型进行训练和微调。以下哪些描述是正确的? 多选
□ A.Trainer组件提供了高阶API,支持用户便捷的使用套件中已经集成的任务和模型完成推理流程
□ B.Pipeline组件方便开发者使用MindFormers套件提供的各个模块快速完成整网的搭建,各个模块之间可以做到有效的解耦
++□ C.Parallel组件集成了MindSpore原生的并行能力++
++□ D.Parallel组件支持对基于Transformer API开发的大模型通过配置化接口进行并行配置++
- RLHF训练中会使用到PPO算法实现模型参数的微调,PPO流程涉及Actor Model、Critic Model、++Reference++Model、Reward Model。 填空
132.GLUE和SuperGLUE基准测试模拟了真实世界的语言处理场景,并并成为衡量模型自然语言理解能力的标准。 判断
++○ 对++
○ 错
134.与预训练数据相比,微调数据有哪些特点? 多选
++□ A.所需数据质量要求高++
++□ B.通常由人工编写或自动构建++
++□ C.所需数据量较小++
□ D.可直接使用网页数据
135.在Transformer模型中,Multi --Head Attention的主要目的是允许模型关注输入序列的不同部分。 判断
++○ 对++
○ 错
136.使用Transformer解决视觉问题,可以使用CNN网络先对图像进行特征提取后,将特征整合为序列作为Transformer的输入。 判断
++○ 对++
○ 错
137.MindStudio为开发人员创建多种类型的昇腾工程,包括模型训练工程、专家系统工程、算子开发工程,可以导入C/C++、Java、Python工程。 判断
++○ 对++
○ 错
138.一般情况下,在数据中心典型配电方案的各个模块中,以下哪一项不是部署在数据中心内部? 单选
○ A.rPUD
○ B.UPS
○ C.储能系统
++○ D.变压器++
139.以下哪项对应的是数据中心选址咨询中,需要考虑地价、电价、宽带等成本因素,并与收益进行对比的经济评估法? 单选
○ A.CAPEX
++○ B.TCO++
○ C.OPEX
○ D.ROI
解析:TCO包含了CAPEX和OPEX
140.常见的液冷方案有冷板式液冷和浸没式液冷。冷板式液冷属于间接液冷,冷却液不与服务器芯片直接接触;浸没式液冷属于直接液冷,是一种以液体作为传热介质,发热元件浸没在特质液体中,通过直接接触进行热交换的冷却技术。 判断
++○ 对++
○ 错
- 以Transformer结构为基础的大模型将输入向量通过线性层转成Q、K、V矩阵,如果该层参数量过大,需要进行张量并行策略,即将参数进行行切分或者列切分,而++行++切分最可能会引起精度误差。(请输入中文) 填空
142.DeepSpeed--Inference是DeepSpeed框架在推理方面的扩展,为缩小模型并降低推理成本,它提出了以下哪一项算法? 单选
○ A.量化权重(qwZ)
○ B.量化梯度(qgZ)
○ C.DeepNVHe
++○ D.MoQ++
解析:MoQ(Mixture of Quantization)混合量化,是 DeepSpeed--Inference 提出的关键算法。
143.使用MindFormers大模型套件时,定义Transformer模型参数,哪一项参数无需在yaml中定义? 单选
++○ A.precision_ratio++
○ B.num_heads
○ C.compute_dtype
○ D.vocab_size
解析:实验课程上没见过precision_ratio 参数,其他参数都见过
144.MindFormers大模型套件支持直接读取mindrecord格式的数据,对于json、parquet等非mindrecord格式需要转换以后间接使用。 判断
○ 对
++○ 错++
解析:MindFormers对于mindrecord格式和非mindrecord格式的数据都支持直接使用
145.QLora证明了可以在不产生性能下降的情况下微调量化的Int4模型,使用了分页优化器在内的多种技术。 判断
++○ 对++
○ 错
146.P-Tuning的思想是在Prompt-Tuning的基础上对Prompt部分进行进一步的编码计算,加速收敛。 判断
++○ 对++
○ 错
- ++BPE++算法的核心思想是通过对语言中的常见单词进行统计分析,确定出最常见的字符对,然后对这些字符对进行编码,从而实现对单词的分割。(请填写英文缩写) 填空
148.以下哪些指令数据生成算法需要人工种子数据来启动? 多选
++□ A.SELF-INSTRUCT++
++□ B.SELF-ALIGN++
++□ C.Instruction-Backtranslation++
□ D.SELF-QA
解析:除了SELF-QA其他的都需要种子数据。
149.以下位置编码中可以提供相对位置信息的有哪些选项? 多选
++□ A.Alibi++
++□ B.RoPE++
□ C.三角函数位置编码
□ D.BPE
解析:++Alibi++通过在注意力分数中添加与相对位置相关的偏置项(而非绝对位置编码),直接建模 tokens 之间的相对距离,能够提供相对位置信息。RoPE是旋转位置编码,属于相对位置编码。三角函数位置编码就是正余弦位置编码,是绝对位置编码。BPE不是位置编码的方式,是tokenizer分词的方式。
150.通过调用小模型,大模型可以在数学计算、图像分类等任务上做的很好。 判断
○ 对
++○ 错++
解析:感觉应该是选择 "对",但是标准答案是 "错"
151.MindStudio提供给开发者所需的一站式开发环境,以下哪个功能是MindStudio不支持的? 单选
++○ A.分析结果展示++
○ B.输出网络分析结果
○ C.安装深度学习框架
○ D.上传脚本
152.MindFormers在输出目录下会保存checkpoint_network输出文件夹,保存权重参数,用作预训练权重或推理评估,支持断点恢复训练。 判断
○ 对
++○ 错++
153.大模型在训练精度调优过程中,为保证训练的稳定性,需要保持一个较大的batch_size,且batch_size不能变动。 判断
○ 对
++○ 错++
154.华为分布式存储解决方案构筑了多级可靠性机制,保证业务稳定运行。以下关于解决方案可靠性的描述,哪些项是正确的? 多选
++□ A.支持异步复制,支持快照,支持回收站功能,实现了方案级可靠性++
++□ B.支持端到端DIF一致性校验,实现了I/O级可靠性++
++□ C.最大容忍4个节点同时失效,快速感知节点故障,10s故障切换,支持亚健康智能检测,实现了系统级可靠性++
++□ D.支持节点自愈保护,实现了方案级可靠性++
解析:考产品功能的题目都是为了推广,只要是好的点都要选上
155.某工程师需要计算多个集群训练不同模型所消耗的时间,以下对训练时长计算正确的是哪些选项? 多选
□ A.MOE架构大模型C参数量为400B,训练时激活参数量为120B,训练数据量为13000B tokens,使用4000张算力为312TFlops的训练卡,训练卡利用率为0.45,训练时长约为61.2天
++□ B.大模型A参数量为120B,训练数据量为200B tokens,使用1000张算力为312TFlops的训练卡,训练卡利用率为0.4,训练时长约为17.8天++
++□ C.大模型B参数量为30B,训练数据量为20B tokens,使用100张算力为156TFlops的训练卡,训练卡利用率为0.35,训练时长约为10.2天++
□ D.MoE架构大模型C参数量为300B,训练时激活参数量为120B,训练数据量为13000B tokens,使用300张算力为312TFlops的训练卡,训练卡利用率为0.45,训练时长约为34.3天
解析:计算,但是要注意在MOE模型预训练时,需要计算的参数是激活参数而不是模型参数。训练时间=8*训练token数*模型的激活参数 / 显卡数量*单卡算力*运行效率
- LLaMa使用的位置编码是++RoPR++ ?作用于++Query++ 和++Key++矩阵" 填空