
完整题库,可以微X搜索"题主"小程序获取,题主小程序是IT考证天堂,题库市场很很多低价甚至免费的IT认证题库。你也可以自己上传题库。
以下哪一项不属于大模型对聊天机器人的改进?
A. 更自然和流畅的交互体验
B. 更丰富的表达和生成能力
C. 更短的上下文处理能力
D. 更好的多模态交互能力
答案:C
解析:大模型对聊天机器人的改进主要体现在提升交互体验、增强表达和生成能力,以及提高多模态交互能力上。具体来说,大模型能够使聊天机器人提供更自然和流畅的交互体验(A选项),以及更丰富多样的表达和生成能力(B选项)。同时,大模型还能增强聊天机器人在多模态交互方面的能力,如同时处理文本、图像和语音等多种信息(D选项)。相比之下,更短的上下文处理能力并不属于大模型带来的改进,反而可能是技术限制或设计选择的结果。因此,C选项是不属于大模型对聊天机器人改进的方面,是正确答案。
KV Cache是以空间换时间的方法来加速推理。以下哪种算法是从存储和计算角度对KV Cache进行的优化
A. MQA
B. GQA
C. 窗口优化
D. Paged Attention
答案:D
解析:PagedAttention算法从存储和计算角度对KVCache进行了优化。在处理大规模数据的推理过程中,PagedAttention能够更有效地管理存储和计算资源,提高缓存的利用效率和推理速度。而MQA、GQA以及窗口优化并非主要从存储和计算角度对KVCache进行优化。所以,正确答案是D。
以下哪一选项不属于软提示(Soft prompts)这一类型的高效微调技术?
A. Prefix Tuning
B. Adapter Tuning
C. P-Tuning
D. Prompt Tuning
答案: B
解析:软提示(Softprompts)是一种在自然语言处理中用于高效微调模型的技术。PrefixTuning、P-Tuning和PromptTuning都属于通过在输入文本前添加特定的提示信息来实现微调的方法。而AdapterTuning则是通过在模型中插入特定的模块来进行微调,其方式与软提示的原理不同。所以,选项B不属于软提示这一类型的高效微调技术,答案选B。
以下哪一选项不是Megatron-LM并行框架支持的功能?
A. ZerO数据并行
B. 张量并行
C. 流水线并行
D. BF16优化器
答案: A
解析:Megatron-LM是一个针对大规模语言模型训练的并行框架,它支持多种并行技术以优化训练过程。具体来说,它支持张量并行(TensorParallelism),这种技术可以将模型的不同层或部分分配到多个GPU上;它也支持流水线并行(PipelineParalelism),这种技术可以将模型的不同阶段分配到不同的计算节点上,从而加速训练过程。此外,Megatron-LM还采用了BF16优化器,这是一种用于减少内存占用和提高计算效率的数值格式。然而,ZeRO数据并行(ZeRODataParalelism)并不是Megatron-LM原生支持的功能。ZeRO是由微软提出的一种优化数据并行的方法,它旨在减少分布式训练中的内存冗余。因此,根据Megatron-LM的功能和特性,选项AZer0数据并行"是不正确的,而其他选项都是Megatron-LM所支持的功能。所以答案是A。
在数据中心物理模型中,作为算力基础设施的AI服务器会部署到以下哪一个区域
A. 主机房区域
B. 辅助区域
C. 行政管理区域
D. 支持区域
答案:A
解析:在数据中心物理模型中,主机房区域是放置和运行核心计算设备的主要场所。AI服务器作为提供算力支持的关键基础设施,需要直接连接网络、供电等关键资源,以实现高效的数据处理和计算。而辅助区域、行政管理区域和支持区域通常不具备主机房区域那样完善的计算设备运行条件和资源配置。所以,AI服务器会部署到主机房区域,答案是A选项。
假设我们有一个包含两个句子的文本片段,分别为:“Tony喜欢吃苹果”,He likes eating apples”。现在我们使用预训练的BERT模型 对这个文本片段进行编码,然后将句子“Tony"和“He”分别作为查询,通过BERT计算两个句子的相似度得分。最后一层的输出向量将如何影响计算结果?
A. 最后一层输出向量捕捉了整个文本片段的含义,对相似度得分影响较大
B. 最后一层输出向量主要捕捉了单个句子的信息,对相似度得分影响有限
C. 最后一层输出向量会区分两个句子的关键词,对相似度得分影响较小
D. 最后一层输出向量对相似度得分没有影响,因为相似度计算只依赖于词级别表示
答案: A
解析:BERT模型是一种预训练的深度双向模型,它通过Transformer来学习文本表示。在处理文本时,BERT模型会考虑整个文本片段的上下文信息,并将这些信息编码到最后一层的输出向量中。因此,当我们使用BERT模型计算两个句子的相似度得分时,最后一层的输出向量捕捉了整个文本片段的含义,这对相似度得分的影响是较大的。所以,选项A是正确的。
以下关于Transformer模型,描述错误的是哪一项?
A. Transformer由Encoder和Decoder两部分组成
B. Encoder中的layer结构都是相同的
C. Encoder中的layer之间会进行参数共享
D. 从编码器输入的句子首先会经过一个自注意力层
答案:C
解析:Transformer模型中,Encoder中的laver结构虽然相同,但laver之间不会进行参数共享。A选项,Transformer确实由Encoder和Decoder两部分组成,这是其基本结构。B选项,Encoder中的laver结构相同,这是常见的设计。D选项从编码器输入的句子首先会经过一个自注意力层,这符合其处理流程。综上所述,选项C描述错误,所以答案选C.
以下关于seq2seq模型,描述错误的是哪一项?
A. Seq2seq模型由编码器和解码器两部分组成
B. Encoder和 Decoder 可以是 CNN、RNN、Transformer 三种结构
C. Seq2Seq的 Encoder和 Decoder 只能是相同的结构
D. Encoder 中将可变长度的信号序列变为固定长度的向量表达,其实质也就是进行了特征压缩
答案:C
以下哪一项是one-hot词向量的优点?
A. 当词汇表量大,会导致词向量维度过大
B. 表示简单,容易理解
C. 词之间孤立,无法表示相似词义
D. 对词的表达稀疏
答案: B
解析:one-hot词向量是一种将词汇表中的每个词表示为一个长向量的方法,其中向量的长度等于词汇表的大小,每个词在向量中对应的位置为1,其余位置为0。对于优点的考察,我们可以逐一分析选项:A选项描述的是one-hot词向量的一个缺点,即当词汇表很大时,会导致词向量的维度过大,造成存储和计算的浪费。B选项"表示简单,容易理解"是one-hot词向量的优点。每个词都对应一个唯一的向量,向量中的1和0清晰地表示了词在词汇表中的位置,这种表示方法简单直观,容易理解。C选项描述的是one-hot词向量的另一个缺点,即词之间孤立,无法表示相似词义。在one-hot向量中,任意两个词之间的欧氏距离都是相等的,无法体现词之间的语义关系。D选项“对词的表达稀疏"也是描述one-hot词向量的一个特点,但并不是优点。稀疏的表达方式会导致向量的维度过大,且大部分元素为0,不利于后续的计算和处理。综上所述,B选项“表示简单,容易理解"是one-hot词向量的优点,因此是正确答案。
在文本“你好,我是杭州王子文老师”中,把王子文老师,理解为杭州王子,文老师,属于自然语言处理难点中的哪一难点?
A. 语用歧义
B. 语义歧义
C. 句法歧义
D. 词法歧义
答案:D
关于大模型在交互式教学中的应用,以下哪些陈述是正确的?
A. 大模型主要用于提供标准化测试答案,帮助学生提高考试成绩
B. 大模型能够分析学生的输入和提问,生成自然语言响应,促进学生的理解和参与
C. 交互式教学利用大模型的自然语言处理能力,帮助教师设计个性化的教学内容和活动
D. 大模型在交互式教学中的应用主要限于计算和数据分析,而不涉及语言生成或对话管理
答案:BC
大模型可以应用在哪些场景中?
A. 情感分析
B. 机器翻译
C. 基因序列解读
D. 病例分析
答案: ABCD
以下哪几项是非结构化剪枝算法?
A. SparseGPT算法
B. Wanda算法
C. LLM-Pruner算法
D. LoRAPrune算法
答案:AB
模型推理时所需显存与以下哪几项因素有关?
A. 优化器状态
B. 模型结构
C. Batch 大小
D. 数据类型
答案: BCD
在软提示(Soft prompts)高效微调技术中,以下哪些选项只在输入层加入了可微的 prompt tokens?
A. Prefix TuningA
B. P-Tuning v2
C. P-Tuning
D. Prompt Tuning
答案:CD
Few-Shot-Cot不添加示例而仅仅在指令中添加一行经典的“Let’s think step by step
A. 正确
B. 错误
答案: B
不同的prompt对于提高图片生成的质量效果没有影响
A. 正确
B. 错误
答案:B
当前大模型技术还不能实现"any-to-any"的多模态理解和生成,其中包括将语音、视频、图片和文本互转的能力。
A. 正确
B. 错误
答案:B
Continuous Batching是一种提升LLM部署吞吐量的利器,它会小范围内修改模型权重的值。
A. 正确
B. 错误
答案:B
Prompt Tuning的基本原理是在输入序列X之前,增加一些特定长度的特殊Token,以增大生成期望序列的概率。
A. 正确
B. 错误
答案:A
MindFormers分布式训练和推理时需要将完整权重转换为分布式权重,可通过配置文件中的 ______ 参数实现自动转换切分。(请输入参数名)
答案:auto_trans_ckpt
大模型的集合通信模式中,多台主机把数据发给同一台主机,然后目的主机做一定的操作,这种通信模式称为: _____
答案:Reduce
关于 InstructGPT 的技术方案,分为了三个步骤: 基于_____有监督微调,奖励模型训练,强化学习训练。(请填写大写的英文缩写)
答案:GPT3
将一张图片的信息转化为文字进行输出,这一应用属于自然语言 _____。
答案:自然语言生成
在 textCNN 中使用的池化层是 ____ 池化(填写中文)。
答案:最大