深度学习中常用概念总结

最近在做深度学习,里面涉及到很多概念,有的名称都差不多容易记混。所以写这篇文章总结一下。眼过千遍不如手过一遍。

  1. 轮数(Epochs):

一轮(Epoch)指的是整个训练数据集在训练过程中被完整使用一次。每个 Epoch 包含多个批次(batches),在每个 Epoch 结束后,模型通常会在验证集上进行评估。

  1. 步数(Steps):

步数(Steps)通常指的是训练过程中的迭代次数。在每个 Step 中,模型进行一次前向传播和后向传播。

  1. 批处理大小(Batch Size):

批处理大小(Batch Size)是指每次迭代中用于训练的样本数量。它影响计算资源的利用和模型训练的稳定性。

  1. 微批处理大小(Micro-batch-size):

微批处理大小是在模型并行或流水线并行中使用的概念,指的是在每个 GPU 或每个并行阶段中处理的批次大小。它是批处理大小的进一步划分。

  1. 学习率(Learning Rate):

学习率是优化算法中用于调整模型权重的步长。它决定了在每次迭代中参数更新的幅度。

  1. 训练吞吐量:

训练吞吐量指模型训练过程中单位时间内能够处理的数据量,通常以样本/秒或批次/秒来衡量。

  1. 加速器内存(Accelerator Memory):

加速器内存是专用于支持 GPU 或 TPU 等硬件加速器的高性能计算任务的内存,用于存储模型参数、中间计算结果等。

  1. 词大小(Word-size):

在深度学习中,词大小通常指的是模型中词嵌入(Word Embedding)的维度,即表示每个词的向量的长度。

  1. 数据并行(Data Parallel):

数据并行是一种并行化技术,通过将数据集分割成多个批次分配到多个处理器上同时训练,以此来加速训练过程。

  1. 上下文并行大小(Context Parallel Size):

上下文并行大小可能是指在使用特定深度学习框架时,如 Megatron-LM 中的设置,用于控制跨多个 GPU 分配模型的不同部分的方式。

  1. 张量模型并行大小(Tensor Model Parallel Size):

张量模型并行大小是指在模型并行中,模型的张量如何分配到不同的处理器上。它决定了模型的哪一部分将在不同的 GPU 上计算。

  1. 管道模型并行大小(Pipeline Model Parallel Size):

管道模型并行大小是指将模型分成多个阶段,每个阶段可以并行处理不同的数据微批次,从而提高计算效率和资源利用率。

相关推荐
技术小黑2 分钟前
TensorFlow学习系列11 | 优化器对比实验
人工智能·python·tensorflow2
IPHWT 零软网络3 分钟前
从被动应答到主动处理:零软智慧通讯的AI Agent与知识库实践
大数据·人工智能·重构·语音识别·ai agent·话务台
胡摩西4 分钟前
室内定位技术方法汇总:从WiFi到超声波,机器人如何在室内“找准自己”?
人工智能·机器人·slam·室内定位·roomaps
纤纡.7 分钟前
基于 TextRNN 的微博情绪分类系统实现与解析
人工智能·算法·分类·数据挖掘
Devil枫12 分钟前
【腾讯位置服务开发者征文大赛】AI 赋能小程序地图开发:腾讯地图 Miniprogram Skill 实战记录
人工智能·小程序
blackorbird14 分钟前
AI工作流自动化平台n8n正被大规模网络武器化
运维·网络·人工智能·自动化
阿杰学AI14 分钟前
AI核心知识126—大语言模型之 CrewAI 和 AutoGen(简洁且通俗易懂版)
人工智能·语言模型·自然语言处理·agent·多智能体·智能体·多智能体协作框架
企业架构师老王15 分钟前
2026年国内AI Agent选型指南:企业数字化转型中的非侵入式架构方案深度评测
人工智能·ai·架构
黎阳之光16 分钟前
黎阳之光受邀出席上海口岸联合会2026智慧口岸研讨班 无感通关方案获盛赞
大数据·人工智能·算法·安全·数字孪生
hsg7716 分钟前
简述:地理深度学习全域训练PyTorch2.7+TorchGeo等基线
人工智能·深度学习