在pytorch中将数据打包为DataLoader后每个epoch中的打乱策略

在pytorch中将数据打包为DataLoader后每个epoch中的打乱策略

有两种打乱策略:

1、利用shuffle

在 PyTorch 中,当使用 DataLoader 并设置 shuffle=True 时,数据会在每个 epoch 开始时被重新打乱。这意味着在每个 epoch,数据加载的顺序都会不同,这有助于模型避免对特定的数据顺序产生过拟合。

python 复制代码
    train_loader = DataLoader(dataset=train_dataset, 
                              batch_size=batch_size, 
                              shuffle=True, 
                              num_workers=0)

在这种情况下,每次开始一个新的 epoch 并从 train_loader 中迭代数据时,train_loader 会自动将数据集中的数据打乱。这是一种常见的做法,用于确保模型接收到的数据顺序在每个 epoch 都是随机的,从而帮助模型更好地泛化。

如果 shuffle 参数被设置为 False,则数据加载的顺序在每个 epoch 中保持不变。这种情况通常用于那些需要保持数据顺序的场合,比如时间序列数据处理。

2、利用SubsetRandomSampler

在这种方法中,DataLoader 实例是通过使用 SubsetRandomSampler 创建的,这与直接在 DataLoader 中设置 shuffle=True 有所不同。当使用 SubsetRandomSampler 时,数据集的划分是固定的,但是在这个子集内的数据在每个 epoch 开始时会被重新打乱。

python 复制代码
    train_data = torch.FloatTensor(train_data)

    train_data = TensorDataset(train_data, train_data)

    num_train = len(train_data)
    indices = list(range(num_train))
    np.random.shuffle(indices)
    split = int(np.floor(num_train * valid_size))

    train_idx, valid_idx = indices[split:], indices[:split]

    train_sampler = SubsetRandomSampler(train_idx)
    valid_sampler = SubsetRandomSampler(valid_idx)

    train_loader = torch.utils.data.DataLoader(dataset=train_data,
                                               batch_size=batch_size,
                                               sampler=train_sampler,
                                               # shuffle = True,
                                               num_workers=0)

    valid_loader = torch.utils.data.DataLoader(dataset=train_data,
                                               batch_size=batch_size,
                                               sampler=valid_sampler,
                                               # shuffle = True,
                                               num_workers=0)

在这种情况下,train_loader 和 valid_loader 使用 SubsetRandomSampler,它在每个 epoch 开始时会在其所对应的索引子集(train_idx 或 valid_idx)内部重新打乱数据。因此,尽管整个数据集的划分(训练集和验证集的分割)是固定的,但在每个 epoch 中,数据加载的顺序在各自的子集内是随机的。

这种方法结合了固定的训练/验证划分和每个 epoch 的内部随机性,有助于模型的泛化,同时保持了对训练和验证数据集的稳定划分。

相关推荐
A__tao23 分钟前
Elasticsearch Mapping 一键生成 Java 实体类(支持嵌套 + 自动过滤注释)
java·python·elasticsearch
墨染天姬23 分钟前
【AI】端侧AIBOX可以部署哪些智能体
人工智能
研究点啥好呢27 分钟前
Github热门项目推荐 | 创建你的像素风格!
c++·python·node.js·github·开源软件
AI成长日志28 分钟前
【Agentic RL】1.1 什么是Agentic RL:从传统RL到智能体学习
人工智能·学习·算法
2501_9481142440 分钟前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠42 分钟前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
迷藏49443 分钟前
**发散创新:基于Rust实现的开源合规权限管理框架设计与实践**在现代软件架构中,**权限控制(RBAC)** 已成为保障
java·开发语言·python·rust·开源
黎阳之光1 小时前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
小超同学你好1 小时前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型
明日清晨1 小时前
python扫码登录dy
开发语言·python