【LLM教程】为什么做大语言模型fine tuning时,要将 drop_last_batch设置为True?

目录

[1. drop_last_batch 是什么?](#1. drop_last_batch 是什么?)

[2. drop_last_batch有什么用?](#2. drop_last_batch有什么用?)


这是我们做tokenizer时,经常会遇到的代码,那这里的drop_last_batch 为什么要设置:

复制代码
finetuning_dataset_loaded = datasets.load_dataset("json", data_files=filename, split="train")

tokenized_dataset = finetuning_dataset_loaded.map(
    tokenize_function,
    batched=True,
    batch_size=1,
    drop_last_batch=True
)

print(tokenized_dataset)

1. drop_last_batch 是什么?

drop_last_batch=True 是一个常见的数据加载/预处理选项,用于在处理最后一批样本时丢弃不完整的批次(batch)。

2. drop_last_batch有什么用?

  • 训练神经网络模型:

    大多数神经网络模型在训练时使用批量梯度下降(mini-batch gradient descent)优化算法,这需要将数据分成若干个批次。如果最后一个批次的样本数量不足一个完整批次的大小,可能会导致计算不一致或效率低下。通过设置 drop_last_batch=True,可以确保每个批次的大小都是一致的,有利于模型的稳定性和收敛性。

  • 数据并行处理:

    在数据并行处理的场景下,例如使用多个GPU或多个进程/线程进行数据预处理,需要保证每个处理单元获得的数据批次大小相同,以平衡计算负载。丢弃最后一个不完整的批次可以确保数据的均匀分布。

  • 统一批次大小:

    某些操作(如数据增强、数据编码等)可能需要固定的批次大小,以便有效地利用向量化计算或内存缓存。在这种情况下,丢弃最后一个不完整的批次可以确保批次大小的一致性。

  • 模型并行处理:

    在模型并行处理的场景下,多个模型组件可能需要接收相同大小的批次输入,以确保同步和一致性。丢弃最后一个不完整的批次可以实现这一点。

相关推荐
小王毕业啦14 小时前
2005-2024年 省级-总抚养比、儿童抚养比、老年人抚养比数据(xlsx)
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据
程序员柒叔14 小时前
OpenClaw 一周动态-2026-W18
人工智能·agent·openclaw
OneThingAI15 小时前
网心算力云上线 DeepSeek-V4-Pro
人工智能·aigc·deepseek·onethingai
2501_9272835815 小时前
荣联汇智助力天津艺虹打造“软硬一体”智慧工厂,全流程自动化引领印刷包装行业数智变革
大数据·运维·数据仓库·人工智能·低代码·自动化
小程故事多_8015 小时前
[大模型面试系列] 多轮对话 Agent 设计实战(含窗口优化 + 工具调用精髓)
人工智能·面试·职场和发展
victory043115 小时前
论文设计和撰写1
人工智能·深度学习·机器学习
love530love16 小时前
精简版|Claude-HUD 插件介绍 + 一键安装教程
人工智能·windows·笔记
墨心@16 小时前
赋予智能体技能,让其胜任现实世界任务
语言模型·大语言模型·agent
冬奇Lab16 小时前
RAG 系列(四):文档处理——从原始文件到高质量 Chunk
人工智能·llm·源码
冬奇Lab16 小时前
一天一个开源项目(第89篇):Warp - AI 驱动的现代化 Rust 终端
人工智能·rust·开源