大语言模型的三阶段训练

为了训练专有领域模型,选择LLaMA2-7B作为基座模型,由于LLaMA模型中文词表有限,因此首先进行中文词表的扩展,然后进行三阶段训练(增量预训练,有监督微调,强化学习)。

代码将全部上传到github:

https://github.com/hjandlm/LLM_Train

1. 中文词表扩展

原生词表大小是32K,在词表扩展后,词表大小是63608。

2. 增量预训练

为了防止模型的通用能力减弱或消失,将通用数据和领域数据混合,经过调研决定设置5:1的数据配比进行增量预训练。由于资源有限,显卡是一块A100,40G,因此训练较慢。

目前还处于预训练阶段,情况如下:

训练集损失曲线:

测试集损失曲线:

后续将继续研究如何"炼丹",敬请期待!

3. 有监督微调

...

4. 强化学习

...

相关推荐
爱思德学术18 小时前
中国计算机学会(CCF)推荐学术会议-C(计算机体系结构/并行与分布计算/存储系统):CF 2026
人工智能·算法·硬件
broken_utopia18 小时前
PyTorch中view/transpose/permute的内存可视化解析
人工智能·pytorch·python
大千AI助手18 小时前
正态分布:机器学习中的统计基石与高斯遗产
人工智能·机器学习·概率论·高斯分布·正态分布·概率分布·大千ai助手
LDG_AGI18 小时前
【推荐系统】深度学习训练框架(七):PyTorch DDP(DistributedDataParallel)中,每个rank的batch数必须相同
网络·人工智能·pytorch·深度学习·机器学习·spark·batch
初学大模型18 小时前
使用卷积神经网络(CNN)提取文字特征来辅助大语言模型生成文字
人工智能·机器人
咚咚王者18 小时前
人工智能之数据分析 Matplotlib:第七章 项目实践
人工智能·数据分析·matplotlib
爱看科技18 小时前
微美全息(NASDAQ:WIMI)双判别器架构:量子生成对抗网络训练的革命性跨越
人工智能·生成对抗网络·量子计算
ziwu19 小时前
【花朵识别系统】Python+TensorFlow+Django+人工智能+深度学习+卷积神经网络算法
人工智能·深度学习·图像识别
Wise玩转AI19 小时前
医院智能体系统实战:基于 autogen 0.7 + DeepSeek 的多阶段工程落地(一)项目总览
人工智能·chatgpt·ai智能体·autogen
杭州泽沃电子科技有限公司19 小时前
煤化工合成环节的监测:智能系统如何保障核心装置安全稳定运行?
运维·人工智能·科技·智能监测·煤化工