大语言模型的三阶段训练

为了训练专有领域模型,选择LLaMA2-7B作为基座模型,由于LLaMA模型中文词表有限,因此首先进行中文词表的扩展,然后进行三阶段训练(增量预训练,有监督微调,强化学习)。

代码将全部上传到github:

https://github.com/hjandlm/LLM_Train

1. 中文词表扩展

原生词表大小是32K,在词表扩展后,词表大小是63608。

2. 增量预训练

为了防止模型的通用能力减弱或消失,将通用数据和领域数据混合,经过调研决定设置5:1的数据配比进行增量预训练。由于资源有限,显卡是一块A100,40G,因此训练较慢。

目前还处于预训练阶段,情况如下:

训练集损失曲线:

测试集损失曲线:

后续将继续研究如何"炼丹",敬请期待!

3. 有监督微调

...

4. 强化学习

...

相关推荐
范桂飓几秒前
OpenClaw 的自动化能力实践案例
人工智能·自动化
格林威2 分钟前
工业相机图像高速存储(C#版):直接IO(Direct I/O)绕过系统缓存,附堡盟相机实战代码!
开发语言·人工智能·数码相机·计算机视觉·缓存·c#·视觉检测
小酒窝.3 分钟前
详述 AI 应用落地的三个阶段
人工智能·ai 应用·openclaw
东离与糖宝3 分钟前
AI IDE冲击下,Java老项目如何平滑迁移到Cursor/AI编程工作流(完整迁移方案)
java·人工智能
IT_陈寒4 分钟前
Vite vs Webpack终极对决:5个关键指标告诉你谁更快?
前端·人工智能·后端
Tengfei Wang8 分钟前
大语言模型前沿研究动态与趋势分析
人工智能·大模型
Master_oid9 分钟前
机器学习34:元学习(Meta Learning)
人工智能·学习·机器学习
深小乐13 分钟前
AI 周刊【2026.03.09-03.15】:Agent 入口争夺战,从桌面到云端
人工智能
汀沿河14 分钟前
5 微调实验-lora-打造知乎风格问答机器人
人工智能
小超同学你好17 分钟前
LangGraph 9. Agent 背后:ReAct
人工智能·语言模型·langchain