【LLM】从零预训练一个tiny-llama

文章目录

  • 从零预训练一个tiny-llama
    • [1. 数据集](#1. 数据集)
    • [2. 数据预处理](#2. 数据预处理)
    • [3. 训练模型](#3. 训练模型)
    • [4. 项目结构介绍](#4. 项目结构介绍)
    • [5. 运行项目示例](#5. 运行项目示例)
    • 学习总结

从零预训练一个tiny-llama

参考项目:https://github.com/KMnO4-zx/tiny-llm

数据集:https://www.modelscope.cn/datasets/AI-ModelScope/TinyStories

1. 数据集

2. 数据预处理

3. 训练模型

4. 项目结构介绍

5. 运行项目示例

学习总结

本次掌握了数据集的预处理,并对预处理后的数据进行训练。了解模型如何基于已有的上下文生成后续 token 的机制。

相关推荐
初窺門徑4 小时前
llama-factory部署微调方法(wsl-Ubuntu & Windows)
llama·大模型微调·llama-factory
Neo很努力1 天前
【deepseek】本地部署+RAG知识库挂载+对话测试
自然语言处理·chatgpt·langchain·aigc·llama
大鱼>1 天前
Ubuntu 服务器Llama Factory 搭建DeepSeek-R1微调训练环境
llama·大模型微调·deepseek
风起晨曦3 天前
LLaMa Factory 安装
llama
运维开发王义杰3 天前
AI: Unsloth + Llama 3 微调实践,基于Colab
人工智能·llama
风起晨曦3 天前
(LLaMa Factory)大模型训练方法--预训练(Qwen2-0.5B)
llama
风起晨曦4 天前
(LLaMa Factory)大模型训练方法--监督微调(Qwen2-0.5B)
llama
mygodalien4 天前
Win7编译GPU版llama.cpp部署deepseek-r1等大模型记录
人工智能·机器学习·chatgpt·llama
shandianchengzi4 天前
【BUG】LLM|Ubuntu 用 ollama 部署 DeepSeek 但没输出,llama 有输出
ubuntu·llm·bug·llama·ollama·deepseek
翻滚的小@强4 天前
Llama3.0论文学习笔记: The Llama 3 Herd of Models
大语言模型·llama