【LLM】从零预训练一个tiny-llama

文章目录

  • 从零预训练一个tiny-llama
    • [1. 数据集](#1. 数据集)
    • [2. 数据预处理](#2. 数据预处理)
    • [3. 训练模型](#3. 训练模型)
    • [4. 项目结构介绍](#4. 项目结构介绍)
    • [5. 运行项目示例](#5. 运行项目示例)
    • 学习总结

从零预训练一个tiny-llama

参考项目:https://github.com/KMnO4-zx/tiny-llm

数据集:https://www.modelscope.cn/datasets/AI-ModelScope/TinyStories

1. 数据集

2. 数据预处理

3. 训练模型

4. 项目结构介绍

5. 运行项目示例

学习总结

本次掌握了数据集的预处理,并对预处理后的数据进行训练。了解模型如何基于已有的上下文生成后续 token 的机制。

相关推荐
奇思智算1 天前
LLaMA/Bert/扩散模型微调GPU选型及租用指南
人工智能·bert·llama
xingyuzhisuan1 天前
LoRA微调实战:8卡4090服务器如何高效微调LLaMA?
运维·服务器·llama·gpu算力
yumgpkpm2 天前
华为昇腾910B上用Kubernetes(K8s)部署LLM和用Docker部署LLM的区别
docker·chatgpt·容器·stable diffusion·kubernetes·llama·gpu算力
yumgpkpm2 天前
华为昇腾910B上用Kubernetes(K8s)部署LLM(Qwen3-32B)的详细步骤,保姆级命令及方法、下载链接等
运维·服务器·华为·stable diffusion·aigc·copilot·llama
YanDDDeat2 天前
【大模型微调】基于 Llama3-8B 的 LoRA 微调专有领域QA 问答对生成模型
python·语言模型·llama
tinygone3 天前
OpenClaw之Memory配置成本地模式,Ubuntu+CUDA+cuDNN+llama.cpp
人工智能·ubuntu·llama
建行一世3 天前
【Windows笔记本大模型“傻瓜式”教程】使用LLaMA-Factory工具来完成对Windows笔记本大模型Qwen2.5-3B-Instruct微调
windows·ai·语言模型·llama
Thomas.Sir4 天前
第二章:LlamaIndex 的基本概念
人工智能·python·ai·llama·llamaindex
Thomas.Sir4 天前
第三章:Agent智能体开发实战之【LlamaIndex 工作流从入门到实战】
python·ai·llama·workflow·llamaindex
Thomas.Sir5 天前
第一章:Agent智能体开发实战之【初步认识 LlamaIndex:从入门到实操】
人工智能·python·ai·检索增强·llama·llamaindex