【LLM】从零预训练一个tiny-llama

文章目录

  • 从零预训练一个tiny-llama
    • [1. 数据集](#1. 数据集)
    • [2. 数据预处理](#2. 数据预处理)
    • [3. 训练模型](#3. 训练模型)
    • [4. 项目结构介绍](#4. 项目结构介绍)
    • [5. 运行项目示例](#5. 运行项目示例)
    • 学习总结

从零预训练一个tiny-llama

参考项目:https://github.com/KMnO4-zx/tiny-llm

数据集:https://www.modelscope.cn/datasets/AI-ModelScope/TinyStories

1. 数据集

2. 数据预处理

3. 训练模型

4. 项目结构介绍

5. 运行项目示例

学习总结

本次掌握了数据集的预处理,并对预处理后的数据进行训练。了解模型如何基于已有的上下文生成后续 token 的机制。

相关推荐
Coder个人博客2 天前
MiniCPM-o.cpp 接口调用流程综合总结
llama
大模型实验室Lab4AI3 天前
Qwen-Video-8B与LLaMA-Factory联动实现垂类视频理解
人工智能·音视频·llama
百***78753 天前
LLaMA 4 API国内稳定接入指南:中转服务全链路实操与优化方案
开发语言·php·llama
百***24373 天前
LLaMA 4 vs GPT-5.2 全面对比:技术特性、接入成本与国内适配选型指南
gpt·llama
Coder个人博客3 天前
MiniCPM-o.cpp 项目概览
llama
大模型实验室Lab4AI4 天前
LLaMA-Factory 课程答疑系列一:10个关键问题速查,官方认证解法让训练推理不踩雷
人工智能·llama
小苑同学4 天前
PaperReding:《LLaMA: Open and Efficient Foundation Language Models》
人工智能·语言模型·llama
deephub4 天前
llama.cpp Server 引入路由模式:多模型热切换与进程隔离机制详解
人工智能·python·深度学习·llama
Robot侠6 天前
极简LLM入门指南1
llm·llama
Robot侠7 天前
Jetson Orin NX 上部署 Ollama + Llama 3.2
llama