【LLM】从零预训练一个tiny-llama

文章目录

  • 从零预训练一个tiny-llama
    • [1. 数据集](#1. 数据集)
    • [2. 数据预处理](#2. 数据预处理)
    • [3. 训练模型](#3. 训练模型)
    • [4. 项目结构介绍](#4. 项目结构介绍)
    • [5. 运行项目示例](#5. 运行项目示例)
    • 学习总结

从零预训练一个tiny-llama

参考项目:https://github.com/KMnO4-zx/tiny-llm

数据集:https://www.modelscope.cn/datasets/AI-ModelScope/TinyStories

1. 数据集

2. 数据预处理

3. 训练模型

4. 项目结构介绍

5. 运行项目示例

学习总结

本次掌握了数据集的预处理,并对预处理后的数据进行训练。了解模型如何基于已有的上下文生成后续 token 的机制。

相关推荐
喜欢吃豆1 天前
llama.cpp 全方位技术指南:从底层原理到实战部署
人工智能·语言模型·大模型·llama·量化·llama.cpp
skywalk81632 天前
在星河社区部署大模型unsloth/Llama-3.3-70B-Instruct-GGUF
llama·aistudio
鹿子沐2 天前
LlamaFactory微调效果与vllm部署效果不一致
人工智能·llama
三千院本院3 天前
LlaMA_Factory实战微调Qwen-LLM大模型
人工智能·python·深度学习·llama
珊珊而川3 天前
MAC-SQL:SQL-Llama 的具体训练流程
sql·macos·llama
共绩算力3 天前
Llama 4 Maverick Scout 多模态MoE新里程碑
人工智能·llama·共绩算力
yanzhilv5 天前
Ollama + Open WebUI
llama
喜欢吃豆6 天前
掌握本地化大语言模型部署:llama.cpp 工作流与 GGUF 转换内核全面技术指南
人工智能·语言模型·架构·大模型·llama·llama.cpp·gguf
illuspas8 天前
Ubuntu 24.04下编译支持ROCm加速的llama.cpp
linux·ubuntu·llama
缘友一世11 天前
LLama3架构原理浅浅学学
人工智能·自然语言处理·nlp·transformer·llama