大语言模型教程与实践(开源)

1.简介

大语言模型(Large Language Models, LLMs)的兴起确实始于OpenAI在2018年发布的GPT(Generative Pre-trained Transformer),这一开创性工作引领了自然语言处理领域的新纪元。随后,2022年底ChatGPT的横空出世,进一步加速了大语言模型技术的应用普及,它不仅展示了惊人的生成能力和理解深度,还极大地推动了人工智能技术的社会认知与应用边界。

对于技术开发者而言,想要深入学习大语言模型技术,确实需要掌握一系列复杂而深奥的知识体系。在24年之前,市面上尚缺乏关于大型模型的系统书籍。因此,从网络上搜集整理了大量关于大型语言模型的知识,并将这些资料分类汇总后开源至GitHub。在深入学习这一领域时,发现关于模型微调、部署应用的文章较为丰富,相比之下,关于从头开始训练大型模型、SFT、DPO等方面的实践知识则相对稀缺。鉴于此,,在学习的过程中,从零开始训练一个小参数的大语言模型,让消费级的显卡也能训练起来大模型,学习大模型的实践知识。

适用人群:

2.LLMs基础知识

开源地址:wdndev/llm_interview_note

本项目系统性地从以下九个维度对大模型相关知识进行了细致整理与分类,旨在便于学习与查阅。尤为重要的是,我们已将核心知识点导出为PDF文档,以便学习者能够便捷地打印,进行线下纸质学习,提升学习的灵活性与深度。

以下是项目部分内容的目录概览:

text 复制代码
目录
01.大语言模型简介
02.大语言模型基础
03.语言模型训练数据集
04.分布式训练
05.有监督微调
06.推理
07.强化学习
08.检索增强rag
09.大语言模型评估
10.大语言模型应用
98.LLMs相关课程
99.参考资料

3.Tiny LLM zh

开源地址:wdndev/tiny-llm-zh (github.com)

本项目的核心目标是创建一个轻量级的中文语言大模型,旨在加速初学者掌握大模型领域的相关知识。已开源一款92M参数的模型,在无GPU配置的计算机上能够迅速响应,平均只需约1秒即可生成问题解答。对于从零开始训练,92M模型在处理90亿token的数据上,利用8块RTX 3090显卡,预计可在一天之内完成训练任务。

模型架构:采纳了成熟的开源设计,模型架构囊括了业界广泛认可的技术组件,如RMSNorm(均方根层归一化)、RoPE(旋转位置编码)以及多头自注意力机制(MHA)等。

实现细节:遵循严谨的两阶段训练流程及后续的人工智能对齐策略,具体步骤为:预训练(PTM)->指令精细调整(SFT)->人类对齐(采用RLHF或DPO技术)->评估。

开源资源:对数据源,数据处理,预训练,微调代码都已开源,方便学习训练。

项目已部署 ,可以在如下网站上体验:ModeScope Tiny LLM

相关推荐
正义的彬彬侠25 分钟前
sklearn.datasets中make_classification函数
人工智能·python·机器学习·分类·sklearn
ctrey_27 分钟前
2024-11-13 学习人工智能的Day26 sklearn(2)
人工智能·学习·sklearn
安静的_显眼包O_o28 分钟前
from sklearn.preprocessing import Imputer.处理缺失数据的工具
人工智能·python·sklearn
安静的_显眼包O_o32 分钟前
from sklearn.feature_selection import VarianceThreshold.移除低方差的特征来减少数据集中的特征数量
人工智能·python·sklearn
AI服务老曹42 分钟前
不仅能够实现前后场的简单互动,而且能够实现人机结合,最终实现整个巡检流程的标准化的智慧园区开源了
大数据·人工智能·深度学习·物联网·开源
云空1 小时前
《InsCode AI IDE:编程新时代的引领者》
java·javascript·c++·ide·人工智能·python·php
OneFlow深度学习框架1 小时前
LLM长上下文RAG能力实测:GPT o1 vs Gemini
gpt·语言模型·大模型·openai·gemini·o1
正义的彬彬侠1 小时前
CatBoost 中对分类特征进行目标变量统计编码 公式解析
人工智能·机器学习·集成学习·boosting·catboost
字节跳动数据平台1 小时前
火山引擎 VeDI 平台以 AIGC 技术,助力企业提效营销、快速增长
人工智能
Chef_Chen2 小时前
从0开始学习机器学习--Day22--优化总结以及误差作业(上)
人工智能·学习·机器学习