大语言模型教程与实践(开源)

1.简介

大语言模型(Large Language Models, LLMs)的兴起确实始于OpenAI在2018年发布的GPT(Generative Pre-trained Transformer),这一开创性工作引领了自然语言处理领域的新纪元。随后,2022年底ChatGPT的横空出世,进一步加速了大语言模型技术的应用普及,它不仅展示了惊人的生成能力和理解深度,还极大地推动了人工智能技术的社会认知与应用边界。

对于技术开发者而言,想要深入学习大语言模型技术,确实需要掌握一系列复杂而深奥的知识体系。在24年之前,市面上尚缺乏关于大型模型的系统书籍。因此,从网络上搜集整理了大量关于大型语言模型的知识,并将这些资料分类汇总后开源至GitHub。在深入学习这一领域时,发现关于模型微调、部署应用的文章较为丰富,相比之下,关于从头开始训练大型模型、SFT、DPO等方面的实践知识则相对稀缺。鉴于此,,在学习的过程中,从零开始训练一个小参数的大语言模型,让消费级的显卡也能训练起来大模型,学习大模型的实践知识。

适用人群:

2.LLMs基础知识

开源地址:wdndev/llm_interview_note

本项目系统性地从以下九个维度对大模型相关知识进行了细致整理与分类,旨在便于学习与查阅。尤为重要的是,我们已将核心知识点导出为PDF文档,以便学习者能够便捷地打印,进行线下纸质学习,提升学习的灵活性与深度。

以下是项目部分内容的目录概览:

text 复制代码
目录
01.大语言模型简介
02.大语言模型基础
03.语言模型训练数据集
04.分布式训练
05.有监督微调
06.推理
07.强化学习
08.检索增强rag
09.大语言模型评估
10.大语言模型应用
98.LLMs相关课程
99.参考资料

3.Tiny LLM zh

开源地址:wdndev/tiny-llm-zh (github.com)

本项目的核心目标是创建一个轻量级的中文语言大模型,旨在加速初学者掌握大模型领域的相关知识。已开源一款92M参数的模型,在无GPU配置的计算机上能够迅速响应,平均只需约1秒即可生成问题解答。对于从零开始训练,92M模型在处理90亿token的数据上,利用8块RTX 3090显卡,预计可在一天之内完成训练任务。

模型架构:采纳了成熟的开源设计,模型架构囊括了业界广泛认可的技术组件,如RMSNorm(均方根层归一化)、RoPE(旋转位置编码)以及多头自注意力机制(MHA)等。

实现细节:遵循严谨的两阶段训练流程及后续的人工智能对齐策略,具体步骤为:预训练(PTM)->指令精细调整(SFT)->人类对齐(采用RLHF或DPO技术)->评估。

开源资源:对数据源,数据处理,预训练,微调代码都已开源,方便学习训练。

项目已部署 ,可以在如下网站上体验:ModeScope Tiny LLM

相关推荐
caiyueloveclamp1 小时前
【功能介绍05】ChatPPT好不好用?如何用?用户操作手册来啦!——【AI辅写+分享篇】
人工智能·powerpoint·ai生成ppt·aippt·免费aippt
Aileen_0v01 小时前
【Gemini3.0的国内use教程】
android·人工智能·算法·开源·mariadb
xiaogutou11211 小时前
5款软件,让歌唱比赛海报设计更简单
人工智能
后端小张1 小时前
智眼法盾:基于Rokid AR眼镜的合同条款智能审查系统开发全解析
人工智能·目标检测·计算机视觉·ai·语言模型·ar·硬件架构
dalalajjl1 小时前
每个Python开发者都应该试试知道创宇AiPy!工作效率提升500%的秘密武器
大数据·人工智能
wheeldown1 小时前
【Rokid+CXR-M】基于Rokid CXR-M SDK的博物馆AR导览系统开发全解析
c++·人工智能·ar
爱看科技1 小时前
AI智能计算竞赛“战火重燃”,谷歌/高通/微美全息构建AI全栈算力开启巅峰角逐新篇
人工智能
IT_陈寒1 小时前
Redis性能翻倍的5个冷门技巧,90%开发者都不知道第3个!
前端·人工智能·后端
晨非辰2 小时前
C++ 波澜壮阔 40 年:从基础I/O到函数重载与引用的完整构建
运维·c++·人工智能·后端·python·深度学习·c++40周年
鼎道开发者联盟2 小时前
智能原生操作系统畅想:人智共生新时代的基石
人工智能·机器学习·自然语言处理