建议AI大模型小白必看的学习教程!!

逼自己两周刷完 AI大模型(白嫖)

LLM大模型自用资料,以及学习路线整理

整理了我入门大模型的学习路线和自用资料,在全民LLM时期,多输入一些就多一重安全感。建议先对LLM全貌有了解,然后自顶向下去学习。前置知识是nlp基础如transformer,这篇聚焦LLM的学习框架👉🏻

1️⃣ 预训练

🔅模型结构:decoder-only和encoder-decoder模型结构分别适用于什么场景,以及在训练中如何构造数据。建议直接从llama开始,开源社区氛围好。

🔅Scaling Law:用于估算现有资源可以训练多少B模型,以及当前模型的适用数据量。

🔅FlashAttention:了解原理-加速attention,避免多次和显存之间交互耗时。

🔅位置编码RoPE:通过旋转矩阵,实现对长文本的位置编码。

🔅训练框架:deepspeed等模型并行框架

2️⃣ SFT

🔅数据集选择:C-Eval是常用的中文bencmark,MAmmoTH是英文数学应用题

🔅数据配比和质量:LLM时常发生过拟合现象(比如你训练了一个客服问答模型,不管输入什么,它都会输出客服礼貌的语句),因此不能只是用目标任务数据集,需要稍全,同时少量高质量远好于大量含噪声数据。可以参考论文:LIMA: Less is More。

🔅全参数、Lora、p-tuning v2等方法的区别:lora等peft方法是为了在消费级显卡上也能训练、并节约训练时间而产生的,7B模型lora微调在一张v100上也能跑起来。

🔅Loss计算:为了最大化response的影响,一般输入的prompt不计算loss,在这个过程中涉及到mask机制。

3️⃣ RLHF

🔅PPO和DPO算法等

4️⃣ 应用层

🔅RAG:传统搜推的准确搜索能力,为大模型补充领域知识或及时信息。最终模型回答的准确性还是与LLM强相关,召回个人觉得类似于锦上添花,但在一个呆逼LLM上无法起死回生。

🔅Agent:在LLM基础上通过工程方法串联执行器,按照观察->思考->执行的方式,与LLM进行交互

🔅MOE:混合专家模型,多任务能力强

5️⃣ 量化

🔅vLLM,GPT-Q等,通过降低参数精度(fp16 -> int 8 -> int 4)提升推理性能。

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码 领取🆓**↓↓↓**

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈






针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码 领取🆓**↓↓↓**

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

相关推荐
封步宇AIGC3 分钟前
量化交易系统开发-实时行情自动化交易-4.2.1.简单移动平均线实现
人工智能·python·机器学习·数据挖掘
封步宇AIGC10 分钟前
量化交易系统开发-实时行情自动化交易-4.1.4.A股布林带(BOLL)实现
人工智能·python·机器学习·数据挖掘
HengCeResearch8811 分钟前
中国【食品检测实验室自动化】程度相对欧美等发达国家相对落后,并且技术层面存在明显的代差,未来有比较大的发展空间
人工智能·百度·自动化
飞起来fly呀26 分钟前
AI驱动电商新未来:提升销售效率与用户体验的创新实践
人工智能·ai
李歘歘1 小时前
Stable Diffusion经典应用场景
人工智能·深度学习·计算机视觉
饭碗、碗碗香1 小时前
OpenCV笔记:图像去噪对比
人工智能·笔记·opencv·计算机视觉
段传涛1 小时前
AI Prompt Engineering
人工智能·深度学习·prompt
西电研梦1 小时前
考研倒计时30天丨和西电一起向前!再向前!
人工智能·考研·1024程序员节·西电·西安电子科技大学
催催121 小时前
手机领夹麦克风哪个牌子好,哪种领夹麦性价比高,热门麦克风推荐
网络·人工智能·经验分享·其他·智能手机
孤华暗香1 小时前
吴恩达《提示词工程》(Prompt Engineering for Developers)课程详细笔记
人工智能·笔记·prompt