大模型训练

大模型训练师的炼丹之道 (1)-最新版llama-factory环境搭建和全排错在人工智能的演进图谱中，大模型训练始终占据着技术金字塔的顶端。它不仅是AI Agent开发的上层建筑，更是当Agent应用发展到一定深度后，不可避免必须跨越的技术鸿沟。唯有掌握底层模型的塑造能力，才能真正突破通用能力的天花板。

大模型训练全景：从预训练到对齐的技术炼金术写在前面：如果你曾好奇 ChatGPT、DeepSeek 或 Claude 是如何从一堆代码变成能写诗、写代码、做推理的"智能体"，这篇文章将为你拆解那条从"原始文本"到"对齐模型"的完整流水线。无论你是刚入门的 AI 开发者，还是希望理解底层原理的技术管理者，读完这篇，你将对大模型训练的每个环节建立清晰的工程认知。

昆曲之源_娄江河畔

婴儿版训练GPTimport numpy as np# ============================== # 1. 固定词典（你建立的字典） # ============================== vocab = {"我":0, "喜":1, "欢":2, "中":3, "国":4, "美":5, "食":6, "[END]":7} idx2word = {v:k for k,v in vocab.items()} vocab_size = len(vocab) d_model = 8 # 向量维度

【大语言模型学习】2026年十大LLM训练数据集汇总构建顶尖大型语言模型的核心根基，在于海量且优质的训练数据。业界普遍认为，开发前沿模型必须依托精心筛选的大规模数据集。值得关注的是，当前行业趋势已从 “独自探索数据荒野” 转向 “直接复用成熟公开资源”—— 与其耗费大量时间搜寻原始数据，不如借助十大领先公开 LLM 训练数据集，高效完成模型训练或微调。

MiniMind第 2 篇：破除大模型 “神秘感“，环境搭建｜Win/Linux 本地快速部署承接上一篇内容：我们完整介绍了 MiniMind 项目核心价值、硬件成本、模型体量与全流程能力，打破了「大模型训练只能依赖超算、高额算力」的固有认知。

MiniMind 第 4 篇：《数据工程｜Tokenizer 训练 + 预训练 / SFT/DPO 全数据集处理》承接上一篇内容：我们拆解了 MiniMind 底层核心架构，吃透了 RMSNorm、SwiGLU、RoPE 三大组件的工程实现与优化逻辑。现在，终于轮到 LLM 最关键的「粮草」—— 数据工程。

MiniMind第 3 篇：底层原理｜Decoder-Only 小模型核心：RMSNorm/SwiGLU/RoPE 极简吃透承接上一篇内容：我们已经完成了 Windows / Linux 全平台环境搭建，成功跑通 MiniMind 依赖配置、CUDA 适配，现在终于可以「掀开小模型的 hood」，深入底层原理。

Qwen3.5开源矩阵震撼发布！从0.8B到397B，不同规模模型性能、显存、速度深度对比与选型指南来了！截至今天2026年3月3日，Qwen3.5已形成从0.8B到397B的完整开源矩阵，分为轻量稠密（0.8B/2B/4B/9B/27B）、中型MoE（35B-A3B/122B-A10B）、旗舰MoE（397B-A17B）三大梯队。不同尺度在性能、显存、速度、场景上差异显著，下面是完整对比与选型指南，仅供参考。

Context Engineering要过时？AI圈新风口「Harness Engineering」，OpenAI/Anthropic齐发力原文: https://mp.weixin.qq.com/s/O_K5s6qjI7Kp_eOU_we4Fg 欢迎关注公zh: AI-Frontiers

Google 迎来「DeepSeek 时刻」：TurboQuant算法实现3bit无损、8×加速、6×压缩、零预处理原文: https://mp.weixin.qq.com/s/zI2GQhGkzWXPueg93_z5MA 欢迎关注公zh: AI-Frontiers

GLM技术复盘：21篇论文深度解读智谱模型家族原文: https://mp.weixin.qq.com/s/2KMaZPnLernKGLq2aLN_dQ 欢迎关注公zh: AI-Frontiers

万字长文解读Qwen进化史：27篇论文深度复盘Qwen模型家族原文: https://mp.weixin.qq.com/s/6tpV4YXl7EM14E7i0492dA 欢迎关注公zh: AI-Frontiers

从ResNet到mHC：DeepSeek重构残差连接，额外开销仅6.7%，附复现代码原文: https://mp.weixin.qq.com/s/ZuA3zSpVHo1-bGB2tQuRpg

3年，从0到全球领跑：万字长文拆解DeepSeek大模型技术演进原文: https://mp.weixin.qq.com/s/MG9nB7VYK-N4Q3RQFiwcuw

垂域大模型评估不再靠“感觉”：用结构化测试集+自动化打分实现效果可量化当前大模型在垂直领域的落地已从“能不能跑”进入“跑得好不好”的阶段。开发者普遍发现，微调一个模型或搭建一套RAG系统并不算最难，真正的瓶颈在于缺乏一套可靠、高效、可复现的评估机制。很多团队依赖人工试用，靠“感觉”判断模型是否变好，这种做法在初期或许可行，但一旦进入迭代优化阶段，主观判断无法支撑工程决策。尤其在企业场景中，业务文档高度专业化，通用评测集（如MMLU、C-Eval）覆盖不足，而人工构造高质量测试集成本极高。更棘手的是，模型可能在训练损失下降的同时，出现知识幻觉、逻辑断裂或通用能力退化等问题，这

收藏！LLM开发全链路：5大步骤+15大框架，从数据治理到RLHF一文通关原文：https://mp.weixin.qq.com/s/oRUjkoUcHOrMtHfVHkr5Cw

【人工智能】【大模型训练】② AI解剖室GPipe & PipeDream：解剖大模型训练的“卡顿病灶“场景：清晨的AI手术室，主刀医师正在检查一台"大模型训练机器"。诊断报告：“患者：大模型训练系统。症状：频繁卡顿、GPU利用率低、训练效率低下。诊断：流水线交通瘫痪。” 主刀医师：“我们决定进行‘流水线手术’，切除卡顿根源。”

小白也能看懂的LLM-RL算法：PPO/DPO/GRPO/GSPO原文: https://mp.weixin.qq.com/s/9KT9LrMTXDGHSvGFrQhRkg

学习是生活的调味剂

大模型训练技术总结前言：大模型训练技术总体上为预训练-》按目标与方法选择合适的微调方式。按目标与方法分有监督微调、基于人类反馈的强化学习、指令微调，常用技术实现即上文的全量微调和高效微调。

卫玠_juncheng

langchain1.0rag知识库项目分享:从数据清洗到模型微调的全方位教程一个基于 LangChain 1.0、RAG 和 ReAct Agent 的生产级法律 AI 项目这不仅仅是一个法律咨询系统，更重要的是，它是一个生产级别的 AI 工程项目范例，展示了如何在实际应用中整合：