大语言模型（LLM）的开发流程训练、微调和RAG时什么改变了

大语言模型（LLM）的开发流程：

**1、工程规划以及代码框架搭建：**定义大模型的基础神经网络骨架，搭建Transformer Decoder神经网络架构，编写注意力机制、位置编码、全连接层、残差连接等核心网络代码；搭建模型训练的基础运行环境，编写优化器、损失函数、学习率调度、模型初始化等相关代码，保障训练流程可正常推进；针对大模型海量数据与大规模算力需求，编写多 GPU集群通信、张量并行、数据并行、显存优化、断点续训等代码，实现算力高效调度与分布式训练，满足大模型训练的硬件适配要求。

**2、全网多源数据采集：**使用专业爬虫技术与数据采集工具，全网全域文本数据抓取，拓宽数据来源维度，全面覆盖网页资讯、学术论文、正版书籍、百科知识、专业技术文档、合规开源代码等多类型优质文本数据源，积累海量原始语料素材。采集过程中严格遵循数据合规要求，仅抓取公开合规数据，规避版权、隐私等相关风险，为后续模型训练储备充足的原始数据资源，奠定模型知识储备的基础。

**3、精细化数据处理与加工：**对采集的原始文本数据进行全方位、精细化清洗加工，剔除无效、劣质信息，打造高质量训练语料库。核心工作包括数据去重，去除重复冗余的文本内容；数据过滤，筛选剔除乱码、广告、低俗、敏感及低质量水文；数据脱敏，处理涉及隐私的相关信息；数据格式化，统一文本编码、格式与排版规范；最终完成数据分片、分词预处理，将原始数据转化为模型可直接读取、高效训练的标准化数据集，从数据层面保障模型训练效果。

**4、基座模型预训练：**将处理完成的海量高质量标准化语料输入搭建好的模型框架中，启动基座模型预训练。基于自回归语言建模任务（下一个 Token预测），让模型通过海量文本的反复学习，自主提炼语言规律、逻辑规则、世界常识、专业知识等内容，逐步形成通用的语言理解、文本生成与语义表征能力，最终训练生成具备基础通用能力的原生大模型基座，这一阶段是模型习得核心知识与语言能力的关键环节。

**5、评估大模型：**构建科学完善的评估体系，从多维度对训练完成的基座模型进行量化与人工结合的综合评估，全面校验模型性能。核心评估维度包含：安全性，检测模型是否生成违法、违规、有害、敏感内容，排查内容风险；幻觉率：评估模型生成内容与客观事实的契合度，统计虚假、编造信息的产生概率；偏见与公平性：核查模型是否存在性别、地域、群体等各类歧视性偏见，保障输出内容公平中立；同时兼顾模型语言能力、逻辑推理、知识掌握度等性能指标，通过基准测试、自动化指标计算、人工专业打分相结合的方式，全面评判模型的能力水平、安全合规性与实用价值。

**6、迭代调优大模型：**基于全方位评估结果，精准定位模型在能力、性能、安全、合规等方面存在的问题，开展针对性迭代优化。核心调优工作包括调整模型超参数、优化训练数据配比、补充细分领域优质语料、优化网络结构细节、完善训练策略等，通过多轮训练、评估、调优循环，持续降低模型幻觉率、提升内容安全性、消除内容偏见、强化语言理解与生成能力，让基座模型更具实用性、可靠性与通用性，最终打磨出符合预期的高质量语言大模型基座。

训练&微调&RAG

训练（参数不变的情况） ，就等于修改模型数字的值。
微调（LoRA/SFT） ，主体模型完全不变，会多出几MB～几十MB的小补丁文件。
RAG（检索增强生成），完全不改变模型，就是外挂知识库。

训练并不是把这些海量数据存储起来，而是通过训练把模型内部的几百亿个权重数字微调一点点。

什么情况下大模型软件大小有变化？只有给大模型增加参数，软件的大小才会发生变化。

大语言模型（LLM）的开发流程 训练、微调和RAG时什么改变了