大语言模型(LLM)的开发流程 训练、微调和RAG时什么改变了

大语言模型(LLM)的开发流程:

**1、工程规划以及代码框架搭建:**定义大模型的基础神经网络骨架,搭建Transformer Decoder神经网络架构,编写注意力机制、位置编码、全连接层、残差连接等核心网络代码;搭建模型训练的基础运行环境,编写优化器、损失函数、学习率调度、模型初始化等相关代码,保障训练流程可正常推进;针对大模型海量数据与大规模算力需求,编写多 GPU集群通信、张量并行、数据并行、显存优化、断点续训等代码,实现算力高效调度与分布式训练,满足大模型训练的硬件适配要求。

**2、全网多源数据采集:**使用专业爬虫技术与数据采集工具,全网全域文本数据抓取,拓宽数据来源维度,全面覆盖网页资讯、学术论文、正版书籍、百科知识、专业技术文档、合规开源代码等多类型优质文本数据源,积累海量原始语料素材。采集过程中严格遵循数据合规要求,仅抓取公开合规数据,规避版权、隐私等相关风险,为后续模型训练储备充足的原始数据资源,奠定模型知识储备的基础。

**3、精细化数据处理与加工:**对采集的原始文本数据进行全方位、精细化清洗加工,剔除无效、劣质信息,打造高质量训练语料库。核心工作包括数据去重,去除重复冗余的文本内容;数据过滤,筛选剔除乱码、广告、低俗、敏感及低质量水文;数据脱敏,处理涉及隐私的相关信息;数据格式化,统一文本编码、格式与排版规范;最终完成数据分片、分词预处理,将原始数据转化为模型可直接读取、高效训练的标准化数据集,从数据层面保障模型训练效果。

**4、基座模型预训练:**将处理完成的海量高质量标准化语料输入搭建好的模型框架中,启动基座模型预训练。基于自回归语言建模任务(下一个 Token预测),让模型通过海量文本的反复学习,自主提炼语言规律、逻辑规则、世界常识、专业知识等内容,逐步形成通用的语言理解、文本生成与语义表征能力,最终训练生成具备基础通用能力的原生大模型基座,这一阶段是模型习得核心知识与语言能力的关键环节。

**5、评估大模型:**构建科学完善的评估体系,从多维度对训练完成的基座模型进行量化与人工结合的综合评估,全面校验模型性能。核心评估维度包含:安全性,检测模型是否生成违法、违规、有害、敏感内容,排查内容风险;幻觉率:评估模型生成内容与客观事实的契合度,统计虚假、编造信息的产生概率;偏见与公平性:核查模型是否存在性别、地域、群体等各类歧视性偏见,保障输出内容公平中立;同时兼顾模型语言能力、逻辑推理、知识掌握度等性能指标,通过基准测试、自动化指标计算、人工专业打分相结合的方式,全面评判模型的能力水平、安全合规性与实用价值。

**6、迭代调优大模型:**基于全方位评估结果,精准定位模型在能力、性能、安全、合规等方面存在的问题,开展针对性迭代优化。核心调优工作包括调整模型超参数、优化训练数据配比、补充细分领域优质语料、优化网络结构细节、完善训练策略等,通过多轮训练、评估、调优循环,持续降低模型幻觉率、提升内容安全性、消除内容偏见、强化语言理解与生成能力,让基座模型更具实用性、可靠性与通用性,最终打磨出符合预期的高质量语言大模型基座。

训练&微调&RAG

训练(参数不变的情况) ,就等于修改模型数字的值。
微调(LoRA/SFT) ,主体模型完全不变,会多出几MB~几十MB的小补丁文件。
RAG(检索增强生成),完全不改变模型,就是外挂知识库。

训练并不是把这些海量数据存储起来,而是通过训练把模型内部的几百亿个权重数字微调一点点。

什么情况下大模型软件大小有变化?只有给大模型增加参数,软件的大小才会发生变化。

相关推荐
Token炼金师8 小时前
IP-Adapter:解耦交叉注意力如何让扩散模型看见图像
人工智能
Bigfish_coding8 小时前
前端转agent-【python】-11 LangGraph 高级特性:时间旅行与人工介入
人工智能
Token炼金师8 小时前
从safetensors到像素:ComfyUI Checkpoint加载机制的底层拆解
人工智能
AI闲人8 小时前
AI 写代码越来越快,为什么 Code Review 反而更慢了?
人工智能·code review·ai 编程
武子康8 小时前
调查研究-202 SGLang 深度解析:为什么大模型推理框架不只是“把模型跑起来“
人工智能·openai·agent
我是大卫8 小时前
Trae 读取 agents.md 并驱动 AI 完整底层原理
人工智能
石小石Orz8 小时前
AI具身交互:实现一个会说话的3D虚拟伴侣
前端·人工智能·后端
恋猫de小郭9 小时前
如何让 AI 快速搭建一套生产 Agent ?全面理解 Agent 架构。
前端·人工智能·ai编程
aneasystone本尊10 小时前
学习 turbovec 的量化算法
人工智能