大语言模型(LLM)的开发流程:
**1、工程规划以及代码框架搭建:**定义大模型的基础神经网络骨架,搭建Transformer Decoder神经网络架构,编写注意力机制、位置编码、全连接层、残差连接等核心网络代码;搭建模型训练的基础运行环境,编写优化器、损失函数、学习率调度、模型初始化等相关代码,保障训练流程可正常推进;针对大模型海量数据与大规模算力需求,编写多 GPU集群通信、张量并行、数据并行、显存优化、断点续训等代码,实现算力高效调度与分布式训练,满足大模型训练的硬件适配要求。
**2、全网多源数据采集:**使用专业爬虫技术与数据采集工具,全网全域文本数据抓取,拓宽数据来源维度,全面覆盖网页资讯、学术论文、正版书籍、百科知识、专业技术文档、合规开源代码等多类型优质文本数据源,积累海量原始语料素材。采集过程中严格遵循数据合规要求,仅抓取公开合规数据,规避版权、隐私等相关风险,为后续模型训练储备充足的原始数据资源,奠定模型知识储备的基础。
**3、精细化数据处理与加工:**对采集的原始文本数据进行全方位、精细化清洗加工,剔除无效、劣质信息,打造高质量训练语料库。核心工作包括数据去重,去除重复冗余的文本内容;数据过滤,筛选剔除乱码、广告、低俗、敏感及低质量水文;数据脱敏,处理涉及隐私的相关信息;数据格式化,统一文本编码、格式与排版规范;最终完成数据分片、分词预处理,将原始数据转化为模型可直接读取、高效训练的标准化数据集,从数据层面保障模型训练效果。
**4、基座模型预训练:**将处理完成的海量高质量标准化语料输入搭建好的模型框架中,启动基座模型预训练。基于自回归语言建模任务(下一个 Token预测),让模型通过海量文本的反复学习,自主提炼语言规律、逻辑规则、世界常识、专业知识等内容,逐步形成通用的语言理解、文本生成与语义表征能力,最终训练生成具备基础通用能力的原生大模型基座,这一阶段是模型习得核心知识与语言能力的关键环节。
**5、评估大模型:**构建科学完善的评估体系,从多维度对训练完成的基座模型进行量化与人工结合的综合评估,全面校验模型性能。核心评估维度包含:安全性,检测模型是否生成违法、违规、有害、敏感内容,排查内容风险;幻觉率:评估模型生成内容与客观事实的契合度,统计虚假、编造信息的产生概率;偏见与公平性:核查模型是否存在性别、地域、群体等各类歧视性偏见,保障输出内容公平中立;同时兼顾模型语言能力、逻辑推理、知识掌握度等性能指标,通过基准测试、自动化指标计算、人工专业打分相结合的方式,全面评判模型的能力水平、安全合规性与实用价值。
**6、迭代调优大模型:**基于全方位评估结果,精准定位模型在能力、性能、安全、合规等方面存在的问题,开展针对性迭代优化。核心调优工作包括调整模型超参数、优化训练数据配比、补充细分领域优质语料、优化网络结构细节、完善训练策略等,通过多轮训练、评估、调优循环,持续降低模型幻觉率、提升内容安全性、消除内容偏见、强化语言理解与生成能力,让基座模型更具实用性、可靠性与通用性,最终打磨出符合预期的高质量语言大模型基座。
训练&微调&RAG
训练(参数不变的情况) ,就等于修改模型数字的值。
微调(LoRA/SFT) ,主体模型完全不变,会多出几MB~几十MB的小补丁文件。
RAG(检索增强生成),完全不改变模型,就是外挂知识库。
训练并不是把这些海量数据存储起来,而是通过训练把模型内部的几百亿个权重数字微调一点点。
什么情况下大模型软件大小有变化?只有给大模型增加参数,软件的大小才会发生变化。