目录
[(三)VAE 与 GAN](#(三)VAE 与 GAN)
干货分享,感谢您的阅读!
在"大模型"语境里,生成式 AI 模型就是那些不仅会"理解",更会"产生新内容"的模型。它们学习的是数据分布本身,或者条件分布 (p(x \mid c)),因此能生成文本、代码、图像、语音、视频,甚至多模态交互结果。今天最主流的文本与代码模型,几乎都建立在自回归 Transformer之上;图像与视频生成则主要由扩散模型及其潜空间版本主导;VAE 与 GAN 仍然是理解现代生成建模不可绕开的基础框架;而条件生成、对比学习、指令微调与偏好对齐,更像是贯穿多类模型的"共性技术层"。
如果只想最快把握全貌,可以抓住下面六点:
- 文本大模型的本质:按 token 从左到右预测"下一个词",这就是自回归语言模型;它借助自注意力在整段上下文里找相关信息,再用采样策略把概率分布变成具体输出。
- 图像扩散模型的本质:先把真实样本逐步加噪到近似纯噪声,再学习怎样一步步把噪声"擦干净",最终还原为清晰样本;DDIM 等方法则把这个去噪过程显著加速。
- 现代大模型并不只靠"预训练" :真正可用的助手模型通常还要经历 SFT、偏好学习、RLHF 或 DPO 等后训练阶段。InstructGPT 证明了1.3B 的对齐模型 都可能在用户偏好上胜过 175B 的原始 GPT-3。
- 多模态不是简单拼接:CLIP 用对比学习把图像和文本拉到同一语义空间,DALL·E 2、Stable Diffusion、GPT-4、Qwen2.5-VL、Sora 等系统则分别展示了图文生成、文生图、多模态理解、文档结构理解、视频生成等不同路线。
- 风险不是边角料,而是主线问题:生成模型会出现幻觉、偏见、模式崩溃、隐私泄露、提示注入、训练数据投毒、算力与能耗压力等问题,这些问题已经被论文和标准化框架明确记录。
- 实践上最该做的不是"追最大模型",而是"构建完整技术栈":高质量数据、合适的微调方式、评测集、服务框架、权限边界、审计与安全策略,往往比单纯堆参数更决定系统效果。NIST 的生成式 AI 风险框架和 OWASP 的 LLM 风险清单都强调这一点。
自回归模型像"接龙写作",扩散模型像"从雪花电视噪点里慢慢擦出画面",VAE 像"先压缩到地图坐标再解压",GAN 像"伪钞犯和鉴定师互相较劲",而对齐训练像"先看老师示范,再听老师打分,最后练到更像人类想要的答案"。这些路线并不是互斥的,而是在今天的大模型体系中相互叠加、共同构成现代生成式 AI。
一、背景与定义
在机器学习的大图景里,"大模型"是一个规模与通用性概念,而"生成式 AI 模型"是一个任务与能力概念。前者强调参数量、训练数据量、上下文窗口、通用迁移能力;后者强调模型是否能够学习数据分布并生成新内容。因此,二者是相交关系,不是包含关系:有些大模型偏理解、检索、嵌入,有些则以生成为核心;现代最重要的基础模型,则往往同时具备理解与生成能力。GPT-3、Llama 3、Qwen2.5、GLM-4、DeepSeek-V3 属于文本生成基础模型;DDPM、Latent Diffusion、Stable Diffusion 与 Sora 则是视觉生成方向的重要代表。

下面这张速览表可以先把各家模型的"性格"记住:
| 模型类型 | 核心思想 | 典型输出 | 最强优点 | 常见短板 | 易懂比喻 |
|---|---|---|---|---|---|
| 自回归语言模型 | 按顺序预测下一个 token | 文本、代码、对话 | 通用性极强、可 few-shot、易与工具结合 | 易幻觉、长链推理和事实更新需要额外机制 | 接龙写作 |
| 扩散模型 | 学会把噪声逐步去掉 | 图像、视频、音频 | 质量高、条件控制强、训练相对稳定 | 采样通常较慢 | 从噪点中擦出图像 |
| VAE | 学潜变量分布并重建样本 | 图像、语音、压缩表示 | 潜空间平滑、可控、易与其他模型结合 | 容易偏"糊" | 先压缩成坐标,再按坐标复原 |
| GAN | 生成器与判别器对抗训练 | 图像、视频 | 样本锐利、细节强 | 训练不稳、模式崩溃 | 伪钞犯 vs 鉴定师 |
| 条件生成模型 | 在生成时显式引入条件 (c) | 按提示、标签、参考图、检索文档生成 | 可控性强,能做"定向创作" | 条件质量决定上限 | 按说明书作画/写作 |
(一)自回归语言模型

这类模型的核心是:只看左边,不看右边。Hugging Face 的任务文档直接把它定义为"预测序列中的下一个 token,且模型只能关注左侧 token";GPT-2 与 GPT-3 则把这一目标在更大数据和更大算力上放大,得到了强大的文本生成、代码生成和 few-shot 能力。Transformer 的关键突破在于:它完全依靠自注意力建模序列依赖,不再需要 RNN 那样一步一步串行推进。
(二)扩散模型

扩散模型把生成问题变成"逆向去噪 "问题。DDPM 证明了这种方式可以得到高质量图像合成,而 DDIM 又把同样训练目标下的采样速度提升到 10--50 倍 ;后续的 score-based SDE 框架进一步把扩散和 score matching 统一起来,还引入了 predictor-corrector 采样。现代文本到图像模型常常再叠加条件机制与引导机制,比如 classifier-free guidance,以在提示一致性 与样本多样性之间做权衡。
(三)VAE 与 GAN

VAE 的贡献是把"高维复杂样本"映射到"可采样、可插值的潜变量空间",并通过变分下界 与重参数化让训练变得可微、可扩展。GAN 则把生成过程写成一个极具直观感的对抗游戏:生成器负责"造假",判别器负责"验真",在理想平衡点上,生成分布逼近真实分布、判别器输出接近 (1/2)。如果你要理解为什么后来会出现潜空间扩散、VQ-VAE、对抗蒸馏等路线,VAE 和 GAN 是基础中的基础。
(四)条件生成

"条件生成"更像一条横切整个生成建模领域的主线。早期 cGAN 的做法很直接:把条件 (y) 同时喂给生成器和判别器;现代文本到图像模型则把文本条件编码后,通过 cross-attention 或引导器作用到扩散模型上;知识型文本生成又会把检索到的文档作为额外条件输入到语言模型中。换句话说:只要你希望生成"按要求来",本质上就是在做条件生成。
二、关键技术如何工作
现代生成式大模型真正重要的,不只是"架构名字",而是它背后的训练目标、表示学习方式、推理策略和对齐流程。下面这张表把最常用的技术块放在同一张图里看。表中的公式写的是最常见的简化形式,目的是帮助快速理解,而不是替代原论文的完整推导。相关定义分别来自 Transformer、VAE、GAN、DDPM、CLIP、InstructGPT 和 DPO 等原始论文或官方技术文档。
| 技术块 | 常见目标 / 损失 | 直观比喻 | 优点 | 代价 | 典型场景 | 来源 |
|---|---|---|---|---|---|---|
| 自回归预训练 | (-\sum_t \log p(x_t|x_{<t})) | 一句句接龙 | 通用生成强、迁移性好 | 容易"说得像真话但不一定真" | 对话、写作、代码、翻译 | https://huggingface.co/docs/transformers/tasks/language_modeling |
| 自注意力 | (\text{softmax}(QK^\top/\sqrt{d_k})V) | 读一句话时不断回头看相关词 | 能直接建模长距离依赖、训练可并行 | 长序列计算和显存压力大 | 所有 Transformer 大模型 | https://arxiv.org/html/1706.03762 |
| 位置编码 | 正弦位置编码、RoPE 等 | 给每个 token 一个"座位号" | 让模型分清顺序和相对距离 | 设计会影响长上下文泛化 | 长文本、时序、多模态 | https://arxiv.org/html/1706.03762 |
| VAE | 重建项 + KL 散度 | 先压缩、再复原 | 潜空间可控、便于插值与压缩 | 常牺牲锐利度 | 表示学习、压缩、潜空间生成 | https://arxiv.org/abs/1312.6114 |
| GAN | (\min_G\max_D) 对抗目标 | 伪钞犯与警察 | 细节锐利、样本漂亮 | 训练不稳、易模式崩溃 | 高保真视觉生成 | https://papers.nips.cc/paper/5423-generative-adversarial-nets |
| 扩散去噪 | 常见为噪声预测 MSE | 从雪花噪点里擦图 | 质量高、条件控制强、训练稳 | 采样步数多 | 图像、视频、音频生成 | https://arxiv.org/abs/2006.11239 |
| 对比学习 | 拉近正样本、拉远负样本 | 给图文配对 | 零样本迁移强、可做跨模态对齐 | 对数据噪声和提示词敏感 | CLIP、多模态检索、图文生成前置对齐 | https://openai.com/index/clip/ |
| SFT 指令微调 | 对"理想回答"做 NLL | 老师先写范文 | 最简单、最稳、最常用 | 容易学到风格却没学到偏好边界 | 领域适配、客服、问答 | https://huggingface.co/docs/trl/sft_trainer |
| RLHF | 奖励模型 + PPO 等 | 老师先排序再强化训练 | 更贴近人类偏好 | 流程复杂、训练不稳 | 助手对齐、安全行为 | https://arxiv.org/abs/2203.02155 |
| DPO | 基于偏好对的分类式目标 | 不建奖励模型,直接学"哪条更好" | 更简单、更稳定、更省算力 | 依赖高质量 chosen/rejected 数据 | 偏好优化、风格与安全对齐 | https://arxiv.org/abs/2305.18290 |
再把"预训练到可用助手"的后训练链看成一条流水线,会更好理解:

图:今天大多数可用助手模型的训练路径,不只是"预训练一次就结束",而是"预训练 + 指令化 + 偏好对齐"。
推理阶段同样很关键。对语言模型来说,Greedy 最确定但容易僵硬,Top-k / Top-p / Temperature 可以在"稳定"与"创造性"之间调节;Holtzman 等人的 nucleus sampling 之所以重要,是因为他们指出:单纯最大似然式解码会导致乏味、重复、退化的文本,而 nucleus sampling 能更好地平衡流畅性和多样性。对扩散模型来说,DDPM 质量高但慢,DDIM 明显更快,CFG 则进一步提高提示遵循度,但也会带来"质量---多样性"权衡。
最后,生成模型在实际系统里越来越少"单兵作战"。RAG 的关键价值,在于把参数记忆 和外部可更新知识库拼起来:原始 RAG 论文显示,它能让生成更具体、更多样,也更具事实性。这就是为什么今天很多企业知识助手并不依赖"更大模型",而依赖"更好的检索 + 更稳的生成"。
三、代表性模型与里程碑
如果把过去十余年的生成式 AI 看成一条技术演化线,大致可以分成四个阶段:
基础生成建模 (VAE/GAN)→ Transformer 统一文本生成 → 扩散统一视觉生成 → 多模态与对齐驱动的可用系统。其中,2020 年前后是现代大模型爆发的分水岭:一边是 GPT-3 把自回归语言模型推到 few-shot 时代,另一边是 DDPM 把扩散模型带到主流;随后 InstructGPT、DALL·E 2、Stable Diffusion、GPT-4、Llama 3、Qwen2.5、DeepSeek-V3、Qwen2.5-VL、Sora 等系统,逐步把这些路线推向开放生态、产业部署与多模态交互。

图:从基础生成建模到多模态与对齐时代的简化时间线。部分闭源系统未完整公开训练细节,时间线主要依据论文与官方技术页面。
(一)语言与代码方向
| 模型 | 首发时间 | 类型 | 核心创新 | 参数 / 规模 | 训练数据类型 | 主要应用 | 主要限制 | 主要来源 |
|---|---|---|---|---|---|---|---|---|
| GPT-3 | 2020-05 | 自回归 Transformer | 175B 规模、few-shot in-context learning | 175B | 大规模文本语料 | 文本生成、QA、翻译、cloze | 某些任务 few-shot 仍吃力,且大规模网页语料带来方法论与社会风险问题 | https://arxiv.org/abs/2005.14165 |
| InstructGPT | 2022-03 | 对齐后的语言模型 | SFT + 人类偏好排序 + RLHF;1.3B 模型在人类偏好上胜过 175B GPT-3 | 1.3B / 175B 家族 | API prompt、标注员示范与排序数据 | 指令跟随、助手对话、安全性提升 | 仍会犯简单错误 | https://arxiv.org/abs/2203.02155 |
| ChatGPT | 2022-11 | 对话式助手产品 | 把 InstructGPT 路线做成对话交互系统 | 产品级系统 | 对话与指令数据 | 后续追问、纠错、拒答不当请求 | 仍存在局限,需要持续迭代 | https://openai.com/index/chatgpt/ |
| Llama 3.1 | 2024-07 | 开放权重基础模型 | 405B dense Transformer,128K context,多语言、编码、工具使用 | 405B | 文本 | 开放生态助手、企业私有化微调 | 论文中图像/视频/语音仍属组合式探索,尚未广泛发布 | https://arxiv.org/abs/2407.21783 |
| GLM-4 | 2024-06 | 中英双语大模型家族 | 以中英为主的十万亿级 token 预训练,多阶段后训练,All Tools 工具调用 | 系列模型 | 以中文、英文为主,外加 24 种语言少量语料 | 中英助手、工具使用、长上下文 | 工具能力依赖外部执行环境 | https://arxiv.org/abs/2406.12793 |
| Qwen2.5 | 2024-12 | 开放权重 LLM 家族 | 预训练从 7T 扩到 18T token,后训练含超 100 万 SFT 样本与多阶段 RL | 0.5B--72B 开放;另有托管 MoE 变体 | 文本、结构化数据、代码相关语料 | 长文本、结构化输出、编码、中文应用 | 托管高端变体并非全开源;性能依旧受后训练与评测设置影响 | https://arxiv.org/abs/2412.15115 |
| DeepSeek-V3 | 2024-12 | MoE 语言模型 | 671B 总参数、37B/词元激活;MLA、无辅助损失负载均衡、多 token 预测 | 671B total / 37B active | 14.8T 高质量 token | 开源高性能助手、编码、推理 | 系统复杂度高,训练仍需大规模 GPU 资源 | https://arxiv.org/abs/2412.19437 |
| DeepSeek-R1 | 2025-01 | 推理强化方向里程碑 | 证明纯 RL 可激发自反思、验证、动态策略适配等推理行为 | 基于大语言模型后训练 | 推理型偏好与可验证任务数据 | 数学、代码、STEM 推理 | R1-Zero 存在可读性、重复与语言混杂问题,后续版本用多阶段流程修正 | https://arxiv.org/abs/2501.12948 |
(一)图像、视频与多模态方向
| 模型 | 首发时间 | 类型 | 核心创新 | 参数 / 规模 | 训练数据类型 | 主要应用 | 主要限制 | 主要来源 |
|---|---|---|---|---|---|---|---|---|
| DDPM | 2020-06 | 扩散模型范式 | 连接加噪---去噪与 score matching,生成质量达到当时 SOTA | 研究范式 | 图像 | 高质量图像生成 | 采样步数多、推理较慢 | https://arxiv.org/abs/2006.11239 |
| DALL·E 2 | 2022 | 文本条件图像生成 | 文本到图像、外部填充、内部填充、变体;比 DALL·E 1 更真实更准确 | 官方未公开 | 图文对 | 创意生成与编辑 | 官方设置了对暴力、仇恨、成人、真实人物逼真面孔等限制 | https://openai.com/zh-Hans-CN/index/dall-e-2/ |
| Stable Diffusion | 2022-08 | 潜空间扩散 | latent diffusion + 固定 CLIP 文本编码器,可在消费级 GPU 上运行 | 开放权重模型 | 图文对 | 本地文生图、图像编辑、开源生态 | 需要提示词工程与安全治理,输出质量与推理配置密切相关 | https://arxiv.org/abs/2112.10752 |
| Flamingo | 2022 | 视觉语言模型 | 连接强视觉和语言基座,支持任意交错图文/视频输入的 few-shot 学习 | 家族模型 | 大规模多模态网页语料 | VQA、caption、视频问答 | 重点在理解与 few-shot 适配,不是通用图像生成器 | https://arxiv.org/abs/2204.14198 |
| GPT-4 | 2023-03 | 多模态大模型 | 接受图像 + 文本输入并输出文本;更系统地纳入人工反馈与安全工作 | 官方未公开 | 文本、图像输入 | 多模态分析、专业任务支持、知识助手 | 仍存在社会偏见、虚构内容与对抗提示问题 | https://openai.com/zh-Hans-CN/index/gpt-4/ |
| Qwen2.5-VL | 2025-02 | 视觉语言模型 | 动态分辨率、绝对时间编码、文档/图表解析、边框定位与视觉代理能力 | 3 个尺寸,旗舰为 72B | 图像、视频、文本 | 表格/票据抽取、图表分析、长视频理解、设备操作 | 不同尺寸能力差异明显,强项在理解与代理而非"万能媒体生成" | https://arxiv.org/abs/2502.13923 |
| Sora | 2024-02 | 视频生成模型 | 把不同视觉数据统一表示,用于大规模视频生成建模,支持扩展视频与补帧 | 官方未公开 | 各类视觉数据 | 文生视频、视频延展、缺帧补全 | 官方技术报告明确未公开完整模型与实现细节,只给出能力与局限评估 | https://openai.com/index/video-generation-models-as-world-simulators/ |
四、典型应用与案例
下面不做"产品罗列",而做技术流程---输入输出---问题与解法三联分析。示例中的输入输出是说明性演示,目的是让你快速建立"这类系统究竟怎么工作"的直觉。
(一)对话与知识助手

最常见的企业应用,不是"纯聊天",而是检索增强对话。ChatGPT 证明了对话式接口的可用性,InstructGPT 证明了人类偏好对齐的重要性,而 RAG 则证明:当任务依赖事实、法规、产品文档时,把检索到的材料作为条件输入,能让生成更具体、更多样也更具事实性。
说明性输入输出
输入:
"根据公司差旅制度,上海到北京的高铁报销上限是多少?请给出处。"
系统流程:
检索制度文档 → 拼装 Prompt → 生成答案 → 附带引用段落
说明性输出:
"上海至北京二等座高铁票可全额报销,一等座需经理审批。出处:差旅制度第 3.2 节。"
常见问题与策略
- 问题:模型会"听起来很像知道",但没真正引用依据,这就是典型幻觉。
- 策略:把"必须引用检索片段"写入系统提示;对未命中检索的样本明确要求"无法确认";把答案和证据一起评测。NIST 的生成式 AI 风险框架把系统设计、开发、使用、评估中的可信性控制视为主线。
- 问题:若接入网页、数据库或工具,系统还会遭遇提示注入、敏感信息泄露、下游不安全输出等问题。
- 策略:输入清洗、工具白名单、输出过滤、最小权限设计、日志审计。
(二)图像生成与编辑

DALL·E 2 展示了文本到图像、内填充、外填充、变体等典型能力;Stable Diffusion 则把这条路线开放到了本地与消费级 GPU 场景。Latent Diffusion 的关键价值,在于把扩散过程从像素空间转到更紧凑的潜空间里,大幅降低训练与推理代价,同时还可通过 cross-attention 接入文本、边框等条件。
说明性输入输出
输入:
"生成一张赛博朋克风格的夜间上海街景,湿润路面,霓虹倒影,电影级构图。"
说明性输出:
一张高对比、强色彩反射的城市夜景图;如果加上"35mm lens, wide shot",画面更像电影镜头。
常见问题与策略
- 问题:提示遵循度、构图质量、文字渲染能力、人物手部细节,往往不能同时最优。
- 策略:通过 CFG、参考图、负面提示词、两阶段 base+refiner、分辨率控制来取得更好的平衡。Diffusers 文档把 classifier-free guidance 作为默认引导器之一,用于提高提示遵循度和控制力。
- 问题:安全与合规。DALL·E 2 官方明确限制暴力、仇恨、成人图像,以及真实人物尤其公众人物的逼真面孔生成。
- 策略:上线前做过滤器评测、红队测试与内容政策设计。
(三)代码生成与修复

代码生成不是简单"续写文本",它最有价值的地方在于可验证性。OpenAI 的 Codex 产品页明确强调:系统可以读取和编辑文件,也能运行测试框架、代码检查工具与类型校验器,并通过终端日志和测试输出给出可验证证据。Qwen2.5-Coder 则代表了开源代码模型路线,在代码生成、补全、推理、修复等多类任务上发力。
说明性输入输出
输入:
"修复这个 Python 函数在空列表时抛异常的问题,并补上单元测试。"
说明性输出:
- 修改后的函数
- 新增 test_empty_input()
- 说明变更原因
- 测试通过日志摘要
常见问题与策略
- 问题:语法正确但逻辑错误;能通过示例但边界条件失败;依赖版本不兼容。
- 策略:把"测试先行、最小补丁、可复现实验日志"纳入默认流程;把代码生成系统放在 CI、测试与人工评审之后,而不是直接上线。Codex 官方也强调用户仍应手动审核与验证所有智能体生成的代码。
(四)多模态文档与图表助手

这类系统是 2024--2025 年最实用的一类大模型应用。GPT-4 把"图像 + 文本 → 文本"的多模态接口推向主流;Qwen2.5-VL 则把票据解析、表格抽取、边框定位、图表理解、长视频解析和设备操作等能力集成进一个视觉语言模型里,特别强调了文档与图表场景。
说明性输入输出
输入:
一张发票截图 + 指令"提取开票日期、金额、税号,并输出 JSON"
说明性输出:
{
"invoice_date": "2025-03-18",
"amount": "1280.00",
"taxpayer_id": "9131**********"
}
常见问题与策略
- 问题:布局复杂时容易漏字段;图表可能看懂趋势却读错具体数值;低分辨率会显著拉低效果。
- 策略:优先高分辨率输入;要求固定 schema 输出;对关键字段加规则校验;必要时让模型返回边框 / 指向位置,增强可审计性。Qwen2.5-VL 的官方技术报告明确强调了边框/点定位、文档解析、图表分析和动态分辨率处理。
五、挑战与风险
生成式 AI 最危险的误解之一,是把风险看成"部署时再想"的小问题。实际上,风险往往与模型范式本身绑定:GAN 会模式崩溃,语言模型会幻觉,对比学习会放大语义偏差,检索与工具接入会引入注入、泄露与供应链问题,而大规模训练又天然带来算力与能耗压力。

图:生成式 AI 风险更像"多源因果网络",而不是单点故障。
| 风险 | 典型成因 | 表现形态 | 常见缓解方式 | 主要来源 |
|---|---|---|---|---|
| 幻觉 | 语言生成目标偏向流畅性,不等于事实性;参数内知识不可验证 | 编造引用、捏造事实、答非所问 | RAG、工具调用、强制引用、事实评测、低温度解码 | https://arxiv.org/abs/2202.03629 |
| 偏见 | 训练数据分布与标签设计存在社会偏差 | 刻板印象、群体不公平、毒性输出 | 数据筛洗、对齐训练、专项基准、人工审查 | https://openai.com/index/clip/ |
| 模式崩溃 | 对抗优化不稳定,生成器覆盖数据模式不全 | "只会画一类图""样本高度相似" | 更稳的目标函数、正则化、谱约束、监控多样性指标 | https://papers.nips.cc/paper_files/paper/2022/hash/f5537b8d8fd126c7fe9d7429b181b1eb-Abstract-Conference.html |
| 可解释性弱 | 表示高度分布式,内部电路复杂 | 难定位错误原因,难给监管与用户解释 | 机制可解释性研究、归因图、解释性原则与文档化 | https://www.nist.gov/artificial-intelligence/ai-research-explainability |
| 隐私泄露 | 训练数据记忆、模型过拟合 | 泄露姓名、邮箱、电话、代码片段等 | 去重与脱敏、访问控制、隐私过滤器、红队测试 | https://arxiv.org/abs/2012.07805 |
| 应用层安全 | Prompt injection、输出未校验、数据投毒、供应链问题 | 越权执行、数据泄露、系统被诱导误操作 | 最小权限、工具白名单、输出验证、供应链审计 | https://owasp.org/www-project-top-10-for-large-language-model-applications/ |
| 成本与能耗 | 大模型训练与服务依赖大量 GPU 与电力 | 训练门槛高、碳排放与成本高 | 模型选型、LoRA/QLoRA、量化、蒸馏、高效服务 | https://arxiv.org/abs/1906.02243 |
几个风险值得再单独强调。
模式崩溃几乎是 GAN 时代最经典的负面教材。NeurIPS 2022 的 UniGAN 摘要直言:尽管 GAN 训练取得了大量进展,mode collapse 仍然是主要挑战,表现为生成样本缺少多样性。这个问题提醒我们:**"图像看起来漂亮"不等于"分布学得完整"。**
隐私泄露 不是理论担忧,而是已经被论文验证的攻击面。Carlini 等人的研究显示,攻击者可以从语言模型中提取出训练数据中的逐字文本,包含邮箱、电话、代码和 UUID,而且更大的模型更脆弱。这对企业私有数据尤其敏感:如果你把内部邮件、合同、日志直接拿去训练,风险就不是抽象概念。
偏见与安全 也不能只靠"模型升级"自动解决。CLIP 官方文章给出过一个很强烈的例子:当类别集合中包含 "criminal""animal" 等冒犯性标签时,模型对 0--20 岁人群图像落入这些类别的比例会很高;加入 "child" 类后,这种行为显著下降。这说明很多偏差既来自语料,也来自任务设计与标签空间。GPT-4 的官方中文页面也直接把社会偏见、虚构内容、对抗性提示列为已知局限。
六、实践建议与入门路径
最有效的学习方式,不是死记模型名字,而是按"原理 → 工具 → 实验 → 评测 → 部署"五层递进。下面这条路线,适合已经有基础机器学习知识、但希望快速建立生成式 AI 全貌与手感的读者。相关资源尽量优先采用原论文、官方文档和中文官方实践文档。
| 学习层 | 应该掌握什么 | 推荐资源 | 目标产出 |
|---|---|---|---|
| 原理层 | Transformer、VAE、GAN、DDPM、CLIP、RLHF/DPO | 原始论文与官方技术页 | 能解释主流模型差异 |
| 工具层 | Transformers、PEFT、TRL、Diffusers、vLLM | 官方文档 | 能跑通训练与推理 |
| 实验层 | 小模型 SFT / LoRA;基础文生图训练 | Qwen 与 Diffusers 示例 | 能复现实验 |
| 评测层 | 幻觉、偏见、安全、性能指标 | NIST AI RMF、OWASP | 能做红队与验收 |
| 部署层 | 服务、监控、权限、日志、回滚 | vLLM、PAI、企业平台 | 能安全上线原型 |
上述资源对应的高质量入口包括:Hugging Face Trainer、SFTTrainer、PEFT 的 LoRA 指南、Diffusers 的 train_text_to_image.py、vLLM 的 OpenAI-compatible server,以及阿里云 PAI/百炼对 Qwen 模型的部署、微调与 DPO 文档。
(一)小型可复现实验
实验一:用 Qwen2.5 做小规模领域 SFT
这个实验的目标不是"刷榜",而是理解生成式大模型如何从通用助手变成领域助手。
- 模型选择 :Qwen2.5 提供从 0.5B 到 72B 的 base 与 instruct 系列;如果你只有单卡或小算力,先从 0.5B / 1.5B 开始最稳。
- 数据格式 :如果走 TRL / SFTTrainer,可以使用
messages、prompt/completion或普通text格式;如果走阿里云百炼,则官方支持 ChatML 多轮对话格式。 - 微调方式 :算力有限时优先选 LoRA / QLoRA。PEFT 官方文档指出,LoRA 会显著减少需要训练的参数;阿里云文档进一步建议:简单任务、小数据场景和计算资源有限时优先 LoRA / QLoRA。
- 数据量建议 :PAI 文档给出的经验是:高质量的数千条 SFT 数据通常已能达到不错效果,而且数据质量往往比盲目扩量更重要。
一个保守、可工作的起点可以这样设:
| 项目 | 建议起点 | 说明 |
|---|---|---|
| 数据量 | 1k--5k 条高质量指令样本 | 先少而精,再扩量 |
| 训练方式 | LoRA;显存紧张则 QLoRA | 小模型优先 LoRA |
| epoch | 先跑 2--5,观察验证集;不要一上来拉满 | 官方建议区间 2--10 |
| batch size | 取硬件允许的最大稳定值 | 官方建议按显存上限选 |
| grad accumulation | 显存不够时开启 | 用较小 batch 模拟更大有效 batch |
| LoRA rank | 可先用 32 | PAI 默认值 32 |
| lora_alpha | 可从 16--64 试起 | PAI 建议约为 rank 的 1/2 到 2 倍 |
| sequence length | 按"system + instruction + output"真实 token 长度估算 | 过短会截断,过长浪费显存 |
这些建议中,epoch、batch、sequence length、LoRA rank 和 lora_alpha 的范围,都能在阿里云的中文实践文档中找到明确说明。
实验步骤
步骤:
1. 准备消息式训练集(先做清洗和去重)。
2. 选 Qwen2.5-0.5B 或 1.5B。
3. 用 SFTTrainer + PEFT LoRA 跑首轮训练。
4. 抽取 50--100 条固定验证样本做人审与自动评测。
5. 如果发现"会答但不合偏好",再进入 DPO 阶段。
6. 最后用 vLLM 或 PAI 服务化。
TRL 的 SFTTrainer 支持对话格式自动应用 chat template;vLLM 则可直接以 OpenAI API 协议提供服务,便于把实验模型快速挂到应用原型上。
实验二:用 Diffusers 训练基础文本到图像模型
如果你想真正理解"扩散模型到底怎么训练",最好的入门不是自己从零写 DDPM,而是跑通官方训练脚本。
Diffusers 的官方 train_text_to_image.py 给出了一个非常清晰的基线命令:分辨率 512、batch size 1、梯度累积 4、最大训练步数 15000、学习率 1e-5、开启 EMA、梯度检查点和 xFormers。这已经足够作为入门级文本到图像训练基准。
| 项目 | 官方示例起点 |
|---|---|
| 基模型 | stable-diffusion-v1-5 |
| 分辨率 | 512 |
train_batch_size |
1 |
gradient_accumulation_steps |
4 |
max_train_steps |
15000 |
learning_rate |
1e-5 |
| 其他 | use_ema、gradient_checkpointing、enable_xformers_memory_efficient_attention |
实验步骤
1. 准备带 caption 的小型图像数据集。
2. 使用 Diffusers 官方脚本跑 text-to-image 训练。
3. 用一组固定 prompt 做前后对比。
4. 关注四件事:提示遵循度、主体一致性、细节质量、训练稳定性。
5. 如果只想学"风格适配",可再进一步切换到 LoRA 方案。
(二)企业与研究部署注意事项
企业部署最容易踩的坑,不是"模型不够强",而是没有完整的系统观。一个实用的生成式 AI 系统,至少要覆盖六个面:
| 面向 | 需要做的事 | 依据 |
|---|---|---|
| 数据边界 | 去重、脱敏、权限隔离、来源记录 | https://arxiv.org/abs/2012.07805 |
| 训练策略 | 先 SFT,再决定是否 DPO / RLHF;小数据优先 LoRA / QLoRA | https://arxiv.org/abs/2203.02155 |
| 服务框架 | 用 vLLM 这类 OpenAI-compatible server 提供统一接口 | https://docs.vllm.ai/en/stable/getting_started/quickstart/ |
| 安全治理 | 按 OWASP Top 10 思路做 prompt injection、输出校验、敏感信息保护 | https://owasp.org/www-project-top-10-for-large-language-model-applications/ |
| 风险管理 | 参考 NIST GAI Profile,把可信性放到设计、开发、评估、运营全流程 | https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence |
| 评测闭环 | 固定验收集 + 日志回放 + 人审 + 回滚机制 | https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence |
如果你是研究团队,最该优先做的是:固定实验集、固定随机种子、固定版本、固定评测 protocol 。如果你是企业团队,最该优先做的是:定义"模型不确定时必须说不知道"的制度边界,而不是只追更大的参数规模。
七、开放问题与说明
这份报告尽量以原始论文和官方技术页面为主,但仍有几类信息存在天然不完整性,需要读者在阅读时保持边界感。
首先,闭源前沿模型常故意不公开完整技术细节 。例如 GPT-4 的官方页面重点介绍能力、安全与应用,而不是完整参数与训练细节;Sora 的技术报告也明确指出,它聚焦于统一视觉表示和能力/局限的定性评估,不包含完整模型与实现细节。因此,任何跨闭源与开源模型的比较,都应理解为"在公开信息范围内的比较",而不是对内部实现的等价比较。
其次,"模型大小"并不等于"系统能力" 。InstructGPT 的例子已经说明,对齐与后训练足以让小得多的模型在人类偏好上胜过更大的原始模型;DeepSeek-R1 又说明,某些推理行为甚至可以通过后训练中的 RL 诱导出来。这意味着"参数越大越好"已经不是今天理解生成式 AI 的正确方式,更合理的框架是:基座能力 × 对齐质量 × 工具链 × 数据质量 × 系统设计。
最后,这份报告重点讲了最能形成稳定认知的技术主线 ,而不是穷尽 2026 年所有最新产品快讯。原因很简单:产品快照变化极快,而用户真正需要的是一张能够穿越版本更新的"认知地图"。如果你建立了这张地图,再去看任何新模型的发布公告,就能迅速判断它究竟是在架构 、训练目标 、对齐方法 、采样机制 ,还是系统工程层面做了前进。