📌 本课学习目标
学完这节课,你能搞明白以下问题:
- 大模型到底"大"在哪?跟普通AI模型有什么本质区别?
- "参数""训练数据""涌现能力"这些词到底什么意思?
- ChatGPT、DeepSeek、文心一言这些产品,背后的大模型有什么不同?
- 为什么说大模型是AI从"实验室技术"变成"人人都在用的工具"的关键?
🤔 课前思考
上节课我们聊了生成式AI------AI能写文章、画画了。
但你有没有想过一个问题:同样是"让AI写东西",为什么2018年的AI写出来像流水账,而2023年的ChatGPT却能写出让专业文案都叫好的文章?
答案很简单:因为背后的"大脑"不一样。
2018年用的是"小模型",2023年用的是"大模型"。
那大模型到底"大"在哪里?这节课我们就来彻底搞清楚。
一、先搞清楚:大模型的"大"不是体积
很多人第一次听到"大模型",第一反应是"多大的模型?文件很大吗?"
不是!
大模型的"大",指的是三个维度:参数多、数据广、能力强。
打个比方:小模型就像一个专科生------在某个领域学得不错,但换个领域就懵了。大模型像一个读了所有专业的博士------什么都懂一点,什么都能聊两句,而且聊得还挺有水平。
二、大模型的三大核心特征
这是本课最核心的内容,搞懂这三个特征,你就能理解为什么大模型这么厉害了。
特征一:参数规模"大"------脑子里装了更多的"知识点"
"参数"是什么? 你可以把它理解为模型"学到的规律"数量。
小模型的参数通常只有几十万到几百万个,只能记住简单的规律,比如"识别猫的耳朵形状""生成一句通顺的话"。
而大模型的参数,动不动就是几十亿、几百亿甚至上万亿个。
小模型: 参数 10万~100万 能记住简单的规律
大模型: 参数 10亿~1万亿+ 能记住极其复杂的规律
这有什么实际的区别?
举个文本大模型的例子------GPT-3有1750亿个参数:
- 它能记住不同领域的专业术语:写医学文案时用"病灶、CT值",写科技文案时用"算法、算力"
- 它能记住不同风格的语言逻辑:写散文时用优美的比喻,写报告时用严谨的结构
- 它能记住跨领域的知识关联:你问"李白和杜甫有什么区别",它不会把两个诗人搞混
再举个图像大模型的例子------Stable Diffusion有数十亿个参数:
- 它能记住不同绘画风格的细节差异:油画的笔触厚重,水彩的笔触轻盈
- 它能记住不同场景的元素搭配:科幻场景有飞船、机械臂,古风场景有亭台、汉服
- 类比:参数规模大,就像一个人"脑子里的知识点更多、更细"。小模型只能"写一句话",大模型能"写一整篇逻辑连贯、引用准确、风格统一的文章",就是因为参数能支撑起更复杂的规律。
特征二:训练数据"广"------读了所有领域的书
大模型的训练数据不是"某个领域的小数据集",而是"跨领域、跨类型的海量数据"。
文本大模型的训练数据包括:
文学书籍 + 科技论文 + 新闻报道 + 法律条文 + 医学文献
+ 编程代码 + 网页内容 + 社交媒体对话 + 古典诗词
→ 几乎覆盖了人类已有的绝大部分文字内容
多模态大模型的训练数据还包括:
+ 上亿张图像 + 上千万小时的音频 + 大量视频
→ 同时学习文字、图像、声音的规律
训练数据广 = 知识面全。
小模型只懂"怎么识别猫",大模型不仅懂"识别猫",还懂"写猫的科普文章""画猫的插画""讲猫的进化史"。因为它的训练数据覆盖了生物学、文学、艺术等多个领域。
特征三:任务能力"泛"------一个模型干多种活
小模型通常是"专用工具"------一个猫识别模型只能识别猫,一个情感分析模型只能判断文本情绪。
大模型是"通用的助手",一个模型能干很多种不同的活:
| 你让文本大模型做的事 | 它能做到 |
|---|---|
| "写一篇产品文案" | ✅ 生成完整的营销文案 |
| "用Python写一个计算圆面积的代码" | ✅ 生成带注释的代码 |
| "把这段英文翻译成中文" | ✅ 准确翻译 |
| "总结这篇5000字的报告" | ✅ 提炼核心要点 |
| "解释量子力学是什么" | ✅ 用通俗语言讲解 |
| "帮我写一首关于秋天的诗" | ✅ 生成诗歌 |
类比:任务能力泛,就像一个人"会做多种不同的工作"。你请一个只会做饭的厨师,他只能帮你炒菜;但你请一个"什么都会一点"的大模型,它既能帮你写报告、又能帮你改代码、还能帮你做翻译。
这也是大模型能走进千家万户的根本原因,一个工具搞定多种需求,而不是每种需求都需要下载一个App。
三、一个神奇的现象:涌现能力
大模型还有一个非常神奇的特征,叫"涌现能力"。
什么叫"涌现"?简单说就是:当模型的规模大到一定程度,突然会"解锁"一些之前根本不具备的能力,而这些能力不是程序员专门设计的,是它自己"长"出来的。
模型参数从 1亿 → 10亿 → 100亿 → 1000亿
↑
到了这个临界点,突然能:
- 做数学推理题了
- 理解幽默和讽刺了
- 写出有逻辑的长文章了
- 甚至学会"骗人"了
用人来类比:一个人可能认识3000个字,写短消息没问题,但写不出好文章。当他认识了10000个字、读了1000本书之后,突然有一天他就能写出让别人感动的文章了。这不是因为谁教了他写作技巧,而是"积累到一定程度后自然涌现出来的能力"。
涌现能力是大模型最显著、也最让人兴奋的特征。它告诉我们:规模本身就是一种力量,当规模足够大的时候,量变就会引起质变。
四、大模型是怎么训练出来的?
虽然你不需要会写代码,但了解大模型的训练逻辑,能帮你更好地使用它。
大模型的训练整体可以分为两步。
第一步:预训练------"通读人类所有的书"
在大规模的文本数据上训练,让模型学会语言规律、知识关联、推理逻辑。
这个过程就像让一个学生从头到尾读完一座图书馆的所有书。读完后,他虽然不一定每本书都能倒背如流,但他脑子里已经有了庞大的知识体系和语言能力。
预训练的特点:数据量巨大(TB级别),不需要人工标注,成本极高,训练一个千亿参数模型可能花费几百万到上千万美元。
第二步:微调------"针对特定任务做专项练习"
在预训练的基础上,用特定领域的少量数据做进一步的训练,让模型在特定任务上表现更好。
比如,在通用大模型的基础上,可以用医疗数据微调 → 得到一个"医疗问答的专用模型";用法律数据微调 → 得到一个"法律咨询的专用模型"。
微调的特点:数据量小(几千到几万条),成本低(几小时到几天),效果好。
类比:预训练就像"读完大学四年通识课",微调就像"毕业后再读一个特定专业方向的研究生"。通识基础决定了你的上限,专业方向决定了你的精度。
五、大模型的分类:不同类型,各有所长
按处理的数据类型,大模型主要分三类:
语言大模型(LLM)------专攻"文字"
处理文本数据,擅长写文章、翻译、问答、写代码。
代表产品:ChatGPT(OpenAI)、DeepSeek(深度求索)、文心一言(百度)、通义千问(阿里)、豆包(字节)、Kimi(月之暗面)
视觉大模型------专攻"图像"
处理图像数据,擅长图像识别、图像生成、图像分析。
代表产品:MidJourney、Stable Diffusion、通义万相
多模态大模型------"全能选手"
能同时处理文本、图像、音频等多种数据类型,还能实现跨类型转换,文字变图片、图片变文字。
代表产品:GPT-4o、Sora(视频生成)、Gemini(Google)
按参数规模也可以分:
| 规模 | 参数量 | 特点 | 举例 |
|---|---|---|---|
| 小模型 | < 10B | 轻量快速,适合手机端部署 | 手机端聊天助手 |
| 中型模型 | 10B ~ 100B | 能力与速度平衡,适合企业应用 | 多数国产大模型 |
| 大模型 | > 100B | 能力最强,需要云端部署 | GPT-4、Claude |
六、国内主流大模型一览
你应该已经在使用其中一些产品了,但它们各自的定位和特点你了解吗?
| 大模型 | 公司 | 亮点 | 适合场景 |
|---|---|---|---|
| 文心一言 | 百度 | 国内最早发布,生态完善 | 通用对话、内容创作 |
| 通义千问 | 阿里 | 开源友好,多模态能力强 | 编程辅助、文档处理 |
| DeepSeek | 深度求索 | 开源标杆,推理能力强 | 技术问答、代码生成 |
| 豆包 | 字节跳动 | 免费好用,响应速度快 | 日常聊天、快速问答 |
| Kimi | 月之暗面 | 长文本处理能力强 | 长文档分析、论文阅读 |
| 讯飞星火 | 科大讯飞 | 语音能力强 | 语音交互、教育场景 |
怎么选? 日常聊天用豆包(免费快),技术问题用DeepSeek,长文档用Kimi,内容创作用文心一言。这些模型目前并没有一个"最好的",只有"最适合你需求"的。
🏢 业务场景实战
场景一:企业用大模型搭建智能客服系统
有一家电商公司,每天客服要处理5000+的用户咨询。人工客服只能覆盖30%,剩下70%的用户等待时间超过10分钟。
接入大模型后:
用户提问:"我上周买的耳机充电充不进去怎么办?"
↓
大模型先理解问题 → 查询产品知识库 → 生成回答:
"您好,耳机充不进电可能有以下原因:
1. 充电接口有灰尘,建议用棉签清理
2. 充电线损坏,建议更换
3. 耳机电池故障,可以联系售后(400-xxx-xxxx)
请问您的情况是哪种?"
↓
自动回复用户,如果用户说还没解决,标记为"需要人工跟进"
一个API调用,几毛钱的成本,替代了人工客服30%的工作量。
场景二:程序员用大模型辅助写代码
一个Java后端工程师,接到需求:"写一个用户登录接口,包含参数校验和JWT token生成"。
传统方式:查文档+写代码+调试 = 2小时
大模型辅助:
1. 输入需求描述
2. 大模型生成完整代码(含注释)
3. 程序员审核修改(20分钟)
= 总耗时 30分钟
效率提升4倍。大模型不是取代程序员,而是帮程序员省掉"写样板代码"的时间,让他专注在业务逻辑上。
场景三:内容团队用大模型做批量内容生产
一个新媒体团队,每天要在小红书、公众号、抖音三个平台发布内容。原来3个人才能完成的工作量:
大模型工作流:
1. 输入选题"AI对程序员就业的影响"
2. 大模型生成:小红书笔记(300字+配图建议)、公众号文章(2000字)、抖音脚本(1分钟口播词)
3. 编辑审核修改
= 1个人1小时完成3个平台的内容
✅ 本课知识卡片
┌──────────────────────────────────────────────────────┐
│ 第05课 · 大模型核心概念速查 │
├──────────────────────────────────────────────────────┤
│ 大模型的"大" = 参数多 + 数据广 + 能力强 │
│ │
│ 三大核心特征: │
│ 参数规模大,能记住更细致的规律 │
│ 训练数据广,能覆盖更多领域知识 │
│ 任务能力泛,一个模型干多种活 │
│ │
│ 涌现能力:规模到临界点后,突然"解锁"意料之外的能力 │
│ │
│ 训练两步走: │
│ 预训练(通读人类所有书) → 微调(专项练习) │
│ │
│ 三种类型: │
│ 语言大模型(文字) · 视觉大模型(图像)· 多模态(全能) │
└──────────────────────────────────────────────────────┘
🔗 下一课预告
【完整文档可以找我】
搞清楚了"大模型是什么",你可能还有个疑问:
大模型到底是怎么"理解"你说的话的?为什么它能记住上下文、知道你在聊什么?
这一切的核心秘密,是一个叫"Transformer注意力机制"的技术。
下一课:Transformer与注意力机制------大模型背后的秘密武器
好途工坊 · 好途相伴,前程无忧