啥是LLM?大语言模型从原理到选型的完整科普

本文整理自B站「AI专业知识科普:啥是LLM(大语言模型)」,通过AI音视频总结工具 Ai好记 转文字+截取PPT整理,以下为精炼整理后的内容。

LLM(Large Language Model,大语言模型)是这两年 AI 领域最火的关键词。ChatGPT、DeepSeek、Kimi、豆包,背后都是 LLM 在撑场子。

但 LLM 到底是怎么工作的,很多人其实是模糊的。这篇从最底层的原理开始聊,不搞玄学公式,争取用大白话讲清楚。

LLM 的本质:不是思考,是接龙

先说最核心的一件事:大语言模型并不真正"理解"你说的话,它只是在做一件事------根据你前面说的内容,猜下一个字最可能是什么。

像玩词语接龙。你开头说"今天天气真",它根据学过的数万亿字语料,算出"好"的概率是87%,"不"是8%,"热"是3%。

选了"好",然后继续猜下一个字。ChatGPT 输出的每一段回答,都是一个字一个字这么接龙接出来的。

这个认知很重要------LLM 没有懂,只有猜。 但当接龙做得足够准的时候,就足够模拟出 AI 真的很懂的样子了。

训练三阶段:从读到精再到对齐

一个 LLM 从"什么都不会"到"能用",要经过三个阶段。

预训练------全世界互联网上能找到的所有文字,网页、书籍、维基百科、新闻、论坛,几十万亿的字,全拿过来。

让模型一遍又一遍地玩"猜下一个字"的游戏。猜错了就内部调整参数,猜对了就保留。这个阶段成本极高,GPT-3 光是一次训练就要花上亿美元。

后训练精修------预训练完的模型虽然能接龙,但回答太生硬,像在抄书。这时候拿高质量对话数据(人工写的问题+标准答案)来精调,让模型学会怎么像一个正常人那样回答问题。

对齐------最后一步,用人类反馈来校准。给模型生成的多个回答排好坏,让它学会什么该说、什么不该说、怎么更有帮助。

这就是 RLHF(基于人类反馈的强化学习),也是 ChatGPT 当年脱颖而出的关键一步。

核心概念划重点

理解 LLM 需要了解几个关键概念。

参数:相当于模型内部的"小开关"数量。7B(70亿参数)的模型和 671B(6710亿参数,DeepSeek V3)的模型,能力差距就像小学生和博士生的区别。

参数越多,模型能记住的语言模式越丰富,但计算成本和部署难度也成倍增加。

Token:模型内部处理的不是"字",而是 token。一个 token 差不多相当于 0.75 个汉字。你提问的时候,模型不是看你一句话,而是看一堆 token 串在一起。

上下文窗口:模型一次能"记住"多少 token。GPT-4 是 12.8 万 token,Claude 2.5 达到了 100 万 token。窗口越大,它能处理的长文档就越长。

超出上下文窗口的内容,模型就会"忘记"------这不是 bug,是工作机制决定的。

温度参数:控制模型回答的"随机性"。温度设为 0,模型每次都选概率最高的那个词,回答稳定但不灵活。温度调高,模型会选概率较低但也可能的词,更有创造力但也更容易跑偏。

LLM 的实际工作过程

拿一个日常场景举例。你在 AI 里输入"帮我写一封请假邮件,因为感冒"。

模型先把这句话拆成 token 序列,然后从自己的参数里算出接下去最可能的词。首先输出"亲"------"亲爱的"的概率更高,于是输出"爱"再接"的"。一个接一个,直到"请领导批准"------到这里模型判断已经能组成一封完整的请假邮件了。

这就是 流式输出------你看到 AI 打字的时候,其实它正在实时做逐词预测。所以你会发现有时候它写到一半会"反悔"------删掉前面写的话重新输出,因为在接龙过程中发现了更合理的走向。

AI 家族的层级关系

很多概念容易混,理一下就清楚了。

人工智能(AI) 是最大的概念,图像识别、语音合成、自动驾驶等都算 AI。

大语言模型(LLM) 是 AI 中专门处理文本的子集。

多模态模型 是 LLM 的进化版------不仅能看文字,还能看图、听声音、处理视频。像 GPT-4o 就是典型。

推理模型 是更进一步------LLM 只是逐词预测,推理模型会在内部做多步思考和验证,像 OpenAI 的 o1。

日常说的"DeepSeek V3""GPT-4""Kimi"都是 LLM,"DeepSeek R1""o1"就是推理模型的代表。

参数规模与蒸馏

不同参数规模的模型适用于不同场景。

7B 模型可以在手机上跑,但回答质量有限。70B 模型需要显卡才能跑,回答质量明显提升。671B 模型是顶级水平,但需要多张高性能显卡集群才能部署。

蒸馏 技术解决了这个问题------用大模型(如 671B)的答案作为教材,去训练小模型(如 7B),让小模型以远低于大模型的成本,获得接近大模型的输出能力。这就是很多端侧 AI(手机本地模型)能做好的根本原因。

模型选择建议

日常聊天用免费网页版就好------豆包、Kimi、DeepSeek Web 都够用,完全免费。

复杂任务推荐用 API 调用------写代码、分析长文档、处理结构化数据,用 DeepSeek API(性价比高)或 Claude API(长上下文强)。

数据敏感场景选开源模型本地部署------不把数据传输到外网,Qwen、DeepSeek 开源版都可以自己部署。

总结

LLM 没有我们想象中那么神秘。它的本质就是一个被海量数据训练过的词语接龙高手,一个字一个字地预测输出。当这种接龙做得足够准的时候,就模拟出了"懂"的样子。

理解了这个底层逻辑,选模型、调参数、判断回答质量,都会更有谱。


常见问题

Q:LLM 和 ChatGPT 是什么关系?

A:ChatGPT 是基于 GPT 系列 LLM 开发的应用产品。LLM 是底层的"发动机",ChatGPT 是上面的"车身"。

Q:为什么 AI 有时候会胡说八道?

A:这叫"幻觉"。因为 LLM 的本质是在做概率预测,当它遇到训练数据中没有明确答案的问题,就会根据概率编造一个看起来像样的回答。

Q:参数越大的模型是不是一定更好?

A:通常来说参数越大能力越强,但部署成本也成倍增加。对于日常简单任务,蒸馏后的小模型反而性价比更高,速度和成本都友好。

Q:同样的问题问不同模型,回答不一样是为什么?

A:有两个原因。一是模型训练数据不同,知识库有差异。二是温度参数设置不同,高温度时回答会有一定随机性。

Q:开源 LLM 和闭源 LLM 怎么选?

A:闭源模型(GPT-4、Claude)能力更强,但成本高、受限于供应商服务。开源模型(DeepSeek、Qwen)可以本地部署,数据安全可控,适合对隐私要求高的场景。


以上内容由 Ai好记 转录整理。

支持解析B站、抖音、小宇宙等平台链接及本地/网盘的音视频文件,转写后自动生成精华速览、思维导图和结构化笔记,帮助你把几小时的视频内容变成可搜索、可复习的图文笔记。

相关推荐
我就是全世界1 小时前
具身智能难现“ChatGPT时刻”:缺统一范式,更缺优质数据
人工智能·chatgpt·机器人
bryant_meng1 小时前
【Transformer】Why ChatGPT Is Decoder-Only
深度学习·chatgpt·transformer·decoder
NQBJT1 小时前
告别复制粘贴!NQ-Assistant:一键将 DeepSeek/ChatGPT/Claude 回复导出为精美 Word 文档
人工智能
朱大喜2 小时前
数据可视化工具选型:matplotlib、Plotly 与 ECharts
人工智能
动物园猫2 小时前
直升机停机坪目标检测数据集分享(适用于YOLO系列深度学习分类检测任务)
深度学习·yolo·目标检测
染指11108 小时前
26.RAG进阶(Advanced RAG)-假设性问题索引
人工智能·windows·agent·rag·advanced rag
闵孚龙8 小时前
动态图机制:为什么 PyTorch 调试起来更舒服
人工智能·pytorch·python
甲维斯9 小时前
还要啥Codex!DeepSeek接入Zcode远程连接!
人工智能
Kobebryant-Manba9 小时前
RNN从0实现
pytorch·rnn·深度学习