大模型基础（一）：什么是LLM？

一：大模型的概念

现在，我们的工作和生活中已经离不开AI了，那么你知道我们日常说的大模型或者AI到底是什么？我觉得可以从狭义和广义两个维度来阐述

在讨论大模型时，我们通常会听到"狭义大模型"和"广义大模型"这两个概念，它们代表了对大模型不同范围的理解。

狭义大模型：专指大语言模型 (LLM)

狭义上的大模型，通常特指大语言模型（Large Language Model, LLM）。

核心定义：它是基于Transformer架构、采用预训练范式、参数量达到亿级（通常为百亿/千亿级）的自然语言处理模型。其核心任务是自回归地预测下一个词元（Token）。
核心能力：专注于理解和生成人类自然语言，能够处理对话、摘要、翻译、代码生成等语言相关任务。
通俗理解：可以把它看作一个在海量文本数据上训练出来的、参数规模巨大的语言专家，擅长理解和运用文字。
典型代表 ：包括Hugging Face网站上所有开源模型

广义大模型：一种技术范式的统称

广义上的大模型，指的是遵循"预训练+微调"这一新范式下的所有产物。

核心定义：它不再局限于语言领域，而是涵盖了所有采用大规模预训练、拥有巨大参数量并展现出涌现能力的AI模型。
核心特征 ：
1. 大规模预训练：在海量无标注/弱标注数据上进行自监督学习。
2. 巨大参数量：模型具备极高的容量，以捕捉数据中极其复杂的模式。
3. 涌现能力：当规模超过某个临界点，模型会表现出小模型不具备的泛化性和新能力。
涵盖范围 ：
- 语言大模型 (LLM)：即狭义的大模型。
- 视觉大模型：专注于图像生成与识别，例如用于文生图的Stable Diffusion、Midjourney等。
- 多模态大模型：融合文本、图像、语音等多种数据类型，能够实现"看图说话"、"语音转文字并总结"等跨模态任务，例如GPT-4V、文心一言多模态版。
- 科学大模型：应用于特定科学领域，如空气动力学、气象预测等，用于加速科学研究和发现。
通俗理解：广义大模型是一个大家族，语言大模型是其中最知名的一员，此外还有擅长处理图像、声音等不同类型信息的"兄弟姐妹"。

最通俗的理解

你可以把大语言模型想象成：一个读过全网几乎所有公开书籍、网页、论文、文章的"超级学者" 。

它记住了语言怎么用、知识怎么组织、逻辑怎么推导，然后用自然语言和你对话，帮你完成各种任务。

二、大语言模型的发展历程

大语言模型的发展历经了三个阶段：

阶段1：基础模型阶段

基础模型阶段主要集中于2018 年至2021 年：

2017 年，Vaswani 等人提出了Transformer架构，在机器翻译任务上取得了突破性进展。
2018 年，Google 和OpenAI 分别提出了BERT 和 GPT-1模型，开启了预训练语言模型时代。
2019 年，OpenAI 发布了GPT-2，参数量15 亿。Google 发布了参数规模为110 亿的T5模型。
2020 年，OpenAI 进一步将语言模型参数量扩展到1750 亿，发布了GPT-3。

阶段2：能力探索阶段

能力探索阶段集中于2019 年至2022 年

由于大语言模型很难针对特定任务进行微调，研究人员开始探索在不针对单一任务进行微调的情况下如何发挥大语言模型的能力
2019 年，Radford等人使用GPT-2 模型研究了大语言模型在零样本情况下的任务处理能力
Brown 等人在GPT-3模型上研究了通过语境学习进行少样本学习的方法
指令微调将大量各类型任务，统一为生成式自然语言理解框架，并构造训练语料进行微调
2022 年，Ouyang 等人提出了使用"有监督微调+ 强化学习"的InstructGPT 算法

阶段3：突破发展阶段

突破发展阶段以2022 年11 月ChatGPT 的发布为起点

ChatGPT 通过一个简单的对话框，利用一个大语言模型就可以实现问题回答、文稿撰写、代码生成、数学解题等过去自然语言处理系统需要大量定制开发才能分别实现的能力
2023 年3 月GPT-4 发布，相较于ChatGPT 又有了非常明显的进步，并具备了多模态理解能力。GPT-4 在多种基准考试测试上的得分高于88% 的应试者
GPT-4o 是 OpenAI于 2024 年 5 月发布的多模态大模型，其中"o"代表"omni"即"全能"。它能接受文本、音频和图像组合输入并生成文本、音频和图像的任意组合输出，可处理 50 种语言
2024 年 9 月 OpenAI 又推出的全新推理模型GPT-o1，在复杂推理任务上表现卓越，能通过内部思维链模拟人类思考，在数学、科学等领域超越人类专家及 GPT-4o

三、大语言模型到底能做什么？

大模型的能力远超传统NLP系统，几乎覆盖所有语言类任务：

1. 问答与信息检索

回答常识、专业知识
解释概念、梳理逻辑
提供步骤、方案、思路

2. 文本生成与创作

写文案、报告、总结、邮件
写小说、散文、诗歌
生成代码、注释、技术文档

3. 理解与处理文本

文本分类（情感、主题、意图）
提取关键信息、实体
文本摘要、改写、润色

4. 翻译与跨语言处理

多语言互译
语言校对、语法修正
方言/口语转标准语

5. 对话与交互

多轮对话
任务式对话（订票、查资料、规划）
角色扮演、模拟场景

6. 代码相关能力

代码生成、补全
代码解释、查错
生成测试用例

只要和"语言"相关，大模型几乎都能做。

它最厉害的地方在于：一个模型，通吃几乎所有NLP任务。

四、大模型 vs 传统NLP：到底差在哪？

很多人会问：以前也有翻译、问答、分词系统，为什么大模型突然这么强？

1. 传统NLP系统

依赖人工规则、特征工程
一个任务一套模型，不能通用
泛化能力差，换个场景就失效
知识有限，只能处理固定领域

2. 大语言模型

端到端学习，不需要人工特征
一个模型通用所有任务
零样本/少样本就能完成新任务
知识覆盖全网，泛化能力极强
可以用自然语言直接指挥，不需要写代码适配

简单对比：

传统NLP：专用工具，一个锤子只砸钉子
大模型：万能工具箱，能锯、能刨、能钻、能钉

五、大语言模型的核心技术基础（极简版）

不用懂复杂公式，你只需要知道这几个关键点：

1. Transformer架构

2017年提出，是目前所有大模型的底层骨架 。

它靠"自注意力机制"能同时关注一段话里所有词的关系，理解长文本能力极强。

2. 预训练 + 微调

预训练：在海量数据上学知识
微调：让模型听懂人类指令、更符合人类偏好

3. 自监督学习

不需要人工标注，模型自己从文本中学习"下一个词预测"任务。

这让训练成本大幅下降，可使用的数据量提升上万倍。

4. 海量参数 + 海量数据

参数越多、数据越优质，模型能力越强。

当规模突破临界点，会出现涌现能力------小模型完全做不到的复杂推理、理解、创作突然出现。

六、大语言模型的局限性（必须知道）

虽然很强，但大模型不是万能的：

1. 会产生幻觉

编造不存在的事实、数据、文献，看起来很真，实际是错的。

2. 没有真正的理解与意识

它只是概率预测，不会"懂"语义，更没有自我意识。

3. 知识有截止日期

训练数据到某个时间点就停止，无法自动获取最新信息（除非联网）。

4. 长文本理解仍有限制

受上下文窗口限制，太长的文档会丢失信息。

5. 推理能力仍有上限

复杂数学、逻辑、规划任务依然容易出错。

理解它的局限，才能更好地使用它。

七、为什么要学习大语言模型？

1. 技术趋势不可逆

AI大模型是未来10年最核心的技术方向，覆盖互联网、企业服务、工业、医疗、教育、金融等所有行业。

2. 个人效率提升

写代码、写文档、查资料、做总结、学知识，效率提升数倍。

3. 职业发展机会多

大模型算法、工程、应用、产品、运维，人才缺口巨大。

4. 低门槛即可上手

不需要博士学历，不需要超强数学基础，普通人也能快速入门、做出可用项目。

八、总结：用三句话记住大语言模型

1. 大语言模型（LLM）是基于Transformer、大规模参数、自监督训练的通用语言AI系统。

2. 狭义大模型=LLM，专注文本；广义大模型包含语言、视觉、多模态等所有大模型。

3. 它能理解与生成自然语言，通吃各类NLP任务，是当前AI时代最核心的基础设施。

大模型不是玄学，也不是遥不可及的黑科技。

只要从基础概念开始，一步步学习、动手实践，每个人都能掌握它、使用它，甚至用它创造属于自己的AI应用。