文章目录
-
- 基础概念
-
- [1.1 函数](#1.1 函数)
- [1.2 符号主义](#1.2 符号主义)
- [1.3 联结主义](#1.3 联结主义)
- [1.4 模型](#1.4 模型)
- [1.5 权重](#1.5 权重)
- [1.6 损失函数](#1.6 损失函数)
- [1.7 反向传播](#1.7 反向传播)
- [1.8 数学](#1.8 数学)
- 模型类型
-
- [2.1 大模型](#2.1 大模型)
- [2.2 大语言模型](#2.2 大语言模型)
- [2.3 多模态](#2.3 多模态)
- [2.4 生成式AI](#2.4 生成式AI)
- [2.5 闭源模型](#2.5 闭源模型)
- [2.6 开放权重模型](#2.6 开放权重模型)
- [2.7 完全开源模型](#2.7 完全开源模型)
- [2.8 ChatGPT](#2.8 ChatGPT)
- [2.9 GPT](#2.9 GPT)
- [2.10 OpenAI](#2.10 OpenAI)
- [2.11 Claude](#2.11 Claude)
- [2.12 Gemini](#2.12 Gemini)
- [2.13 DeepSeek](#2.13 DeepSeek)
- [2.14 豆包](#2.14 豆包)
- [2.15 通义千问](#2.15 通义千问)
- [2.16 腾讯元宝](#2.16 腾讯元宝)
- 训练流程
-
- [3.1 训练](#3.1 训练)
- [3.2 预训练](#3.2 预训练)
- [3.3 微调](#3.3 微调)
- [3.4 推理](#3.4 推理)
- [3.5 对齐](#3.5 对齐)
- [3.6 涌现](#3.6 涌现)
- 技术原理
-
- [4.1 Token](#4.1 Token)
- [4.2 上下文](#4.2 上下文)
- [4.3 上下文窗口](#4.3 上下文窗口)
- [4.4 提示词](#4.4 提示词)
- [4.5 提示词工程](#4.5 提示词工程)
- [4.6 提示词工程师](#4.6 提示词工程师)
- [4.7 随机性](#4.7 随机性)
- [4.8 温度](#4.8 温度)
- [4.9 Top-K](#4.9 Top-K)
- [4.10 幻觉](#4.10 幻觉)
- [4.11 联网](#4.11 联网)
- [4.12 词嵌入](#4.12 词嵌入)
- [4.13 向量数据库](#4.13 向量数据库)
- [4.14 向量检索](#4.14 向量检索)
- [4.15 注意力机制](#4.15 注意力机制)
- [4.16 Transformer](#4.16 Transformer)
- [4.17 位置编码](#4.17 位置编码)
- [4.18 多头注意力机制](#4.18 多头注意力机制)
- [4.19 残差连接](#4.19 残差连接)
- [4.20 归一化](#4.20 归一化)
- [4.21 编码器](#4.21 编码器)
- [4.22 解码器](#4.22 解码器)
- 应用技术
-
- [5.1 检索增强生成](#5.1 检索增强生成)
- [5.2 知识库](#5.2 知识库)
- [5.3 工作流](#5.3 工作流)
- [5.4 智能体](#5.4 智能体)
- [5.5 多智能体](#5.5 多智能体)
- [5.6 插件](#5.6 插件)
- [5.7 AutoGPT](#5.7 AutoGPT)
- [5.8 Manus](#5.8 Manus)
- [5.9 MCP](#5.9 MCP)
- [5.10 A2A](#5.10 A2A)
- [5.11 扣子](#5.11 扣子)
- [5.12 LangChain](#5.12 LangChain)
- 优化技术
-
- [6.1 模型压缩](#6.1 模型压缩)
- [6.2 量化](#6.2 量化)
- [6.3 蒸馏](#6.3 蒸馏)
- [6.4 剪枝](#6.4 剪枝)
- [6.5 LoRA](#6.5 LoRA)
- [6.6 思维链](#6.6 思维链)
- [6.7 RLHF](#6.7 RLHF)
- [6.8 零样本学习](#6.8 零样本学习)
- [6.9 少样本学习](#6.9 少样本学习)
- 产品与公司
-
- [7.1 ChatGPT](#7.1 ChatGPT)
- [7.2 GPT](#7.2 GPT)
- [7.3 OpenAI](#7.3 OpenAI)
- [7.4 Claude](#7.4 Claude)
- [7.5 Gemini](#7.5 Gemini)
- [7.6 DeepSeek](#7.6 DeepSeek)
- [7.7 豆包](#7.7 豆包)
- [7.8 通义千问](#7.8 通义千问)
- [7.9 腾讯元宝](#7.9 腾讯元宝)
- 内容创作
-
- [8.1 PGC](#8.1 PGC)
- [8.2 UGC](#8.2 UGC)
- [8.3 AIGC](#8.3 AIGC)
- 计算机视觉
-
- [9.1 CV](#9.1 CV)
- [9.2 Midjourney](#9.2 Midjourney)
- [9.3 Stable Diffusion](#9.3 Stable Diffusion)
- [9.4 ComfyUI](#9.4 ComfyUI)
- 语音技术
-
- [10.1 TTS](#10.1 TTS)
- [10.2 ASR](#10.2 ASR)
- 视频生成
-
- [11.1 Sora](#11.1 Sora)
- [11.2 可灵](#11.2 可灵)
- [11.3 即梦](#11.3 即梦)
- 数字人
-
- [12.1 数字人](#12.1 数字人)
- 硬件与框架
-
- [13.1 GPU](#13.1 GPU)
- [13.2 CUDA](#13.2 CUDA)
- [13.3 TPU](#13.3 TPU)
- [13.4 NPU](#13.4 NPU)
- [13.5 Python](#13.5 Python)
- [13.6 PyTorch](#13.6 PyTorch)
- [13.7 TensorFlow](#13.7 TensorFlow)
- [13.8 Hugging Face](#13.8 Hugging Face)
- [13.9 Ollama](#13.9 Ollama)
- [13.10 vLLM](#13.10 vLLM)
- 编程工具
-
- [14.1 Cursor](#14.1 Cursor)
- [14.2 GitHub Copilot](#14.2 GitHub Copilot)
- 神经网络架构
-
- [15.1 神经网络](#15.1 神经网络)
- [15.2 MLP](#15.2 MLP)
- [15.3 CNN](#15.3 CNN)
- [15.4 RNN](#15.4 RNN)
- 数学基础
-
- [16.1 数学](#16.1 数学)
- 评估与测试
-
- [17.1 基准测试](#17.1 基准测试)
- 未来愿景
-
- [18.1 AGI](#18.1 AGI)
- 部署方式
-
- [19.1 私有化部署](#19.1 私有化部署)
- [19.2 云桌面](#19.2 云桌面)
- [19.3 镜像](#19.3 镜像)
- 其他
-
- [20.1 套壳](#20.1 套壳)
- [20.2 卖铲子](#20.2 卖铲子)
- [20.3 NLP](#20.3 NLP)
- [20.4 炸裂体](#20.4 炸裂体)
- 术语汇总表
基础概念
1.1 函数
描述输入与输出之间映射关系的数学表达,是理解AI系统的核心抽象。
输入 → [函数 f(x)] → 输出
x f(x) y
1.2 符号主义
基于明确规则和逻辑符号的AI方法,试图用数学公式精确描述问题,但在处理复杂、模糊问题时遇到困难。
符号主义: 规则 → 逻辑推理 → 精确输出
联结主义: 数据 → 神经网络 → 概率输出
1.3 联结主义
不预设规则,通过复杂函数计算预测值与真实值的误差,对函数中的未知参数进行不断调整的学习方法。
1.4 模型
联结主义思想所使用的复杂函数,通过训练学习数据中的模式。
1.5 权重
模型中需要调整的参数,决定了输入特征对输出的影响程度。
输入层 → [权重矩阵] → 隐藏层 → [权重矩阵] → 输出层
W₁ W₂
1.6 损失函数
估量模型的预测值f(x)与真实值Y的不一致程度的函数,用于指导模型训练。
损失函数 L = (预测值 - 真实值)²
目标: 最小化 L
1.7 反向传播
计算损失函数关于网络参数的梯度来更新参数的算法,是神经网络训练的核心方法。
前向传播: 输入 → 预测 → 损失
反向传播: 损失 → 梯度 → 参数更新
1.8 数学
AI的基石,包括线性代数、微积分、概率论等数学理论。
模型类型
2.1 大模型
参数量规模庞大的模型,通常在十亿级别以上。
2.2 大语言模型
LLM(Large Language Model),专门用于自然语言处理的大规模预训练模型。
2.3 多模态
能够处理图像、声音、视频等多种模态内容的模型能力。
多模态模型架构:
┌─────────────────────────────────────┐
│ 文本输入 │ 图像输入 │ 音频输入 │
└─────┬────────┴─────┬──────┴─────┬────┘
│ │ │
└──────────────┴─────────────┘
↓
[共享编码器]
↓
[跨模态注意力]
↓
[联合解码器]
↓
输出(文本/图像/音频)
2.4 生成式AI
根据输入内容持续计算并自动生成新内容的人工智能系统。
2.5 闭源模型
不开放源代码与权重,只提供最终服务的模型,如ChatGPT、Claude、Gemini。
2.6 开放权重模型
可本地部署的,开放权重以供调整的模型,但不开放训练代码与数据,如DeepSeek、LLaMA。
2.7 完全开源模型
开放训练代码、数据、权重的模型,如Mistral。
2.8 ChatGPT
2023年爆火的用于聊天的产品,由OpenAI开发。
2.9 GPT
Generative Pre-trained Transformer,生成式预训练变换器,为大语言模型的一种系列。
2.10 OpenAI
开发ChatGPT的公司,产品为闭源。
2.11 Claude
Anthropic发布的大语言模型。
2.12 Gemini
Google DeepMind发布的AI。
2.13 DeepSeek
深度求索公司发布的AI。
2.14 豆包
字节跳动公司基于云雀模型开发的AI。
2.15 通义千问
Qwen,阿里云发布的AI。
2.16 腾讯元宝
腾讯发布的基于自研混元大模型开发的C端AI。
训练流程
3.1 训练
对模型中的参数进行调整的过程。
3.2 预训练
在大量数据上训练基础模型以学习通用特征。
预训练流程:
海量数据 → [预训练] → 基础模型
↓
学习通用知识
3.3 微调
在预训练模型基础上对特定方向任务进行训练。
完整训练流程:
海量数据 → [预训练] → 基础模型 → [微调] → 专用模型
↓
特定任务数据
3.4 推理
参数调整完成后,根据函数的输入计算输出结果的过程。
训练 vs 推理:
训练: 数据 → 模型 → 更新参数
推理: 输入 → 模型 → 输出结果
3.5 对齐
通过人类反馈等方法,使模型输出更符合人类价值观和期望。
3.6 涌现
模型参数量显著增长后,推理能力得到大幅提升的现象。
涌现现象:
参数量 1M → 10M → 100M → 1B → 10B → 100B
能力 基础 → 基础 → 基础 → 突破 → 突破 → 突破
技术原理
4.1 Token
将文字、图像、声音、视频分割成的最小粒度。
Token化示例:
"人工智能很强大" → ["人工", "智能", "很", "强大"]
↓
[Token IDs]
4.2 上下文
对话时给到大模型的所有信息。
4.3 上下文窗口
模型能够处理的最大上下文长度。
上下文窗口示意图:
┌─────────────────────────────────────┐
│ [系统提示] [历史对话] [当前输入] │
│ ←────── 上下文窗口 ──────→ │
└─────────────────────────────────────┘
4.4 提示词
Prompt,用于指导模型的回答流程与风格。
提示词结构:
[角色设定] + [任务描述] + [输入内容] + [输出要求]
示例:
"你是一位专业的AI技术博主,请用通俗易懂的语言解释什么是Transformer。"
4.5 提示词工程
研究如何通过精心设计提示词来获得更优模型输出的技术。
4.6 提示词工程师
研究如何与大模型对话以达到更优反馈的职位。
4.7 随机性
对大模型固定输出的内容进行调整,使其并不是总取概率最高。
4.8 温度
控制随机性的参数,值越高输出越随机,值越低输出越确定。
温度参数影响:
温度 = 0.1: 总是选择概率最高的词
温度 = 0.7: 在高概率词中随机选择
温度 = 1.5: 随机性很高,可能选择低概率词
4.9 Top-K
控制输出中选择出前K个最大或最小的元素的操作。
Top-K 选择:
词汇表概率: [0.4, 0.3, 0.15, 0.1, 0.05, ...]
Top-K=3: [0.4, 0.3, 0.15] → 从这3个中采样
4.10 幻觉
随机性过高或过低导致输出结果存在事实性错误或虚假信息的情况。
4.11 联网
通过互联网获取相关信息,结合相关信息进行输出,以减少幻觉的方法。
4.12 词嵌入
把文字转换为词向量的方式,用于捕捉词间语义关系。
词嵌入空间:
国王
↑
│
男 ─┼─ 女
│
↓
王后
向量运算: 国王 - 男 + 女 ≈ 王后
4.13 向量数据库
特化模型与知识库语义匹配,以向量形式存储的数据库。
4.14 向量检索
对比词向量相似度,以在知识库中找到相关问题答案的方式。
向量检索流程:
查询 → 向量化 → [向量数据库] → 相似度计算 → Top-K结果
4.15 注意力机制
Attention,模拟人类选择性注意机制,提升信息处理效率。通过计算词向量之间的相似度,将上下文信息融入每个词的表示中。每个词向量经过线性变换生成Q、K、V向量,通过Q与K的点积计算相似度,再加权求和得到包含上下文信息的新词向量。
注意力机制:
输入序列: [我, 爱, 人工, 智能]
关注"爱": [0.1, 0.6, 0.2, 0.1]
↑
权重最高
Q、K、V 计算:
输入 → [W_Q] → Query
输入 → [W_K] → Key
输入 → [W_V] → Value
注意力分数 = softmax(Q·K^T / √d_k) · V
4.16 Transformer
一种基于注意力机制的神经网络结构,是现代大语言模型的基石。包含编码器和解码器两部分,编码器负责处理输入文本,通过多头注意力、残差连接和归一化等操作提取特征。解码器根据编码器输出生成目标文本,同样使用多头注意力,并引入掩码机制模拟逐词生成过程。Transformer架构简单高效,成为大模型的基础,如GPT仅使用其解码器部分。其核心思想来源于论文《Attention is All You Need》,通过矩阵运算实现复杂任务。
Transformer 架构:
┌─────────────────────────────────────────┐
│ 编码器 (Encoder) │
│ ┌─────────────────────────────────┐ │
│ │ 多头注意力 (Multi-Head) │ │
│ └──────────────┬──────────────────┘ │
│ ↓ │
│ ┌─────────────────────────────────┐ │
│ │ 前馈网络 (Feed Forward) │ │
│ └──────────────┬──────────────────┘ │
└─────────────────┼─────────────────────┘
│ 编码输出
↓
┌─────────────────────────────────────────┐
│ 解码器 (Decoder) │
│ ┌─────────────────────────────────┐ │
│ │ 掩码多头注意力 (Masked) │ │
│ └──────────────┬──────────────────┘ │
│ ↓ │
│ ┌─────────────────────────────────┐ │
│ │ 编码-解码注意力 │ │
│ └──────────────┬──────────────────┘ │
│ ↓ │
│ ┌─────────────────────────────────┐ │
│ │ 前馈网络 (Feed Forward) │ │
│ └──────────────┬──────────────────┘ │
└─────────────────┼─────────────────────┘
↓
输出预测
4.17 位置编码
在词嵌入的基础上加入位置编码,使模型能够感知词的位置信息。位置编码通过特定公式计算,与词向量相加后形成带有位置信息的输入。
位置编码:
词嵌入: [词义向量]
位置编码: [位置向量]
↓
[词义向量 + 位置向量]
↓
带位置信息的输入
PE(pos, 2i) = sin(pos / 10000^(2i/d_model))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))
4.18 多头注意力机制
单头注意力仅从一个视角计算词之间的关系,灵活性有限。多头注意力通过多个权重矩阵将Q、K、V拆分为多组,分别计算注意力,最后拼接结果并通过线性变换做整合。多头机制增强了模型对不同关系的学习能力。
多头注意力机制:
输入 X
↓
┌─────────────────────────────────────┐
│ Head 1: Q₁, K₁, V₁ → Attention₁ │
│ Head 2: Q₂, K₂, V₂ → Attention₂ │
│ Head 3: Q₃, K₃, V₃ → Attention₃ │
│ ... │
│ Head n: Qₙ, Kₙ, Vₙ → Attentionₙ │
└─────────────────────────────────────┘
↓
[Concat]
↓
[线性变换]
↓
最终输出
优势: 捕捉不同类型的关系(语法、语义等)
4.19 残差连接
Residual Connection,通过将层的输入直接加到输出上,形成跳跃连接。残差连接解决了深层网络中的梯度消失问题,使网络能够训练更深的层次。在Transformer中,每个子层(自注意力或前馈网络)后都使用残差连接。
残差连接结构:
输入 x
↓
┌─────────────────────────────────────┐
│ [子层: F(x)] │
│ (自注意力层 / 前馈网络层) │
└─────────────────────────────────────┘
↓
F(x)
↓
+ ──→ x + F(x) ←── x (原始输入)
↓
[归一化]
↓
输出
公式: Output = LayerNorm(x + Sublayer(x))
4.20 归一化
Layer Normalization,对每个样本的所有特征进行标准化处理。在Transformer中,归一化通常与残差连接配合使用,用于稳定训练过程、加速收敛。归一化将数据转换为均值为0、方差为1的分布,使模型更容易学习。
归一化过程:
输入向量 [x₁, x₂, x₃, ..., xₙ]
↓
┌─────────────────────────────────────┐
│ 计算均值: μ = (x₁ + x₂ + ... + xₙ)/n │
│ 计算方差: σ² = Σ(xᵢ - μ)² / n │
│ 归一化: x̂ᵢ = (xᵢ - μ) / √(σ² + ε) │
│ 缩放平移: yᵢ = γx̂ᵢ + β │
└─────────────────────────────────────┘
↓
输出向量 [y₁, y₂, y₃, ..., yₙ]
作用: 稳定训练、加速收敛、防止梯度爆炸/消失
4.21 编码器
Encoder,负责处理输入序列,将其转换为高维特征表示。编码器通过多层自注意力和前馈网络提取输入的语义信息,输出编码后的特征向量。在Transformer中,编码器由多个相同的层堆叠而成,每层包含多头自注意力子层和前馈神经网络子层。
编码器结构:
输入序列 [x₁, x₂, x₃, ..., xₙ]
↓
┌─────────────────────────────────────┐
│ [词嵌入 + 位置编码] │
└─────────────────────────────────────┘
↓
┌─────────────────────────────────────┐
│ 第1层: │
│ ┌───────────────────────────────┐ │
│ │ [多头自注意力] → [残差+归一化] │ │
│ └───────────────────────────────┘ │
│ ┌───────────────────────────────┐ │
│ │ [前馈网络] → [残差+归一化] │ │
│ └───────────────────────────────┘ │
└─────────────────────────────────────┘
↓
┌─────────────────────────────────────┐
│ 第2层: (相同结构) │
└─────────────────────────────────────┘
↓
...
↓
┌─────────────────────────────────────┐
│ 第N层: (相同结构) │
└─────────────────────────────────────┘
↓
输出编码 [h₁, h₂, h₃, ..., hₙ]
作用: 提取输入序列的语义特征表示
4.22 解码器
Decoder,负责根据编码器的输出和已生成的序列预测下一个token。解码器包含三种子层:多头自注意力、编码器-解码器注意力和前馈网络。自注意力层使用掩码确保当前位置只能看到之前的位置,编码器-解码器注意力层关注编码器的输出。
解码器结构:
已生成序列 [y₁, y₂, ..., yₘ] 编码器输出 [h₁, h₂, ..., hₙ]
↓ ↑
┌─────────────────────────────────────┐
│ [词嵌入 + 位置编码] │
└─────────────────────────────────────┘
↓
┌─────────────────────────────────────┐
│ 第1层: │
│ ┌───────────────────────────────┐ │
│ │ [掩码多头自注意力] → [残差+归一化] │ │
│ └───────────────────────────────┘ │
│ ┌───────────────────────────────┐ │
│ │ [编码器-解码器注意力] → [残差+归一化]│ │
│ └───────────────────────────────┘ │
│ ┌───────────────────────────────┐ │
│ │ [前馈网络] → [残差+归一化] │ │
│ └───────────────────────────────┘ │
└─────────────────────────────────────┘
↓
...
↓
┌─────────────────────────────────────┐
│ 第N层: (相同结构) │
└─────────────────────────────────────┘
↓
[线性层 + Softmax]
↓
输出概率分布 [p₁, p₂, ..., p_vocab]
作用: 逐个生成输出序列
应用技术
5.1 检索增强生成
RAG(Retrieval-Augmented Generation),在私有数据库中进行搜索以获取信息的方法。
RAG 工作流程:
用户提问 → [向量检索] → 相关文档 → [大模型] → 增强回答
↓
知识库
5.2 知识库
用于大模型查询所用的私有数据库。
5.3 工作流
多次使用大模型能力,将工作内容分为多个步骤分别处理并整合为一个流程的能力。
工作流示例:
步骤1: 理解用户需求
↓
步骤2: 检索相关信息
↓
步骤3: 生成初步答案
↓
步骤4: 验证答案准确性
↓
步骤5: 输出最终结果
5.4 智能体
Agent,按工作流封装大模型与工具集以实现自动完成复杂任务的程序。
智能体架构:
┌─────────────────────────────────────┐
│ 感知层 │
│ (接收用户输入) │
└──────────────┬──────────────────────┘
│
↓
┌─────────────────────────────────────┐
│ 规划层 │
│ (大模型 + 工作流编排) │
└──────────────┬──────────────────────┘
│
↓
┌─────────────────────────────────────┐
│ 执行层 │
│ (调用工具: 搜索/代码/API) │
└──────────────┬──────────────────────┘
│
↓
┌─────────────────────────────────────┐
│ 反思层 │
│ (评估结果,必要时重试) │
└─────────────────────────────────────┘
5.5 多智能体
多个智能体协作完成更复杂任务的程序。
多智能体协作:
智能体A (研究员) → 收集信息
↓
智能体B (分析师) → 分析数据
↓
智能体C (写作者) → 生成报告
↓
智能体D (审核员) → 质量检查
5.6 插件
ChatGPT的附加组件系统,扩展模型能力。
5.7 AutoGPT
GPT模型驱动的智能体系统。
5.8 Manus
具备从规划到执行全流程自主完成任务能力的智能体。
5.9 MCP
Anthropic提出的,用于AI操作外部世界的协议。
5.10 A2A
Google提出的用于智能体与智能体间通信的协议。
5.11 扣子
Coze,在网页端编排工作流的一款工具。
5.12 LangChain
以代码方式编排工具流的方式。
优化技术
6.1 模型压缩
减少模型大小以降低部署成本和推理延迟的技术,包括量化、蒸馏、剪枝等方法。
模型压缩技术:
原始模型 (10GB)
│
├─→ 量化 → 2.5GB (精度降低)
├─→ 蒸馏 → 5GB (小模型)
└─→ 剪枝 → 3GB (稀疏化)
6.2 量化
把模型中的浮点数用更低精度表示以减少显存占用和计算量的方法。
量化示例:
FP32: 3.1415926535 (32位浮点)
FP16: 3.1416 (16位浮点)
INT8: 3 (8位整数)
精度降低 → 模型减小 → 速度提升
6.3 蒸馏
用参数量较大的大模型指导参数量较小的小模型,使小模型获得接近大模型性能的方法。
知识蒸馏:
教师模型 (大模型) → 软标签 → 学生模型 (小模型)
│ │
知识迁移 模拟教师行为
│ │
高准确度 接近教师性能
6.4 剪枝
删除模型中不重要的神经元或连接,让模型更稀疏以提升推理速度的方法。
剪枝过程:
原始网络:
[输入] → [100神经元] → [100神经元] → [输出]
剪枝后:
[输入] → [50神经元] → [30神经元] → [输出]
(删除50%) (删除70%)
6.5 LoRA
低秩适应,用更低成本改善微调方式的技术,通过训练少量参数实现高效微调。
LoRA 微调:
原始权重 W (固定)
↓
增量权重 ΔW (可训练,参数量少)
↓
新权重 W' = W + ΔW
传统微调: 训练全部参数
LoRA微调: 只训练1-5%的参数
6.6 思维链
CoT(Chain of Thought),通过引导模型展示推理步骤来增强复杂问题解决能力的方法。
思维链示例:
问题: 如果我有5个苹果,吃了2个,又买了3个,现在有几个?
直接回答: 6个
思维链:
1. 开始有5个苹果
2. 吃了2个,剩下5-2=3个
3. 又买了3个,现在有3+3=6个
4. 答案: 6个
6.7 RLHF
基于人类反馈的强化学习,通过人类偏好数据训练模型,使输出更符合人类期望。
RLHF 流程:
步骤1: 预训练模型
步骤2: 人类标注偏好 (回答A > 回答B)
步骤3: 训练奖励模型 (预测人类偏好)
步骤4: 使用PPO强化学习优化模型
6.8 零样本学习
不提供任何示例,仅通过任务描述即可让模型完成任务的能力。
6.9 少样本学习
仅提供少量示例,让模型快速学习并完成任务的能力。
学习方式对比:
零样本: "将以下句子翻译成英文"
少样本: "将以下句子翻译成英文
你好 → Hello
谢谢 → Thank you
再见 → Goodbye"
产品与公司
7.1 ChatGPT
2023年爆火的用于聊天的产品。
7.2 GPT
Generative Pre-trained Transformer,生成式预训练变换器。
7.3 OpenAI
开发ChatGPT的公司,产品为闭源。
7.4 Claude
Anthropic发布的大语言模型。
7.5 Gemini
Google DeepMind发布的AI。
7.6 DeepSeek
深度求索公司发布的AI。
7.7 豆包
字节跳动公司基于云雀模型开发的AI。
7.8 通义千问
Qwen,阿里云发布的AI。
7.9 腾讯元宝
腾讯发布的基于自研混元大模型开发的C端AI。
内容创作
8.1 PGC
Professional Generated Content,专业生产内容。
8.2 UGC
User Generated Content,普通用户创作的内容。
8.3 AIGC
AI Generated Content,AI创作或辅助创作的内容。
计算机视觉
9.1 CV
Computer Vision,计算机视觉,与图像处理高度相关。
9.2 Midjourney
闭源的AI图像生成器(中国实验室版名为悠船)。
9.3 Stable Diffusion
Stability AI推出的开源AI图像生成器。
9.4 ComfyUI
构建在Stable Diffusion之上的基于节点的绘画工作流软件。
语音技术
10.1 TTS
Text To Speech,文本转语音。
10.2 ASR
Automatic Speech Recognition,语音转文字。
视频生成
11.1 Sora
OpenAI发布的人工智能文生视频大模型。
11.2 可灵
快手AI团队发布的视频生成大模型。
11.3 即梦
字节跳动旗下剪映团队研发的AI创作平台。
数字人
12.1 数字人
运用数字技术创造出来的、与人类形象接近的数字化人物形象。
硬件与框架
13.1 GPU
图形处理单元(显卡),AI训练和推理的核心硬件。
13.2 CUDA
NVIDIA推出的AI开发框架。
13.3 TPU
专用与大规模神经网络训练与推理的处理器。
13.4 NPU
专用于终端设备加速推理的处理器。
13.5 Python
适合AI开发的编程语言。
13.6 PyTorch
Python提供的针对AI编程的库。
13.7 TensorFlow
由Google Brain团队开发的深度学习框架。
13.8 Hugging Face
AI开源平台及社区。
13.9 Ollama
大模型本地运行工具。
13.10 vLLM
提升大语言模型推理速度的推理引擎。
编程工具
14.1 Cursor
Anysphere开发的人工智能编程助手。
14.2 GitHub Copilot
微软与OpenAI共同推出的AI编程工具。
神经网络架构
15.1 神经网络
模仿生物神经系统结构和功能的计算模型,由多个神经元层组成。
神经网络结构:
┌─────────────────────────────────────┐
│ 输入层 │
│ [x₁] [x₂] [x₃] [x₄] [x₅] │
└──────────────┬──────────────────────┘
│ 权重
↓
┌─────────────────────────────────────┐
│ 隐藏层 │
│ [h₁] [h₂] [h₃] │
└──────────────┬──────────────────────┘
│ 权重
↓
┌─────────────────────────────────────┐
│ 输出层 │
│ [y₁] [y₂] │
└─────────────────────────────────────┘
15.2 MLP
多层感知机,将输入的多个数据集映射到单一输出的数据集,是一种基础的人工神经网络模型。
15.3 CNN
卷积神经网络,包含卷积计算且具有深度结构的神经网络,擅长处理图像数据。
CNN 架构:
输入图像 (32x32x3)
↓
卷积层 (提取特征)
↓
池化层 (降维)
↓
卷积层 (提取高级特征)
↓
池化层 (降维)
↓
全连接层 (分类)
↓
输出 (10类)
15.4 RNN
循环神经网络,适合于处理序列数据的神经网络,能够记忆历史信息。
RNN 结构:
时间步1: x₁ → [RNN] → h₁ → y₁
↑
时间步2: x₂ → [RNN] → h₂ → y₂
↑
时间步3: x₃ → [RNN] → h₃ → y₃
↑
...
隐藏状态 h 传递历史信息
数学基础
16.1 数学
AI的基石,包括线性代数、微积分、概率论等。
评估与测试
17.1 基准测试
用于评估模型性能的标准测试集和方法。
未来愿景
18.1 AGI
Artificial General Intelligence,通用人工智能,是指能够在各种领域执行复杂认知任务的人工智能系统。
部署方式
19.1 私有化部署
不依托其他服务,将模型下载到本地进行使用的过程。
19.2 云桌面
搭载好了所需环境的,高性能的,可远程网络控制的一种服务。
19.3 镜像
用于特定开发所需的打包好的环境和软件。
其他
20.1 套壳
封装大模型API接口提供服务,通常指在已有模型基础上添加UI或特定功能的应用。
套壳应用架构:
┌─────────────────────────────────────┐
│ 用户界面 (UI) │
│ 网页/APP/小程序 │
└──────────────┬──────────────────────┘
│
↓
┌─────────────────────────────────────┐
│ 业务逻辑层 │
│ 提示词工程/上下文管理 │
└──────────────┬──────────────────────┘
│
↓
┌─────────────────────────────────────┐
│ API 调用层 │
│ OpenAI/Claude/DeepSeek │
└─────────────────────────────────────┘
20.2 卖铲子
提供工具或服务、教程等帮助他人在AI中淘金的赚钱方式。
20.3 NLP
自然语言处理,人工智能的一大分支领域,主要目的是让机器理解人类的语言文字,从而执行一系列任务。
NLP 任务分类:
┌─────────────────────────────────────┐
│ NLP 应用领域 │
├─────────────────────────────────────┤
│ 文本理解: 分类、情感分析、命名实体识别 │
│ 文本生成: 翻译、摘要、对话 │
│ 语音处理: 语音识别、语音合成 │
│ 信息检索: 搜索、问答系统 │
└─────────────────────────────────────┘
20.4 炸裂体
媒体与互联网对AI类产品进行描述与介绍时使用的一种强调或夸大性语气。
术语汇总表
| 序号 | 分类 | 编号 | 术语名称 | 英文/缩写 |
|---|---|---|---|---|
| 1 | 基础概念 | 1.1 | 函数 | Function |
| 2 | 基础概念 | 1.2 | 符号主义 | Symbolism |
| 3 | 基础概念 | 1.3 | 联结主义 | Connectionism |
| 4 | 基础概念 | 1.4 | 模型 | Model |
| 5 | 基础概念 | 1.5 | 权重 | Weight |
| 6 | 基础概念 | 1.6 | 损失函数 | Loss Function |
| 7 | 基础概念 | 1.7 | 反向传播 | Backpropagation |
| 8 | 基础概念 | 1.8 | 数学 | Mathematics |
| 9 | 模型类型 | 2.1 | 大模型 | Large Model |
| 10 | 模型类型 | 2.2 | 大语言模型 | LLM |
| 11 | 模型类型 | 2.3 | 多模态 | Multimodal |
| 12 | 模型类型 | 2.4 | 生成式AI | Generative AI |
| 13 | 模型类型 | 2.5 | 闭源模型 | Closed Source Model |
| 14 | 模型类型 | 2.6 | 开放权重模型 | Open Weights Model |
| 15 | 模型类型 | 2.7 | 完全开源模型 | Fully Open Source Model |
| 16 | 模型类型 | 2.8 | ChatGPT | ChatGPT |
| 17 | 模型类型 | 2.9 | GPT | GPT |
| 18 | 模型类型 | 2.10 | OpenAI | OpenAI |
| 19 | 模型类型 | 2.11 | Claude | Claude |
| 20 | 模型类型 | 2.12 | Gemini | Gemini |
| 21 | 模型类型 | 2.13 | DeepSeek | DeepSeek |
| 22 | 模型类型 | 2.14 | 豆包 | Doubao |
| 23 | 模型类型 | 2.15 | 通义千问 | Qwen |
| 24 | 模型类型 | 2.16 | 腾讯元宝 | Tencent Yuanbao |
| 25 | 训练流程 | 3.1 | 训练 | Training |
| 26 | 训练流程 | 3.2 | 预训练 | Pre-training |
| 27 | 训练流程 | 3.3 | 微调 | Fine-tuning |
| 28 | 训练流程 | 3.4 | 推理 | Inference |
| 29 | 训练流程 | 3.5 | 对齐 | Alignment |
| 30 | 训练流程 | 3.6 | 涌现 | Emergence |
| 31 | 技术原理 | 4.1 | Token | Token |
| 32 | 技术原理 | 4.2 | 上下文 | Context |
| 33 | 技术原理 | 4.3 | 上下文窗口 | Context Window |
| 34 | 技术原理 | 4.4 | 提示词 | Prompt |
| 35 | 技术原理 | 4.5 | 提示词工程 | Prompt Engineering |
| 36 | 技术原理 | 4.6 | 提示词工程师 | Prompt Engineer |
| 37 | 技术原理 | 4.7 | 随机性 | Randomness |
| 38 | 技术原理 | 4.8 | 温度 | Temperature |
| 39 | 技术原理 | 4.9 | Top-K | Top-K |
| 40 | 技术原理 | 4.10 | 幻觉 | Hallucination |
| 41 | 技术原理 | 4.11 | 联网 | Web Browsing |
| 42 | 技术原理 | 4.12 | 词嵌入 | Word Embedding |
| 43 | 技术原理 | 4.13 | 向量数据库 | Vector Database |
| 44 | 技术原理 | 4.14 | 向量检索 | Vector Retrieval |
| 45 | 技术原理 | 4.15 | 注意力机制 | Attention Mechanism |
| 46 | 技术原理 | 4.16 | Transformer | Transformer |
| 47 | 技术原理 | 4.17 | 位置编码 | Positional Encoding |
| 48 | 技术原理 | 4.18 | 多头注意力机制 | Multi-Head Attention |
| 49 | 技术原理 | 4.19 | 残差连接 | Residual Connection |
| 50 | 技术原理 | 4.20 | 归一化 | Layer Normalization |
| 51 | 技术原理 | 4.21 | 编码器 | Encoder |
| 52 | 技术原理 | 4.22 | 解码器 | Decoder |
| 53 | 应用技术 | 5.1 | 检索增强生成 | RAG |
| 54 | 应用技术 | 5.2 | 知识库 | Knowledge Base |
| 55 | 应用技术 | 5.3 | 工作流 | Workflow |
| 56 | 应用技术 | 5.4 | 智能体 | Agent |
| 57 | 应用技术 | 5.5 | 多智能体 | Multi-Agent |
| 58 | 应用技术 | 5.6 | 插件 | Plugin |
| 59 | 应用技术 | 5.7 | AutoGPT | AutoGPT |
| 60 | 应用技术 | 5.8 | Manus | Manus |
| 61 | 应用技术 | 5.9 | MCP | MCP |
| 62 | 应用技术 | 5.10 | A2A | A2A |
| 63 | 应用技术 | 5.11 | 扣子 | Coze |
| 64 | 应用技术 | 5.12 | LangChain | LangChain |
| 65 | 优化技术 | 6.1 | 模型压缩 | Model Compression |
| 66 | 优化技术 | 6.2 | 量化 | Quantization |
| 67 | 优化技术 | 6.3 | 蒸馏 | Distillation |
| 68 | 优化技术 | 6.4 | 剪枝 | Pruning |
| 69 | 优化技术 | 6.5 | LoRA | LoRA |
| 70 | 优化技术 | 6.6 | 思维链 | CoT |
| 71 | 优化技术 | 6.7 | RLHF | RLHF |
| 72 | 优化技术 | 6.8 | 零样本学习 | Zero-shot Learning |
| 73 | 优化技术 | 6.9 | 少样本学习 | Few-shot Learning |
| 74 | 产品与公司 | 7.1 | ChatGPT | ChatGPT |
| 75 | 产品与公司 | 7.2 | GPT | GPT |
| 76 | 产品与公司 | 7.3 | OpenAI | OpenAI |
| 77 | 产品与公司 | 7.4 | Claude | Claude |
| 78 | 产品与公司 | 7.5 | Gemini | Gemini |
| 79 | 产品与公司 | 7.6 | DeepSeek | DeepSeek |
| 80 | 产品与公司 | 7.7 | 豆包 | Doubao |
| 81 | 产品与公司 | 7.8 | 通义千问 | Qwen |
| 82 | 产品与公司 | 7.9 | 腾讯元宝 | Tencent Yuanbao |
| 83 | 内容创作 | 8.1 | PGC | PGC |
| 84 | 内容创作 | 8.2 | UGC | UGC |
| 85 | 内容创作 | 8.3 | AIGC | AIGC |
| 86 | 计算机视觉 | 9.1 | CV | CV |
| 87 | 计算机视觉 | 9.2 | Midjourney | Midjourney |
| 88 | 计算机视觉 | 9.3 | Stable Diffusion | Stable Diffusion |
| 89 | 计算机视觉 | 9.4 | ComfyUI | ComfyUI |
| 90 | 语音技术 | 10.1 | TTS | TTS |
| 91 | 语音技术 | 10.2 | ASR | ASR |
| 92 | 视频生成 | 11.1 | Sora | Sora |
| 93 | 视频生成 | 11.2 | 可灵 | Kling |
| 94 | 视频生成 | 11.3 | 即梦 | Jimeng |
| 95 | 数字人 | 12.1 | 数字人 | Digital Human |
| 96 | 硬件与框架 | 13.1 | GPU | GPU |
| 97 | 硬件与框架 | 13.2 | CUDA | CUDA |
| 98 | 硬件与框架 | 13.3 | TPU | TPU |
| 99 | 硬件与框架 | 13.4 | NPU | NPU |
| 100 | 硬件与框架 | 13.5 | Python | Python |
| 101 | 硬件与框架 | 13.6 | PyTorch | PyTorch |
| 102 | 硬件与框架 | 13.7 | TensorFlow | TensorFlow |
| 103 | 硬件与框架 | 13.8 | Hugging Face | Hugging Face |
| 104 | 硬件与框架 | 13.9 | Ollama | Ollama |
| 105 | 硬件与框架 | 13.10 | vLLM | vLLM |
| 106 | 编程工具 | 14.1 | Cursor | Cursor |
| 107 | 编程工具 | 14.2 | GitHub Copilot | GitHub Copilot |
| 108 | 神经网络架构 | 15.1 | 神经网络 | Neural Network |
| 109 | 神经网络架构 | 15.2 | MLP | MLP |
| 110 | 神经网络架构 | 15.3 | CNN | CNN |
| 111 | 神经网络架构 | 15.4 | RNN | RNN |
| 112 | 数学基础 | 16.1 | 数学 | Mathematics |
| 113 | 评估与测试 | 17.1 | 基准测试 | Benchmark |
| 114 | 未来愿景 | 18.1 | AGI | AGI |
| 115 | 部署方式 | 19.1 | 私有化部署 | Private Deployment |
| 116 | 部署方式 | 19.2 | 云桌面 | Cloud Desktop |
| 117 | 部署方式 | 19.3 | 镜像 | Image |
| 118 | 其他 | 20.1 | 套壳 | Wrapper |
| 119 | 其他 | 20.2 | 卖铲子 | Selling Shovels |
| 120 | 其他 | 20.3 | NLP | NLP |
| 121 | 其他 | 20.4 | 炸裂体 | Explosive Style |
本文涵盖了AI领域的主要术语,持续更新中