AI 基础知识从 -1 到 0.1

Embedding、向量、无监督学习、卷积、RNN、Transformer、PyTorch......当你意识到 AI 时代已经到来，决定迈出学习的第一步时，是否也和我一样被这些繁多的术语弄得无所适从、不知从何开始？

本文旨在以简明易懂的方式，梳理 AI 的基础概念，帮助读者零帧起手，顺利开启 AI 学习之旅

之所以是 -1 开始是因为里面有部分我们高中学过的但已经被遗忘的知识

人工智能、机器学习、深度学习与大模型

人工智能（AI） ：人工智能指的是计算机执行各种决策任务的能力合集，这些任务通常模拟人类智能，例如理解自然语言、识别图像、解决问题和进行推理。AI 的目标是开发能够自主学习和适应的系统，以提升效率和准确性。

机器学习（ML） ：机器学习是人工智能的一个子集，专注于如何让计算机基于数据做出决策。机器学习的主要目标是从现有的数据中发现模式和规律，并利用这些模式对未来的数据进行预测。

深度学习（DL） ：深度学习是机器学习的一个领域，利用称为"神经网络"的多层结构来处理复杂数据模式识别，相对于普通机器学习，尤其擅长图像识别、自然语言处理等任务。

模型就是机器学习、深度学习中从数据中学习到的、用于做预测或决策的规则集合，这个学习过程称之为训练，这些规则通过训练过程从历史数据中提取模式和关系，使模型能够在面对新的、未见过的数据时做出靠谱的预测或决策。

而大模型是指在深度学习中拥有大量参数（后面再解释何为参数）和复杂结构的模型，这些模型通常需要大量的数据和强大的计算资源来训练，能够处理更复杂的任务并理解更深层次的数据模式。

DeepSeek 的母公司幻方量化是中国头部量化对冲基金，其核心业务是通过算法模型进行证券投资，通俗讲就是根据过往公司的增长、营收、外部环境、政策变化等数据预测未来的股价，让计算机预测该投资谁，而 DeepSeek 是其开源的通用模型，人家不是玩票的，是用来赚真金白银的，这也是大模型的一个现实意义

机器学习基础概念

机器学习的核心流程可以概括为三个阶段：

记忆：收集和准备数据
制定：构建和训练模型
预测：使用训练好的模型进行预测和决策

我们用一个例子来理解数据相关的几个核心概念，假设我们希望建立一个机器学习模型，根据房屋的各种属性（如面积、位置、卧室数量等）来预测房价。

数据、特征与标签

数据是用于训练和测试机器学习模型的原始信息。在预测房价的例子中，数据包含了关于不同房屋的信息以及它们对应的价格。

结构化数据：以表格形式存储的数据，如电子表格或数据库表。每一行代表一个房屋，每一列代表一个属性。
非结构化数据：如图片、文本等，不易以表格形式表示。在预测房价时，非结构化数据可能包括房屋的照片或地段描述，但通常我们使用结构化数据作为主要输入。

特征表示数据的属性或性质，也是另外一个经常会提到的概念，如果数据在表格中，那么特征就是表格的列。在房价预测数据集中，每个房屋有 5 个特征（面积、卧室数量、浴室数量、地段评分、房龄），我们成这个数据集得维度是 5，其实房价也是房子的一个特征，但我们把房价这个希望模型预测的目标变量称为标签

另外还有个常用的概念------数据点，也称为样本（Sample）或实例（Instance），是在数据集中代表一个具体实体或观测的单个记录，简单来讲每一行代表一个数据点，每一列代表一个特征或标签

线性回归

线性函数是指其图像在平面直角坐标系中呈现为一条直线的函数。其基本数学表达式为：f(x)=ax+b，其中 a 表示斜率，b 表示截距

机器学习中的线性回归正是基于线性函数构建的模型，其核心是通过线性函数对输入特征和输出目标之间的关系进行建模，假设目标变量（标签，房价）与一个或多个特征之间存在线性关系

: 目标变量或者叫因变量，也就是预测值，在预测房价的例子中，目标变量是房价
: 自变量，也就是输入特征，房屋的各项属性，如面积、卧室数量、浴室数量等
: 线性函数的斜率（slope），用于描述输入特征对预测值的贡献程度，因此被称为权重（weignt）
b：线性函数的截距，在模型中称为偏置量（bias），在房价预测模型中代表当所有特征值为零时的预测房价

大名鼎鼎的参数即权重与偏置，是模型学习和预测的关键要素。而DeepSeek 671B 满血版则指其模型拥有高达 6710 亿个权重与偏置，这一庞大的参数数量使模型能够捕捉更复杂的数据模式和关系，显著提升了模型的表达能力和预测精度。

线性回归根据现有的特征数据集，通过不断调整模型中的参数，拟合出一条最贴近数据分布趋势的直线，从而用于预测目标变量（标签）的数值。

也许经过复杂学习与训练后房价预测模型可以写成

模型是否可靠很大程度上取决于关联特征数量与对应的权重调整，因此我们经常会听到算法同学戏称自己是调参工程师

数据分类

在机器学习中，理解数据的类型和结构是至关重要的，根关注点不同数据有不同的分类方式

如果我们关注数据表中列的维度，根据特征中值的类型可以把数据分为

数值数据（Numerical Data） ：由数值表示的数据，可以进行数学运算，用于度量和预测具体的数值结果，比如房屋面积（平方米）、价格（万元）、房龄（年）
分类数据（Categorical Data） ：表示类别或状态的数据，用于分类和分组任务，比如房屋所在地区（中心区、郊区）、房屋类型（独栋、联排）、销售状态（已售出、待售）

还记得标签和数据点的概念吗？表格中的一行数据记录称之为一个数据点，标签是指模型试图预测或分类的值，也就是说每个标签对应一个数据点的结果或类别

如果我们关注数据表中行的维度，根据数据点是否包含标签可以把数据分为

标签数据（Lebeled Data） ：每个数据点都附带有标签的数据
无标签数据（Unlabeled Data） ：数据点没有标签的数据

很多初学者可能会有疑惑，怎么会存在没有标签的数据？其实这种数据才是常态，举个最简单的例子，我们需要细分网站客户群体

我们有这些客户的特征数据，但并没有对应的标签------群体分类，需要通过算法自行发现

监督学习与无监督学习

监督学习（Supervised Learning） 是一种处理标签数据的机器学习分支，其目标是学习特征与标签之间的映射关系，以便在新数据上进行准确的预测。监督学习主要分为两类

回归模型（Regression Models） ：用于预测连续数值型目标变量的模型，比如前面一直在用的预测房价模型正是回归模型
分类模型（Classification Models） ：将数据分类到预定义的类别中的模型，比如判断邮件是否为垃圾邮件、图像识别中的物体分类

监督学习之所以被称为"监督"，主要因为模型在训练过程中有明确的标签作为指导，就像教师指导学生一样。标签为模型提供了学习的目标，使其能够理解和掌握输入特征与输出目标之间的关系，从而在新数据上实现准确的预测或分类。监督学习有几个优势：

准确性高：由于有明确的标签指导，模型通常在预测和分类任务中表现出较高的准确性。
可解释性强：模型的输出可以直接与标签对比，便于理解和解释模型的决策过程。
广泛应用：适用于各种实际问题，如图像识别、语音识别、医疗诊断、金融预测等。

无监督学习（Unsupervised Learning） 是一种处理无标签数据的机器学习分支，其目标是发现数据中潜在的结构，无需预先定义的标签。无监督学习主要包括以下几种分支：

聚类算法：基于相似度将数据分组的算法，例如客户细分、市场分群、图像分割
降维算法：减少数据维度，用更少特征进行如实描述的算法，比如把房屋模型中的 5 个维度转化为面积综合分、地段分、房龄 3 个维度
生成算法：可以生成类似于现有数据的新数据点的算法，是不是听起来和 GPT 的 G 有些关系

无监督学习之所以称为"无监督"，是因为在训练过程中，模型不依赖于任何预先定义的标签。模型需要自行发掘数据中的潜在结构或规律，类似于学生自主学习，不依赖于教师的答案。无监督学习有几个应用：

发现隐藏模式：能够揭示数据中难以察觉的隐藏模式或结构。
数据探索：适用于初步的数据分析和探索，帮助理解数据的内在关系。
数据预处理：如降维方法，可以优化数据，使后续的监督学习模型更加高效。

两张好玩的图片帮大家理解监督学习与无监督学习，不断给婴儿看各种各样冰激凌的图片，让其分辨下一张是不是冰激凌，这是监督学习

给婴儿看各种各样的图片，并没有这些图片是什么的答案，让婴儿将图片做分组这是无监督学习

当然如果我们有每张图片所代表的含义（标签），然后让应该对其分类就变成了监督学习，从这里也能看出来很多任务其实需要监督学习和无监督学习混合使用，比如数百万商品图片数据集无标签，需分类为 "服饰""电子产品" 等，我们可以按照这样的步骤求解：

用无监督学习对图片聚类，发现潜在类别（如相似颜色 / 形状的商品）
人工标注聚类结果，数据有了标签
监督学习模型训练，自动化分类网站服饰、电子产品图片

这个方法还有个专门的名字 ------ 半监督学习（Semi-Supervised Learning， SSL），这是一种结合少量标注数据和大量未标注数据进行模型训练的方法

强化学习

强化学习（Reinforcement Learning, RL）是机器学习的一个重要分支，主要研究智能体如何在环境中通过试错学习策略，以最大化累计奖励。强化学习广泛应用于游戏 AI、汽车自动驾驶、机器人控制等领域

强化学习中同样有大量的概念，通过一个走迷宫的例子来理解强化学习：想象你是一个机器人（智能体 ），被扔进一个迷宫（环境）。迷宫的出口有宝藏（奖励），但路径错综复杂，墙上有陷阱（负奖励 ）。你的目标是通过不断尝试，找到走出迷宫的最佳路径（策略优化）。

强化学习术语	迷宫中的类比
智能体（Agent）	机器人（你）
环境（Environment）	迷宫的结构（墙、通道、出口）
状态（State）	机器人当前所在的位置（坐标）
动作（Action）	移动方向（上、下、左、右）
奖励（Reward）	找到出口（+100），碰到墙（-10）
策略（Policy）	机器人决定下一步怎么走的规则
价值函数（Value）	当前位置离出口的潜在价值（长期收益）

强化学习通过 Agent 与环境的交互来学习最优决策策略，以最大化累积奖励（Reward），通过"实践-反馈-改进"的循环机制，使 Agent 在无明确指导的情况下逐步掌握实现目标的最佳策略

目标导向性：Agent 通过试错（Trial and Error）学习，在动态环境中自主选择动作，目标是通过长期策略获得最大化预期收益
无需监督信号：不同于监督学习依赖标注数据，强化学习仅通过环境提供的奖励信号调整策略，无需预先给定正确答案

特征工程

特征是模型输入的数据，好的特征能够显著改善模型的预测能力，然而我们在日常工作中拿到的原始数据通常包含大量噪声、冗余信息和不完整内容（如缺失值、异常值），极大影响学习效率和模型性能及准确性

特征工程是指通过数据清洗、转换、组合等方法，从原始数据中提取或构造对预测目标更有用的信息的过程，像 "厨师处理食材" 一样，把原始数据加工成更适合机器学习模型 "消化" 的形式。

核心工作

特征工程主要有几个工作

特征选择：从大量特征中筛选出对目标最相关的部分。假设我们有一个包含10个特征的房价预测数据集，通过特征选择发现其中3个特征（面积、位置评分、房龄）对房价影响最大，可以只保留这3个特征进行建模，大幅减少计算复杂性。
特征提取：从原始数据中创建新的特征，这些新特征可以更好地表示数据中的信息。在图像识别中，可以使用卷积神经网络（CNN）自动提取图像的高级特征，如边缘、形状和纹理，而无需手动定义这些特征。
数据清洗：处理脏数据，剔除噪声、填补缺失值、修正异常值。比如在医疗数据中，患者的某些检测指标可能缺失，可以使用该指标的平均值填补缺失部分。
特征转换：将数据转换为模型更易处理的格式。最典型就是归一化，也称之为特征缩放，将特征值调整到同一尺度，避免某些特征对模型训练产生不均衡的影响。
编码类别：是将非数值型特征转换为数值型特征，以便机器学习模型能够处理。比如数据集中性别特征 {男性, 女性} ，可以通过独热编码转换为两个新的特征：[1,0]、[0,1]

向量化、Token 和 Embedding

在特征工程领域，Token、向量化、Embedding 这三个概念犹如构建数据大厦的基石，它们在处理各类数据，尤其是文本数据时，发挥着至关重要的作用，后面大模型的学习中也会反复出现

Tokenization 分词

Token 是文本预处理过程中的基本单元，代表文本中的最小有意义部分，对模型而言 Token 不一定是单词，取决于模型要求，它们可以是单词、字符、词组等

字符级：将文本分割为单个字符。例如，"机器学习" 分割为 ["机", "器", "学", "习"]，适用于需要处理细粒度语言特征的任务，如拼写纠正、语言模型训练等。
子词级：将单词拆分为子词或更小的单位。例如，"unhappiness" 可能被分割为 ["un", "happiness"]，在处理未知词汇和减少词汇表大小时尤为有效，广泛应用于 NLP 中
单词级：将句子分割为独立的单词或词语。例如，句子 "机器学习很有趣。" 分割为 ["机器学习", "很", "有趣"]，常用于大多数文本分析任务，如情感分析、主题建模等。
词组级：将常见的多词表达合并为单个 Token。例如，"New York" 作为一个整体 Token，有助于捕捉特定短语的语义，例如人名、地名等。

分词是文本预处理的第一步，然而计算机只能处理数值运算，无法直接理解文本或符号。还需要将分词结果转化为数字，模型内部一般都会内置词汇表与 Token ID 映射的编码表，模型使用这些编号而非原始文本进行计算

Vectorization 向量化

在数学中向量（Vector）是具有大小和方向的量，几何向量用于描述位移、力等物理量，其长度表示大小，箭头指向表示方向，矩阵可视为由多个行向量或列向量有序排列而成

高中学习向量和矩阵时候很不理解这东西有什么用，现在可以回答了，至少大模型要用！

向量化是将非结构化数据（如文本、图像、声音等）转换为数值向量的过程，通过将 Token ID 转换为向量，模型可以：

数学运算：向量化后数据可以进行各种数学运算，如矩阵乘法，满足模型训练和推理的需求
处理批量数据：向量化允许同时处理多个样本，提高训练效率

有非常多将 Token 转为数值向量的方法，最常见的有 Bag-of-Words、TF-IDF、One-Hot Encoding 等。这类传统方法如短文本分类等简单场景中仍具实用性，但其语义缺失、稀疏性、静态表示的核心缺陷限制了在复杂任务的性能

Embedding 嵌入

Embedding 是向量化的一种高级形式，解决传统向量化技术缺陷，旨在将高维稀疏的离散数据转换为低维稠密向量，同时捕捉数据之间的语义关系。

高维稀疏：数据特征的维度（数量）非常高，在每一份数据样本中，大多数特征的值接近 0，空间利用率低、计算复杂度高、模型训练困难（过拟合、收敛慢）

有几种常见的 Embedding 方法：

Word2Vec 是一种通过上下文预测生成词向量的模型，通过词共现学习语义，使语义相近的词向量距离接近。例如，Word2Vec 中 "猫" 和 "狗" 的余弦相似度可能为 0.8，而 "猫" 和 "石头" 为 0.2。
BERT 基于上下文动态编码，同一词在不同语境中向量不同。例如，BERT 中 "苹果" 在 "吃苹果" 和 "苹果手机" 中的向量差异显著。

特性	Bag-of-Words/TF-IDF	Word2Vec/BERT
语义捕捉	❌ 仅统计词频，无语义关系	✅ 通过共现或上下文建模语义
上下文敏感度	❌ 静态编码，无视语境	✅ 动态编码，适应不同上下文
维度与稀疏性	❌ 高维稀疏，万维以上，稀疏度> 99%	✅ 低维稠密（通常 100-1000 维）

python 复制代码

from gensim.models import Word2Vec

sentences = [
    ["机器学习", "很", "有趣"],
    ["让", "我们", "一起", "学习"],
    ["机器学习", "是", "人工智能", "的", "一个", "分支"]
]

# 训练Word2Vec模型
model = Word2Vec(sentences, vector_size=50, window=2, min_count=1, workers=4)

# 获取词向量
word_vector_ml = model.wv['机器学习']
word_vector_ai = model.wv['人工智能']

print("机器学习的词向量：", word_vector_ml)
print("人工智能的词向量：", word_vector_ai)

# 计算词向量之间的相似度
similarity = model.wv.similarity('机器学习', '人工智能')
print("机器学习与人工智能的相似度：", similarity)

输出

plain 复制代码

机器学习的词向量： [ 0.00123456  0.00234567 ...  0.00345678]
人工智能的词向量： [ 0.00456789  0.00567890 ...  0.00678901]
机器学习与人工智能的相似度： 0.85

话说你有没有好奇过为什么大模型普遍需要显卡，导致现在一卡难求？显卡不是为了游戏和图像、视频处理而制造的吗？

图形渲染中的光线追踪和纹理映射本质上是矩阵变换，因此显卡的设计目标就是并行处理大量简单但重复的矩阵运算。所以尽管显卡最初为图形渲染设计，但大模型的训练和推理需要密集的矩阵运算，这与 GPU 的并行矩阵运算能力天然契合

还有什么

前面介绍的主要是 AI 相关最基础的概念，接下来还有深度学习基本知识、模型训练、Transformer 架构、Tensorflow 框架、RAG & Langchain 等大模型工程知识。但在一切开始之前可以先了解模型被应用在业务中的大致过程，这将有助于理解上述介绍的概念

需求分析 → 明确目标、指标、资源。
数据收集 → EDA、清洗、预处理。
划分数据集 → 训练集 / 验证集 / 测试集。
特征工程 → 特征选择、生成、转换。
模型选择 → 基于任务和数据选择候选模型。
训练与调优 → 基线训练、超参数调优、防止过拟合，TensorFlow 和 PyTorch 最主要的应用阶段。
模型评估 → 测试集评估、误差分析。
优化改进 → 数据、特征、模型层面的迭代。
部署与监控 → 服务化部署、性能监控、文档记录。
反馈与迭代 → 根据反馈持续改进。

接下来通过一个简单案例介绍一下这个过程