机器学习的一些基本概念

看了b站一个清华博士的视频做的笔记，对于人工智能的底层原理，训练方式，以及生成式文本输出，图片生成的底层原理有了一个了解，算是一个还不错的科普文。之前一直想要了解一下机器学习的入门原理，神经网络相关的，但是这个词一听好像于自己而言难度有点大了，但是b站的各种通俗易懂的科普视频总会给我不一样的输入。

1. 人工智能发展的各阶段

人工智能发展的几个阶段：

1）符号主义：

1960-1970年代：早期专家系统，在这个时期，AI研究主要集中在符号主义，以逻辑推理为中心。此时的AI主要是基于规则的系统，比如早期的专家系统。

2）联结主义：

又称为神经网络或基于学习的AI .

例如这个黑箱要识别一个苹果，它会根据不同的描述特征来对苹果进行识别，分别乘以一个正相关和负相关的系数，最后得出一个值：

计算系数：感知机，类似神经元

识别结果：

2. 智能的本质

智能的本质就是针对不同的情景给出针对性的输出反应

用数学公式简单可以表达为：（Funcitons describe the world !）

3. 神经网络

神经网络这个词听起来就比较复杂，《深度学习革命》一书中针对这个词的来源进行了非常详细的来源记录，它正式被提出是在1958年，心理学家Frank Rosenblatt提出感知机（Perceptron），这是第一个可训练的神经网络模型，用于模式识别。Rosenblatt在论文中明确使用了"神经网络"（neural network）一词，强调其与生物神经系统的相似性。

经常听到像卷积神经网CNN，循环神经网络RAN，生成对抗网络GAN,图神经网络GNN这些术语，其实这些都是深度学习的算法模型，属于深度学习的使用工具。在实际的场景中经常会多个结合一起使用。

那么深度学习=神经网络？实际上深度学习是使用多层神经网络的方法，但神经网络本身只是其中一种技术。

复制代码

人工智能（AI） #让机器模仿人类智能的大概念（比如会下棋、识图的机器都算AI）。 
│
└── 机器学习（ML） #AI的一个分支，通过数据自动学习规律（比如用大量猫狗图片训练模型区分猫狗）。 
    │
    └── 深度学习（DL） #机器学习的一个分支，用多层神经网络模拟人脑学习（比如用CNN识别图片中的猫）。
        │
        ├── CNN：处理图像（扫描局部特征）
        ├── RNN：处理序列（带记忆分析）
        └── GAN：生成数据（真假对抗）

不同算法模型的对比：

|-----------------|----------------------|----------|------------|-------------|--------------|
| 模型 | 中文全称 | 核心能力 | 典型应用场景 | 优点 | 缺点 |
| CNN | 卷积神经网络 | 图像特征提取 | 人脸识别、医学影像 | 局部感知、参数共享 | 不擅长序列数据 |
| RNN/LSTM | 循环神经网络/长短期记忆网络 | 序列建模 | 语音识别、文本生成 | 记忆上下文信息 | 计算效率低、长序列处理弱 |
| GAN | 生成对抗网络 | 数据生成 | AI绘画、图像修复 | 生成质量高 | 训练不稳定 |
| Transformer | Transformer（无通用中文译名） | 全局依赖建模 | 机器翻译、文本生成 | 并行计算、长距离依赖强 | 资源消耗大 |
| ResNet | 残差网络 | 极深网络训练 | 图像分类、目标检测 | 解决梯度消失 | 结构复杂 |
| 自编码器 | 自编码器 | 数据压缩与重建 | 图像去噪、异常检测 | 无监督学习 | 生成能力有限 |
| GNN | 图神经网络 | 图结构分析 | 社交网络、药物研发 | 建模复杂关系 | 计算复杂度高 |
| CapsNet | 胶囊网络 | 空间层次理解 | 姿态估计 | 对空间变换鲁棒 | 应用不广泛 |

看到b站有个对神经网络的比喻，感觉还蛮贴合的的，神经网络有点类似机场的构造，不过机场流动是单向的，不过神经网络有反向传播。下面这个是操作动线类比，

机场动线 ：值机柜台 → 安检门 → 免税店 → 登机口 → 起飞
神经网络：输入层 → 隐藏层1（激活）→ 隐藏层2（激活）→ 输出层 → 预测结果

神经元就是机场的各个服务节点，例如安检口，行李托放点，免税店等，

激活函数就等于各个通道的开关逻辑，例如安检口检查到违规金属就拦截，否则放行； vip 通道可以让vip 客户直接放行，经济舱客户需要派对等候放行；

损失函数就是类似客户满意度调查，也就是实际登机时间和预期登机时间的差距；

梯度下降就是类似于流程优化，例如排队时间过长需要增开通道或者人员配比。

举个场景例子：

场景：训练一个判断「旅客是否携带违禁品」的神经网络

输入层：旅客的行李X光图像（像素数据）
隐藏层1：安检口初步识别金属物品（边缘检测）
激活函数：ReLU决定是否触发开箱检查
隐藏层2：分析物品形状是否匹配危险品数据库
输出层：Sigmoid输出危险概率（0-1之间）
损失函数：对比预测结果与人工检查结果
梯度下降：优化X光机灵敏度（权重）和开箱阈值（偏置）

通过数万次「模拟旅客安检」，最终让系统自动学会精准识别危险品。

4. 感知机

最近看了人工智能的发展史才get 到感知机这个概念，这其实可以类比人的大脑神经结构：

简单的说，一个神经元把它从其他神经元接收到的所有输入信号加起来，如果达到某个特定的阈值水平，它就会被激活。

那么感知机是什么？

感知机就是一个根据加权输入的总和是否满足阈值来做出是或否（输出1或0）的决策的简单程序

5. 拟合函数

拟合函数又叫预测函数，智能的本质是一个黑箱，这个黑箱能够从输入和输出的联系中找到一个对应关系，在数据驱动的智能领域中，所谓的智能，本质上就是给你一堆点，然后用一个函数拟合它们之间的关系。

6. 损失函数

损失函数又叫代价函数。损失函数的值其实就是真实值与预测函数之间的差值大小，也就是针对每个x的输出y值和预测函数y值的绝对值差距大小。损失函数值越小，输出越精确

7. 激活函数

激活函数用于神经网络中，用来决定神经元是否应该被激活，也就是是否将信号传给下一代。它主要是用来在神经网络中增加非线性，可以用来处理更复杂的情况

各种激活函数，最常用的是ReLU 。这个函数的形状还有人将它比喻为排队时候的隔离柱，直线折线曲线，随意调整角度位置，

8. 梯度下降算法

梯度下降算法是众多人工智能算法的基础和鼻祖。如何奖励惩罚一个神经网络，也就是如何通过数据来训练网络找到最好的参数：梯度下降算法，梯度下降其实就是一种优化方法，用来调整模型的参数，使得损失函数值最小化。

类比就是如果你要快速下山，那么每次你需要找到往下最陡峭的点然后一步一步调整下去，步长其实就是学习率。

梯度算法的认知图谱：

一个可视化的神经网络平台

谷歌推出的一个神经网络可视化教学平台，通过设置不同类型数据集，输入特征选择，神经网络结构的隐藏层和激活函数，设置不同是训练参数集如学习率等来观察模型训练中的动态变化。

A Neural Network Playground

9. Transformer

Transformer 也是一种深度学习模型，它的核心思想是"Attention is all you need "， Transformer 完全基于注意力机制，区别与RNN 和CNN 。它由两部分组成，编码器（Encoder）和解码器（Decoder） . 每个部分都是由多个相同的层堆叠而成，每层包含了多头注意力机制（Multi-head Attention）和位置全连接前馈网络。

**那么什么是注意力机制？**每个词都能关注句子中的其他词，从而理解句子的含义

数学不好，Transformer 里面涉及复杂的数学知识有点令人费解，它的主要流程是：

输入处理阶段需要分词、嵌入、位置编码。编码器部分需要自注意力和前馈网络，解码器部分需要掩码注意力和交叉注意力。输出生成需要线性层和softmax。

让deepseesk 通俗讲解一下：

b站视频推荐：

王木头学科学的个人空间-王木头学科学个人主页-哔哩哔哩视频

90分钟！清华博士带你一口气搞懂人工智能和神经网络_哔哩哔哩_bilibili