目录
[1.2M-P(McCulloch and Pitts)神经元模型](#1.2M-P(McCulloch and Pitts)神经元模型)
[1.2.1M-P 神经元模型的概述](#1.2.1M-P 神经元模型的概述)
[1.2.2M-P 神经元模型的工作原理](#1.2.2M-P 神经元模型的工作原理)
[1.1 全概率公式](#1.1 全概率公式)
[1.2 贝叶斯分类与先验、后验概率](#1.2 贝叶斯分类与先验、后验概率)
[1.3 联合概率](#1.3 联合概率)
[1.4 贝叶斯公式](#1.4 贝叶斯公式)
[2.1 生成模型与判别模型](#2.1 生成模型与判别模型)
[2.2 朴素贝叶斯原理](#2.2 朴素贝叶斯原理)
[2.3 条件独立性假设](#2.3 条件独立性假设)
[2.4 后验概率最大化](#2.4 后验概率最大化)
[2.5 文本分类中的朴素贝叶斯模型](#2.5 文本分类中的朴素贝叶斯模型)
[1.1 回归与分类的区别](#1.1 回归与分类的区别)
[1.2 线性回归的概念](#1.2 线性回归的概念)
[1.3 线性回归的符号约定](#1.3 线性回归的符号约定)
[1.4 线性回归的算法流程](#1.4 线性回归的算法流程)
[1.5 损失、代价、目标函数](#1.5 损失、代价、目标函数)
[1.6 最小二乘法(LSM)](#1.6 最小二乘法(LSM))
[2.1 什么是梯度下降](#2.1 什么是梯度下降)
[2.2 梯度下降的三种形式对比](#2.2 梯度下降的三种形式对比)
[2.3 梯度下降与最小二乘法的比较](#2.3 梯度下降与最小二乘法的比较)
[2.4 数据归一化与标准化的对比](#2.4 数据归一化与标准化的对比)
[2.5 需要与不需要做归一化/标准化的模型对比](#2.5 需要与不需要做归一化/标准化的模型对比)
[3.1 过拟合与欠拟合](#3.1 过拟合与欠拟合)
[3.1.1 过拟合](#3.1.1 过拟合)
[3.1.2 欠拟合](#3.1.2 欠拟合)
[3.1.3 正合适](#3.1.3 正合适)
[3.2 正则化(Regularization)](#3.2 正则化(Regularization))
[3.2.1 L1 正则化(Lasso Regression)](#3.2.1 L1 正则化(Lasso Regression))
[3.2.2 L2 正则化(Ridge Regression)](#3.2.2 L2 正则化(Ridge Regression))
[3.2.3 Elastic Net](#3.2.3 Elastic Net)
[3.3 正则化的作用、区别与应用](#3.3 正则化的作用、区别与应用)
[3.3.1 作用](#3.3.1 作用)
[3.3.2 区别与应用](#3.3.2 区别与应用)
[3.4 总结](#3.4 总结)
[4.1 均方误差 (Mean Square Error, MSE):](#4.1 均方误差 (Mean Square Error, MSE):)
[4.2 均方根误差 (Root Mean Square Error, RMSE):](#4.2 均方根误差 (Root Mean Square Error, RMSE):)
[4.3 平均绝对误差 (Mean Absolute Error, MAE):](#4.3 平均绝对误差 (Mean Absolute Error, MAE):)
一、机器学习、深度学习
1.人工智能
1.1人工智能概念
在1956年的达特茅斯会议上,约翰·麦卡锡等人第一次提出"人工智能"概念,它标志着"人工智能"学科的诞生。
人工智能(artificial intelligence,A),从字面上进行解释,主要有"人工"和"智能"两个部分。
"人工"是指人造的、人为的,与自然界中本身存在的天然事物相对应。
"智能"是智力和能力的总称,它涉及意识、自我、思维(包括无意识的思维)等问题,涵盖了思维、认知等复杂的智力活动。
人工智能是指能够让机器或系统像人一样拥有智力和能力,可以代替人类实现识别、认知、分析和决策等多种功能的技术
1.2人工智能的主要研究内容与应用领域
人工智能是自然科学和社会科学的交叉学科,汲取了自然科学和社会科学的最新成就,以智能为核心,形成了具有自身研究特点的新体系。
人工智能的研究涉及广泛的领域,如各种知识表示模式、不同的智能搜索技术、求解数据和知识不确定性问题的各种方法、机器学习的不同模式等。
人工智能已经发展成为一门由计算机科学、控制论、信息论、语言学、神经生理学、心理学、数学和哲学等多学科相互融合的综合性新学科。
1.2.1主要研究内容:
- 知识表示 :把人类的知识概念化,形式化表示。利用符号知识、算法、状态图等方式表示知识,包含符号表示、连接机制表示等方法。
- 知识推理 :通过数据处理、控制策略以及形式化的处理方法来模仿人类的智能推理过程。
- 机器学习 :模仿人类自我获取知识的能力,机器可以通过学习文献、资料等方式,自动地进行分类、提取特征,进行深度学习。
1.2.2应用领域
随着人工智能理论研究的发展,人工智能的应用领域越来越宽广,其应用效果也越来越显著。人工智能的应用主要集中在自动定理证明、问题求解与博弈、专家系统、模式识别、机器视觉、自然语言处理人工神经网络、分布式人工智能与多Agent等领域。
- 自动定理证明:利用AI自动推理能力进行数学或逻辑定理的验证。
- 问题求解与博弈:用来处理复杂的问题求解,如博弈论中的竞争问题。
- 专家系统:模拟专家解决特定问题的知识与经验。
- 模式识别:包括图像识别、语音识别等,通过AI自动进行模式匹配。
- 机器视觉:让计算机具备像人类一样的视觉处理能力。
- 自然语言处理:使计算机能够理解和生成人类语言。
- 人工神经网络:模仿生物神经元结构进行智能计算。
- 分布式人工智能与多Agent:通过多个智能体协作,解决分布式的问题。
2.机器学习
2.1机器学习的概念
机器学习(Machine Learning, ML) 是指程序可以通过经验的积累而提高其在特定任务上的效果。
定义:如果某个程序能够在任务 T 上,随着经验 E 的增加,效果 P 也随之提升,则称该程序具有从经验中学习的能力。
这张图展示了随着 经验 (E) 的增加,效果 (P) 也不断提高的过程。这意味着如果一个程序可以通过不断积累经验(例如数据、训练)来改进它在某个任务上的表现,那么我们可以说它在"从经验中学习"。
在图中:
- X轴(Experience E) 表示程序获得的经验。
- Y轴(Performance P) 表示程序在任务上的效果或表现。
- 随着经验的增加,表现逐渐提高,这种关系说明程序具有学习的能力。
这种概念就是机器学习的核心思想:通过积累数据和经验,模型的性能会逐渐得到改善。
这个定义是由卡内基梅隆大学的教授 汤姆·米切尔 提出的,并被广泛使用。
2.2机器学习的基本思路
机器学习的核心流程是通过 训练数据 来学习模型:
- 训练数据 :使用一定的算法对训练数据进行解析。
- 模型训练 :从数据中提取特征并构建模型。
- 实际应用 :将模型应用于新的数据,进行分类、决策或预测等任务。
这个基本流程可以看作是不断从数据中学习并改进模型的过程。其应用范围很广,例如图像识别、语音识别、自然语言处理等。
2.3机器学习的分类
|--------|-------------------------------|-------------------------------|---------------------------|
| 类型 | 特点 | 示例 | 优缺点 |
| 有监督学习 | 使用带标签的数据集进行训练,提供正确答案(标签) | 给猫和狗的照片打上标签,训练模型识别新照片中的猫和狗 | 效果好,但成本高(需要大量标注数据) |
| 无监督学习 | 数据集中没有正确答案或标签,任务是挖掘潜在特征 | 给猫和狗的照片但不打标签,模型将照片分为两类 | 无需标签,但效果和有监督学习有差别 |
| 半监督学习 | 结合有监督和无监督学习,部分数据带有标签,部分数据没有 | 部分猫和狗的照片有标签,部分没有,通过这种数据组合训练模型 | 标签数据少,成本较低,适用于标签数据不足的情况 |
| 强化学习 | 基于环境反馈(奖励或惩罚)进行训练,以统计和动态规划为指导 | AlphaGo通过不断尝试和反馈,学习如何在围棋中取得胜利 | 需要大量尝试和计算,适用于需要最大化长期收益的场景 |
3.深度学习
3.1深度学习的概念
深度学习(Deep Learning, DL) 是一种实现机器学习的技术,属于机器学习的一个研究方向。
深度学习的概念源于对人工神经网络的研究,它的模型结构是一种包含多个隐藏层的神经网络。
- "深度" 是指网络中包含一系列连接的多层神经网络。
- "学习" 是指通过训练这些多层神经网络来实现智能任务的过程。
3.2人工智能、机器学习和深度学习的关系
- 人工智能(AI) :通过设计和制造智能机器或系统来模拟人类的智能活动。
- 机器学习(ML) :是人工智能的一个分支,作为实现人工智能的一个核心技术,用来解决模型中规律、经验、知识的获取问题。
- 深度学习(DL) :是机器学习中的一种方法,专注于使用多层神经网络来解决问题,属于机器学习的一种具体算法。
在层次结构上:
- 人工智能 是最广义的概念,包含多种实现方式。
- 机器学习 是实现人工智能的一种技术。
- 深度学习 是机器学习中的一种特殊类型,利用神经网络模拟人类学习过程,尤其适合复杂的数据分析。
3.3深度学习与传统机器学习的区别
|--------|----------------|--------------------|----------------------|
| 分类 | 特征提取方式 | 依赖性 | 示例 |
| 传统机器学习 | 由人类专家手动选择和设计特征 | 依赖专家知识,特征设计的好坏影响很大 | 图像分类中手动提取颜色、形状等特征再分类 |
| 深度学习 | 通过自身学习自动提取特征 | 自动化程度高,可发现复杂的潜在特征 | 图像分类中自动从原始像素数据中提取特征 |
二、深度学习的背景
1.生物神经元与神经元模型
1.1生物神经元
1.1.1生物神经元的组成
生物神经元是生物神经网络结构和功能的基本单位,由细胞体和细胞突起组成,如图所示。
- 细胞体:是神经元的核心部分,由细胞核和细胞质等构成。
- 细胞突起 :包括树突和轴突两部分:
- 树突 :是神经元的输入部分,接收外界的刺激并将其传递到细胞体。
- 轴突 :是神经元的输出部分,将来自细胞体的信号传递到其他神经元或目标细胞。
- 突触:神经元之间通过突触连接,通过轴突末端与其他神经元的树突相连,以传递信号。
1.1.2神经元的工作状态
- 神经元有两种工作状态:抑制状态 和兴奋状态 。
- 在抑制状态下,轴突不输出信号。
- 当树突接收到的刺激累计超过某一阈值时,神经元从抑制状态转变为兴奋状态,并通过轴突向其他神经元发送信号。
1.1.3生物神经元与人工神经元模型
通过对生物神经网络的研究,人们提出了人工神经元模型,模仿神经元的结构和信号传递方式,从而构建用于深度学习的神经网络模型。
1.2M-P(McCulloch and Pitts)神经元模型
1.2.1M-P 神经元模型的概述
- M-P 神经元模型由神经生理学家沃伦·麦卡洛克(Warren McCulloch)和数学家沃尔特·皮茨(Walter Pitts)于1943年提出。
- 它是最早的数学神经元模型,旨在模拟生物神经元的工作方式,用来处理多输入单输出的信息。
1.2.2M-P 神经元模型的工作原理
1.输入信号(X 0+X 1+....X n-1):
- 模型可以接收多个输入信号,每个输入信号可以看作是其他神经元传递来的信息(例如,X0,X2,X3)。
- 每个输入信号都有一个对应的权重(W0,W1,W2),这些权重表示输入信号对神经元的影响程度。不同的权重值用于表示信号来源和对神经元影响的不同。
2.加权求和( Σ**)**:
- 所有输入信号和它们的权重在模型中会进行加权求和,得到一个总的刺激值 z。计算公式为:
- 这个过程模拟了生物神经元的细胞体整合所有树突输入信号的过程,将所有输入汇集为一个综合刺激量。
3.阈值判断(θ):
- 在加权求和之后,加权和会与一个阈值 (θ) 进行比较。
- 阈值判断 决定了神经元的激活状态:
- 如果 z小于阈值,神经元处于抑制状态,输出 y=0。
- 如果 z大于或等于阈值,神经元被激活,处于兴奋状态,输出 y=1。
4.激活函数(f(z)):
- 激活函数用于将 zzz 转化为输出 yyy,通常输出是二元的,如 0 或 1。
- 输出 yyy 的计算公式为:
- 通过激活函数,模型模拟了生物神经元的激活和信号输出过程。
5.输出信号 (y):
- 最终,激活函数输出一个信号 y,该信号可以作为下一个神经元的输入,或者直接传递到目标神经元。类似于生物神经元中的轴突将信号传递给其他神经元。
1.2.3特点与局限性
- 权重固定:M-P 神经元模型中的权重是固定的,无法像现代人工神经网络那样通过学习来更新。因此,M-P 模型缺乏学习和自适应能力。
- 启发意义:尽管 M-P 模型不具备自动学习能力,但它为后续的人工神经网络和深度学习的发展奠定了理论基础。
M-P 模型是神经网络发展的早期尝试,通过模拟生物神经元的信息传递方式,为后续的神经网络研究提供了重要的启发。它解释了如何从多个输入生成一个输出信号,是现代人工神经网络的原型之一。
2.感知器
2.1单层感知器(单层感知器模型)
-
提出者:由弗兰克·罗森布拉特于1958年提出。
-
描述:单层感知器是最简单的人工神经网络,是一种线性分类器。感知器接收多个输入信号,并通过计算得到一个输出信号。
-
工作原理 :
- 输入信号 X0,X1,...,Xn−1 被送往感知器,每个输入信号都有对应的权重 W0,W1,...,Wn−1。
- 输入信号与权重相乘并相加,再加上一个偏置项 b。
- 最终通过激活函数 fff 进行处理得到输出信号 y,公式如下:
-
特点:单层感知器用于处理线性可分的问题。与M-P神经元模型不同,感知器可以通过训练自动确定权重和偏置。
2.2多层感知器(MLP,多层感知器模型)
- 描述 :多层感知器是对单层感知器的扩展,它在输入层和输出层之间加入了一个或多个隐藏层,用于增加网络的复杂性和非线性映射能力。
- 特点 :
- 可以处理非线性可分的问题,通过增加隐藏层使得网络能够捕获数据的非线性特征。
- 结构:包含输入层、一个或多个隐藏层和输出层。
- 激活函数:隐藏层和输出层通常会使用非线性激活函数(如ReLU、Sigmoid、Tanh),以引入非线性。
- 训练过程 :通过反向传播算法对各个连接的权重进行更新,以最小化误差。
- 应用场景:广泛应用于图像识别、自然语言处理等需要非线性建模的复杂任务中。
2.3前馈神经网络(多层感知器的一种)
- 描述 :前馈神经网络是一种单向多层神经网络,数据从输入层开始,经过每个隐藏层,最终传递到输出层。各层之间不存在反馈,数据流动方向只有从输入到输出。
- 特点 :
- 前馈传输:输入的数据沿着网络结构逐层传播到输出层,没有反向反馈。
- 反向传播 :训练过程中通过反向传播算法将误差传回去,以调整权重和偏置,使得输出更准确。
- 发展:前馈神经网络是神经网络中的一种常见类型,广泛应用于各种预测和分类任务中。
2.4全连接神经网络
- 描述:全连接神经网络是一种特殊类型的前馈神经网络,其中每一层的每个神经元与前一层和后一层的所有神经元都相互连接。隐藏层中的全部结点都与前一层和后一层的全部结点相连。
- 特点 :
- 连接结构:全连接意味着每一个神经元与上一层的每一个神经元都有连接。这使得全连接神经网络有强大的学习能力,但同时也导致了巨大的参数量,容易出现过拟合。
- 参数多:由于连接的神经元较多,因此全连接网络有着大量的权重和偏置,训练时间较长,计算量较大。
- 应用场景:适用于小规模数据集或者需要通过深度学习捕获数据复杂关系的场景,如图像识别。
|--------------------------------|------------------------|--------------------------|-----------------------|
| 连接类型 | 描述 | 特点 | 适用场景 |
| 全连接(Fully Connected, FC) | 前一层的所有节点与后一层的所有节点完全连接 | 强大的表达能力,但参数量大,容易导致过拟合 | 多层感知器(MLP),分类和回归任务 |
| 半连接(Partially Connected) | 前一层的部分节点与后一层的部分节点连接 | 相对较少的连接,减少计算量,同时保留部分联系 | 用于减少计算量或对特定特征部分关注的场景 |
| 稀疏连接(Sparse Connected) | 前一层和后一层之间只有一部分节点连接 | 参数少,能够有效处理大规模数据,适合非结构化问题 | 卷积神经网络(CNN)等需要局部连接的场景 |
| 局部连接(Locally Connected) | 每个节点只与前一层的某些相邻节点相连 | 适合提取局部特征,具有空间不变性 | 主要用于图像、音频等有空间或时间结构的数据 |
| 递归连接(Recurrent Connection) | 节点之间存在循环连接,可将自身的输出作为输入 | 能够记住过去的信息,适合处理时间序列数据 | 自然语言处理、时间序列预测(RNN) |
2.5感知器模型与反向传播
- 前馈过程:数据从输入层开始,一层一层地传播到输出层。
- 反向传播 :
- 计算输出和期望输出之间的误差。
- 将误差从输出层向前传播到每个隐藏层,逐层更新每个连接的权重,以最小化误差。
- 通过调整各层之间的权重和偏置来优化网络的预测能力。
- 激活函数 :为了引入非线性特性,通常在每个隐藏层和输出层使用激活函数。常见的激活函数有:
- Sigmoid:将输出值限制在 (0, 1) 之间。
- ReLU(Rectified Linear Unit):输出为输入的正部分,当输入为负时输出为0。
- Tanh:类似于Sigmoid,但输出值在 (-1, 1) 之间。
2.6总结与比较
|------------|-----------------------------|------------------------------|------------------|
| 模型 | 描述 | 特点 | 应用场景 |
| 单层感知器 | 最简单的线性分类器,由弗兰克·罗森布拉特提出 | 只能处理线性可分的问题,结构简单,计算量小 | 简单分类任务 |
| 多层感知器(MLP) | 在输入层和输出层之间加入了若干隐藏层,增加非线性能力 | 可以处理复杂的非线性问题,通过反向传播进行训练 | 图像识别、自然语言处理等复杂任务 |
| 前馈神经网络 | 数据从输入层逐层向前传递到输出层,属于多层感知器的一种 | 数据流动方向只有从输入到输出,没有反馈,常用反向传播优化 | 分类和回归任务 |
| 全连接神经网络 | 每一层的每个神经元与前一层和后一层的所有神经元全部相连 | 强大的学习能力,但参数量巨大,训练复杂 | 小规模数据集、复杂关系建模 |
2.7感知器模型的发展
- 单层感知器的局限性:单层感知器只能解决线性可分问题,若数据呈现非线性关系,单层感知器无法很好地进行分类。
- 多层感知器的提出:为了克服单层感知器的局限性,人们提出了多层感知器(MLP),通过增加隐藏层,使得模型具备学习复杂非线性关系的能力。
- 前馈神经网络与全连接神经网络:前馈神经网络是最常见的结构形式之一,数据沿着前向路径流动。而全连接神经网络则是前馈神经网络的一种特殊类型,具有所有节点之间的全连接,表达能力更强但计算复杂度更高。
三、深度学习在AI中的地位,学习的含义和内涵是什么?
1.深度学习在AI中的地位
深度学习(Deep Learning,DL)是人工智能(AI)领域中非常重要的一个分支。它源自于机器学习(Machine Learning,ML) ,而机器学习又是人工智能的核心部分。因此,可以理解为深度学习是机器学习的一个子领域,同时是实现人工智能的一种核心技术。
在人工智能的整个发展中,深度学习起到了关键推动作用 。传统的人工智能方法,如专家系统或简单的机器学习算法,往往依赖于特征工程(即人工提取数据特征),而深度学习通过多层神经网络,能够自动学习数据的特征,大大减少了人工干预的需要,使得模型的泛化能力和性能有了显著提升。
深度学习在AI中的地位主要体现在以下几个方面:
- 核心驱动力 :深度学习是目前最为前沿和强大的机器学习技术之一,它使得人工智能在图像识别 、语音识别 、自然语言处理等多个领域取得了显著突破。
- 自适应能力 :深度学习网络能够从数据中自动学习特征,避免了传统方法中人工设计特征的繁琐步骤。通过深层的网络结构,深度学习可以捕捉到数据中更加复杂的特征。
- 高精度表现:深度学习模型(如卷积神经网络、循环神经网络等)在大规模数据上的表现非常优异,这使得深度学习成为目前AI领域中的主要应用技术。
2.深度学习的学习含义与内涵
深度学习的"学习"可以从两个方面理解:
-
结构性学习 : 深度学习中的"学习"指的是利用深层的神经网络结构 来捕捉和学习数据中的复杂模式 。深度学习模型通常由多层神经元组成,每一层的神经元对输入进行某种形式的转换,使得网络可以逐层提取越来越复杂的特征。
- 层次化特征学习:在深度学习中,不同层次的网络层提取的数据特征的抽象程度不同。前几层通常负责提取比较基础的特征(例如边缘、颜色),而越往深层,提取的特征越复杂、越抽象,直到最后形成对数据的完整理解。这种逐层提取特征的方式,使得模型可以从原始数据中自适应地学习到深层的模式和规律。
-
从数据中学习 : 深度学习的"学习"不仅是对数据的结构化理解,还包含通过训练过程 来最小化预测误差。模型通过大量的数据 和训练来优化参数,使得输入的特征经过网络的处理后可以得到高质量的输出。
- 监督学习:通过给定的标注数据进行训练,优化损失函数,使得模型预测的输出接近真实值。
- 无监督学习:在没有标注的情况下,深度学习模型可以学习到数据的潜在结构或模式,常用于聚类、降维等任务。
- 强化学习:深度学习也可以与强化学习结合,通过与环境的交互学习最优策略,最大化累积奖励。
3.深度学习的内涵包括以下几个方面:
-
非线性映射: 深度学习通过使用非线性激活函数,使得模型可以对输入和输出之间的复杂非线性关系进行有效建模。这使得深度学习可以处理复杂的数据模式,而不仅仅是线性关系。
-
自动特征提取: 与传统机器学习中需要人工设计特征不同,深度学习能够自动从原始数据中提取有效特征。多层神经网络的结构使得它可以逐层抽象数据特征,实现"端到端"的学习过程,从原始数据直接到任务结果(例如分类、预测)。
-
大规模数据的适应性: 深度学习在处理大规模数据时具有极强的适应性,尤其在有足够多的样本进行训练时,深度神经网络能够表现出强大的学习能力。这也得益于计算能力的提升(如GPU),深度学习可以高效地在大数据集上进行训练。
-
反向传播与优化 : 深度学习的成功与反向传播算法 紧密相关。通过反向传播,网络可以逐层调整权重,优化模型输出,使得误差逐步减小。常见的优化方法有梯度下降(Gradient Descent)、**自适应动量优化(Adam)**等,这些算法的结合保证了深度学习网络能够有效地学习。
-
广泛应用与泛化能力 : 深度学习被应用于各种实际场景,包括但不限于图像分类、语音识别、自然语言理解、推荐系统等领域。在不同的应用中,深度学习通过训练大量的数据样本,具备较强的泛化能力,能够适应不同的数据分布。
总结
- 深度学习在AI中的地位:深度学习是AI领域中非常关键的一个分支,基于神经网络的多层结构,极大地提高了人工智能的性能和应用领域的广泛性。
- 学习的含义 :
- 深度学习的"学习"不仅包括通过多层神经网络结构对数据进行深层次的模式识别,也包括通过大量数据进行训练来优化模型的参数。
- 内涵 :
- 非线性映射与深层结构、自动特征提取、大规模数据适应性、反向传播与优化算法是深度学习的核心特性,使其在解决复杂问题时表现出强大的性能和泛化能力。
深度学习之所以在人工智能中占据如此重要的地位,是因为它解决了很多传统AI方法无法很好处理的复杂问题,并且通过自动化特征学习,显著减少了人工干预的需求,从而使得AI变得更加智能和高效。
四、贝叶斯
1.贝叶斯方法
1.1 全概率公式
全概率公式是概率论中的一个重要工具,通常用于计算一个事件在另一组条件下发生的概率,前提是这组条件事件是互斥且完备的。公式如下:
也可以写作:
这个公式为我们提供了如何通过条件事件的概率来计算目标事件的概率。
1.2 贝叶斯分类与先验、后验概率
- 贝叶斯分类:是指基于贝叶斯定理的一类分类算法。其核心思想是基于已知数据推断未知情况。贝叶斯定理是其理论基础。
- 先验概率:是指在没有观察到数据之前,根据以往经验或背景知识对事件发生的初始概率估计。用 P(A)表示。
- 后验概率:是在观察到数据后,根据实际事件发生的情况来更新的概率。用 P(A∣B)表示,它反映了在给定数据 B 的情况下,事件 A 发生的概率。
1.3 联合概率
联合概率表示两个或多个事件同时发生的概率,通常用 P(A∩B)或 P(A,B)表示。如果 X 和 Y 独立并服从正态分布,那么 P(A<5,B<0) 表示 A<5 且 B<0 这两个条件同时成立的概率。
1.4 贝叶斯公式
贝叶斯公式通过先验概率和似然度(即条件概率)来计算后验概率。公式如下:
其中:
- P(A∣B):后验概率,在观察到 B 的情况下 A 发生的概率。
- P(B∣A):似然度,表示在 A 发生的情况下 B 发生的概率。
- P(A):先验概率,表示事件 A 发生的初始概率。
- P(B):边际似然度,表示事件 B 的总发生概率。
1.5总结
贝叶斯方法利用了全概率公式、先验概率、后验概率、联合概率等概念,为数据分析和预测提供了有力的工具。通过贝叶斯定理,可以在已有的经验或数据基础上不断更新对事件的预测和判断,尤其适合应用在不确定性较高的场景中。
贝叶斯公式在机器学习中有广泛的应用,尤其是在生成模型中,用于通过已知的训练数据来估计后验概率分布。生成模型通过联合概率 P(A,B) = P(A)P(B|A) 的估计来生成新数据。贝叶斯公式的核心思想是通过已知的信息来更新我们对未知事件的信心,进而做出更准确的预测。
2.朴素贝叶斯原理
2.1 生成模型与判别模型
-
生成模型(Generative Model):基于条件概率分布 P(X∣Y)和 P(Y),通过学习数据的联合分布 P(X,Y) 来预测结果。生成模型可以用来生成新的数据,其典型的例子包括朴素贝叶斯、HMM(隐马尔可夫模型)和深度信念网络(DBN)。
-
判别模型(Discriminative Model):直接估计决策函数 Y=f(X)或者后验概率 P(Y∣X),并用此进行分类。它不关注数据的生成过程,而是更直接地对分类边界进行建模。常见的判别模型有线性回归、逻辑回归、支持向量机(SVM)等。
2.2 朴素贝叶斯原理
-
朴素贝叶斯法是一种典型的生成学习方法。其基本假设是条件独立性,即假设特征 XXX 的各个属性在给定类别 YYY 时相互独立。公式表示为:
这种独立性假设极大简化了计算,但也因此会影响模型在复杂数据集上的表现。
2.3 条件独立性假设
- 条件独立性是朴素贝叶斯模型的一个核心假设,即特征 X 的各个维度在给定 Y 的情况下相互独立。虽然这个假设在现实数据中可能不成立,但它能让模型在计算复杂性上有很大简化,因此常用于分类任务中。
2.4 后验概率最大化
-
在分类任务中,朴素贝叶斯方法通过计算后验概率 P(Y=Ck∣X=x),并选择后验概率最大的类 Y 作为预测结果。其计算公式为:
-
其中 P(Y=Ck)是类别的先验概率,P(X=x∣Y=Ck)是条件概率。通过最大化后验概率,得到最终的分类结果。
2.5 文本分类中的朴素贝叶斯模型
- 朴素贝叶斯常用于文本分类任务,例如垃圾邮件过滤。在这种模型中,假设有 50000 个单词组成的词典,模型会计算邮件中每个单词在给定类别下的出现概率,然后根据这些概率计算整篇邮件属于某个类别(如垃圾邮件)的概率。
总结来说,朴素贝叶斯模型通过简单的条件独立性假设,实现了在分类问题中的高效计算,尽管其假设较强,但在某些特定任务(如文本分类)中效果较好。
五、回归分析
1.线性回归
1.1 回归与分类的区别
- 回归:用于预测连续的标签。例如预测房价、股票市场走势等。
- 分类:用于预测离散的标签。例如根据人体指标预测血型,或者根据病人特征预测某疾病的患病率。
1.2 线性回归的概念
线性回归是一种通过线性组合的方式来预测连续标签的方法。其目标是找到一个最佳拟合直线或超平面,使得预测值与实际值之间的误差最小化。
公式形式为:
其中,w0 到 wn 是回归系数,x1 到 xn 是自变量。
1.3 线性回归的符号约定
- m:训练集样本的数量
- n:特征的数量
- x:特征/输入变量
- y:目标变量/输出变量
- h(x):预测值
- w:模型的权重参数
1.4 线性回归的算法流程
线性回归的算法包括以下几个步骤:
- 获取训练数据:收集并准备训练数据。
- 模型训练:使用机器学习算法拟合模型,确定最佳的参数 w。
- 模型预测:根据特征 x 和训练好的模型进行预测,得到 h(x)。
线性回归的目标是最小化损失函数(残差平方和),通过梯度下降或最小二乘法来调整模型参数。
1.5 损失、代价、目标函数
1.6 最小二乘法(LSM)
最小二乘法的目标是通过最小化预测值与真实值之间的平方误差,来确定回归系数。其核心公式为:
通过对 w 求导并令导数为 0,可以求得最优的参数 w,进而得到最佳的拟合模型。
2.梯度下降
2.1 什么是梯度下降
梯度下降是一种常用的优化算法,用于最小化(或最大化)函数的值,通常用于机器学习和深度学习中的模型训练过程。它通过迭代调整模型参数,找到使损失函数值最小的参数组合。
- 优化模型参数,提高预测精度。
- 最小化损失函数,让模型的预测更接近真实值。
- 训练机器学习模型,如线性回归、神经网络等。
- 适应大规模数据集,通过小批量或随机梯度下降进行高效训练。
梯度下降在机器学习和深度学习中广泛应用,帮助模型找到最优参数,提高模型的性能和泛化能力。
2.2 梯度下降的三种形式对比
|-------------------|----------------------|---------------------------|--------------------|
| 梯度下降方法 | 定义 | 特点 | 适用场景 |
| 批量梯度下降(BGD) | 每次更新参数时,使用全部训练集进行计算 | 精确,收敛较慢,适合小数据集 | 用于精确计算的场景,如小规模数据集 |
| 随机梯度下降(SGD) | 每次更新参数时,只使用一个样本进行计算 | 收敛快,但可能不稳定,适合大数据集 | 适合大规模数据集,尤其是在线学习场景 |
| 小批量梯度下降(MBGD) | 每次更新参数时,使用一小部分样本进行计算 | 兼具批量梯度和随机梯度的优点,收敛速度和稳定性较好 | 大规模数据集,常用于深度学习 |
2.3 梯度下降与最小二乘法的比较
|----------------|---------------------|---------------------------|--------------------------|
| 方法 | 特点 | 计算复杂度 | 适用场景 |
| 梯度下降 | 需要选择学习率α,通过多次迭代优化参数 | 计算复杂度低,适合大规模数据集 | 适合各类模型,包括线性回归和深度学习 |
| 最小二乘法(LSM) | 一次性计算得到参数,无需选择学习率 | 计算复杂度较高,尤其当特征数量大时 O(n^3) | 适合特征数量较少的线性回归模型,不适合非线性模型 |
2.4 数据归一化与标准化的对比
2.5 需要与不需要做归一化/标准化的模型对比
|-----------------|---------------------------------|-------------------------------------|
| 是否需要归一化/标准化 | 模型 | 原因 |
| 需要归一化/标准化 | 线性模型(如KNN、SVM) | 这些模型对特征的量级敏感,归一化或标准化有助于提高模型准确性 |
| 不需要归一化/标准化 | 决策树、基于树的集成学习(如XGBoost、LightGBM) | 树模型对特征值的量级不敏感,数据的归一化/标准化不会显著影响模型的性能 |
3.拟合和正则化
3.1 过拟合与欠拟合
3.1.1 过拟合
- 定义:模型在训练数据上表现非常好,但在新数据(测试集)上表现不佳。这表明模型学到了训练数据中的噪声或无关特征。
- 表现:训练集上准确率高,测试集上准确率低。
- 原因:模型复杂度太高,过于贴合训练数据的细节。
- 处理方法 :
- 增加训练数据:增加样本量,让模型学到更多普遍性的特征。
- 降维:去掉不必要或无关的特征,减少模型复杂度。
- 正则化:通过正则化项限制模型的参数规模,防止过度拟合。
- 集成学习:使用多个模型的组合来降低单个模型过拟合的风险(如随机森林、Boosting)。
3.1.2 欠拟合
- 定义:模型无法在训练集上取得良好的表现,说明模型太简单,无法学习到数据中的模式。
- 表现:训练集和测试集上的准确率都很低。
- 原因:模型复杂度太低,无法捕捉数据中的重要特征。
- 处理方法 :
- 增加特征:通过工程或使用高级模型(如深度学习)来增加模型复杂度。
- 增加模型复杂度:使用更复杂的模型或在现有模型上添加高阶项。
- 减少正则化项:如果正则化系数过高,会导致欠拟合,适当降低正则化强度。
3.1.3 正合适
- 定义:模型在训练集和测试集上都有良好表现,没有过拟合也没有欠拟合。
- 目标:调整模型使得训练集和测试集上的表现尽可能接近,保证模型的泛化能力。
3.2 正则化(Regularization)
正则化是一种防止过拟合的技术,通过在损失函数中添加对模型参数的惩罚项,控制模型的复杂度。
3.2.1 L1 正则化(Lasso Regression)
- 定义:在损失函数中添加权重参数的绝对值惩罚项。
- 公式 :
- 特点:L1 正则化倾向于使权重变为零,自动进行特征选择,产生稀疏模型。适合高维数据中使用。
3.2.2 L2 正则化(Ridge Regression)
- 定义:在损失函数中添加权重参数的平方和惩罚项。
- 公式 :
- 特点:L2 正则化倾向于使权重趋近于零,但不等于零,有助于避免权重过大,从而防止过拟合。
3.2.3 Elastic Net
- 定义:结合了 L1 和 L2 正则化的优势,在损失函数中同时加入绝对值和平方和的惩罚项。
- 公式 :
- 特点:通过调节 ρ,Elastic Net 可以在特征选择和防止过拟合之间取得平衡,适合处理具有强烈相关特征的数据集。
**3.3 正则化的作用、**区别与应用
3.3.1 作用
- 防止过拟合:通过对模型参数的惩罚项,控制参数的大小,避免模型过于复杂,从而减少过拟合的风险。
- 参数稀疏化(L1 正则化):有助于特征选择,保留对模型最重要的特征。
- 增强泛化能力:通过约束模型复杂度,正则化可以提升模型在新数据上的表现。
3.3.2 区别与应用
|-----------------|----------------------------------|------------------------------------------|
| 正则化类型 | 优点 | 应用场景 |
| L1 正则化 | 产生稀疏模型,进行特征选择,适合高维数据。 | 适合数据维度较高且需要自动特征选择的场景。 |
| L2 正则化 | 防止权重过大但不会使权重为零,保持模型所有特征。 | 适合需要防止过拟合但又不需要特征选择的场景,如线性回归。 |
| Elastic Net | 同时兼顾 L1 和 L2 的优点,平衡特征选择和模型复杂度控制。 | 适合存在强烈相关特征的高维数据集,尤其是在特征稀疏性与正则化平滑性都重要的场景。 |
3.4 总结
- 正则化 是防止模型过拟合的有效手段,尤其适合在高维特征数据集中使用。
- L1 正则化 有助于特征选择,适合稀疏数据集;L2 正则化 通过防止权重过大而防止过拟合,适合常规回归任务。
- Elastic Net 结合了 L1 和 L2 的优点,适用于复杂、强相关的特征集。
通过正则化和控制模型复杂度,可以提升模型的泛化能力,确保模型不仅在训练集上表现良好,在测试集或新数据上也能保持较好的表现。
4.回归的评价标准
4.1 均方误差 (Mean Square Error, MSE):
- 公式 :
- 解释:均方误差是实际值与预测值之间差异的平方的平均值。它反映了模型预测的整体误差水平。
- 优点:对大误差非常敏感,可以帮助识别模型中存在的异常数据点。
- 缺点:对异常值过于敏感,极端值会对MSE产生较大影响,可能导致结果失真。
- 适用场景:适用于没有大量极端值或异常数据的平滑数据集。
4.2 均方根误差 (Root Mean Square Error, RMSE):
- 公式 :
- 解释:均方根误差是均方误差的平方根,它表示预测误差的标准差,和原始数据的单位保持一致,便于解释。
- 优点:保留了原始数据的单位,易于解释,同时能够有效反映数据中的较大误差。
- 缺点:与MSE相似,对异常值过于敏感,极端值会显著影响结果。
- 适用场景:适合需要解释误差分布标准差的情况,或对预测误差有严格单位要求的场景。
4.3 平均绝对误差 (Mean Absolute Error, MAE):
- 公式 :
- 解释:平均绝对误差是预测值和实际值之间绝对差异的平均值,忽略误差的方向性,只关注误差的大小。
- 优点:对异常值不敏感,具有更强的鲁棒性,能够提供模型预测误差的整体水平。
- 缺点:不会放大大误差,无法像MSE或RMSE那样反映出模型在大误差下的表现。
- 适用场景:适合含有异常值的数据集,或者在需要更稳健的误差评估时使用。