从0开始深度学习(3)——概率

1 基本概率论

  • 大数定律(law of large numbers):随着投掷次数的增加,这个估计值会越来越接近真实的潜在概率。
  • 从概率分布中抽取样本的过程称为抽样(sampling)
  • 将概率分配给一些离散选择的分布称为多项分布(multinomial distribution)

1.1 概率论公理

概率(probability)可以被认为是将集合映射到真实值的函数。
在给定的样本空间
S
中,事件A 的概率, 表示为P(A) ,满足以下属性:

1.2 随机变量

  • 离散随机变量(discrete random variable) :取值为有限个或可数无限个值的随机变量称为离散随机变量。这些值通常是整数或有限范围内的离散点。例如:抛硬币的次数、骰子的点数、某段时间内到达的顾客数量等

  • 连续随机变量(continuous random variable) :取值为实数区间上的任何值的随机变量称为连续随机变量。这些值通常是无限可分的,并且可以在一定范围内取任意值。例如:一个人的身高、重量、温度测量等

  • 概率密度函数(Probability Density Function, PDF):描述连续随机变量的概率分布的一种函数,例如:用身高举例,PDF通常是指在一个特定人群中随机选取一个人的身高落在某个区间内的概率

2 处理多个随机变量

2.1 联合概率(joint probability)

指的是两个或多个事件同时发生的概率。如果我们将这些事件记作A和B,则联合概率P(A, B)表示事件A和事件B共同发生的概率。

2.2 条件概率(conditional probability)

指的是给定另一个事件已经发生的条件下,某个事件发生的概率。条件概率通常用符号 P(A∣B)表示,读作"在事件B发生的条件下事件A发生的概率"。

2.3贝叶斯定理


2.4 边际化(Marginalization)

指从联合概率分布中去除一个或多个随机变量的过程。

边际化的一个常见用途是从联合概率分布中提取单个变量或一组变量的概率分布。这通常通过求和 (对于离散变量)或积分 (对于连续变量)来实现,从而消除掉我们不感兴趣的变量。

边际化结果的概率或分布称为边际概率(marginal probability) 或边际分布(marginal distribution)。

2.5 独立性

如果两个随机变量A和B是独立的,意味着事件A的发生跟事件B的发生无关

3 期望与方差

3.1 期望(Expected Value)

指重复进行大量相同的试验时,随机变量的观测值的平均值。

3.1.1 对于离散随机变量X

3.2.1 对于连续随机变量X

3.2 方差(Variance)

方差是衡量随机变量与其期望值之间偏差平方的平均值

PS:

方差的平方根被称为标准差(standard deviation)

相关推荐
春日见2 小时前
丝滑快速拓展随机树 S-RRT(Smoothly RRT)算法核心原理与完整流程
人工智能·算法·机器学习·路径规划算法·s-rrt
陈文锦丫4 小时前
MixFormer: A Mixed CNN–Transformer Backbone
人工智能·cnn·transformer
小毅&Nora4 小时前
【人工智能】【AI外呼】系统架构设计与实现详解
人工智能·系统架构·ai外呼
jianqiang.xue5 小时前
别把 Scratch 当 “动画玩具”!图形化编程是算法思维的最佳启蒙
人工智能·算法·青少年编程·机器人·少儿编程
Coding茶水间6 小时前
基于深度学习的安全帽检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·计算机视觉
weixin79893765432...6 小时前
Vue + Express + DeepSeek 实现一个简单的对话式 AI 应用
vue.js·人工智能·express
nju_spy7 小时前
ToT与ReAct:突破大模型推理能力瓶颈
人工智能·大模型·大模型推理·tot思维树·react推理行动·人工智能决策·ai推理引擎
AI-智能7 小时前
别啃文档了!3 分钟带小白跑完 Dify 全链路:从 0 到第一个 AI 工作流
人工智能·python·自然语言处理·llm·embedding·agent·rag
y***86697 小时前
C机器学习.NET生态库应用
人工智能·机器学习
deng12048 小时前
基于LeNet-5的图像分类小结
人工智能·分类·数据挖掘