大数据机器学习算法和计算机视觉应用01:博弈论基础

Game Theory

  • 2-player Zero Sum Game
  • Minimax Optimal Strategies
  • Von Neumann's Minimax Theorem
  • Lower Bounds for Randomized Algorithms
  • General sum games, Nash quilibria

(p.s:该系列是国际交流学术公开课的笔记,主讲人是Carnegie Melon University的终身教授David P. Woodruff.

2-Player Zero sum Game 二人零和博弈

一个博弈包括以下要素:

  • 参与者,称为玩家
  • 每个玩家都有一组选择,称为动作。
  • 不同玩家的联合动作会给每个玩家带来反馈

Example: shooter goalie game 射手门将博弈

对于射手来说,他可以选择向左或者向右射门;对于门将来说,它可以向左或者向右扑救。

收益:如果二者选择了相同的方向,门将完成了一次扑救获得1分,射手丢失1分;否则射手获得1分,门将丢失1分。

收益矩阵

(-1,1) (1,-1)
(1,-1) (-1,1)

矩阵中的每一个元组对应一组反馈,其中第一个数 R i j R_{ij} Rij对应行玩家行动的反馈,第二个数 C i j C_{ij} Cij对应列玩家。

如果在零和博弈中, R + C = 0 R+C=0 R+C=0。

期望收益

每个玩家的期望收益为两位玩家执行某行动的概率和该行动对应的玩家收益乘积的总和,也就是:
V ( p , q ) = p i q j P i j V(p,q) = p_i q_j P_{ij} V(p,q)=piqjPij

其中p是行玩家执行对应动作的概率,q是列玩家对应动作的概率,假设两位玩家行动相互独立。

在零和博弈中, V R + V C = 0 V_R + V_C = 0 VR+VC=0。

Minimax Optimal Strategies 最优策略

任何一个玩家都希望最大化其期望收益,而在零和博弈中,一个玩家的收益增加代表另一个减少等量增益。因此一个玩家会尽量减少另一位玩家的期望收益。那么行玩家的策略期望最小收益可以表示如下:
l b = max ⁡ p min ⁡ q V R ( p , q ) lb = \max_p \min_q V_R(p,q) lb=pmaxqminVR(p,q)

下面我们证明一个规律:
max ⁡ q min ⁡ p V C ( p , q ) = − min ⁡ q max ⁡ p V R ( p , q ) \max_q \min_p V_C(p,q) = -\min_q \max_p V_R(p,q) qmaxpminVC(p,q)=−qminpmaxVR(p,q)

证明如下:
max ⁡ q min ⁡ p V C ( p , q ) = − max ⁡ q min ⁡ p V R ( p , q ) = max ⁡ q ( − max ⁡ p V R ( p , q ) ) = − min ⁡ q m a x p V R ( p , q ) \max_q \min_p V_C(p,q) = -\max_q \min_p V_R(p,q) = \max_q (-\max_p V_R(p,q)) = -\min_q max_p V_R(p,q) qmaxpminVC(p,q)=−qmaxpminVR(p,q)=qmax(−pmaxVR(p,q))=−qminmaxpVR(p,q)

这个规律说明最大化本人最小收益就相当于最小化对手最大收益的相反值。

由此可见,你要最小化你的对手的最大收益,同理你的对手也要最小化你的最小收益。也就是说,你决定你的最小收益,你的对手决定你的最大收益。那么这两个值如何对应呢?

Von Neumann's Minimax Theorem 冯·纽曼定理

在一个有限操作的双方零和博弈中,某玩家的期望收益下界等于期望收益上界。而这个值被称为value of the game

Lower Bounds for Randomized Algorithms 随机算法的下界

随机算法可以看作一个零和博弈,我们可以建立一个行收益矩阵:

  • 每一行对应不同的输入
  • 列对应不同的算法
  • R i , j R_{i,j} Ri,j对应不同的开销(比如,时间复杂度)

一个有最坏情况最优的确定算法是某一个所有对应值都最小的列。

一个有最优期望的随机算法是指一个对应列的分布q使得每行的期望开销都是最小的。

我们刚才提到我们要使得最坏情况最优,也就是
min ⁡ r a n d o m i z e d max ⁡ i n p u t V R ( i , q ) \min_{randomized} \max_{input} V_R(i,q) randomizedmininputmaxVR(i,q)

对此有一个定理陈述如下:假设 A A A是一个基于比较的随机的排序算法,总存在一个输出 I I I使得 A A A的期望比较次数是 Ω ( lg ⁡ n ! ) \Omega(\lg n!) Ω(lgn!)

其证明如下:

  • 假设n个不同数字的排列情况服从均匀分布,我们用一棵树来表示对应不同情况的比较对应的排列:如下图:
  • 那么假设n足够大,在深度 l g ( n ! ) − 10 lg(n!)-10 lg(n!)−10之上的叶子有多少个呢?

≤ 1 + 2 + 4 + ⋯ + 2 lg ⁡ ( n ! ) − 1 ≤ n ! 512 \leq 1+2+4+\cdots + 2^{\lg(n!)-1} \leq \frac{n!}{512} ≤1+2+4+⋯+2lg(n!)−1≤512n!

期望深度就是 > . 99 ( lg ⁡ ( n ! ) − 10 ) >.99(\lg(n!)-10) >.99(lg(n!)−10),因此期望深度就是 Ω ( lg ⁡ ( n ! ) ) \Omega(\lg(n!)) Ω(lg(n!))。

General sum games, Nash quilibria

许多博弈不是零和博弈,存在双赢策略。这种就是非零和博弈

另外,如果在博弈中的参与者都没有动机去单独改变自己的策略(给定其他人的行动),也就是说(p,q)一定是稳定的(为了保证最大期望收益下界),那么这样的一组 ( ( p , 1 − p ) , ( q , 1 − q ) ) ((p,1-p),(q,1-q)) ((p,1−p),(q,1−q))就被称作纳什均衡
纳什定理对纳什均衡的存在做了肯定。纳什定理的内容是:

对于给定有限行动的博弈,总存在一个纳什均衡。

相关推荐
果冻人工智能25 分钟前
2025 年将颠覆商业的 8 大 AI 应用场景
人工智能·ai员工
代码不行的搬运工27 分钟前
神经网络12-Time-Series Transformer (TST)模型
人工智能·神经网络·transformer
VertexGeek28 分钟前
Rust学习(八):异常处理和宏编程:
学习·算法·rust
石小石Orz29 分钟前
Three.js + AI:AI 算法生成 3D 萤火虫飞舞效果~
javascript·人工智能·算法
罗小罗同学35 分钟前
医工交叉入门书籍分享:Transformer模型在机器学习领域的应用|个人观点·24-11-22
深度学习·机器学习·transformer
孤独且没人爱的纸鹤38 分钟前
【深度学习】:从人工神经网络的基础原理到循环神经网络的先进技术,跨越智能算法的关键发展阶段及其未来趋势,探索技术进步与应用挑战
人工智能·python·深度学习·机器学习·ai
阿_旭40 分钟前
TensorFlow构建CNN卷积神经网络模型的基本步骤:数据处理、模型构建、模型训练
人工智能·深度学习·cnn·tensorflow
羊小猪~~41 分钟前
tensorflow案例7--数据增强与测试集, 训练集, 验证集的构建
人工智能·python·深度学习·机器学习·cnn·tensorflow·neo4j
极客代码1 小时前
【Python TensorFlow】进阶指南(续篇三)
开发语言·人工智能·python·深度学习·tensorflow
zhangfeng11331 小时前
pytorch 的交叉熵函数,多分类,二分类
人工智能·pytorch·分类