大数据机器学习算法和计算机视觉应用01:博弈论基础

Game Theory

  • 2-player Zero Sum Game
  • Minimax Optimal Strategies
  • Von Neumann's Minimax Theorem
  • Lower Bounds for Randomized Algorithms
  • General sum games, Nash quilibria

(p.s:该系列是国际交流学术公开课的笔记,主讲人是Carnegie Melon University的终身教授David P. Woodruff.

2-Player Zero sum Game 二人零和博弈

一个博弈包括以下要素:

  • 参与者,称为玩家
  • 每个玩家都有一组选择,称为动作。
  • 不同玩家的联合动作会给每个玩家带来反馈

Example: shooter goalie game 射手门将博弈

对于射手来说,他可以选择向左或者向右射门;对于门将来说,它可以向左或者向右扑救。

收益:如果二者选择了相同的方向,门将完成了一次扑救获得1分,射手丢失1分;否则射手获得1分,门将丢失1分。

收益矩阵

(-1,1) (1,-1)
(1,-1) (-1,1)

矩阵中的每一个元组对应一组反馈,其中第一个数 R i j R_{ij} Rij对应行玩家行动的反馈,第二个数 C i j C_{ij} Cij对应列玩家。

如果在零和博弈中, R + C = 0 R+C=0 R+C=0。

期望收益

每个玩家的期望收益为两位玩家执行某行动的概率和该行动对应的玩家收益乘积的总和,也就是:
V ( p , q ) = p i q j P i j V(p,q) = p_i q_j P_{ij} V(p,q)=piqjPij

其中p是行玩家执行对应动作的概率,q是列玩家对应动作的概率,假设两位玩家行动相互独立。

在零和博弈中, V R + V C = 0 V_R + V_C = 0 VR+VC=0。

Minimax Optimal Strategies 最优策略

任何一个玩家都希望最大化其期望收益,而在零和博弈中,一个玩家的收益增加代表另一个减少等量增益。因此一个玩家会尽量减少另一位玩家的期望收益。那么行玩家的策略期望最小收益可以表示如下:
l b = max ⁡ p min ⁡ q V R ( p , q ) lb = \max_p \min_q V_R(p,q) lb=pmaxqminVR(p,q)

下面我们证明一个规律:
max ⁡ q min ⁡ p V C ( p , q ) = − min ⁡ q max ⁡ p V R ( p , q ) \max_q \min_p V_C(p,q) = -\min_q \max_p V_R(p,q) qmaxpminVC(p,q)=−qminpmaxVR(p,q)

证明如下:
max ⁡ q min ⁡ p V C ( p , q ) = − max ⁡ q min ⁡ p V R ( p , q ) = max ⁡ q ( − max ⁡ p V R ( p , q ) ) = − min ⁡ q m a x p V R ( p , q ) \max_q \min_p V_C(p,q) = -\max_q \min_p V_R(p,q) = \max_q (-\max_p V_R(p,q)) = -\min_q max_p V_R(p,q) qmaxpminVC(p,q)=−qmaxpminVR(p,q)=qmax(−pmaxVR(p,q))=−qminmaxpVR(p,q)

这个规律说明最大化本人最小收益就相当于最小化对手最大收益的相反值。

由此可见,你要最小化你的对手的最大收益,同理你的对手也要最小化你的最小收益。也就是说,你决定你的最小收益,你的对手决定你的最大收益。那么这两个值如何对应呢?

Von Neumann's Minimax Theorem 冯·纽曼定理

在一个有限操作的双方零和博弈中,某玩家的期望收益下界等于期望收益上界。而这个值被称为value of the game

Lower Bounds for Randomized Algorithms 随机算法的下界

随机算法可以看作一个零和博弈,我们可以建立一个行收益矩阵:

  • 每一行对应不同的输入
  • 列对应不同的算法
  • R i , j R_{i,j} Ri,j对应不同的开销(比如,时间复杂度)

一个有最坏情况最优的确定算法是某一个所有对应值都最小的列。

一个有最优期望的随机算法是指一个对应列的分布q使得每行的期望开销都是最小的。

我们刚才提到我们要使得最坏情况最优,也就是
min ⁡ r a n d o m i z e d max ⁡ i n p u t V R ( i , q ) \min_{randomized} \max_{input} V_R(i,q) randomizedmininputmaxVR(i,q)

对此有一个定理陈述如下:假设 A A A是一个基于比较的随机的排序算法,总存在一个输出 I I I使得 A A A的期望比较次数是 Ω ( lg ⁡ n ! ) \Omega(\lg n!) Ω(lgn!)

其证明如下:

  • 假设n个不同数字的排列情况服从均匀分布,我们用一棵树来表示对应不同情况的比较对应的排列:如下图:
  • 那么假设n足够大,在深度 l g ( n ! ) − 10 lg(n!)-10 lg(n!)−10之上的叶子有多少个呢?

≤ 1 + 2 + 4 + ⋯ + 2 lg ⁡ ( n ! ) − 1 ≤ n ! 512 \leq 1+2+4+\cdots + 2^{\lg(n!)-1} \leq \frac{n!}{512} ≤1+2+4+⋯+2lg(n!)−1≤512n!

期望深度就是 > . 99 ( lg ⁡ ( n ! ) − 10 ) >.99(\lg(n!)-10) >.99(lg(n!)−10),因此期望深度就是 Ω ( lg ⁡ ( n ! ) ) \Omega(\lg(n!)) Ω(lg(n!))。

General sum games, Nash quilibria

许多博弈不是零和博弈,存在双赢策略。这种就是非零和博弈

另外,如果在博弈中的参与者都没有动机去单独改变自己的策略(给定其他人的行动),也就是说(p,q)一定是稳定的(为了保证最大期望收益下界),那么这样的一组 ( ( p , 1 − p ) , ( q , 1 − q ) ) ((p,1-p),(q,1-q)) ((p,1−p),(q,1−q))就被称作纳什均衡
纳什定理对纳什均衡的存在做了肯定。纳什定理的内容是:

对于给定有限行动的博弈,总存在一个纳什均衡。

相关推荐
qq_529025299 分钟前
Torch.gather
python·深度学习·机器学习
XiaoLeisj22 分钟前
【递归,搜索与回溯算法 & 综合练习】深入理解暴搜决策树:递归,搜索与回溯算法综合小专题(二)
数据结构·算法·leetcode·决策树·深度优先·剪枝
IT古董42 分钟前
【漫话机器学习系列】017.大O算法(Big-O Notation)
人工智能·机器学习
Jasmine_llq42 分钟前
《 火星人 》
算法·青少年编程·c#
凯哥是个大帅比42 分钟前
人工智能ACA(五)--深度学习基础
人工智能·深度学习
闻缺陷则喜何志丹1 小时前
【C++动态规划 图论】3243. 新增道路查询后的最短距离 I|1567
c++·算法·动态规划·力扣·图论·最短路·路径
m0_748232921 小时前
DALL-M:基于大语言模型的上下文感知临床数据增强方法 ,补充
人工智能·语言模型·自然语言处理
szxinmai主板定制专家1 小时前
【国产NI替代】基于FPGA的32通道(24bits)高精度终端采集核心板卡
大数据·人工智能·fpga开发
海棠AI实验室1 小时前
AI的进阶之路:从机器学习到深度学习的演变(三)
人工智能·深度学习·机器学习