03MARL-联合策略与期望回报

文章目录


前言

多智能体强化学习问题中的博弈论知识------联合策略与期望回报


一、MARL问题组成

二、联合策略与期望回报

定义一种普遍的期望回报,能够用于所有的多智能体与环境的交互模型当中,因此在POSG的环境下定义,定义了两个等式计算期望回报,如下:

1.History-based expected return

在联合策略 π \pi π给定下,智能体i的期望回报为:
U i ( π ) = E h ^ t ∼ ( P r 0 , T , O , π ) [ u i ( h ^ t ) ] = ∑ h ^ t ∈ H ^ Pr ⁡ ( h ^ t ∣ π ) u i ( h ^ t ) \begin{aligned} U_i(\pi)& =\mathbb{E}{\hat{h}^t\sim(\mathrm{Pr}^0,\mathcal{T},\mathcal{O},\pi)}\bigg[u_i(\hat{h}^t)\bigg] \\ &\begin{aligned}=\sum{\hat{h}^t\in\hat{H}}\Pr(\hat{h}^t\mid\pi)u_i(\hat{h}^t)\end{aligned} \end{aligned} Ui(π)=Eh^t∼(Pr0,T,O,π)[ui(h^t)]=h^t∈H^∑Pr(h^t∣π)ui(h^t)

其中,H包含所有时刻的历史观测序列, Pr ⁡ ( h ^ t ∣ π ) \Pr(\hat{h}^t\mid\pi) Pr(h^t∣π)代表给定策略下的所有历史观测的概率, Pr ⁡ ( h ^ t ∣ π ) = Pr ⁡ 0 ( s 0 ) O ( o 0 ∣ ∅ , s 0 ) ∏ τ = 0 t − 1 π ( a τ ∣ h τ ) T ( s τ + 1 ∣ s τ , a τ ) O ( o τ + 1 ∣ a τ , s τ + 1 ) \begin{aligned}\Pr(\hat{h}^t\mid\pi)=&\Pr^0(s^0)\mathcal{O}(o^0\mid\emptyset,s^0)\prod_{\tau=0}^{t-1}\pi(a^\tau\mid h^\tau)\mathcal{T}(s^{\tau+1}\mid s^\tau,a^\tau)\mathcal{O}(o^{\tau+1}\mid a^\tau,s^{\tau+1})\end{aligned} Pr(h^t∣π)=Pr0(s0)O(o0∣∅,s0)τ=0∏t−1π(aτ∣hτ)T(sτ+1∣sτ,aτ)O(oτ+1∣aτ,sτ+1)
u i ( h ^ t ) u_i(\hat{h}^t) ui(h^t)是智能体i在观测序列的折扣回报, u i ( h ^ t ) = ∑ τ = 0 t − 1 γ τ R i ( s τ , a τ , s τ + 1 ) u_i(\hat{h}^t)=\sum_{\tau=0}^{t-1}\gamma^\tau\mathcal{R}i(s^\tau,a^\tau,s^{\tau+1}) ui(h^t)=∑τ=0t−1γτRi(sτ,aτ,sτ+1),使用 π ( a τ ∣ h τ ) \pi(a^\tau\mid h^\tau) π(aτ∣hτ)表示观测序列条件下,联合动作的概率分布,前提的假设是智能体之间的动作是独立的 ,因此 π ( a τ ∣ h τ ) = ∏ j ∈ I π j ( a j τ ∣ h j τ ) \pi(a^\tau\mid h^\tau)=\prod{j\in I}\pi_j(a_j^\tau\mid h_j^\tau) π(aτ∣hτ)=∏j∈Iπj(ajτ∣hjτ)。

2.Recursive expected return

类似于贝尔曼方程的形式定义期望回报,首先定义了联合策略下的状态价值函数与动作价值函数

在这里 V i π ( h ^ ) V_i^\pi(\hat{h}) Viπ(h^)代表智能体i在给定策略下,所有历史序列取得的值,可以当期望回报,而 Q i π ( h ^ , a ) Q_i^\pi(\hat{h},a) Qiπ(h^,a)代表智能体i根据观测序列,在给定策略下,采取的联合动作带来的即使收益,进一步可以将回报期望写为: U i ( π ) = E s 0 ∼ P r 0 , o 0 ∼ O ( ⋅ ∣ ∅ , s 0 ) [ V i π ( ⟨ s 0 , o 0 ⟩ ) ] U_i(\pi){=}\mathbb{E}_{s^0\sim\mathrm{Pr}^0,o^0\sim\mathcal{O}(\cdot|\emptyset,s^0)}[V_i^\pi(\langle s^0,o^0\rangle)] Ui(π)=Es0∼Pr0,o0∼O(⋅∣∅,s0)[Viπ(⟨s0,o0⟩)]

相关推荐
AI完全体7 分钟前
【AI知识点】偏差-方差权衡(Bias-Variance Tradeoff)
人工智能·深度学习·神经网络·机器学习·过拟合·模型复杂度·偏差-方差
GZ_TOGOGO19 分钟前
【2024最新】华为HCIE认证考试流程
大数据·人工智能·网络协议·网络安全·华为
sp_fyf_202419 分钟前
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-02
人工智能·神经网络·算法·计算机视觉·语言模型·自然语言处理·数据挖掘
新缸中之脑21 分钟前
Ollama 运行视觉语言模型LLaVA
人工智能·语言模型·自然语言处理
胡耀超1 小时前
知识图谱入门——3:工具分类与对比(知识建模工具:Protégé、 知识抽取工具:DeepDive、知识存储工具:Neo4j)
人工智能·知识图谱
陈苏同学1 小时前
4. 将pycharm本地项目同步到(Linux)服务器上——深度学习·科研实践·从0到1
linux·服务器·ide·人工智能·python·深度学习·pycharm
吾名招财1 小时前
yolov5-7.0模型DNN加载函数及参数详解(重要)
c++·人工智能·yolo·dnn
羊小猪~~2 小时前
深度学习项目----用LSTM模型预测股价(包含LSTM网络简介,代码数据均可下载)
pytorch·python·rnn·深度学习·机器学习·数据分析·lstm
我是哈哈hh2 小时前
专题十_穷举vs暴搜vs深搜vs回溯vs剪枝_二叉树的深度优先搜索_算法专题详细总结
服务器·数据结构·c++·算法·机器学习·深度优先·剪枝
鼠鼠龙年发大财2 小时前
【鼠鼠学AI代码合集#7】概率
人工智能