广义优势估计的推导

总结

广义优势估计是对多步时序差分误差的指数加权平均.

指数加权平均

对于一组数字 计算指数加权平均, 其中i是下标. 那么有

按照下标顺序代入,

多步时序差分误差

分别是t时刻的 一步误差, 两步误差, 三步误差, ... k步误差. 把这些步的误差倒过来代入指数加权公式,就得到了该时刻的GAE.

GAE的计算

考虑t时刻的无穷步误差的指数加权, 有

代入,然后重新拆分得到

可见GAE的递推公式, 可以利用该公式, 从后往前一次性算出所有时刻的GAE.

python 复制代码
    def compute_gae_and_returns(
                            rewards: torch.Tensor, 
                            values: torch.Tensor, 
                            next_values: torch.Tensor, 
                            dones: torch.Tensor, 
                            discount_rate: float, 
                            lambda_gae: float, 
    ) -> Tuple[torch.Tensor, torch.Tensor]:
        advantages = torch.zeros_like(rewards)
        last_advantage = 0.0
        n_steps = len(rewards)

        # 计算GAE
        for t in reversed(range(n_steps)):
            mask = 1.0 - dones[t]
            delta = rewards[t] + discount_rate * next_values[t] * mask - values[t] 
            advantages[t] = delta + discount_rate * lambda_gae * last_advantage * mask
            last_advantage = advantages[t]

        # 返回给critic作为TD目标  
        returns_to_go = advantages + values 
        return advantages, returns_to_go
相关推荐
屁股割了还要学18 分钟前
【C语言进阶】柔性数组
c语言·开发语言·数据结构·c++·学习·算法·柔性数组
草莓熊Lotso18 分钟前
【LeetCode刷题指南】--有效的括号
c语言·数据结构·其他·算法·leetcode·刷题
Alla T27 分钟前
【通识】算法案例
算法
Electrolux30 分钟前
你敢信,不会点算法没准你赛尔号都玩不明白
前端·后端·算法
天天开心(∩_∩)34 分钟前
代码随想录算法训练营第三十一天
算法
qq_513970441 小时前
力扣 hot100 Day55
算法·leetcode
不绝1913 小时前
ARPG开发流程第一章——方法合集
算法·游戏·unity·游戏引擎
Arwen3033 小时前
解密国密 SSL 证书:SM2、SM3、SM4 算法的协同安全效应
算法·安全·ssl
地平线开发者4 小时前
征程 6|工具链部署实用技巧 6:hbm 解析 API 集锦
算法·自动驾驶
nlp研究牲4 小时前
latex中既控制列内容位置又控制列宽,使用>{\centering\arraybackslash}p{0.85cm}
服务器·前端·人工智能·算法·latex