机器学习——PPO补充

On-policy vs Off-policy

  • 今天跟环境互动,并学习是on-policy

  • 只是在旁边看,就是Off-policy

  • 从p中选q个重要的,需要加一个weight p(x)/q(x)

  • p和q不能相差太多

  • 采样数太少导致分布差很多,导致weight发生变化

On-Policy -> Off-Policy


得到新的loss函数

PPO

  • 衡量 θ \theta θ和 θ ′ \theta' θ′之间的kl散度,衡量二者行为上的相似性,而不是参数上的相似性
  • Adaptive KL Penalty
  • 绿色的线是第一项,蓝色是第二项
相关推荐
Robot侠16 小时前
ROS1从入门到精通 8:Launch文件编写(多节点协同管理)
人工智能·机器学习·机器人·ros·机器人操作系统
Blossom.11816 小时前
知识图谱与大模型融合实战:基于GNN+RAG的企业级智能问答系统
人工智能·python·深度学习·神经网络·微服务·重构·知识图谱
十铭忘16 小时前
SAM2跟踪的理解12——mask decoder
人工智能·计算机视觉
PS12323216 小时前
隔爆型防爆压力变送器的多信号输出优势
大数据·人工智能
人工智能培训16 小时前
国内外知名大模型及应用
人工智能·深度学习·神经网络·大模型·dnn·ai大模型·具身智能
bryant_meng16 小时前
【GA-Net】《GA-Net: Guided Aggregation Net for End-to-end Stereo Matching》
人工智能·深度学习·计算机视觉·立体匹配·ganet
爱学习的张大16 小时前
如何选择正确版本的CUDA和PyTorch安装
人工智能·pytorch·python
serve the people16 小时前
TensorFlow 2.0 手写数字分类教程之SparseCategoricalCrossentropy 核心原理(二)
人工智能·分类·tensorflow
大千AI助手16 小时前
DeepSeek V3.2 技术解读:一次不靠“堆参数”的模型升级
人工智能·机器学习·agent·dsa·deepseek·deepseek-v3.2·大千ai助手
十铭忘16 小时前
SAM2跟踪的理解13——mask decoder
人工智能·深度学习