ppo

陈敬雷-充电了么-CEO兼CTO

强化学习三巨头PK：PPO、GRPO、DPO谁是大模型训练的「王炸」？注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】

人类发明了工具

【强化学习】PPO（Proximal Policy Optimization，近端策略优化）算法PPO（Proximal Policy Optimization，近端策略优化）是强化学习中一种高效、稳定、易于实现的策略梯度方法，属于基于策略的方法。它由 OpenAI 在 2017 年提出，目的是在保持性能的同时简化实现复杂度。

、达西先生

强化学习笔记（5）——PPOPPO视频课程来源首先理解采样期望的转换变量x在p(x)分布下，函数f(x)的期望等于f(x)乘以对应出现概率p(x)的累加经过转换后变成 x在q(x)分布下，f(x)*p(x)/q(x) 的期望。

Apple LLM: 智能基础语言模型（AFM）今天想和大家分享一下我最近在arXiv.org上看到苹果发表的一篇技术论文 Apple Intelligence Foundation Language Models (https://arxiv.org/abs/2407.21075)，概述了他们的模型训练。这虽然出乎意料，但绝对是一个积极的惊喜！

我是陈扣题

使用RKNN在Orange Pi 5 (RK3588s) 上部署推理PPO深度学习模型本博客皆在展示如何在Orange Pi 5 上使用 RKNN C API 使用C语言来进行模型的部署，不设计以及讨论PPO网络的实现以及细节

高颜值的殺生丸

PPO近端策略优化玩cartpole游戏这个难度有些大，有两个policy，一个负责更新策略，另一个负责提供数据，实际这两个policy是一个东西，用policy1跑出一组数据给新的policy2训练，然后policy2跑数据给新的policy3训练，，，，直到policy（N-1）跑数据给新的policyN训练，过程感觉和DQN比较像，但是模型是actor critic 架构，on-policy转换成off-policy，使用剪切策略来限制策略的更新幅度，off-policy的好处是策略更新快，PPO的优化目标是最大化策略的期望回报，同时避免

了解强化学习算法 PPO🍉 CSDN 叶庭云：https://yetingyun.blog.csdn.net/介绍：PPO 算法，即 Proximal Policy Optimization（近端策略优化），是一种强化学习算法。它的主要目的是改进策略梯度方法，使得训练过程更加稳定高效。PPO 算法通过限制策略更新的步长，来避免训练过程中出现的性能剧烈波动，因而在实际应用中取得了广泛的成功。该算法核心的元素包括策略网络、价值网络、目标函数的剪切，以及重要性采样技术。

机器学习——PPO补充今天跟环境互动，并学习是on-policy只是在旁边看，就是Off-policy从p中选q个重要的，需要加一个weight p(x)/q(x)

机器学习：增强式学习Reinforcement learning如何控制你的action收集一些训练数据但不一定是只有两种情况，不是二分类问题，可以采用不同的数字表示不同程度的期待

使用 PPO 算法进行 RLHF 的 N 步实现细节当下，RLHF/ChatGPT 已经变成了一个非常流行的话题。我们正在致力于更多有关 RLHF 的研究，这篇博客尝试复现 OpenAI 在 2019 年开源的原始 RLHF 代码库，其仓库位置位于 openai/lm-human-preferences。尽管它具有 “tensorflow-1.x” 的特性，但 OpenAI 的原始代码库评估和基准测试非常完善，使其成为研究 RLHF 实现工程细节的好地方。