技术栈

偏好对齐

v_JULY_v
5 个月前
偏好对齐·grape·rlhf微调vla·机器人策略泛化·24年具身模型汇总
GRAPE——RLHF微调VLA模型:通过偏好对齐提升机器人策略的泛化能力(含24年具身模型汇总)过去的这两年,工作之余,我狂写大模型与具身的文章,加之具身大火,每周都有各种朋友通过CSDN私我及我司「七月在线」寻求帮助/指导(当然,也欢迎各大开发团队与我司合作共同交付):
BQW_
5 个月前
llm·强化学习·rlhf·偏好对齐·o1模型
【偏好对齐】PRM应该奖励单个步骤的正确性吗?论文地址:《Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning》
BQW_
1 年前
自然语言处理·大模型·llm·rlhf·偏好对齐
【自然语言处理】【大模型】 ΨPO:一个理解人类偏好学习的统一理论框架论文地址:https://arxiv.org/pdf/2310.12036.pdf相关博客 【自然语言处理】【大模型】 ΨPO:一个理解人类偏好学习的统一理论框架 【强化学习】PPO:近端策略优化算法