技术栈
偏好对齐
v_JULY_v
3 个月前
偏好对齐
·
grape
·
rlhf微调vla
·
机器人策略泛化
·
24年具身模型汇总
GRAPE——RLHF微调VLA模型:通过偏好对齐提升机器人策略的泛化能力(含24年具身模型汇总)
过去的这两年,工作之余,我狂写大模型与具身的文章,加之具身大火,每周都有各种朋友通过CSDN私我及我司「七月在线」寻求帮助/指导(当然,也欢迎各大开发团队与我司合作共同交付):
BQW_
3 个月前
llm
·
强化学习
·
rlhf
·
偏好对齐
·
o1模型
【偏好对齐】PRM应该奖励单个步骤的正确性吗?
论文地址:《Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning》
BQW_
1 年前
自然语言处理
·
大模型
·
llm
·
rlhf
·
偏好对齐
【自然语言处理】【大模型】 ΨPO:一个理解人类偏好学习的统一理论框架
论文地址:https://arxiv.org/pdf/2310.12036.pdf相关博客 【自然语言处理】【大模型】 ΨPO:一个理解人类偏好学习的统一理论框架 【强化学习】PPO:近端策略优化算法