技术栈
奖励函数
nju_spy
22 天前
人工智能
·
强化学习
·
reinforce
·
ppo
·
数据异质性
·
大模型后训练
·
奖励函数
RL4LLM_Survey 强化学习在大语言模型后训练综述
Review of Reinforcement Learning for Large Language Models: Formulations, Algorithms, and Opportunities
山顶夕景
3 个月前
llm
·
强化学习
·
rl
·
奖励函数
·
reward
【RLVR】GRPO中奖励函数的设计逻辑
1、DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 奖励函数:
我是有底线的