技术栈
奖励函数
山顶夕景
3 小时前
llm
·
强化学习
·
rl
·
奖励函数
·
reward
【RLVR】GRPO中奖励函数的设计逻辑
1、DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 奖励函数:
我是有底线的