技术栈

奖励函数

山顶夕景
3 小时前
llm·强化学习·rl·奖励函数·reward
【RLVR】GRPO中奖励函数的设计逻辑1、DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 奖励函数:
我是有底线的