技术栈

奖励函数

nju_spy
22 天前
人工智能·强化学习·reinforce·ppo·数据异质性·大模型后训练·奖励函数
RL4LLM_Survey 强化学习在大语言模型后训练综述Review of Reinforcement Learning for Large Language Models: Formulations, Algorithms, and Opportunities
山顶夕景
3 个月前
llm·强化学习·rl·奖励函数·reward
【RLVR】GRPO中奖励函数的设计逻辑1、DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 奖励函数:
我是有底线的