技术栈

大模型后训练

nju_spy
1 天前
人工智能·强化学习·reinforce·ppo·数据异质性·大模型后训练·奖励函数
RL4LLM_Survey 强化学习在大语言模型后训练综述Review of Reinforcement Learning for Large Language Models: Formulations, Algorithms, and Opportunities
InternLM
4 个月前
人工智能·开源·xtuner·书生大模型·大模型训练框架·大模型预训练·大模型后训练
专为“超大模型而生”,新一代训练引擎 XTuner V1 开源!9 月 8 日,上海人工智能实验室(上海AI实验室)开源书生大模型 新一代训练引擎 XTuner V1。
我是有底线的