技术栈
大模型后训练
nju_spy
1 天前
人工智能
·
强化学习
·
reinforce
·
ppo
·
数据异质性
·
大模型后训练
·
奖励函数
RL4LLM_Survey 强化学习在大语言模型后训练综述
Review of Reinforcement Learning for Large Language Models: Formulations, Algorithms, and Opportunities
InternLM
4 个月前
人工智能
·
开源
·
xtuner
·
书生大模型
·
大模型训练框架
·
大模型预训练
·
大模型后训练
专为“超大模型而生”,新一代训练引擎 XTuner V1 开源!
9 月 8 日,上海人工智能实验室(上海AI实验室)开源书生大模型 新一代训练引擎 XTuner V1。
我是有底线的