技术栈
奖励模型
汀、人工智能
1 年前
人工智能
·
语言模型
·
自然语言处理
·
llm
·
强化学习
·
奖励模型
·
深度强化学习
精进语言模型:探索LLM Training微调与奖励模型技术的新途径
LLMs Trainer 是一个旨在帮助人们从零开始训练大模型的仓库,该仓库最早参考自 Open-Llama,并在其基础上进行扩充。