TRL 正式推出,来训练你的首个 RLHF 模型吧!

我们正式向大家介绍 TRL------Transformer Reinforcement Learning。这是一个超全面的全栈库,包含了一整套工具用于使用强化学习 (Reinforcement Learning) 训练 transformer 语言模型。从监督调优 (Supervised Fine-tuning step, SFT),到训练奖励模型 (Reward Modeling),再到近端策略优化 (Proximal Policy Optimization),实现了全面覆盖!并且 TRL 库已经与 🤗 transformers 集成,方便你直接使用!

👉 文档地址在这里 hf.co/docs/trl/

小编带大家简单看看 API 文档里各个部分对应了什么需求:

  • Model Class: 涵盖了每个公开模型各自用途的概述
  • SFTTrainer: 帮助你使用 SFTTrainer 实现模型监督调优
  • RewardTrainer: 帮助你使用 RewardTrainer 训练奖励模型
  • PPOTrainer: 使用 PPO 算法进一步对经过监督调优的模型再调优
  • Best-of-N Samppling: 将"拔萃法"作为从模型的预测中采样的替代方法
  • DPOTrainer: 帮助你使用 DPOTrainer 完成直接偏好优化

文档中还给出了几个例子供 🤗 宝子们参考:

  • Sentiment Tuning: 调优模型以生成更积极的电影内容
  • Training with PEFT: 执行由 PEFT 适配器优化内存效率的 RLHF 训练
  • Detoxifying LLMs: 通过 RLHF 为模型解毒,使其更符合人类的价值观
  • StackLlama: 在 Stack exchange 数据集上实现端到端 RLHF 训练一个 Llama 模型
  • Multi-Adapter Training: 使用单一模型和多适配器实现优化内存效率的端到端训练

👉 宝子们快行动起来,训练你的第一个 RLHF 模型吧!github.com/huggingface...

相关推荐
格林威12 小时前
Baumer相机金属弹簧圈数自动计数:用于来料快速检验的 6 个核心算法,附 OpenCV+Halcon 实战代码!
人工智能·数码相机·opencv·算法·计算机视觉·视觉检测·堡盟相机
万行12 小时前
SQL进阶&索引篇
开发语言·数据库·人工智能·sql
名字不好奇12 小时前
一文拆解MCP协议
人工智能·mcp
乾元12 小时前
拒绝服务的进化:AI 调度下的分布式协同攻击策略
人工智能·分布式
困死,根本不会12 小时前
OpenCV摄像头实时处理:从单特征到联合识别(形状识别 + 颜色识别 + 形状颜色联合识别)
人工智能·opencv·计算机视觉
工具人呵呵12 小时前
[嵌入式AI从0开始到入土]22_基于昇腾310P RC模式的ACT模型部署实践
人工智能
yj_sharing12 小时前
PyTorch深度学习实战:从模型构建到训练技巧
人工智能·pytorch·深度学习
安全二次方security²12 小时前
CUDA C++编程指南(7.31&32&33&34)——C++语言扩展之性能分析计数器函数和断言、陷阱、断点函数
c++·人工智能·nvidia·cuda·断点·断言·性能分析计数器函数
bksheng12 小时前
【Dify】安装与部署
人工智能
狸奴算君12 小时前
告别数据泄露:三步构建企业级AI的隐私保护盾
人工智能