TRL 正式推出,来训练你的首个 RLHF 模型吧!

我们正式向大家介绍 TRL------Transformer Reinforcement Learning。这是一个超全面的全栈库,包含了一整套工具用于使用强化学习 (Reinforcement Learning) 训练 transformer 语言模型。从监督调优 (Supervised Fine-tuning step, SFT),到训练奖励模型 (Reward Modeling),再到近端策略优化 (Proximal Policy Optimization),实现了全面覆盖!并且 TRL 库已经与 🤗 transformers 集成,方便你直接使用!

👉 文档地址在这里 hf.co/docs/trl/

小编带大家简单看看 API 文档里各个部分对应了什么需求:

  • Model Class: 涵盖了每个公开模型各自用途的概述
  • SFTTrainer: 帮助你使用 SFTTrainer 实现模型监督调优
  • RewardTrainer: 帮助你使用 RewardTrainer 训练奖励模型
  • PPOTrainer: 使用 PPO 算法进一步对经过监督调优的模型再调优
  • Best-of-N Samppling: 将"拔萃法"作为从模型的预测中采样的替代方法
  • DPOTrainer: 帮助你使用 DPOTrainer 完成直接偏好优化

文档中还给出了几个例子供 🤗 宝子们参考:

  • Sentiment Tuning: 调优模型以生成更积极的电影内容
  • Training with PEFT: 执行由 PEFT 适配器优化内存效率的 RLHF 训练
  • Detoxifying LLMs: 通过 RLHF 为模型解毒,使其更符合人类的价值观
  • StackLlama: 在 Stack exchange 数据集上实现端到端 RLHF 训练一个 Llama 模型
  • Multi-Adapter Training: 使用单一模型和多适配器实现优化内存效率的端到端训练

👉 宝子们快行动起来,训练你的第一个 RLHF 模型吧!github.com/huggingface...

相关推荐
nnerddboy3 分钟前
预测模型及超参数:1.传统机器学习:SVR与KNN
人工智能·机器学习
春末的南方城市29 分钟前
统一虚拟试穿框架OmniTry:突破服装局限,实现多品类可穿戴物品虚拟试穿无蒙版新跨越。
人工智能·深度学习·机器学习·计算机视觉·aigc
aneasystone本尊31 分钟前
GraphRAG 索引构建之文档处理
人工智能
用户51914958484532 分钟前
HTTP/3/QUIC TLS密码套件配置错误漏洞分析
人工智能·aigc
thesky12345633 分钟前
camel agent
大数据·人工智能·深度学习·智能体
苏三福34 分钟前
ffmpeg+opencv交叉编译
人工智能·opencv·ffmpeg
鱼香l肉丝34 分钟前
第五章-工具调用
人工智能
新手村-小钻风35 分钟前
AI-Agent 深度科普:从概念到架构、应用与未来趋势
大数据·人工智能
Baihai_IDP36 分钟前
构建 AI 智能体的实用开源技术栈(框架、计算机与浏览器操控、语音功能、文档理解...)
人工智能·面试·开源
mit6.82437 分钟前
[Sync_ai_vid] 唇形同步评判器 | 图像与视频处理器 | GPU测试
人工智能·python