技术栈

rlaihf

阿杰学AI
3 小时前
人工智能·深度学习·ai·语言模型·aigc·rlaihf·基于ai反馈的强化学习
AI核心知识85——大语言模型之 RLAIF(简洁且通俗易懂版)RLAIF 是 Reinforcement Learning from AI Feedback(基于 AI 反馈的强化学习)的缩写。
我是有底线的