技术栈
基于ai反馈的强化学习
阿杰学AI
3 小时前
人工智能
·
深度学习
·
ai
·
语言模型
·
aigc
·
rlaihf
·
基于ai反馈的强化学习
AI核心知识85——大语言模型之 RLAIF(简洁且通俗易懂版)
RLAIF 是 Reinforcement Learning from AI Feedback(基于 AI 反馈的强化学习)的缩写。
我是有底线的