技术栈
πrl
一颗小树x
5 小时前
微调
·
强化学习
·
vla
·
流匹配
·
πrl
【VLA 系列】 πRL | 在线强化学习 | 流匹配 | VLA
πRL是一款在线强化学习的VLA框架,适配π0、π0.5等基于流的VLA模型。核心解决 “对数似然计算难” 和 “探索性不足” 两大问题:
我是有底线的