技术栈
reflexion
蜂蜜黄油呀土豆
2 小时前
python
·
ai
·
大模型
·
reflexion
Reflexion:让 Agent 用「言语」做强化学习
传统强化学习的修复路径是:但生产 Agent 不可能为每次失败都备一份训练预算。Shinn 等人在论文 arXiv:2303.11366 里换了个问法:
我是有底线的