reflexion - reflexion技术,学习,经验文章

蜂蜜黄油呀土豆

1 个月前

Reflexion：让 Agent 用「言语」做强化学习传统强化学习的修复路径是：但生产 Agent 不可能为每次失败都备一份训练预算。Shinn 等人在论文 arXiv:2303.11366 里换了个问法：