技术栈

reflexion

蜂蜜黄油呀土豆
2 小时前
python·ai·大模型·reflexion
Reflexion:让 Agent 用「言语」做强化学习传统强化学习的修复路径是:但生产 Agent 不可能为每次失败都备一份训练预算。Shinn 等人在论文 arXiv:2303.11366 里换了个问法:
我是有底线的