技术栈

动态代码生成

还是码字踏实
5 小时前
aworld train·会构建agent的人不会训练·零代码对接 rl 框架·自进化闭环·动态代码生成·aworldagentloop·gaia 奖励函数
开源项目解读:AWorld Train,智能体强化学习训练框架深度剖析在 LLM Agent 领域,当前存在一个巨大的鸿沟:研究人员可以用 VeRL、TRL 等框架训练 LLM,但这些框架对"Agent 行为"的感知几乎为零。它们只知道 token 序列,不知道什么是"工具调用"、什么是"多轮对话"、什么是"任务完成"。
我是有底线的