旅游智能体 - 旅游智能体技术,学习,经验文章

威化饼的一隅

2 个月前

【大模型LLM学习】Agentic RL—基于Qwen3-4b训练Travel Planning Agent通义千问的deepresearch系列最新的一篇，高德公开了旅行规划助手的训练方法，论文为《ArenaRL: Scaling RL for Open-Ended Agents via Tournament based Relative Ranking》，并且这种方法不只是可以用于旅行规划助手，还可以扩展到其他Open-ended生成任务，解决开放生成任务里面llm-as-judge打分太随机把奖励信号淹没的问题。在这篇中记录尝试训练本地的旅行规划助手，需要使用到高德的地理API接口，阿里百炼的Qwe