技术栈

旅游智能体

威化饼的一隅
1 天前
大模型·llm·agent·强化学习·智能体·agentic rl·旅游智能体
【大模型LLM学习】Agentic RL—基于Qwen3-4b训练Travel Planning Agent通义千问的deepresearch系列最新的一篇,高德公开了旅行规划助手的训练方法,论文为《ArenaRL: Scaling RL for Open-Ended Agents via Tournament based Relative Ranking》,并且这种方法不只是可以用于旅行规划助手,还可以扩展到其他Open-ended生成任务,解决开放生成任务里面llm-as-judge打分太随机把奖励信号淹没的问题。   在这篇中记录尝试训练本地的旅行规划助手,需要使用到高德的地理API接口,阿里百炼的Qwe
我是有底线的