【大模型LLM学习】天池Deep Research Agent开发赛

威化饼的一隅2026-03-21 11:24

前言

运气不错，这次压线前10，不过和top还是有差距的
数据包括问题和答案可以在比赛官网获取，包括初赛的100题和复赛100题。赛题为输入query输出answer，通过搭建Search Agent，分解问题、多跳搜索识别线索，找到最佳答案，并用题目要求的规范格式进行回答，题目和答案例如

python 复制代码

"question": "一位物理学领域的学者为一种经典棋盘游戏设计的评分系统，后来被一家北美游戏公司广泛应用于其一款多人在线战术竞技游戏中。这家公司的母公司是一家亚洲科技巨头，该巨头在21世纪10年代完成了对前者的全资收购，并涉足量子计算等前沿科技领域。在这家北美公司开发的另一款第一人称射击游戏中，有一件适合近距离作战的武器，其名称与上述亚洲巨头代理发行的一款格斗手游中的一名在登场角色中年龄偏大的武术教官角色相同。这款格斗手游的名字是什么？"
"answer": "魂武者"

答案规则：赛题的答案，如果是实体，取名顺序为百度百科>英文wiki>中文wiki，没有特殊说明情况下，答案语言和题目语言一致
可以参考的解决方案：阿里的deepresearch
比赛限制为，LLM上只能使用阿里的大模型API，禁止微调模型。可以使用Google/bing/阿里IQS等web search（网络搜索api的普通搜索模式）和jina，禁止调用Tavily的websearch；每个问题总时长要求10分钟以内

方案

链接：https://github.com/DXWEIE/tianchi_deepresearch_agent
架构：ReACT + Best of N
搜索引擎：中文使用DDGS、阿里IQS；英文在此基础上使用google；同时如果触发了wiki搜索，分别使用wikipedia和阿里IQS(搜"xxx 百度百科")

经验记录

先把最简单的react跑通，然后再尝试提升效果
qwen3.5的效果一般，速度也比较慢，优先使用qwen3-max>qwen3.5>qwen3-plus
先提升单个链路的能力，最后再尝试并发多rollout然后merge结果取best的
后续等看完top的代码更～

上一篇：超越“回答”，AI Agent迎来全链路安全治理挑战

下一篇：windows网络代理设置终端

热门推荐

012026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？022026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 03GitHub 镜像站点 042026 年 AI 大模型 & AI 编程工具实战全总结 05AI科技热点日报 | 2026年07月01日 06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07【AI】2026 年具身智能模型和世界模型总结 082026 AI 编程工具选型横评：Cursor / Claude Code / Trae / Copilot 到底选谁（建议收藏·避坑版）09Claude Code、Codex、Cursor三分天下：2026年AI编程Agent生态全景剖析 102026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片