【大模型LLM学习】天池Deep Research Agent开发赛

前言

  • 运气不错,这次压线前10,不过和top还是有差距的
  • 数据包括问题和答案可以在比赛官网获取,包括初赛的100题和复赛100题。赛题为输入query输出answer,通过搭建Search Agent,分解问题、多跳搜索识别线索,找到最佳答案,并用题目要求的规范格式进行回答,题目和答案例如
python 复制代码
"question": "一位物理学领域的学者为一种经典棋盘游戏设计的评分系统,后来被一家北美游戏公司广泛应用于其一款多人在线战术竞技游戏中。这家公司的母公司是一家亚洲科技巨头,该巨头在21世纪10年代完成了对前者的全资收购,并涉足量子计算等前沿科技领域。在这家北美公司开发的另一款第一人称射击游戏中,有一件适合近距离作战的武器,其名称与上述亚洲巨头代理发行的一款格斗手游中的一名在登场角色中年龄偏大的武术教官角色相同。这款格斗手游的名字是什么?"
"answer": "魂武者"
  • 答案规则:赛题的答案,如果是实体,取名顺序为百度百科>英文wiki>中文wiki,没有特殊说明情况下,答案语言和题目语言一致
  • 可以参考的解决方案:阿里的deepresearch
  • 比赛限制为,LLM上只能使用阿里的大模型API,禁止微调模型。可以使用Google/bing/阿里IQS等web search(网络搜索api的普通搜索模式)和jina,禁止调用Tavily的websearch;每个问题总时长要求10分钟以内

方案

  • 链接:https://github.com/DXWEIE/tianchi_deepresearch_agent
  • 架构:ReACT + Best of N
  • 搜索引擎:中文使用DDGS、阿里IQS;英文在此基础上使用google;同时如果触发了wiki搜索,分别使用wikipedia和阿里IQS(搜"xxx 百度百科")

经验记录

  • 先把最简单的react跑通,然后再尝试提升效果
  • qwen3.5的效果一般,速度也比较慢,优先使用qwen3-max>qwen3.5>qwen3-plus
  • 先提升单个链路的能力,最后再尝试并发多rollout然后merge结果取best的
  • 后续等看完top的代码更~
相关推荐
名不经传的养虾人1 天前
从0到1:企业级AI项目迭代日记 Vol.29|自然语言变工作流:Agent 自动拼装子图的实现路径
人工智能·agent·ai编程·工作流·ai创业·企业ai
Artech1 天前
[对比学习LangChain和MAF-02]基本编程模式的差异(下篇)
ai·langchain·agent·maf
Terrence Shen1 天前
Agent面试八股文(系列之三)
人工智能·大模型·agent·rag·智能体·大模型技术
星浩AI1 天前
OpenHuman 对比 OpenClaw、Hermes Agent
人工智能·后端·agent
绵满1 天前
"Sample Is Feature: Beyond Item-Level, Toward Sample-Level Tokens for Unified Large Recommender Models" 论文笔记
大模型·推荐系统
QC·Rex1 天前
12-Factor Agents:2026 年生产级 LLM 软件工程方法论深度解析
agent
山屿落星辰1 天前
昇腾NPU上的FlashAttention:让大模型“算得快“又“记得准“
大模型
花椒技术1 天前
低代码平台接入 Agent 后,我们踩到的组件、上下文和追问坑
前端·人工智能·agent
阿里云云原生1 天前
【5.29北京】智驭运维,Agentic Ops可观测工作坊限时报名!
云原生·agent
AI绘画哇哒哒2 天前
Agent三种思考模式深度解析:CoT/ReAct/Plan-and-Execute,小白程序员必看,助你轻松掌握大模型精髓(收藏版)
人工智能·学习·ai·程序员·大模型·产品经理·转行