【MLLM】GraphWalker:Deepresearch用于图像生成

note

  • 思路是用于图像生成的多模态深度搜索智能体,进行多跳推理与搜索,以获取图像生成所需的文本知识和参考图像,结论是在KnowGen上使Qwen-Image性能提高约16分,在WISE上提高约15分。
  • 这也是一种应用型的工作,本质还是在做图片生成方向的上下文扩充,优化prompt和参考图片。

文章目录

一、GraphWalker:Deepresearch用于图像生成

【Deepresearch用于图像生成思路】思路是用于图像生成的多模态深度搜索智能体,进行多跳推理与搜索,以获取图像生成所需的文本知识和参考图像,结论是在KnowGen上使Qwen-Image性能提高约16分,在WISE上提高约15分。GraphWalker: Agentic Knowledge Graph Question Answer-ing via Synthetic Trajectory Curriculum,https://arxiv.org/pdf/2603.28533,https://gen-searcher.verce,

1)实现思路:

  • 三类工具:
    • search【网络文本搜索,获取事实信息】
    • image_search【图像检索,获取视觉特征参考】
    • browse【网页精读,提取深层证据】;
  • 两阶段训练:
    • SFT监督微调【在Gen‑Searcher‑SFT‑10k训练,掌握基础工具使用】
    • AgenticRL强化学习【用GRPO优化搜索轨迹,仅用图像奖励受生成器能力与随机性影响,方差大、不稳定,仅用文本奖励忽略信息对图像生成的实际价值,所以用双奖励机制:最终奖励R=(1−α)R_image+αR_text,α=0.5。
      • 文本奖励评估信息完整性
      • 图像奖励用K‑Score加权评分(忠实度0.1+视觉正确性0.4+文本准确性0.4+美学0.1)】;

2)数据合成思路:

Agent轨迹合成【search用于从网络中检索文本信息,image_search用于通过文本查询搜索相关图像,以及browse用于阅读和分析已检索网页的详细内容。在此过程中,智能体持续分析来自环境的文本和视觉反馈,识别出有用的证据和参考图像,并据此规划下一步动作。通过这一多轮推理与搜索流程,智能体逐步从多个来源聚合信息,最终生成一个基于证据的提示以及一组适用于图像合成的相关参考图像】

->图像生成【在获得最终的有根据提示和视觉参考后,使用专有的图像生成模型NanoBananaPro合成相应的图像】;

->数据过滤【使用Seed1.8从多个角度对生成的样本进行评分,包括提示是否真正需要搜索、生成内容的正确性、与提示的一致性、视觉美感、文本渲染清晰度以及安全考虑。与基于规则的过滤相结合,例如移除token长度过长或搜索结果不一致的提示】。

Reference

1\] GraphWalker: Agentic Knowledge Graph Question Answer-ing via Synthetic Trajectory Curriculum,https://arxiv.org/pdf/2603.28533,https://gen-searcher.verce,

相关推荐
赢乐2 小时前
AI大模型学习笔记:LangChain核心组件-工具(Tools)
langchain·大模型·agent·function_call·工具(tools)·tool装饰器·定义工具
顾道长生'4 小时前
CVPR 2026 | 当LoRA遇上RoPE! WaDi:面向单步图像生成的权重方向感知蒸馏
图像生成·一步生成·扩散模型加速
deephub6 小时前
2026 年面向 LLM 的 RL方法总结:从 PPO 到 DPO 到 GRPO,再到多智能体 RL
人工智能·大语言模型·强化学习·多智能体
Robot_Nav16 小时前
深度学习与强化学习面试八股文知识点汇总
人工智能·深度学习·强化学习
前端小超人rui1 天前
Prompt 提示词原理/组成/编写原则/编写技巧
人工智能·大模型·prompt
哥本哈士奇(aspnetx)1 天前
LangChain DeepAgents 学习笔记
大模型
Mr.朱鹏1 天前
9-检索增强生成RAG详解
python·gpt·langchain·大模型·llm·rag
Soari1 天前
挑战 100ms 延迟极限:深度拆解 dograh,构建企业级开源 WebRTC 实时语音智能体平台
开源·大模型·webrtc·实时音视频·voiceagent·语音智能体·dograh
AI玫瑰助手1 天前
PDF 转 Markdown 主力方案怎么选:PaddleOCR-VL-1.5、MinerU、HunyuanOCR 与 MonkeyOCR 实测对比
pdf·大模型·知识库·表格·md·文字识别·paddleocr
AI原来如此1 天前
[特殊字符]2026AI Agent入门学习路径
学习·ai·大模型·ai编程