LLM | 项目推荐:LLM 后训练 / Agent 相关的小规模开源项目

以下项目均开源在 GitHub,主题与 LLM 后训练 / LLM 应用 / Agent 的最新进展相关。

经初步调研,均可以使用 8 卡 A100 复现。


目录


项目列表

  1. EasyR1:https://github.com/hiyouga/EasyR1
  2. RAGEN:https://github.com/mll-lab-nu/RAGEN
  3. Search-R1:https://github.com/PeterGriffinJin/Search-R1
  4. TinyZero:https://github.com/Jiayi-Pan/TinyZero
  5. Agent-R1:https://github.com/AgentR1/Agent-R1
  6. Claw-R1:https://github.com/AgentR1/Claw-R1
  7. verl-tool:https://github.com/TIGER-AI-Lab/verl-tool
  8. verl-agent:https://github.com/langfengq/verl-agent
  9. rllm:https://github.com/rllm-org/rllm
  10. LightRAG:https://github.com/HKUDS/LightRAG
  11. SWE-agent:https://github.com/SWE-agent/SWE-agent
  12. SeeClick:https://github.com/njucckevin/SeeClick

Agent-R1 和 Claw-R1

Agent-R1 和 Claw-R1 是中科大同一个团队开源的项目,非常新,分别是 26 年 2 月和 3 月发布的,star 已经达到 1.3k,并且还在持续维护中。

Agent-R1 关注 LLM 与外部环境的 multi-turn 交互,(个人理解)感觉这个能力对 agent 来说是必要的。具体算法还没读。

复现 Agent-R1,使用 verl 的 conda 环境 就可以了,不需要装其他包。(不过现在我跑的好像有些 bug,正在 debug)

Claw-R1 的故事好像是:Agent-R1 已经提供了 agent RL 训练的框架了,而 Claw-R1 可以为 agent RL 训练收集各个环境的数据,是一种"middleware";具体还没仔细 check。

RAGEN

先前读过 ragen 这个工作,参考博客:CSDN | RAGEN 与 StarPO 框架:如何让 LLM 在多轮交互中自我进化?

ragen 也关注 multi-turn RL,是一个提供了 1. 几个 multi-turn 环境 2. StarPO 算法实现的框架。一个师兄好像跑过 ragen,证明这个框架是能跑的。

不过印象里,ragen 里面提供的环境都比较 toy,类似于 grid world 推箱子这种,所以目前对这个项目兴趣不大。

TinyZero

TinyZero 旨在使用最少的计算资源(1-4 张 24GB GPU)、最小的模型(1.5B),复现 deepseek-r1 的 aha moment。这个项目证明了,即使是 1.5B 参数的小模型,通过 RL 也能自发产生自我验证和搜索能力。

据初步调研,这个项目的复现难度是最低的。

不过,目前这个项目已经不维护(archive)了,项目作者建议使用 verl 官方库来进行复现。

SWE-agent

SWE-agent 是一个非常有名的项目,关注 code agent 或 cli agent,希望能让 agent 自动修 GitHub 里的 issue。据调研,mini-SWE-agent 可能是一个更适合复现、更轻量级的版本。

并且,SWE-agent 貌似不强制使用本地大模型,而是可以用 API。

具体还没 check。

Search-R1

据调研,search-r1 是 OpenAI DeepResearch 的开源替代思路,训练模型学会 deep research,学会何时搜索、如何推理。

这个我也很感兴趣,但还没 check。

其他项目的信息

  • EasyR1:
    • 这个项目的作者是 llamafactory 的作者,这是一个轻量级多模态 RL 的框架。不过目前我不太关注多模态,希望优先关注 agent。
  • rllm:
    • 伯克利 Sky Computing Lab 开源的通用 Agent RL 训练框架,核心理念是让任何 Agent 框架(如 LangGraph SmolAgent)只需极少代码修改就能接入 RL 训练。
    • 这听起来像是 agent 领域的 verl;但我还不太了解这些 agent 框架...
  • LightRAG:
    • 有完整 WebUI 和多种存储后端(Neo4j, MongoDB 等),既支持经典 vector RAG,又集成知识图谱(Graph storage)。不过目前我不太关注 RAG,更优先希望了解 agent 核心技术流。
  • verl-tool:
    • 似乎是 verl 的子模块,专注工具调用场景的 RL 训练,支持异步多轮 rollout。
  • verl-agent:
  • SeeClick:
    • 是一个 视觉 GUI 点击的 agent 项目。

更多细节暂时还没 check,后面会继续 check 的。

相关推荐
qcx237 小时前
混合检索+重排序:当前 RAG 精度提升最成熟的工程路径
算法·ai·llm·agent·rag·agentic
名字不好奇7 小时前
大模型如何理解上下文:Attention 机制详解
人工智能·llm·transformer
组合缺一8 小时前
agentscope-harness vs solon-ai-harness:Java 智能体「马具引擎」的双雄对决
java·人工智能·ai·llm·agent·solon·agentscope
冬奇Lab18 小时前
RAG 系列(十五):CRAG——检索结果不好时自动纠偏
人工智能·llm
kyriewen19 小时前
老板逼我上AI,我偷偷在浏览器里跑LLaMA,省下20万API费
前端·react.js·llm
龙侠九重天1 天前
DeepSeek V4 深度解析:从架构创新到开发者生态的全面解读
人工智能·深度学习·架构·大模型·llm·deepseek·deepseek v4
厚国兄1 天前
Agent 工程化系列 · 第 06 篇_MCP是什么协议
人工智能·llm·agent
带刺的坐椅1 天前
agentscope-harness vs solon-ai-harness:Java 智能体「马具引擎」的双雄对决
java·ai·llm·solon·agentscope·harness
CS创新实验室1 天前
OpenAI GPT-5.5 技术深度报告
人工智能·gpt·大模型·llm
Cosolar1 天前
大模型应用开发面试 • 每日三题|Day 002|记忆(Memory)、工具使用(Tool Use)和微调(Fine-tuning)
后端·python·llm