强化学习论文查找指南

寻找高质量的强化学习(Reinforcement Learning, RL)论文,通常有以下几个主要渠道,涵盖了从顶会发表的经典论文到最新的预印本:

1. 顶级人工智能与机器学习会议 (最权威)

这是获取经过同行评审、代表当前 SOTA (State-of-the-art 最先进的) 水平论文的首选渠道。关注每年的录用名单(Accepted Papers)。

  • NeurIPS (Neural Information Processing Systems 神经信息处理系统): AI 领域的顶级会议,每年都有大量高质量的 RL 理论和应用论文。

  • ICML (International Conference on Machine Learning 国际机器学习会议
    ): 偏重机器学习理论和基础算法,RL 是其中的重头戏。

  • ICLR (International Conference on Learning Representations 国际学习表征会议
    ): 深度学习领域的顶会,深度强化学习(Deep RL)的论文非常多。

  • RLC (The Reinforcement Learning Conference 强化学习会议
    ): 特别推荐。这是专门针对强化学习的新兴顶级会议(2024年首届),由 RL 社区核心大佬们发起,内容更聚焦。

  • AAAI / IJCAI: 综合性 AI 会议,也有不少 RL 相关工作。

  • ICRA / IROS: 如果你关注机器人控制(Robotics)方向的 RL,这两个机器人顶会是必看的。

2. 论文预印本平台 (最新、最快)

如果你想看昨天或今天刚出来的论文,不需要等会议发表,可以直接去预印本网站。

  • arXiv.org: 几乎所有 CS(Computer Science 计算机科学) 领域的论文都会先挂在这里。

    • 关注分类:cs.LG (Machine Learning) 和 cs.AI (Artificial Intelligence)。

    • arXiv Sanity Preserver: 一个辅助工具,帮你过滤和推荐 arXiv 上热门的论文,比直接刷 arXiv 高效。

3. 代码与论文结合平台 (最实用)

对于初学者或工程师,能看到代码复现往往比只看公式更重要。

  • Papers with Code:

    • 必用神器。 它会将 arXiv 上的论文与 GitHub 上的代码库关联起来。

    • 你可以直接浏览 Reinforcement Learning 专区,查看当前在这个任务上排名第一(SOTA)的方法是什么。

4. 语义搜索与关联工具 (适合深入研究)

当你找到一篇好论文,想通过它找到更多相关论文时:

  • Connected Papers: 输入一篇论文标题,它会生成一个可视化图谱,显示引文网络,帮你快速找到这篇论文的"前世今生"以及相似的重要论文。

  • Semantic Scholar: 比 Google Scholar 更好用的学术搜索引擎,它的引用分析更智能,能帮你筛选出"高影响力引用"。

5. 经典入门与精选列表 (Awesome Lists)

如果你是刚入门,不要直接去啃最新的顶会论文,建议从经典综述或教程开始。

  • OpenAI Spinning Up: OpenAI 编写的深度强化学习入门教程,里面列出了"必读论文清单(Key Papers in Deep RL)",按算法分类(如 DQN, A3C, PPO, SAC 等)。

  • GitHub 上的 "Awesome Reinforcement Learning": 社区维护的资源列表,涵盖了课程、书籍、和按主题分类的经典论文。


建议的阅读路径!!:

  1. 先看 OpenAI Spinning UpKey Papers 列表,掌握经典算法。

  2. Papers with Code 查找特定领域(如多智能体、离线 RL)的 SOTA 论文。

  3. 定期刷 NeurIPS/ICLR 的获奖或高分论文以保持前沿敏感度。

相关推荐
冬奇Lab41 分钟前
Agent 系列(23):Web Agent——让 Agent 真正浏览网页
人工智能·llm·agent
冬奇Lab1 小时前
每日一个开源项目(第135篇):codebase-memory-mcp - 给 AI Agent 一张代码库的知识图谱
人工智能·开源·llm
IT_陈寒3 小时前
JavaScript的闭包把我坑惨了,说好的内存会自动回收呢?
前端·人工智能·后端
jooloo7 小时前
Codex 间歇性 400 之谜:一条对话里,它为什么有时候用 chat/completions,有时候切到 responses?
人工智能
用户5191495848457 小时前
OpenSSL PKCS#12 PBMAC1 堆栈缓冲区溢出漏洞 (CVE-2025-11187) 分析与验证
人工智能·aigc
用户5191495848458 小时前
HP Sound Research SECOMNService 权限提升漏洞利用工具
人工智能·aigc
用户018349301699 小时前
给 AI 智能体能力包一层 BFF,前端只调一个接口
人工智能
这token有力气12 小时前
Function Calling 格式漂移
人工智能