强化学习论文查找指南

寻找高质量的强化学习(Reinforcement Learning, RL)论文,通常有以下几个主要渠道,涵盖了从顶会发表的经典论文到最新的预印本:

1. 顶级人工智能与机器学习会议 (最权威)

这是获取经过同行评审、代表当前 SOTA (State-of-the-art 最先进的) 水平论文的首选渠道。关注每年的录用名单(Accepted Papers)。

  • NeurIPS (Neural Information Processing Systems 神经信息处理系统): AI 领域的顶级会议,每年都有大量高质量的 RL 理论和应用论文。

  • ICML (International Conference on Machine Learning 国际机器学习会议
    ): 偏重机器学习理论和基础算法,RL 是其中的重头戏。

  • ICLR (International Conference on Learning Representations 国际学习表征会议
    ): 深度学习领域的顶会,深度强化学习(Deep RL)的论文非常多。

  • RLC (The Reinforcement Learning Conference 强化学习会议
    ): 特别推荐。这是专门针对强化学习的新兴顶级会议(2024年首届),由 RL 社区核心大佬们发起,内容更聚焦。

  • AAAI / IJCAI: 综合性 AI 会议,也有不少 RL 相关工作。

  • ICRA / IROS: 如果你关注机器人控制(Robotics)方向的 RL,这两个机器人顶会是必看的。

2. 论文预印本平台 (最新、最快)

如果你想看昨天或今天刚出来的论文,不需要等会议发表,可以直接去预印本网站。

  • arXiv.org: 几乎所有 CS(Computer Science 计算机科学) 领域的论文都会先挂在这里。

    • 关注分类:cs.LG (Machine Learning) 和 cs.AI (Artificial Intelligence)。

    • arXiv Sanity Preserver: 一个辅助工具,帮你过滤和推荐 arXiv 上热门的论文,比直接刷 arXiv 高效。

3. 代码与论文结合平台 (最实用)

对于初学者或工程师,能看到代码复现往往比只看公式更重要。

  • Papers with Code:

    • 必用神器。 它会将 arXiv 上的论文与 GitHub 上的代码库关联起来。

    • 你可以直接浏览 Reinforcement Learning 专区,查看当前在这个任务上排名第一(SOTA)的方法是什么。

4. 语义搜索与关联工具 (适合深入研究)

当你找到一篇好论文,想通过它找到更多相关论文时:

  • Connected Papers: 输入一篇论文标题,它会生成一个可视化图谱,显示引文网络,帮你快速找到这篇论文的"前世今生"以及相似的重要论文。

  • Semantic Scholar: 比 Google Scholar 更好用的学术搜索引擎,它的引用分析更智能,能帮你筛选出"高影响力引用"。

5. 经典入门与精选列表 (Awesome Lists)

如果你是刚入门,不要直接去啃最新的顶会论文,建议从经典综述或教程开始。

  • OpenAI Spinning Up: OpenAI 编写的深度强化学习入门教程,里面列出了"必读论文清单(Key Papers in Deep RL)",按算法分类(如 DQN, A3C, PPO, SAC 等)。

  • GitHub 上的 "Awesome Reinforcement Learning": 社区维护的资源列表,涵盖了课程、书籍、和按主题分类的经典论文。


建议的阅读路径!!:

  1. 先看 OpenAI Spinning UpKey Papers 列表,掌握经典算法。

  2. Papers with Code 查找特定领域(如多智能体、离线 RL)的 SOTA 论文。

  3. 定期刷 NeurIPS/ICLR 的获奖或高分论文以保持前沿敏感度。

相关推荐
aircrushin13 分钟前
OpenClaw开源生态与AI执行能力的产业化路径
人工智能
是糖糖啊19 分钟前
OpenClaw 从零到一实战指南(飞书接入)
前端·人工智能·后端
踩着两条虫42 分钟前
从设计稿到代码:VTJ.PRO 的 AI 集成系统架构解析
前端·vue.js·人工智能
孤烟1 小时前
吓瘫!我用1行代码攻破公司自研AI权限系统,数据裸奔一整夜(附攻击payload+防御源码)
人工智能·ai编程
掘金一周1 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了 | 掘金一周 3.5
前端·人工智能·agent
vivo互联网技术2 小时前
ICLR2026 | 视频虚化新突破!Any-to-Bokeh 一键生成电影感连贯效果
人工智能·python·深度学习
OpenBayes贝式计算2 小时前
边看、边听、边说,MiniCPM-0-4.5 全双工全模态模型;Pan-Cancer scRNA-Seq 涵盖三种生物学状态单细胞转录数据集
人工智能·深度学习·机器学习
OpenBayes贝式计算2 小时前
教程上新丨基于500万小时语音数据,Qwen3-TTS实现3秒语音克隆及精细调控
人工智能·深度学习·机器学习
CoovallyAIHub2 小时前
开源:YOLO最强对手?D-FINE目标检测与实例分割框架深度解析
人工智能·算法·github