文章目录
- 从机器学习到RLHF的完整学科分支脉络与赛道分析
-
- 机器学习的完整分支脉络(从大到小)
-
- [1. 人工智能 (AI)](#1. 人工智能 (AI))
- [2. 机器人学 (Robotics)](#2. 机器人学 (Robotics))
- [3. 量子机器学习 (Quantum Machine Learning)](#3. 量子机器学习 (Quantum Machine Learning))
- 赛道成熟度分析
- 为什么RLHF是当前的新兴热点?
- 给您的建议
- 总结
从机器学习到RLHF的完整学科分支脉络与赛道分析
作为人工智能研二学生,您需要的是一个清晰的学科脉络图,我将从机器学习开始,逐步展示到RLHF的完整分支结构,并标注每个分支的成熟度(人满为患/新兴赛道)。
机器学习的完整分支脉络(从大到小)
1. 人工智能 (AI)
- 机器学习 (ML) :AI的核心子领域,专注于算法从数据中学习
- 监督学习 (Supervised Learning)
- 图像处理 (CNN, ResNet, Vision Transformers等)→ 人满为患(论文多,竞争激烈)
- 自然语言处理 (RNN, LSTM, Transformer, BERT, GPT系列等)→ 人满为患
- 传统分类/回归任务
- 无监督学习 (Unsupervised Learning)
- 聚类(K-means, DBSCAN等)
- 降维(PCA, t-SNE等)
- 强化学习 (Reinforcement Learning)
- 基础强化学习 (Q-learning, SARSA等)→ 相对成熟,但仍有研究空间
- 深度强化学习 (Deep RL) → 新兴热点
- DQN, DDPG, PPO等基础算法 → 人满为患
- RLHF (Reinforcement Learning from Human Feedback) → 新兴赛道 (论文增长迅速,但尚未饱和)
- PPO-RLHF (Christiano et al., 2017)
- DPO (Rafailov et al., 2023) → 新兴
- RRHF (Yuan et al., 2023) → 新兴
- ORPO (Hong et al., 2024) → 新兴
- KTO/GRPO (Ethayarajh et al., 2024) → 新兴
- f-DPO (Han et al., 2024) → 新兴
- 多智能体强化学习 (Multi-agent RL) → 新兴赛道 (知识库[12]显示电科院已申请相关专利)
- 知识库[12]提到"多智能体强化学习模型训练方法"的专利申请
- 迁移学习 (Transfer Learning) → 相对成熟
- 元学习 (Meta-learning) → 新兴赛道(知识库[6]提到"持续学习"是关键方向)
- 持续学习 (Continual Learning) → 新兴赛道(知识库[6]指出"人类数据红利逼近极限,AI正进入以持续学习为核心的'经验时代'")
- 具身智能 (Embodied Intelligence) → 新兴赛道(知识库[9]提到"宏联电子在机器人、新能源汽车等新兴领域有所突破")
- 监督学习 (Supervised Learning)
2. 机器人学 (Robotics)
- 工业机器人 (知识库[1]提到新松领跑)→ 相对成熟
- 服务机器人
- 人形机器人 (知识库[7]提到"十五五"时期开辟人形机器人新赛道)→ 新兴赛道
- 机器人学习
- 基于强化学习的机器人控制
- RLHF在机器人中的应用 → 新兴赛道
3. 量子机器学习 (Quantum Machine Learning)
- 结构力的量子结构物理科学领域(知识库[2][8])→ 非常新兴,研究较少,但潜力巨大
赛道成熟度分析
赛道 | 熟悉度 | 论文数量 | 竞争程度 | 是否人满为患 | 新兴程度 |
---|---|---|---|---|---|
图像处理 | 高 | 极多 | 高 | 是 | 低 |
自然语言处理 | 高 | 极多 | 高 | 是 | 低 |
传统监督学习 | 高 | 多 | 高 | 是 | 低 |
基础强化学习 | 中 | 多 | 中 | 部分 | 中 |
深度强化学习基础算法 | 中 | 多 | 中 | 部分 | 中 |
RLHF及其变体 | 低 | 快速增长 | 中低 | 否 | 高 |
多智能体强化学习 | 低 | 快速增长 | 中低 | 否 | 高 |
人形机器人 | 低 | 快速增长 | 中低 | 否 | 高 |
持续学习 | 低 | 快速增长 | 中低 | 否 | 高 |
具身智能 | 低 | 快速增长 | 中低 | 否 | 高 |
量子机器学习 | 极低 | 极少 | 低 | 否 | 极高 |
为什么RLHF是当前的新兴热点?
- 技术背景:随着大语言模型(LLM)的兴起,如何让AI模型符合人类偏好成为关键挑战
- 论文增长:RLHF相关论文从2020年开始快速增长,2023-2024年爆发(如DPO、RRHF等新方法)
- 实际应用:ChatGPT、GPT-4等大模型都使用RLHF技术(知识库[3]和[10]详细介绍了RLHF在大模型中的应用)
- 研究空间:RLHF的变体(PPO-RLHF、DPO、ORPO等)仍在快速发展中,论文数量正在快速增长但尚未饱和
给您的建议
-
RLHF不是"太深",而是您知识地图中缺失的"强化学习"环节:您已经掌握了CNN/MLP/Transformer(监督学习基础),但RLHF属于强化学习的应用,需要先补足强化学习基础。
-
从基础强化学习开始:推荐先学习Sutton的《强化学习导论》第1-3章,然后学习RLHF的入门论文(如Christiano et al. 2017)。
-
RLHF是当前很好的研究方向:
- 不是"人挤人"的赛道(相比图像处理和NLP)
- 论文数量正在快速增长,但仍有大量开放问题
- 与大模型、机器人等热门应用紧密相关
-
新兴赛道建议:如果您想做研究,建议关注:
- RLHF的变体(如DPO、ORPO等)的理论优化
- RLHF在机器人、具身智能等领域的应用
- 持续学习与RLHF的结合
总结
您当前的知识基础(CNN/MLP/Transformer)是必要的,但RLHF属于强化学习的进阶应用 ,不是"太深",而是您需要扩展的知识领域。RLHF及其变体是当前AI研究的新兴热点,论文数量快速增长但尚未饱和,相比图像处理和NLP等"人满为患"的赛道,RLHF是更好的研究切入点。
正如知识库[6]中"强化学习之父"理查德·萨顿所说:"人类数据红利逼近极限,AI正进入以持续学习为核心的'经验时代'",RLHF正是这一"经验时代"的关键技术之一。