AI 基础知识十九 强化学习前言

强化学习发展历程

1.思想萌芽期

  1. 心理学源头 : 比如汽车路口等红绿灯,对于闯红的行为,要对其罚款扣分处理,做好事要 对其进行奖励。 通过尝试得到惩罚或奖励,塑造其行为。 产出了 "强化" 概念。
  2. 控制论与早期 AI 实践: 控制论与早期 AI 实践: 提出反馈闭环优化,奠定 RL(强化) "智能体 - 环境交互" 循环逻辑。

2.数学理论奠基期

  1. 动态规划DP
  2. 贝尔曼方程
  3. 马尔可夫决策过程
  4. 局限: 早期"动态规划" 属于有模型必须完整掌握环境转移概率,无法用于未知环境,状态空间稍大就无法计算。

3.经典表格强化学习时代

  1. 无模型算法爆发
  2. 时序差分
  3. **局限:**二维表格存储动作价值,高维/大规模场景(图像、围棋)状态数爆炸,表格无法存储,泛化能力极差

4.深度强化学习革命

  1. 神经网络解决高维输入,深度学习作为价值函数 / 策略近似器,彻底打破表格型限制,RL 从小网格、小游戏走向复杂视觉、博弈场景。

5.大模型对齐时代

RL 不再局限游戏 / 机器人,成为大语言模型对齐、通用人工智能核心工具。

  • **RLHF(基于人类反馈的强化学习)**2020 OpenAI 提出,ChatGPT 核心训练流程:预训练大模型 → 人类标注偏好奖励模型 → PPO 微调语言模型,让输出符合人类价值观、指令、安全约束。 如今 顶流大模型全部使用 RLHF 技术。

什么是强化学习

广泛地讲,强化学习是机器 通过与环境 交互来实现目标 的一种计算方法。机器在环境的一个状态 下做一个动作 ,这个环境发生相应的改变并且将相应的奖励 反馈和下一轮状态传回机器。这个动作决策 对未来产生(影响)的收益价值 。分为三个层次结构组成:基本元素主要元素核心元素

实例说明

悬崖漫步问题 是一个非常经典的强化学习环境,它要求一个玩家(agent)起点 左上角开始出发,避开悬崖 行走,最终到达终点 。如图所示:一个 3×6 的椭圆网格世界,一共有18个椭圆,在椭圆网格内有 4 种动作:上、下、左、右 。如果采取动作后触碰到边界墙壁则状态不发生改变(还在原来的位置),否则就会相应到达下一个椭圆。环境中有一段悬崖 。掉入悬崖或到达终点就会结束游戏每走一步的奖励是 −1,掉入悬崖的奖励是 −100也就是失败了,达到终点的奖励是 1。

基本元素

  • 环境: 18个椭圆网格世界
  • Agent: 玩家
  • 目标: 达到终点、起点到 终点的线路

主要元素

  • 状态:18个椭圆位置
  • 动作: 每位置可选动作:上、下、左、右
  • 奖励: 移动奖励是 −1,掉入悬崖是 −100,到终点奖励是 1

核心元素

  • 决策: 选择动作时要避开悬崖并能通向终点
  • 价值: 通向终点 线路,步数最少(价值最大)

感谢大家的支持。

相关推荐
X54先生(人文科技)2 小时前
《元创力》纪实录·卷宗2.2 会议室的裂缝:当“真实高于完美”第一次被写在会议纪要里
人工智能·开源·ai写作·零知识证明
武子康2 小时前
调查研究-178 Google 官方 Agent Skills 仓库解读:AI Agent 时代,知识正在从「提示词」变成「可安装能力包」
人工智能·openai
大模型最新论文速读2 小时前
06-16 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
AIGS0012 小时前
JBoltAI V4.5企业智能体平台:技术架构拆解
java·人工智能·ai大模型应用
在路上走着走着2 小时前
Prompt Engineering 入门指南:从原理到上手
人工智能·prompt
3DVisionary2 小时前
告别数据中断:XTDIC-VG视频引伸计在金属疲劳测试中3个真实案例
人工智能·音视频·应用案例·xtdic-vg·视频引伸计·疲劳测试·实战复盘
大鱼>2 小时前
边缘AI实时推理优化:从30FPS到120FPS的系统级加速方法
人工智能·aiot
沫儿笙2 小时前
川崎机器人二保焊节气设备
人工智能·机器人
跨境摸鱼2 小时前
年中政策切换窗口临近跨境卖家如何安排新品测试与库存回收
大数据·人工智能·跨境电商·跨境·营销策略