【强化学习】第一章 强化学习初探

强化学习初探

就是笔记,网址在这动手强化学习

核心内容总结

强化学习的定义

强化学习是机器通过与环境交互来实现目标的一种计算方法,主要解决 ** 序贯决策(sequential decision making)** 任务。

基本交互模式:

  • 智能体(agent)感知环境状态 智能体做出动作决策 环境根据动作产生奖励反馈 环境发生状态转移 智能体在下一轮感知新状态
  • 智能体的三个关键要素
    感知
    智能体感知环境的当前状态
    例:围棋 AI 感知棋盘情况、无人车感知道路状况
    决策
    根据当前状态计算最优动作的过程
    策略(policy)是智能体的核心体现
    例:决定落子位置、计算方向盘角度
    奖励
    环境产生的标量反馈信号
    衡量动作好坏的即时指标
    目标:最大化累积奖励期望

强化学习的环境特点

动态随机过程:

环境会随时间不断演变

状态转移由当前状态和智能体动作共同决定

数学表示: 下一状态 = f ( 当前状态,智能体动作 ) 下一状态 = f (当前状态,智能体动作) 下一状态=f(当前状态,智能体动作)

双重随机性:

智能体决策动作的随机性

环境状态转移的随机性

强化学习的目标

优化目标:最大化累积奖励的期望(价值)

关键概念:

回报(return) :多轮交互获得的累积奖励
价值(value) :回报的期望值
占用度量(occupancy measure):状态 - 动作对的概率分布

与有监督学习的根本区别

任务性质不同

  1. 有监督学习:单轮独立的预测任务
  2. 强化学习:多轮迭代的决策任务

数据分布不同

  1. 有监督学习:固定的数据分布
  2. 强化学习:数据分布随策略变化而变化

优化方式不同

  1. 有监督学习:优化模型输出,数据分布固定
  2. 强化学习:优化策略,改变数据分布

强化学习的独特性

核心区别

  1. 有监督学习:在固定数据分布下最小化损失期望
  2. 强化学习:通过改变策略产生最优数据分布,最大化奖励期望

学习难点

策略改变导致数据分布改变

改变过程复杂,难以用显式数学公式刻画

具有 "混沌效应",初始设置微小变化可能导致结果巨大差异

重要启示

  • 决策的长远影响:当前获得最大奖励的动作,长期来看不一定最优
  • 环境的动态性:智能体需要考虑环境的演变和未来的状态变化
  • 数据的生成性:智能体的策略决定了能观察到什么样的数据
  • 目标的期望性:关注的是回报的期望值而非单次具体结果
相关推荐
程序员cxuan2 小时前
为每个任务配一套 harness:Claude Code 里的动态工作流
人工智能
程序员cxuan2 小时前
Claude Fable 5 来了
人工智能·后端·程序员
云边云科技_云网融合2 小时前
云边云科技亮相 2026 WOD 制造业数智化博览会 云网融合赋能制造焕新
人工智能·科技·安全·制造
biter down2 小时前
从 0 到 1 搭建 Python 接口自动化测试框架(博客系统实战)
开发语言·python
Σίσυφος19002 小时前
激光三角 光平面标定-多高度误差分析
人工智能·计算机视觉·平面
JS菌2 小时前
手写一个 AI Agent 全栈项目:从沙箱执行到子智能体的完整实现
前端·人工智能·后端
lqqjuly2 小时前
前沿算法深度解析(二)
人工智能·算法·机器学习
Bode_20022 小时前
基于大数据分析的全生命周期质量追溯质量评估体系落地方案
大数据·人工智能
分布式存储与RustFS3 小时前
RustFS S3 Table 开源后,我重新梳理了一下 Iceberg 数据湖的选型思路
人工智能·开源·minio·dpu·rustfs·ai存储·s3 table
DevOpenClub4 小时前
用 Agent 搭建网页内容采集与结构化处理流水线
人工智能