【机器学习】强化学习 (一)强化学习简介

一、强化学习简介

1.1 问题定义

1.2 马尔可夫决策过程

举例说明马尔可夫决策过程

例1:

例2:

执行动作的策略

强化学习的目标是让智能体通过不断尝试,找到最优的策略(policy),即在每个状态下选择什么动作,以最大化累积的奖励。强化学习的常见算法有:

  • Q学习(Q-learning):一种基于值函数(value function)的方法,它用一个表格(Q-table)记录每个状态-动作对的期望奖励(Q-value),并根据贪心或探索-利用的原则更新表格。

  • 策略梯度(policy gradient):一种基于策略函数(policy function)的方法,它用一个参数化的函数(如神经网络)表示策略,并根据奖励的梯度方向更新参数。

  • 深度强化学习(deep reinforcement learning):一种结合深度学习和强化学习的方法,它用深度神经网络来近似值函数或策略函数,如DQN、DDPG、A3C等。

如何通过马尔可夫决策过程找到最优策略?

强化学习在制造业中的应用

参考网址:

https://zh.wikipedia.org/wiki/强化学习 强化学习 - 维基百科,自由的百科全书 (wikipedia.org)

相关推荐
IT_陈寒12 分钟前
SpringBoot自动配置坑了我,原来要这样绕过去
前端·人工智能·后端
东方小月22 分钟前
Claude Code 完整上手指南:MCP、Skills、第三方模型配置一次搞定
前端·人工智能·后端
EnCi Zheng41 分钟前
01d-前馈神经网络代码实现 [特殊字符]
人工智能·深度学习·神经网络
阿里云大数据AI技术1 小时前
登顶WorldArena榜单!阿里云PAI助力中科院自动化所、中科第五纪打造具身世界模型FlowWAM
人工智能
hixiong1231 小时前
C# TensorRT部署RF-DETR目标检测&分割模型
人工智能·目标检测·计算机视觉·ai·c#
小程故事多_801 小时前
[大模型面试系列] 深度解析ReAct框架,大模型Agent的“思考+行动”底层逻辑
人工智能·react.js·面试·职场和发展·智能体
逍遥德1 小时前
AI时代,计算机专业大学生学习指南
java·javascript·人工智能·学习·ai编程
蝎子莱莱爱打怪1 小时前
Claude Code 省 Token 小妙招:RTK + Caveman 组合拳
前端·人工智能·后端
tanis_31 小时前
从 PDF 中精准提取表格、图片与公式:MinerU 结构化元素抽取的 3 种方案
人工智能
sali-tec1 小时前
C# 基于OpenCv的视觉工作流-章63-点廓距离
图像处理·人工智能·opencv·计算机视觉