【机器学习】强化学习 (一)强化学习简介

一、强化学习简介

1.1 问题定义

1.2 马尔可夫决策过程

举例说明马尔可夫决策过程

例1:

例2:

执行动作的策略

强化学习的目标是让智能体通过不断尝试,找到最优的策略(policy),即在每个状态下选择什么动作,以最大化累积的奖励。强化学习的常见算法有:

  • Q学习(Q-learning):一种基于值函数(value function)的方法,它用一个表格(Q-table)记录每个状态-动作对的期望奖励(Q-value),并根据贪心或探索-利用的原则更新表格。

  • 策略梯度(policy gradient):一种基于策略函数(policy function)的方法,它用一个参数化的函数(如神经网络)表示策略,并根据奖励的梯度方向更新参数。

  • 深度强化学习(deep reinforcement learning):一种结合深度学习和强化学习的方法,它用深度神经网络来近似值函数或策略函数,如DQN、DDPG、A3C等。

如何通过马尔可夫决策过程找到最优策略?

强化学习在制造业中的应用

参考网址:

https://zh.wikipedia.org/wiki/强化学习 强化学习 - 维基百科,自由的百科全书 (wikipedia.org)

相关推荐
Cosolar12 分钟前
Harness:大模型Agent的“操作系统”,2026年AI工程化的核心革命
人工智能·面试·llm
67X15 分钟前
【论文研读】Deep learning improves prediction of drug–drug anddrug–food interactions
人工智能·深度学习
jinanwuhuaguo1 小时前
人工智能的进化阶梯:AI、ANI、AGI与ASI的核心区别与深度剖析
开发语言·人工智能·agi·openclaw
程序员Shawn1 小时前
【深度学习 | 第三篇】-卷积神经网络
人工智能·深度学习·cnn
vkv55881 小时前
我做了一个自媒体多平台发布工具:支持 AI 生成、账号管理、自动登录与批量发布
人工智能·媒体
IT_陈寒2 小时前
React hooks依赖数组这个坑差点把我埋了
前端·人工智能·后端
我科绝伦(Huanhuan Zhou)2 小时前
分享一个服务故障自愈系统
运维·人工智能·自动化
做个文艺程序员2 小时前
Spring AI + Qwen3.5 实现多步 Agent:从工具调用到自主任务拆解的踩坑全记录
java·人工智能·spring
波动几何2 小时前
极简万能通用AI Agent:universal-agent
人工智能
行者-全栈开发2 小时前
腾讯地图 Map Skills 快速入门:从零搭建 AI 智能行程规划应用
人工智能·typescript·腾讯地图·ai agent·mcp 协议·map skills·智能行程规划