【机器学习】强化学习 (一)强化学习简介

一、强化学习简介

1.1 问题定义

1.2 马尔可夫决策过程

举例说明马尔可夫决策过程

例1:

例2:

执行动作的策略

强化学习的目标是让智能体通过不断尝试,找到最优的策略(policy),即在每个状态下选择什么动作,以最大化累积的奖励。强化学习的常见算法有:

  • Q学习(Q-learning):一种基于值函数(value function)的方法,它用一个表格(Q-table)记录每个状态-动作对的期望奖励(Q-value),并根据贪心或探索-利用的原则更新表格。

  • 策略梯度(policy gradient):一种基于策略函数(policy function)的方法,它用一个参数化的函数(如神经网络)表示策略,并根据奖励的梯度方向更新参数。

  • 深度强化学习(deep reinforcement learning):一种结合深度学习和强化学习的方法,它用深度神经网络来近似值函数或策略函数,如DQN、DDPG、A3C等。

如何通过马尔可夫决策过程找到最优策略?

强化学习在制造业中的应用

参考网址:

https://zh.wikipedia.org/wiki/强化学习 强化学习 - 维基百科,自由的百科全书 (wikipedia.org)

相关推荐
泰迪智能科技011 小时前
高校深度学习视觉应用平台产品介绍
人工智能·深度学习
盛派网络小助手2 小时前
微信 SDK 更新 Sample,NCF 文档和模板更新,更多更新日志,欢迎解锁
开发语言·人工智能·后端·架构·c#
Eric.Lee20212 小时前
Paddle OCR 中英文检测识别 - python 实现
人工智能·opencv·计算机视觉·ocr检测
cd_farsight2 小时前
nlp初学者怎么入门?需要学习哪些?
人工智能·自然语言处理
AI明说2 小时前
评估大语言模型在药物基因组学问答任务中的表现:PGxQA
人工智能·语言模型·自然语言处理·数智药师·数智药学
Focus_Liu2 小时前
NLP-UIE(Universal Information Extraction)
人工智能·自然语言处理
PowerBI学谦3 小时前
使用copilot轻松将电子邮件转为高效会议
人工智能·copilot
audyxiao0013 小时前
AI一周重要会议和活动概览
人工智能·计算机视觉·数据挖掘·多模态
Jeremy_lf3 小时前
【生成模型之三】ControlNet & Latent Diffusion Models论文详解
人工智能·深度学习·stable diffusion·aigc·扩散模型