【机器学习】强化学习 (一)强化学习简介

一、强化学习简介

1.1 问题定义

1.2 马尔可夫决策过程

举例说明马尔可夫决策过程

例1:

例2:

执行动作的策略

强化学习的目标是让智能体通过不断尝试,找到最优的策略(policy),即在每个状态下选择什么动作,以最大化累积的奖励。强化学习的常见算法有:

  • Q学习(Q-learning):一种基于值函数(value function)的方法,它用一个表格(Q-table)记录每个状态-动作对的期望奖励(Q-value),并根据贪心或探索-利用的原则更新表格。

  • 策略梯度(policy gradient):一种基于策略函数(policy function)的方法,它用一个参数化的函数(如神经网络)表示策略,并根据奖励的梯度方向更新参数。

  • 深度强化学习(deep reinforcement learning):一种结合深度学习和强化学习的方法,它用深度神经网络来近似值函数或策略函数,如DQN、DDPG、A3C等。

如何通过马尔可夫决策过程找到最优策略?

强化学习在制造业中的应用

参考网址:

https://zh.wikipedia.org/wiki/强化学习 强化学习 - 维基百科,自由的百科全书 (wikipedia.org)

相关推荐
诸葛务农2 分钟前
人形机器人:热成像血管分布图及糖尿病足早期病变预警模型
人工智能·机器人
拾零吖8 分钟前
Attention by 3B1B
人工智能·深度学习·机器学习
钟智强30 分钟前
线性映射(Linear Mapping)原理详解:机器学习中的数学基石
人工智能·算法·机器学习
PHOSKEY35 分钟前
光子精密QM系列闪测仪如何实现VR注塑外壳大型面平面度的秒级检测
机器学习·计算机视觉
红尘炼丹客38 分钟前
简析大模型(LLM)技术与量化交易
人工智能·金融
samroom43 分钟前
langchain+ollama+Next.js实现AI对话聊天框
javascript·人工智能·langchain
西西o1 小时前
面向Agentic Coding的未来:豆包Doubao-Seed-Code模型深度测评与实战
人工智能
LO嘉嘉VE1 小时前
学习笔记十六:多变量决策树
决策树·机器学习
行者常至为者常成1 小时前
基于LangGraph的自我改进智能体:Reflection与Reflexion技术详解与实现
人工智能
菠菠萝宝1 小时前
【Java手搓RAGFlow】-9- RAG对话实现
java·开发语言·人工智能·llm·jenkins·openai