强化学习 - Q-learning(Q学习)

什么是机器学习

强化学习中的 Q-learning (Q学习)是一种用于学习在未知环境中做出决策的方法。它是基于值函数的方法,通过学习一个值函数 Q,该函数表示在给定状态和动作下,期望的累积奖励。

以下是一个简单的 Q-learning 的实现教程,使用 Python 进行演示。这里我们考虑一个简单的驾驶代理程序在一个格子世界中学习如何最优地选择动作以达到目标。

python 复制代码
import numpy as np

# 定义格子世界的大小
num_states = 6
num_actions = 4  # 上、下、左、右

# 初始化 Q 表
Q = np.zeros((num_states, num_actions))

# 定义参数
alpha = 0.1  # 学习率
gamma = 0.9  # 折扣因子
epsilon = 0.1  # 探索概率

# 定义转移矩阵 R
R = np.array([
    [-1, -1, -1, -1, 0, -1],
    [-1, -1, -1, 0, -1, 100],
    [-1, -1, -1, 0, -1, -1],
    [-1, 0, 0, -1, 0, -1],
    [0, -1, -1, 0, -1, 100],
    [-1, 0, -1, -1, 0, 100]
])

# Q-learning 算法
def q_learning(state, alpha, gamma, epsilon, num_episodes):
    for episode in range(num_episodes):
        current_state = state
        while current_state != 5:  # 目标状态为5
            # epsilon-greedy策略选择动作
            if np.random.rand() < epsilon:
                action = np.random.choice(range(num_actions))
            else:
                action = np.argmax(Q[current_state, :])

            # 执行动作,得到下一个状态
            next_state = action

            # 更新 Q 值
            Q[current_state, action] = Q[current_state, action] + alpha * \
                (R[current_state, action] + gamma * np.max(Q[next_state, :]) - Q[current_state, action])

            # 进入下一个状态
            current_state = next_state

# 运行 Q-learning 算法
q_learning(state=0, alpha=alpha, gamma=gamma, epsilon=epsilon, num_episodes=1000)

# 打印学得的 Q 表
print("Learned Q-table:")
print(Q)

在这个例子中,我们定义了一个简单的格子世界,其中代理程序在不同的状态之间移动,选择上、下、左、右四个动作。代理程序通过 Q-learning 学习在每个状态下选择每个动作的 Q 值。在每个训练 episode 中,代理程序根据 epsilon-greedy 策略选择动作,执行动作后更新 Q 值

请注意,这只是一个简化的 Q-learning 示例,实际应用中可能涉及到更复杂的环境和状态。调整参数,如学习率alpha)、折扣因子gamma)、探索概率epsilon),是实现良好性能的关键。

相关推荐
管二狗赶快去工作!几秒前
体系结构论文(五十四):Reliability-Aware Runahead 【22‘ HPCA】
人工智能·神经网络·dnn·体系结构·实时系统
AI绘画君9 分钟前
Stable Diffusion绘画 | AI 图片智能扩充,超越PS扩图的AI扩图功能(附安装包)
人工智能·ai作画·stable diffusion·aigc·ai绘画·ai扩图
AAI机器之心11 分钟前
LLM大模型:开源RAG框架汇总
人工智能·chatgpt·开源·大模型·llm·大语言模型·rag
邓校长的编程课堂27 分钟前
助力信息学奥赛-VisuAlgo:提升编程与算法学习的可视化工具
学习·算法
Evand J32 分钟前
物联网智能设备:未来生活的变革者
人工智能·物联网·智能手机·智能家居·智能手表
HyperAI超神经41 分钟前
Meta 首个多模态大模型一键启动!首个多针刺绣数据集上线,含超 30k 张图片
大数据·人工智能·深度学习·机器学习·语言模型·大模型·数据集
missmisslulu42 分钟前
电容笔值得买吗?2024精选盘点推荐五大惊艳平替电容笔!
学习·ios·电脑·平板
sp_fyf_202444 分钟前
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-03
人工智能·算法·机器学习·计算机视觉·语言模型·自然语言处理
新缸中之脑1 小时前
10个令人惊叹的AI工具
人工智能
学步_技术1 小时前
自动驾驶系列—线控悬架技术:自动驾驶背后的动力学掌控者
人工智能·机器学习·自动驾驶·线控系统·悬挂系统