dqn

深度强化学习与控制（二）：无模型强化学习在现实问题中，通常没有明确地给出状态转移和奖励函数，模型无关的强化学习可以直接从经验中学习 value 和 policy，而无需构建马尔可夫决策过程模型

强化学习实战-2——Keras-DoubleDQN解决Predator【图像输入】我们这次将输入从之前的状态向量改为图像输入。这一节。你需要学会如何构建一个DDQN智能体类，包括如何构建模型。

强化学习实战3——自定义环境的搭建Q-LEARNINGBL3能为我们解决很多问题，但是其提供的环境确实有限，如果你想训练Agent玩吃豆人，就需要自行配置环境了。

【强化学习】DQN 改进算法目录一、引言二、Double DQN 算法（一）Double DQN 的提出背景：解决原始 DQN 的 Q 值过估计问题

强化学习入门-1-CartPole-v1(DQN)本环境是OpenAI Gym提供的一个经典控制环境。官网链接：https://gymnasium.farama.org/environments/classic_control/cart_pole/

强化学习入门-2(Dueling DQN)本环境是OpenAI Gym提供的一个经典控制环境。官网链接：https://gymnasium.farama.org/environments/box2d/lunar_lander/

深入理解深度Q网络DQN：基于python从零实现深度Q网络（DQN）是深度强化学习领域里一个超厉害的算法。它把Q学习和深度神经网络巧妙地结合在了一起，专门用来搞定那些状态空间维度特别高、特别复杂的难题。它展示了用函数近似来学习价值函数的超能力，因为传统的表格方法在面对状态空间特别大或者连续不断的状态空间时，就会因为太复杂而搞不定。

电力程序小学童

【强化学习】基于深度强化学习的微能源网能量管理与优化策略研究【Python】目录主要内容程序要点2.1 微能源网系统组成2.2 强化学习及Q学习算法部分代码运行结果下载链接该程序借助深度 Q 网络（DQN），学习预测负荷、风 / 光可再生能源功率输出及分时电价等环境信息，运用所学策略集对微能源网能量进行管理，该方法属于模型无关的价值型智能算法。

【FreeRL】我的深度学习库构建思想代码实现在:https://github.com/wild-firefox/FreeRL 欢迎star

【大模型理论篇】强化学习RL与大模型智能体大模型商业化，解决某类实际的业务问题，仅靠大模型本身其实存在很大的局限性，很多场景下不足以完全胜任真实业务需求【1】。

leaf_leaves_leaf

【强化学习的数学原理-赵世钰】课程笔记（八）值函数近似（value function approximation）目录一.内容概述二.激励性例子：曲线拟合（Motivating examples: curve fitting）

Noisy DQN 跑 CartPole-v1gym 0.26.1 CartPole-v1 NoisyNet DQNNoisyNet 就是把原来Linear里的w/b 换成 mu + sigma * epsilon, 这是一种非常简单的方法，但是可以显著提升DQN的表现。和之前最原始的DQN相比就是改了两个地方，一个是Linear改成了NoisyLinear,另外一个是在agent在take_action的时候策略由ε-greedy改成了直接取argmax。详细见下面的代码。

DQN强化学习算是自己写的第一个强化学习环境，目前还有很多纰漏，逐步改进ing。希望能在两周内施工完成。

我是有底线的