技术栈
dqn
荒野火狐
2 个月前
人工智能
·
深度学习
·
强化学习
·
dqn
【FreeRL】我的深度学习库构建思想
代码实现在:https://github.com/wild-firefox/FreeRL 欢迎star
Nicolas893
2 个月前
大模型
·
llm
·
强化学习
·
策略梯度
·
dqn
·
rl
·
智能体
【大模型理论篇】强化学习RL与大模型智能体
大模型商业化,解决某类实际的业务问题,仅靠大模型本身其实存在很大的局限性,很多场景下不足以完全胜任真实业务需求【1】。
leaf_leaves_leaf
7 个月前
笔记
·
深度学习
·
强化学习
·
dqn
·
值函数近似
【强化学习的数学原理-赵世钰】课程笔记(八)值函数近似(value function approximation)
目录一.内容概述二.激励性例子:曲线拟合(Motivating examples: curve fitting)
NoahBBQ
10 个月前
pytorch
·
gym
·
dqn
·
cartpole-v1
·
noisy net
Noisy DQN 跑 CartPole-v1
gym 0.26.1 CartPole-v1 NoisyNet DQNNoisyNet 就是把原来Linear里的w/b 换成 mu + sigma * epsilon, 这是一种非常简单的方法,但是可以显著提升DQN的表现。 和之前最原始的DQN相比就是改了两个地方,一个是Linear改成了NoisyLinear,另外一个是在agent在take_action的时候策略 由ε-greedy改成了直接取argmax。详细见下面的代码。
来旺
1 年前
python
·
强化学习
·
dqn
DQN强化学习
算是自己写的第一个强化学习环境,目前还有很多纰漏,逐步改进ing。 希望能在两周内施工完成。