强化学习学习笔记

1.关于agent

在之前一直听说强化学习里有agent和environment,在大模型的学习时也有基于langchain搭建智能体,一直没有搞清楚什么意思。

其实这两种都是agent,不过当大语言模型到来时的agent是llm based的。

2.强化学习、监督学习、无监督学习区别

如果只是对比监督学习和无监督学习,它们的区别是有无标签,机器学习的目的是学习数据中的某种模式,比如具有某些特征的是什么,比如四条腿的就不会是鸡,但是如果要机器来学习这些模式就需要带有标签的数据。

强化学习得到的反馈是只针对当前的行为,比如一个人在人生某个阶段采取了某个行动,世界给了他反馈,不管这个反馈是什么,他能明确的就是采取这样的行动,在怎样怎样的条件下会得到什么样的结果。他无法预知自己未做的选择有什么结果。

用比喻的做法来说就是监督学习有一个老师告诉你怎么做是最好的,哪怕你做错了 他也会告诉你。强化学习是你采取了一个行为,没有人告诉你是否别的更好,你只能自己摸索着看看这个情况怎么样,要做哪个还是不能确定。

3.强化学习的目标

如果说一个行动和一个状态有一个价值,长期来看有一个期望价值,但是actor是不知道的,他只能通过自己已知,已经采取过的行动去估计,比如做某件事情,十次有七次有收获,有三次无 刚好他采取的三次都有收获,他就认为目前为止这个行动收获的概率是100%。

相关推荐
hai3152475434 小时前
一种通过空间几何转换进行软件编程计算的方式与现有计算的对比
人工智能·深度学习·数学建模·硬件架构·几何学·图论·拓扑学
硅谷秋水4 小时前
HARBOR:一个面向具身智体机器人强化学习的驾驭框架
人工智能·深度学习·机器学习·机器人
pythonpioneer5 小时前
PyTorch3D:基于 PyTorch 的高效 3D 深度学习工具库
pytorch·深度学习·其他·3d
顾北顾5 小时前
多头注意力机制
人工智能·深度学习·算法
大江东去浪淘尽千古风流人物6 小时前
【PromptStereo】零样本立体匹配新范式:用结构与运动Prompt驱动迭代优化(CVPR 2026)
深度学习·3d·slam·视觉定位·dust3r·3d重建·mast3r
Rocky Ding*7 小时前
Latent Consistency Models:一篇读懂扩散模型的少步生成核心基础知识
人工智能·深度学习·机器学习·ai作画·stable diffusion·aigc·ai-native
戴西软件7 小时前
戴西 DLM 许可授权管理系统:破解无网络环境下工业软件授权难题,助力制造企业降本增效
网络·人工智能·python·深度学习·程序人生·算法·制造
Black蜡笔小新8 小时前
制造业AI质检工作站/企业AI算力工作站DLTM助力制造业质检智能化升级
人工智能·深度学习·机器学习
渡之10 小时前
GRiM-Net 深度解析 | 无人机 GNSS 拒止场景下两阶段跨视角视觉定位框架
深度学习·算法·动态规划·无人机