强化学习学习笔记

蒸蒸yyyyzwd2026-03-15 9:52

1.关于agent

在之前一直听说强化学习里有agent和environment，在大模型的学习时也有基于langchain搭建智能体，一直没有搞清楚什么意思。

其实这两种都是agent，不过当大语言模型到来时的agent是llm based的。

2.强化学习、监督学习、无监督学习区别

如果只是对比监督学习和无监督学习，它们的区别是有无标签，机器学习的目的是学习数据中的某种模式，比如具有某些特征的是什么，比如四条腿的就不会是鸡，但是如果要机器来学习这些模式就需要带有标签的数据。

强化学习得到的反馈是只针对当前的行为，比如一个人在人生某个阶段采取了某个行动，世界给了他反馈，不管这个反馈是什么，他能明确的就是采取这样的行动，在怎样怎样的条件下会得到什么样的结果。他无法预知自己未做的选择有什么结果。

用比喻的做法来说就是监督学习有一个老师告诉你怎么做是最好的，哪怕你做错了他也会告诉你。强化学习是你采取了一个行为，没有人告诉你是否别的更好，你只能自己摸索着看看这个情况怎么样，要做哪个还是不能确定。

3.强化学习的目标

如果说一个行动和一个状态有一个价值，长期来看有一个期望价值，但是actor是不知道的，他只能通过自己已知，已经采取过的行动去估计，比如做某件事情，十次有七次有收获，有三次无刚好他采取的三次都有收获，他就认为目前为止这个行动收获的概率是100%。