神经网络等相关的想法记录
- [1. 模型](#1. 模型)
- [2. loss](#2. loss)
1. 模型
1.1 强化学习模型
1.1.1 将 状态价值评估 和 策略价值评估 融合到一起尝试
如flybird,
状态价值: agient状态---鸟的高度,鸟的速度,环境状态----柱子等
策略价值:鸟的动作---上升,下降
agent
模型1
期望状态概率分布
期望状态
模型1的责任是计算出鸟的期望位置,如需要多少高度。-----目标部分
对当前和期望求loss
当前状态
模型2
期望状态
动作概率分布 :上、下
模型2是根据上个模型计算出的高度信息,将预测结果变为现实-------执行部分
两个模型,loss不相同,目标不相同,但串接在一起,实现整体目标的一小部分。
期望状态:
flybird的环境,能输出通过杆子的高度信息,执行部分去执行高度信息。相当于将一个二维的转换成两个一维的。
问题:
是否能提升性能?如,倒立摆,位置0为最高反馈,目标一直输出0,执行部分去执行。在这个状态中,目标部分则被跳过。
2. loss
损失函数,应该是多维度的,如果分类不佳,是否损失函数的维度不够。
需要模型来评估关联参数,和评价维度。
只要前提条件加的多,你就是世界第一。
其中这个前提条件,就是loss大的部分,