【AI】神经网络等相关的想法记录

神经网络等相关的想法记录

  • [1. 模型](#1. 模型)
    • [1.1 强化学习模型](#1.1 强化学习模型)
      • [1.1.1 将 状态价值评估 和 策略价值评估 融合到一起尝试](#1.1.1 将 状态价值评估 和 策略价值评估 融合到一起尝试)
  • [2. loss](#2. loss)

1. 模型

1.1 强化学习模型

1.1.1 将 状态价值评估 和 策略价值评估 融合到一起尝试

如flybird,

状态价值: agient状态---鸟的高度,鸟的速度,环境状态----柱子等

策略价值:鸟的动作---上升,下降
agent
模型1
期望状态概率分布
期望状态

模型1的责任是计算出鸟的期望位置,如需要多少高度。-----目标部分
对当前和期望求loss
当前状态
模型2
期望状态
动作概率分布 :上、下

模型2是根据上个模型计算出的高度信息,将预测结果变为现实-------执行部分

两个模型,loss不相同,目标不相同,但串接在一起,实现整体目标的一小部分。

期望状态:

flybird的环境,能输出通过杆子的高度信息,执行部分去执行高度信息。相当于将一个二维的转换成两个一维的。

问题:

是否能提升性能?如,倒立摆,位置0为最高反馈,目标一直输出0,执行部分去执行。在这个状态中,目标部分则被跳过。

2. loss

损失函数,应该是多维度的,如果分类不佳,是否损失函数的维度不够。

需要模型来评估关联参数,和评价维度。

只要前提条件加的多,你就是世界第一。

其中这个前提条件,就是loss大的部分,

相关推荐
ZzT33 分钟前
怎么做才不会被 AI 替代?
人工智能·程序员
道友可好38 分钟前
从今天开始:你的第一个 Harness Engineering 实践
前端·人工智能·后端
小姜前线技术2 小时前
AI回答代码块高亮加一键复制
人工智能
洛阳泰山2 小时前
从 0 到 1.6K Star:一个 Java 开源项目的增长复盘
人工智能·后端·开源
米小虾3 小时前
Agent Skill 设计模式完全指南
人工智能·agent
饼干哥哥3 小时前
保姆级教程:用Image2 + Seedance2.0 做长视频,以品牌广告为例
人工智能
米小虾4 小时前
Agent Skill 规范与 Skill-Creator 核心思想
人工智能·agent
ZhengEnCi4 小时前
09e-斯坦福CS336作业四:大规模语言模型训练数据收集与处理
人工智能
oil欧哟4 小时前
Codex 最佳实践(超级长文):先搞懂 AI,再用好 AI
前端·人工智能·后端
甲维斯4 小时前
日本发布比肩Fable5的模型?Fugu Ultra初探!
人工智能·ai编程