文章目录
- 球机器人研究
-
- 报告
- 综合分析多智能体推箱子训练(第100代/第300代)
-
- 一、意识流分析(神经网络脉冲活动)
-
- [1. 热图(`consciousness_agent2_gen100_ep0_heatmap.png`)](#1. 热图(
consciousness_agent2_gen100_ep0_heatmap.png)) - [2. PCA(主成分分析,`consciousness_agent2_gen300_ep0_pca.png`)](#2. PCA(主成分分析,
consciousness_agent2_gen300_ep0_pca.png))
- [1. 热图(`consciousness_agent2_gen100_ep0_heatmap.png`)](#1. 热图(
- 二、符号活动分析(16维符号向量)
-
- [1. 转移概率矩阵(`symbol_agent0_gen100_ep0_trans.png`)](#1. 转移概率矩阵(
symbol_agent0_gen100_ep0_trans.png)) - [2. 高频模式(`symbol_agent0_gen100_ep0_patterns.txt` 和 `ep1_patterns.txt`)](#2. 高频模式(
symbol_agent0_gen100_ep0_patterns.txt和ep1_patterns.txt)) - [3. 智能体间互信息(未在用户上传中显示,但综合分析脚本会生成)](#3. 智能体间互信息(未在用户上传中显示,但综合分析脚本会生成))
- [1. 转移概率矩阵(`symbol_agent0_gen100_ep0_trans.png`)](#1. 转移概率矩阵(
- 三、结论与建议
球机器人研究
报告
-
只所以搞出这样的球机器人出来,就是想借对该3个机器人的行为及表现进行认识科学的研究,想研究意识的涌现。
-
机器人完全运行在物理模拟的真实环境中,使用了物理引擎参与计算。
-
C++程序(运行在fedora服务器上)及相应的python程序总算通过调试并正常运行了,1.1版从所有类脑神经网络初始化状态到开始训练一段时间,训练时间远不够(幸亏神经网络结构经过反复优化,所以训练时间不是很长~),所以机器人只是在那里学习和玩乐,程序也有待改进和修正。
-
效果如下:


-
有几个问题先说明一下:
(1)机器人所有的动作都是它们自动进化出来的,包括遇到什么地形采用什么动作,全是类脑神经网络自发学习和生成的(当然我给了极少数量的随机训练地形样本,给多了,我的机器受不了,训练太慢了,没办法)所以你会发现每个机器人的招牌动作都不一样。
(2)没有对机器人行走姿势和行走策略进行过任何预设,完全是它们自主学会行走的。主要是本人物理不太好(很多物理参数都不太懂,所以为了搭建适合的物理环境和机器人本身的方面,我调试这个程序花了近20天。),没办法进行预定,只能让机器自己学会,从走不了一步到慢慢可以走路。
(3)机器人内建了脑神经网络组和运动神经网络组,实现运动和大脑分开,另外机器人之间会通过符号交流和沟通。
(4)机器人安装了一个地形环境探索器,可以事先知道前面的地形,由于机器人还没有人类意识,但地形连接到了神经网络,它知道从记忆神经网络中调取学到的动作。
综合分析多智能体推箱子训练(第100代/第300代)
一、意识流分析(神经网络脉冲活动)
1. 热图(consciousness_agent2_gen100_ep0_heatmap.png)
- 观察 :热图显示神经元活动在时间上存在明显的带状结构,部分神经元持续高活跃(亮黄色),大部分神经元保持低活跃(暗紫色),少数神经元间歇性爆发。
- 解读 :
- 高活跃神经元可能编码持续的内部状态(如运动节律、目标意图)。
- 间歇性爆发的神经元对应事件驱动的脉冲(如接触箱子、跳跃、符号切换)。
- 无明显的大规模同步震荡,说明网络未陷入病态周期性活动。
2. PCA(主成分分析,consciousness_agent2_gen300_ep0_pca.png)
- 观察:PC1 解释了 63% 的方差,PC2 仅解释 3%。点云在 PC1 方向上显著分散,PC2 方向几乎无差异。
- 解读 :
- 神经元群体活动主要由一个主成分 主导,表明网络内部存在一个高度相关的"全局模式",可能与行走‑推箱子的主节奏相关。
- PC2 方差极低,说明次要模式(如个体差异、随机噪声)贡献很小,网络已经收敛到稳定的行为策略。
- 点云没有形成明显分离的簇,意味着没有分化出完全独立的功能模块(如"行走神经元组"与"推箱子神经元组"可能高度重叠)。
二、符号活动分析(16维符号向量)
1. 转移概率矩阵(symbol_agent0_gen100_ep0_trans.png)
- 观察 :矩阵有明显的对角线主导(自转移概率高)和少数非对角线高亮方块。
- 解读 :
- 符号状态倾向于自我维持(长时间保持同一符号),说明符号具有稳定的含义,而非随机游走。
- 非对角线高亮区域表明存在特定的状态跳转(例如从符号A跳到B再跳回A),可能对应行为切换(如"前进"→"推"→"前进")。
- 状态数量较多(颜色方块多),但活跃状态可能只占少数,许多状态从未出现(全暗列)。
2. 高频模式(symbol_agent0_gen100_ep0_patterns.txt 和 ep1_patterns.txt)
- 观察 :
- 最常见模式是 (5623, 5623) 出现 10 次(ep0)和 (3613, 3613) 出现 10 次(ep1),即相同状态的重复。
- 其他高频模式多为二元组 ,如
(5623, 3084),(3613, 9550)等,且这些状态ID在不同 episode 中不一致(ep0 的 5623 在 ep1 中很少出现)。
- 解读 :
- 符号状态ID是哈希值(通过
hash(tuple(sym)) % 10000得到),不同 episode 即使行为相似,哈希结果也可能不同,因此跨 episode 的模式不可直接比较。 - 每个 episode 内部的频繁二元组反映了符号序列的局部语法 。例如
(5623, 5623)高频表示该符号经常连续出现,可能对应持续执行某个行为(如"一直推箱子")。 - 出现次数较少(3~10次)说明符号变化不频繁,每步几乎保持相同符号,符合"稳定状态"的观察。
- 符号状态ID是哈希值(通过
3. 智能体间互信息(未在用户上传中显示,但综合分析脚本会生成)
- 预期 :如果智能体间符号互信息较高,说明它们通过符号进行了协调(例如一个智能体输出"PUSH"符号,另一个智能体接收到后调整动作)。从训练日志看,适应度中包含了
MUTUAL_INFO_WEIGHT,因此网络可能已经学会了符号通信。
三、结论与建议
-
训练有效:意识流显示出有序的活动模式,符号表现出稳定的状态转移,说明神经网络已经学会了协调的行走和推箱子行为。
-
符号分化不足 :虽然符号状态稳定,但不同 episode 使用的符号ID差异很大,表明符号含义没有收敛到通用语义 (每个 episode 随机初始化不同的符号编码)。这可以通过增加
ROLE_DIFF_WEIGHT或固定符号解码器来改善。


