whynotTV徐丹飞：离通用智能机器人还有多远

我觉得whynot TV真的很不错，两个小时我认真听完了徐丹飞老师的分享，这段播客让我看到从未涉及的领域一些新的视角和普适易懂的问题，还有科学家着力攻克的难题和尝试过的途径这些。简单记录这2小时的播客要点。

和高不确定性平稳相处，主动寻求不确定性，并且有高执行力驾驭高不确定性。我听到徐老师几乎单枪匹马自己搞定美本申请，然后遵从内心脱离主流一头扎进机器人科学研究，make cold calls去connect新的机器公司拿到实习机会，show up at once拿到暑期研究的机会，这个真的不是谁都能做得到，值得学习！

机器人领域不能纯用LLM接口，因为符号世界和物理世界有差异。我发现我把智能机器人/具身智能想得太简单了，比如投球用哪些肌肉能让球投得更远，这些用到机器人上是难以用语言表达的。这些让我突然明白，为什么说化妆、踢球、剪发这类带有审美、技巧和微操作的职业工作还未能被AI取代的原因，除了给人带来真实的接触和情绪价值以外，物理影响的造成对于AI还是有难度的。距离通用智能仍遥远，目前的机器人可能通过强化学习在特定任务上"过拟合"达到超人类表现，但无法像乌鸦"贝蒂"一样，将"弯铁丝"和"钩取食物"两个独立技能灵活重组，解决新问题。

机器人学习而言，不同类型数据的价值排序可能是：第一人称视频> 手部姿态数据 > 语言指令>全身姿态/力数据。机器人的本质是"施力引擎"，它通过施加力来改变世界。音频、嗅觉等模态目前价值很小。但是关于如何表示这些数据，如何训练这些数据，我很疑惑。

fidelity × scalability 人机边界定义矛盾又冲突，数据保证真实，但又要给机器人智能一定的泛化空间，UMI 展示了一种革命性思路，通过状态估计，让人手的动作能近乎无损地直接映射到机器人夹爪上，这样在末端执行器层面，仿真与现实的差距几乎为零。未来当接口完美对齐，人类数据 ≈ 机器人数据。

系统能力和全栈精神适用任何领域！徐老师认为算法被高估，系统工程能力和硬件创新被严重低估，机器人需要全栈集成，必须是感知、决策、控制、硬件的深度整合，不能是算法、机械、电子等"孤岛"。这适用于任何领域，不论身在什么行业什么岗位，拓展能力边界，全局性看待问题，了解每个环节或者每个工种之间协作的系统都是深耕成为专家的必经之路。