个人思考记录（一）What u need in AI era

今天抽时间看完了WhynotTV-Danfei Xu的后半部分，同时又线上听了优秀校友的讲座以及小浣熊的分享会议，感触颇深，故稍作记录，待日后回顾。

在这个时代，AI迭代速度很快，LLM在一些领域能力已经逐渐逼近甚至超越了人类本身。确实会带来焦虑感，因为变化确实太快了，不过回看人类文明历史，这样的时刻有很多，每次生产方式的变迁都会带来变革，而人类文明也正是在一次次的变革中得到不断地发展，解放生产力的同时也让我们得以不断地去认识这个世界，在认识世界的过程中又会进一步改进生产方式，形成飞轮，驱动文明快速地进化。

作为个体，我认为应该不断扩充自己的认知边界（比如学习新知识），才能充分发挥AI的生产力。就像汽车的出现，人们学会如何开车从而能更快速地到达目的地。AI亦是汽车，它帮助我们更快地呈现自己的想法或解决一些实际的任务。//明天继续写，太晚了

播客内容

基于播客的字幕以及时间线，将内容转换成了文章的形式（推荐收听全文，这个是为了我自己去快速recover一些内容以及再思考）：

一、成长经历与求学之路

徐丹飞一直把自己定义为一个机器人学家（roboticist），而不仅仅是一个坐在屏幕前训练模型的人。他最早对机器人产生兴趣是在初中到高中阶段，那时他喜欢做一些小手工、捣鼓单片机和小车。这些东西都是从淘宝上买来，自己找教程鼓捣的。他出生在山西太原，六年级到初一搬到上海，初中和高中都在上海度过。

小时候的徐丹飞是一个非常由兴趣驱动（interest-driven）的人。他不想做的事情，会付出零努力；想做的事情，则会投入百分之五十到一百的精力。他坦言自己小时候学习很差，因为非常不喜欢上课和考试这种形式，学校对他来说只是一个社交场所和度过大部分时间的地方。直到高一高二，他决定要出国读本科，动机才突然到来。去美国读书这个决定是他自己做的------高一暑假去了一趟美国后，他觉得"do something different"很吸引人，于是下定决心，没有找任何中介，完全通过QQ群和古早的留学生论坛CUUS自己DIY完成了申请。

他就读的上南中学是一个区重点学校，年级里申请美本的只有两三个人，他是一个极少数的选项。但他并不觉得有压力，反而觉得脱离主流是一件令人兴奋的事情。申请过程并不顺利，父母对这套系统完全不了解，只能负责出钱，所有事情都是他自己一个人干。最后他去了Dickinson College，一所文理学院（LAC）。他后来觉得这个选择没有问题，因为文理学院给了他更多自己探索的空间，也促成了他跟教授近距离做科研的机会。

回顾十八岁之前，他认为那段经历让他意识到：自己非常擅长处理高不确定性、完全没有框架的事情。这种能力后来非常适合做研究。

//兴趣驱动行动、热爱实践和挑战something different

二、本科时期的研究探索

刚到美国读本科时，徐丹飞就对计算机和物理感兴趣，于是主修CS、辅修物理。但他实在太想做机器人研究了，大一大二时就开始给各种名字里带"robotics"的公司打电话------真的就是Google到电话然后打过去，问招不招暑期实习生。他打了二十多个电话，包括Boston Dynamics，最后SynTouch Robotics的Jeremy Fishel接了电话，聊了很久后说："那你来吧，我们也不给你钱，但你来吧。"

于是徐丹飞飞到洛杉矶，在SynTouch做触觉传感器（BioTac）和Shadow Hand。那个暑假他大概搞断了七八根手指。这段经历让他第一次接触到灵巧手，也让他确认了自己对硬件有天生的亲近感------"我真的就想让东西动起来"，他非常享受坐在机器人旁边看它动、看它坏、再把它修好的过程。

后来，他又做了一件"离谱"的事：听说CMU有一个叫RSSS的暑期项目，他发邮件给一个做无人车定位的教授，对方回复说"你的背景可能合适"。徐丹飞直接开了四个小时车从Dickinson去CMU，敲门说："我们要不要聊一聊？"聊了半小时后，教授说："你来吧。"在CMU，他参与了一个非常经典的无人车定位项目，用一辆改装吉普，上面挂了六个摄像头，后面放了六台电脑做数据流。他一周有两天时间花在路上，跟另一个研究员天天开车出去在匹兹堡收集地图信息。这段经历让他非常开心，也让他看到机器人研究是一个完整的系统问题。

//想去做就去试试，anyway没有什么损失

三、PhD 与斯坦福的"机器人荒漠"

本科后期，徐丹飞通过3+2项目转到了哥伦比亚大学。申请PhD时，他拿到了CMU和Stanford的offer，纠结了很久。Stanford当时做机器人的人非常少，除了Oussama Khatib之外几乎没有人，更别提robot learning了。但徐丹飞觉得CMU的确定性太高------他知道去了会做什么；而在Stanford他完全不知道会做什么，"这件事情非常exciting"。他隐约感觉到那边有一个"bigger thing"。

2015年，他进入Stanford读PhD。当时系里大多数人都在做vision，Feifei Li在做scene graph，Silvio Savarese在做3D。Stanford有rotation制度，他第一个学期跟Silvio做3D reconstruction，第二个学期跟Leo Guibas做egocentric VR和human data capture------他自己买了Oculus DK，挂上Leap Motion做hand capture，这跟他后来做EgoMimic的雏形几乎一模一样。第三个学期他跟Feifei做了scene graph generation。

第二年，Feifei问他要不要继续做scene graph，他说不要，我要做robotics。当时Stanford做机器人的人依然很少，郁可（Yuke Zhu）和AJ后来才加入。他们四个人成立了一个小组，开始全是做robotics。徐丹飞说："如果我真的有一件事情能让我完全主导，我非常开心。I hate other people telling me what to do。"

//自驱力，do something different

四、Robot Learning 与 Behavior Cloning 的转向

2016到2017年，robot learning领域大致分两派：一派是CV-centric，把机器人当成vision problem做；另一派是RL-centric，认为机器人需要自主学习，看不上supervised learning。当时大家普遍认为"supervised learning is to be shamed of"，behavior cloning（BC）在论文introduction的前两段一定会被说"not good enough"，有compounding error。

徐丹飞和郁可一开始做了一些one-shot imitation learning和Neural Task Programming（NTP），加了很多structure prior。他一度非常喜欢structure和compositionality，但后来逐渐意识到，composability可以作为一个问题而非方法------task and motion planning（TAMP）在工厂限定场景下有用，但太依赖人为设定的structure，成了天花板。

2019年，他去DeepMind实习，做了一个暑假的generative imitation learning（GAIL）。但这段经历最大的收获是：他亲眼看到behavior cloning actually works。DeepMind用Sawyer机器人做了非常好的teleoperation数据，如果把所有less-than-optimal的数据过滤掉，直接做BC，效果可以作为所有任务的competitive baseline。但DeepMind的flagship agenda是reinforcement learning，所以强行把BC压下去了。"It's not politically correct to do behavior cloning。"

回到Stanford后，徐丹飞和Jay一拍即合------Jay之前在ARM-Farm项目里也觉得offline RL不太work。他们花了三个月，从头搭了一套Franka Panda的力控teleoperation系统，从SPSSA写起，一直到算法和learning rate tuning，天天凌晨三点在实验室。这篇RSS 2020的论文本质上非常简单：BC works。他们做了很多"一拍脑子"的决定------加wrist camera、用ResNet-18、加spatial softmax、加RNN------"why not?"。机器人能学会30秒长度的真实任务，比如从烤箱里把盘子挖出来、放东西进去、关上烤箱门。这是之前没人见过的"sign of life"。

但因为当时有"BC shame"，为了发论文，他们还是在上面加了一层比较好讲故事的东西。而且不巧的是，2020年COVID来了，实验室关闭，这篇工作没有引发范式转变。大家只觉得："Stanford student did it with a better system. 没了。"

五、PhD 反思与教职选择

PhD期间，徐丹飞在Autodesk、Zoox和DeepMind做过几段实习。Zoox让他意识到自动驾驶"太无聊了"------当时的自动驾驶已经退化成一个vision problem，pipeline被拆成perception、planning、control，每个人只推自己的benchmark，不需要communication，不够full stack。他绝对不要再做driving。

另一个反思是neural symbolic language for robot。他一度挺信这个路线，但看过RT等工作后觉得，language model生成program再控制机器人，symbolic layer和physical layer差太远了。"Task planning这件事情非常简单，比起精细操作来说，中间离得太远了。"

决定找教职的转折点是在DeepMind实习之后。他意识到工业界研究环境从open变成了非常top-down，"what Demis says goes"。他不喜欢别人告诉他该做什么，"I need to干我自己有兴趣的事情"。在创业和教职之间，他选择了教职，因为教职能给他最多的自由度来做自己想做的事。

六、人类数据与 EgoMimic

徐丹飞认为，robot learning和传统robotics的区别在于：前者把里面所有方法都换成了data-driven。传统manipulation是大家写动力学方程、做优化；而现在大家只关心机器人有没有输出正确的action，中间的modeling都没有了。

他觉得这个领域最被高估的是model和algorithm的重要性，最被低估的是system------从硬件到软件结合的整个系统。

关于数据，现在主流是teleoperation数据（遥操）和synthetic数据（物理引擎）。但他最相信的是human data。2023年中，他和学生Sumeet开始做EgoMimic。Sumeet坚信第一人称视角（ego video）数据是最scalable的。他们一开始用Oculus加Leap Motion，但calibration非常不稳定；后来正好Meta有Aria眼镜，能同时做手部tracking、头部定位和RGB采集，于是整个项目转向用Aria。

为了让人类数据能更好地迁移到机器人，徐丹飞认为机器人必须变得更像人。当时没有任何现成机器人符合要求，于是他亲自去Vention买了各种铝部件，自己设计、自己搭了一个双臂加肩、带两根"棍子"的机器人，还自己3D打印了一个gripper。那段时间他不是在教课，就是在实验室打螺丝。

为什么从teleoperation转向human data？因为他逐渐意识到："如果你在人人身上挂足够多的sensor，其实你可以把一个人变成一个机器人。"遥操数据本身也不完美------哪怕同一个机器人，底层控制器稍微改一点，数据分布就变了。但人和机器人的差距真有那么大吗？如果能把人的动作转成可用的action、perception转成policy input，那人类数据就可以直接当机器人数据用。

从ego video里，机器人能学到三层东西：第一层是世界应该怎么改变（拿杯子、推抽屉）；第二层是本体如何造成这些改变（推哪里、拿哪里）；第三层是如何产生本体的动作（肌肉、关节如何发力）。前两层可以学到，第三层很难直接从视频学------比如扔球需要知道每个关节发多少力，这是视频看不到的。这也是为什么他强调第一人称而非YouTube第三人称：第三人称数据虽然scalable，但和机器人数据的distribution对齐非常难，能真正用到的很少。

SLAM/VIO之所以重要，是因为如果把人当另一种机器人来用，就需要精确的action label。知道手在相机里的位置还不够，需要知道在世界坐标系里的位置，这就需要视觉惯性里程计来做自我定位。他认为长期最有价值的数据是"不经意的人类数据"------人在日常生活中自然流露的物理交互，而不是为了完成任务刻意采集的数据。因为人类的physical intelligence很多是在无意识中展现的，比如用手肘关抽屉、用脚开门。

关于模态的重要性，他的排序是：第一名是video；第二名是hand pose；第三名是language annotation；第四名是whole body pose和tactile（触觉）；音频和嗅觉则相对不重要。触觉传感器今天最大的问题是太不统一，没有RGB那样的标准化表示。

七、UMI 数据与硬件瓶颈

UMI（Universal Manipulation Interface）数据可以理解为：人手退化成了一个机器夹爪（gripper），这个gripper自己有状态估计（上面带摄像头和定位），你知道它在3D空间的位置。好处是采集和部署之间几乎没有embodiment gap，因为末端执行器是一样的。但gap依然存在：人的操作空间和自由度跟机器人不一样。

徐丹飞认为，teleoperation、UMI和纯human data长期会变得难以区分，最终会融合。现在最work的UMI还是夹爪，因为五指灵巧手的transfer卡在硬件上------不是机械臂不行，而是大部分人没有把执行器、控制器、速度匹配串起来。他相信如果机器人底层执行器做得足够好（速度够快、控制够精准），human data到五指的transfer gap并没有那么大。

人形机器人和人类数据是一荣俱荣的关系。Humanoid本身除了使用工具和心理接受度外没有实质意义，但有了human data，humanoid就有了purpose。反过来，没有humanoid，human-to-robot transfer会更难。他担心human data会不会把机器人锁死在人类水平，但认为不至于------可以先通过human data达到人类水平，再通过finetuning激发超人类潜力。

八、数据基础设施与开放之争

徐丹飞估计，要达到behavior clone human的水平，大概需要1亿小时的高质量数据。而今天整个行业最大的数据集大概在10万到20万小时之间，还差100倍。如果有一个有钱的公司把所有人数据买下来，大概能凑到一两百万小时。

现在的问题是：human data还没有统一标准，传感器、模态、采集设备都没有converge。如果直接push for 1亿小时，有可能造成巨大浪费。他形容现在的状态是"一辆高速前行的火车，前面有几个Lauv在疯狂打铁轨，后面所有资本在往车里加油加柴"------数据的热情超过了基础研究的准备。

他本来希望"无心插柳"：等Meta Glass、Apple Vision Pro等可穿戴设备普及后，自然会有大量数据。没想到robot learning火了，很多人开始专门采集数据，时间表被提前了。

关于开放与封闭，他认为human data采集最终会变成commodity而非护城河，因为frontier lab也不知道自己要什么数据，需要跟数据供应商紧密合作、互相教育。但他也承认，如果真的要达到1亿小时，可能最终会像LLM一样走向高度商业化、封闭的状态------"我在scale上的成功，会让open science这边变成失败"。

如果human data没有成为robot learning的基石，他觉得自己可能错判了两件事：一是simulation-based learning的scalability远超预期；二是人和机器人之间的embodiment gap（尤其是第三层动作生成）太大，导致zero-shot transfer完全不可能。

九、Full-Stack 与建模方法

徐丹飞反复强调full stack的重要性。机器人不能像自动驾驶那样被拆碎成分工明确的模块------perception、planning、control各做各的。他认为robotics本质上不是一个能分工解决的问题，所有人需要know everything。

Full stack不等于什么都要自己造，但你需要对整个系统的每一个细节有足够深的理解，才能判断哪些该买、哪些该建。一个团队绝对不能放弃、必须in-house做的是：evaluation和training loop、post-training数据筛选、数据分布的把控、以及close loop的采集-训练-部署循环。如果数据来自vendor，vendor怎么采的、synchronization做得好不好，对你来说就是一个黑箱，这在追求1亿小时数据时会是巨大挑战。

关于建模，human data会偏好long context model。因为behavior clone一个agent需要足够的上下文来解释为什么要做这个动作。如果context不够，action只是一个非常宽的分布，无法理解。

他思考system 1和system 2的interface会是什么，认为"we need a new language"。LLM grounding到action的距离太远了。一个不会说话的人跟物理世界交互时，并不会用language as system 2来规划、system 1来执行------规划和操作可能在另一个空间里完成。这个空间是什么，需要从human data里从头学起。

//全栈开发，多领域交叉，no limit

十、教授生涯与给年轻人的建议

徐丹飞在Georgia Tech做助理教授不到四年。他的advising style在hands-on和hands-off之间反复横跳------有些东西他真的想自己push forward，比如EgoMimic的机器人就是他亲自搭的；有些东西则让学生做open-ended exploration。

他的lab文化有几个坚持：讨厌分工，要求每个人care about the whole thing，know everything，no work is beneath anyone（全栈开发）。如果机器人电机坏了，他会直接进去自己焊。他招学生最看重的特质是：不讨厌硬件。

学术界最吸引他的本质是thought leadership------"academia最终要达到的是oversized impact，你需要用你的idea来影响别人，让别人觉得一件事情是对的，然后共同推进。"

对于2026年读robotics PhD的学生，他认为比十年前更难了------因为FOMO（fear of missing out）情绪太高，如果不跟主流连接会觉得被lock out。但反过来，资源变多了，工具变多了，如果选对了方向，做成一件事更容易。他建议年轻研究者尽早培养taste------自己觉得什么是对的、什么是错的。看优秀研究者的轨迹时，要理解他们的gradient（为什么做），而不只是学他们的traction（做了什么）。

他的career goal很简单：没有很强的个人企图心，只是希望能尽微薄之力促成robotics的GPT-3 moment。他给十年前的自己的建议是：勇敢做自己想做的事，"what's to lose？"。

// 先找对方向，然后just try

时间胶囊寄语

"我觉得真的能够参与在一个能够改变世界的领域，在正确的时间、在一个正确的地方，是一个非常幸运的事情。我可能会把自己当做一个没有那么强天赋的人，只是一个正常普通的人。我觉得绝大部分人做自己想做的事情，还是会让你的career或者你自己的生活变得更容易一点，也没有那么脱离大部队。所以是勇敢地做自己想做的事，不要有那么多的包袱------what's to lose?"

//佬谦虚了，个人选择有时亦是一种时运吧；人生一世就做些自己想做的事吧

参考资料

WhynotTV播客 - 何泰然

熊猫字幕