【Archived 2025】

回看 2025 年，我给这一年的主题起名为"惊喜"。

它并不是那种宏大叙事意义上的成功之年，而是一年由许多意料之外的节点串联起来的时间。健身上刷新自己曾以为无法跨越的极限；两篇论文顺利接收，在反复修改与等待中落地；签证压哨通过，让我得以短暂踏上美国的土地，亲身感受另一种科研与生活交织的语境。与此同时，我也愈发庆幸自己选择了具身智能这条路，并且切身感叹这个领域在短时间内所呈现出的、几乎是指数级的加速度。

但"惊喜"并不总是纯粹的愉悦，它往往伴随着挫败与不安。

在生成式人工智能的浪潮面前，我毫无疑问地感受到一种全方位的落后。无论是模型规模、训练范式，还是产业落地速度，都让我清晰地意识到个体研究者在时代洪流中的渺小。但与此同时，我又庆幸自己拥有这样的助手，也逐渐学会用一种更缓和的方式安慰自己：蒸汽时代的人们不必去征服汽车，而是学会如何驾驶它；同样，在人工智能时代，我或许不必与 AI 对抗，而应当学习如何更好地使用它。

然而，安慰并不能彻底消解恐惧。那种恐惧来源于一个更深层的问题------当"硅基系统的起点来自于碳基生命"，我们是否正在亲手加速一种超出自身控制的演化？理性告诉我，这种问题以个体之力无法回答；但情绪又无法完全忽略它。一万年太久，只争朝夕，我就在这种焦虑与妥协之间，被 AI 的浪潮推着向前。

在具身智能本身的研究上，从学术角度看，数据采集无疑已经呈现出一条相对清晰且可扩展的路径，例如 UMI 所代表的范式，正在为大规模学习提供现实基础。但在方法论层面，我对当前以 π0 为代表的一类 VLA 路线持保留态度。我并不否认端到端的优雅性，相反，我认为端到端是必要的；但我很难相信，过去几十年机器人研究中关于动力学、几何、坐标系与物理约束的积累，可以被简单地"用数据抹平"。

机器人不是纯粹的感知---语言系统，它始终嵌在真实世界的坐标系中。这些结构性先验是否应当被显式建模？是否应当在模型设计中占据一席之地？我在这些问题上反复摇摆。因为几乎与此同时，"第一性原理"的另一种声音又在我脑海中提醒我：当数据规模足够大、分布足够丰富时，这些人为设计的结构，或许终将被统计学习所吸收。

这种内在的对立并未让我更接近答案，反而让我意识到：真正困难的不是选择立场，而是在不确定性中持续思考。或许这就是科研吧，持续的怀疑与修正。

关于世界模型，我也经历了类似的认知转变。随着对这一方向理解的加深，我逐渐认为，未来有价值的世界模型必然是多模态的预测系统（Action-conditioned）。它不仅应当处理 RGB，还应当涵盖深度、法线、语义等多层次信息；不仅能生成，还应当具备识别、分割与分类的能力。它不只是"预测未来的画面"，而是像人一样，在世界中理解万物、组织经验、形成内在表征。

展望 2026 年，我希望未来一年的主题是"实践"。

我越来越清晰地意识到，脑海中那些看似深刻、甚至自洽的想法，如果无法经受真实系统与大规模部署的检验，终究只是沙盒中的假设。在学校里，我们往往只能触及 toy example，而真正残酷也最有价值的验证，发生在工业级系统、真实用户与长时间运行的环境中。

这注定是一条辛苦的路。但我希望在自己人生的黄金岁月，在人工智能的浪潮中，在机器人革命尚未定型的历史窗口期，选择继续向前。哪怕最终留下的，只是岁月史书中的一个并不完美的符号。

那也将是我认真参与过这个时代的证明。