对话作者：全球首个开源手术视频大模型SurgMotion（第一期）

医院的墙壁，

听过世界上最虔诚的祷告。

手术室大门打开，

绿色手术服走进光里。

中国科学院香港创新研究院，

人工智能与机器人创新中心，

AI大模型吃透3658小时手术视频，

包括13个人体器官，

70个解剖结构，

100多种术式；

淬炼出1B的模型参数，

整个训练涉及到的数据，

有75%来自合作医疗机构，

首次仅对该团队开放的私有资料，

并且全部经过严格的医疗伦理审查。

训练推理与医生患者如此有力地握手，

这一切，都是为了一个开源大模型，

全球首个开源手术视频大模型SurgMotion。

一个严肃的话题，

一个前沿的医疗技术，

一次扎扎实实的科研努力。

医疗AI的赛道里，

影像、语言模型早已遍地开花，

但手术视频这个最贴近临床操作的场景，

却一直是难啃的硬骨头。

在此背景下，

SurgMotion正式开源。

这个不是AI生成电影那种大模型，

它生成不了花里胡哨的视频，

而是能给出医疗建议。

我的结论是，

大模型+机器人替代顶尖手术医生，

在十年内都无可能。

努力成为医生完美的"打下手"。

有可能让手术医疗水平与安全再上一个台阶。

手术视频大模型第一期，

对话论文作者之一------易东博士：

提问：为什么手术视频大模型，是医疗AI最难哪道题？

回答：

首先，做过手术、了解手术的人都知道，

手术视野里满是血肉组织，

没有全局参考，

外行人看就是"一团血"，

哪怕是专业医生，

也会被视野限制、受操作节奏影响，

从而错过关键细节。

而难点远不止"看清楚"这一个。

其次，手术场景的特殊性要求高：

手术里的关键事件都是"瞬间性"的，

比如，局部小出血，

医生是在出血的1-2秒内发现，及时止血，

假如等视野被血染红，

视频大模型再找出血点，

不仅毫无意义，

而且徒增手术风险；

再者，医生手法的"流派差异"带来泛化难题：

不同医院、不同医生的手术步骤、

操作习惯都有差异，

有的医生先切这里，有的先处理那里，

模型必须兼容这些差异，才能落地；

最后，视频本身的信息冗余难题，

和信息密度极高的语言数据不同，

哪怕好不容易拿到高达几千小时的视频时长，

压缩后有效信息并不多，

模型找到核心特征非常困难。

提问：为什么论文最先强调像素级重建目标？这是在强调什么？

回答：

像素级重建会逼模型，

把算力浪费在还原这些没用的光影、

雾气、水渍细节上。

它学的是：

"这里血流过去几帧，这里反光闪一下。"

但手术真正重要的是：

手术器械在干嘛？动作是什么？步骤走到哪？

医生操作逻辑是什么？

也就是说，镜面反光（specular reflections）

液体流动（fluidmotion），

是低层次视觉细节，

而这些细节对理解手术语义，

（如操作步骤、器械使用、技能水平），

几乎没有帮助，甚至可能是干扰噪声。

手术视频分析的最终目标是，

高层次语义理解，

第一，手术阶段识别；

第二，动作三元组识别（动作+器械+目标）；

第三，技能评估；

抓不住重点，这导致模型学到的表示，

虽然能"看起来像原视频"，

但缺乏对关键语义结构的抽象能力。

好比，考试考默写课文，

但真正需要的是理解文章思想------

结果学生只会背字，不会思考。

正因为像素重建不合适，

作者才提出"从像素重建转向潜在运动预测"，

shift from pixel-level reconstruction

to latent motion prediction；

新方法不再要求模型"画出每一帧"，

而是让它预测视频中隐含的运动模式------

这才是理解手术流程的关键。

后续提出的三项技术创新：

1.motion-guided masking,

2.self-distillation,

3.SFDR，

都围绕"如何更好地学习语义相关的运动"。

论文思想是，找到"低层细节vs高层语义"矛盾，

为转向"运动预测"这一新范式提供充分理由。

提问：手术AI应如何选择切入点落地？

回答：

比如自动驾驶这种模式，也是要动作操作的，

难度在于路况车况复杂。

一个初级水平司机的培养时长是月数，

手术的医学生培养是5+3+X（年），

X是不同手术的难度，

对应训练成熟手术医生所需要的年数。

虽然术式种类很多，

有的官方认可的专业术式有上千种，

经常性手术20多种，

而2024年中国手术人次1亿。

考虑AI可以从经常做的手术种类里面下手。

达芬奇手术机器人研发初期，

也是瞄准数量大的手术种类，

一方面是商业考量，

一方面是受益人群规模的考量。

提问：可否解释下核心指标？

回答：

SurgMotion在两个核心「像素级感知」任务上，

和全球10+款主流手术AI模型的PK结果，

两项指标全拿第一。

1.深度估计（Depth Estimation）：

RMSE越低越准，也就是说：

AI能精准还原手术视野的3D空间结构，

知道器械、病灶、组织的真实远近和深度，

给手术导航、精准操作打基础。

2.病灶分割（Segmentation）：

AvgDice越高越准；

AvgDice（0.850）：

目前行业最高精度，

领先第二名Dinov3-H（0.842）；

AI能精准圈出每一个病灶

比如，消化道里的息肉，

给每一个像素打标签：

是不是病灶？良恶性程度如何？

这种未来临床价值上，

可以给医生做「术中智能提醒」，

帮医生快速定位病灶、判断性质，

减少漏诊、误诊。

怎么帮助医生呢？

一句话就是，提升手术的质量。

肉眼可见的结果包括，

出血少、病人恢复快。

还能怎么帮助医生呢？

年资短的医生复盘手术、练习手法时，

模型精准指出操作偏差，

比如"器械角度偏5度""动作节奏过快"，

不用再单纯靠摸索，

AI缩短手术医生成长周期。

目前，有两种赋能手术的方式：

第一种，模型跟医生配合，

或帮医生做预警和提醒，

目标都是提升手术水平。

第二种，模型和机器人结合，

包括但不限于达芬奇手术机器人。

比如，达芬奇可以相当于一个医生有三双手。

传统的手术，一个主刀加两个助手，

其实也是三双手。

更多阅读

《AI产品和技术模块》

1.Kimi Agent产品很厉害，然后呢？

2.搞懂"记忆"必看｜吃透Engram，坐等Deepseek新模型

《具身智能》

1."26年具身智能，做不过来，根本做不过来"：含陶大程教授独家专访

2.漫画：大模型"强控"具身智能机器人？

《AI+医疗》

1.独家深度丨夸克健康大模型调研报告

2.离谱！熬夜三年肝损害，AI博主也靠AI学"续命"医学知识

3.为什么AI能预警心脏主动脉"血管炸弹"？

《超节点系列》

1.对抗NVLink简史？10万卡争端，英伟达NVL72超节点挑起

2.英伟达：『照抄者死』，阿里华为：AI集群狂飙『全解耦』

3.阿里华为『血战』英伟达AI超节点：悲观者正确，乐观者赚钱

4.抢在英伟达护城河合拢前，硅光的冲刺与最后窗口

5.OCP现场 l 北美AI巨头罕见共识ESUN，为利益『握手』

6.为什么有些『闪断的锅』，硅光不背?

《广域网》

1.AI原生的广域网技术来了，传统要被淘汰了？

2.为了AI，把底层的广域网重做一遍吗？