AAAI 2026 | 上海AI Lab发布RacketVision,首次为球拍运动标注球拍姿态

导读

乒乓球、网球、羽毛球------这三大球拍运动的视觉分析一直是体育AI的热门方向,但现有数据集存在两个共性短板:只关注单一运动的球追踪,且完全忽略了球拍这一核心交互物体。球拍的姿态直接决定了击球方向和旋转,不建模球拍就无法真正理解比赛。

本文介绍的 RacketVision 是首个同时标注球位置和球拍姿态(边界框+5关键点)的多运动基准,覆盖乒乓球、网球和羽毛球共 942 场职业比赛、43.5 万帧,定义了球追踪、球拍姿态估计和球轨迹预测三个递进任务。实验揭示了一个关键发现:将球拍姿态特征朴素拼接到轨迹预测模型中,性能反而低于只用球坐标的基线;但引入 Cross-Attention 融合机制后,LSTM 模型在关键击球帧上准确利用球拍信息,最终在三项运动上全面超越纯球轨迹基线。

论文信息

  • 标题:RacketVision: A Multiple Racket Sports Benchmark for Unified Ball and Racket Analysis
  • 作者:Linfeng Dong, Yuchen Yang, Hao Wu, Wei Wang, Yuenan Hou, Zhihang Zhong†, Xiao Sun†
  • 机构:上海人工智能实验室、浙江大学、复旦大学、中国科学技术大学
  • 日期:2026 年 1 月 28 日(arXiv v3)
  • DOI:arXiv:2511.17045

一、球拍运动分析缺什么?现有数据集只追球、不看拍

现有球拍运动数据集(如 TrackNet、TrackNetv2、OpenTTGames)存在两个关键限制:

  1. 只做单一运动的球追踪:每个数据集只覆盖一种运动,无法挖掘不同球拍运动之间的共享运动模式
  2. 完全缺少球拍标注:尽管球拍是决定击球方向和旋转的核心物体,但没有数据集提供球拍的位置和姿态信息

与已有数据集的规模对比:

数据集 分辨率 运动数 比赛数 帧数 标注类型
TrackNet 720p 1 10 19k
TrackNetv2 720p 1 19 78k
OpenTTGames 1080p 1 12 55k
RacketVision 1080p 3 942 435k 球+球拍

RacketVision 在帧数上是此前最大数据集的 5.6 倍,且首次引入球拍姿态标注(边界框+5个关键点)。


二、三项运动、三个递进任务:从感知到预测的完整流水线

数据集构成

数据来源为 YouTube 上 942 场职业比赛的广播视频,经过有效片段切分和稀疏标注(每个片段均匀采样 20% 的帧进行人工标注):

运动 比赛数 片段数 帧数 时长(秒) 球标注 球拍标注
乒乓球 50 780 170,027 3,878 19,495 6,648
网球 431 431 150,399 4,285 21,544 7,395
羽毛球 461 461 114,753 4,592 23,003 10,578
合计 942 1,672 435,179 12,755 64,042 24,621

球拍标注包含每个球拍的边界框5个关键点(顶部、底部、手柄、左侧、右侧),用于捕捉球拍在帧中的姿态。

三个递进任务

论文定义了从低层感知到高层预测的三个相互关联的任务:

任务一:球追踪(Ball Tracking) ------预测目标帧中球的坐标和可见性。分为单帧和多帧(使用前5帧作为时序上下文)两种设置。

任务二:球拍姿态估计(Racket Pose Estimation) ------预测每个球拍的边界框和5个关键点坐标,采用单帧设置。

任务三:球轨迹预测(Ball Trajectory Prediction) ------给定历史球位置序列(可选加入球拍姿态),预测未来若干帧的球轨迹。分为短轨迹(历史20帧→预测5帧)和长轨迹(历史80帧→预测20帧)两种设置。

三个任务形成流水线:球追踪器和球拍姿态估计器先在稀疏标注帧上训练,再对完整视频生成逐帧的密集预测("软标签"),为轨迹预测器提供训练数据。

图片来源于原论文


三、多运动联合训练显著提升泛化,背景建模大幅降低定位误差

球追踪结果

论文以 TrackNetV3 为核心架构,对比了单运动(SS)与多运动(MS)训练、是否使用背景建模(BM)、单帧与多帧(#F=1 vs #F=4)的影响:

模型 BM #F 乒乓球 mAP 网球 mAP 羽毛球 mAP
TrackNetV3 4 68.3 68.7 72.5
MS-TrackNetV3 4 71.1 81.9 83.1

三个关键发现:

  • 多运动联合训练显著提升泛化:MS-TrackNetV3 在网球 mAP 上比单运动版本提升 +19.2%(81.9 vs 68.7),羽毛球 +14.6%(83.1 vs 72.5)
  • 背景建模大幅降低定位误差 :加入背景中值帧后,TrackNetV3(#F=1)的 MDE 在乒乓球降低 54.0%,网球 61.4%,羽毛球 54.8%
  • 多帧输入提升检测但存在精度权衡:4帧输入提升了 Recall 和 mAP,但偶尔因运动模糊引入轻微的坐标抖动

球拍姿态估计结果

论文使用 RTMPose 作为基线,多运动训练同样带来一致提升:

训练方式 乒乓球 PCK@0.2 网球 PCK@0.2 羽毛球 PCK@0.2
单运动(SS) 75.6 83.7 82.1
多运动(MS) 81.8(+6.17%) 89.6(+5.97%) 88.5(+6.36%)

一个值得关注的现象:侧面关键点远比结构关键点难检测。顶部、底部、手柄的准确率均在 92% 以上,而左侧、右侧关键点仅为 64.8%-80.1%。论文分析原因是侧边常被手部遮挡,且对快速运动和视角变化高度敏感。

图片来源于原论文


四、消融实验:朴素拼接球拍特征反而有害,Cross-Attention 融合才是关键

轨迹预测任务是本文最核心的实验,也揭示了关于多模态融合的关键洞察。

三种输入与融合方式

  • Ball-Only:仅输入历史球坐标,纯单模态基线
  • Concat Fusion:将球坐标和球拍姿态的嵌入拼接后送入模型
  • Cross-Attention Fusion:球轨迹序列作为 Query,球拍姿态序列作为 Key/Value,通过注意力机制动态加权

短轨迹预测结果(历史20帧→预测5帧)

模型 输入 融合方式 乒乓球 ADE 乒乓球 FDE 网球 ADE 网球 FDE 羽毛球 ADE 羽毛球 FDE
LSTM Ball - 41.9 64.0 23.8 37.6 37.5 60.7
LSTM Ball+Racket Concat 58.1 86.6 29.3 45.3 45.7 70.7
LSTM Ball+Racket CrossAttn 38.3 60.4 22.8 35.7 37.0 59.3

长轨迹预测结果(历史80帧→预测20帧)

模型 输入 融合方式 乒乓球 ADE 乒乓球 FDE 网球 ADE 网球 FDE 羽毛球 ADE 羽毛球 FDE
LSTM Ball - 113.9 184.3 62.5 108.7 118.7 194.7
LSTM Ball+Racket Concat 139.9 198.9 76.8 125.0 134.5 203.3
LSTM Ball+Racket CrossAttn 101.3 161.3 55.5 94.7 114.6 187.6

三个核心发现

1. 朴素拼接(Concat)一致地损害性能。在 LSTM 和 Transformer 两种骨干上,Concat 融合的 ADE/FDE 均差于纯 Ball-Only 基线。原因是数据集中大量样本处于球在空中飞行状态,此时球拍信息不相关甚至是噪声,Concat 方式无差别地融合了这些无用信息,干扰了轨迹动力学的学习。

2. Cross-Attention 在关键击球帧上表现优异。Cross-Attention 机制让模型学会在击球瞬间加大球拍信息的权重,在球飞行过程中自动忽略球拍信号。从可视化结果看,Cross-Attention 模型能利用球拍姿态准确预测击球后的转向点和飞行方向。

3. 整体提升幅度受数据构成影响。由于短轨迹样本中大量是球在飞行中的片段(无球拍交互),Cross-Attention 在这些样本上表现与 Ball-Only 相当,整体统计改进不算巨大;但在有击球事件的关键帧上,改进显著。

图片来源于原论文


五、总结与思考

RacketVision 的核心贡献是填补了球拍运动分析中"只追球不看拍"的空白,提供了首个包含球拍姿态标注的多运动基准。多运动联合训练一致提升了球追踪和球拍姿态估计的泛化能力,而轨迹预测实验则揭示了一个有实际指导意义的结论:多模态数据的价值高度依赖于融合架构------朴素拼接不如不融合,Cross-Attention 才能正确地在关键时刻利用球拍信息。

局限性方面:

  • 稀疏标注策略:仅标注 20% 的帧,虽然降低了标注成本,但可能遗漏快速运动中的关键帧
  • 球拍侧面关键点难题:左右关键点准确率(64.8%-80.1%)与顶部/底部/手柄(>92%)差距明显,遮挡和视角变化仍是待解决的挑战
  • 轨迹预测的统计改进有限:Cross-Attention 的优势集中在击球帧,而大量飞行帧稀释了整体指标,未来可能需要针对事件帧的专门评估协议
相关推荐
解局易否结局15 小时前
ops-transformer 的 FlashAttention:给昇腾NPU 配了个“智能分拣中心“
人工智能·深度学习·transformer
代码中介商15 小时前
排序算法完全指南(一):冒泡排序深度详解
算法·排序算法
山西茄子15 小时前
DeepStream Code Agent
人工智能·深度学习·deepstream
灰灰勇闯IT15 小时前
MindSpore 和 CANN 是什么关系——用一个厨房讲明白
人工智能·深度学习·算法·cann
阳明山水15 小时前
模型迭代实战:如何将准确率从75%提升到89%
数据结构·人工智能·算法·机器学习·微信·微信公众平台·微信开放平台
MediaTea15 小时前
DL:前馈神经网络的基本原理与 PyTorch 实现
人工智能·pytorch·深度学习·神经网络·机器学习
呃呃本16 小时前
算法题(贪心算法)
算法·贪心算法
听你说3216 小时前
不迷路、不重扫、不遗漏:库萨科技无人清扫车以空间智能领跑无人环卫赛道
人工智能·科技·算法·机器人
吃好睡好便好16 小时前
在Matlab中绘制三维直方图
开发语言·学习·算法·matlab·信息可视化
勤自省16 小时前
ROS2 + OpenCV 实战教程:人脸识别、物体跟踪、ArUco 二维码识别初级
人工智能·opencv·ubuntu·计算机视觉·ros2