x2sam

X2SAM：打通图像+视频全场景的统一多模态分割大模型由中山大学、鹏城实验室与美团的研究团队联合提出X2SAM统一分割多模态大模型，首次将SAM系列的任意分割能力从静态图片拓展至动态视频领域。该模型依托大语言模型+全新Mask Memory掩码记忆模块，同时兼容文本指令、点/框等视觉提示词，一套框架即可完成图像、视频两大类共14项细分分割任务；研究团队还自建V-VGD视频视觉引导分割评测基准，通过异构图文数据集联合训练，X2SAM在保持图像分割竞争力的同时，大幅刷新视频分割各项指标，还保留图文、视频对话能力，实现像素级时空统一理解。项目已开源代码与项目主页，

我是有底线的