技术栈

x2sam

阿_旭
3 小时前
x2sam
X2SAM:打通图像+视频全场景的统一多模态分割大模型由中山大学、鹏城实验室与美团的研究团队联合提出X2SAM统一分割多模态大模型,首次将SAM系列的任意分割能力从静态图片拓展至动态视频领域。该模型依托大语言模型+全新Mask Memory掩码记忆模块,同时兼容文本指令、点/框等视觉提示词,一套框架即可完成图像、视频两大类共14项细分分割任务;研究团队还自建V-VGD视频视觉引导分割评测基准,通过异构图文数据集联合训练,X2SAM在保持图像分割竞争力的同时,大幅刷新视频分割各项指标,还保留图文、视频对话能力,实现像素级时空统一理解。项目已开源代码与项目主页,
我是有底线的