【论文笔记】SCOPE: Sign Language Contextual Processing with Embedding from LLMs

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题 : SCOPE: Sign Language Contextual Processing with Embedding from LLMs
作者 : Yuqi Liu, Wenqian Zhang, Sihan Ren, Chengyu Huang, Jingyi Yu, Lan Xu
arXiv : https://arxiv.org/abs/2409.01073

摘要

手语,全球约7000万聋人使用,是一种视觉语言,传达视觉和语境信息。

基于视觉的手语识别(SLR)和翻译(SLT)的当前方法由于数据集多样性有限和忽略语境相关信息,在对话场景中存在困难。

为了解决这些挑战,我们引入了SCOPE(基于LLM嵌入的手语语境处理),这是一种新颖的语境感知视觉SLR和SLT框架。

对于SLR,我们通过多模态编码器利用对话语境来增强Gloss级识别。

对于随后的SLT,我们通过结合先前的对话语境进一步微调大型语言模型(LLM)。

我们还贡献了一个新的手语数据集,其中包含72小时的中国手语视频,涉及各种场景的语境对话。

实验结果表明,我们的SCOPE框架在多个数据集上实现了最先进的性能,包括Phoenix-2014T、CSL-Daily和我们的SCOPE数据集。

此外,对聋人社区参与者的调查进一步验证了我们的方法在实际应用中的鲁棒性和有效性。

我们的数据集和代码将开源,以促进进一步的研究。

  • (a) 我们的SCOPE数据集包含丰富的上下文信息和手语视频。
  • (b) 我们的SCOPE框架是一个强大的基于上下文的手语识别/翻译模型,能够识别基于对话的手语手势,预测词素,并在LLMs的帮助下生成口语句子。

方法

SCOPE框架

我们的嵌入对齐编码器将运动特征转换为嵌入,该嵌入能够捕捉整个运动序列的语言信息。将嵌入空间与冻结的LLM对齐,可以实现整合先前句子的上下文信息以识别gloss。最后,Q-LoRA微调通过辅助上下文信息,将预测的gloss翻译成口语。

SCOPE数据集

给定对话文本,经验丰富的手语者会制作相应的手语视频,并附上自我标注的词汇表。对于每个视频,其他手语者根据词汇表和文本复制数据。

数据集比较。广泛使用的手语数据集的关键统计数据。我们的数据集是目前包含对话上下文信息的中国手语(CSL)数据集中最大的数据集。

实验

主实验

消融实验

总结

我们提出了SCOPE数据集,这是首个包含词义和文本注释的基于对话的中文手语数据集。

该数据集包含从专业聋人群体收集的72.4小时手语视频,并辅以59,231个文本注释。

基于此数据集,我们引入了SCOPE框架,这是一个专门为解决手语识别(SLR)和手语翻译(SLT)任务而设计的强大流程,具有丰富的上下文信息。

我们的全面评估证明了我们方法的有效性以及我们的数据集为手语社区带来的显著改进。

我们相信,SCOPE将催化基于上下文的手语处理未来的研究。

相关推荐
m0_6501082417 小时前
Lift, Splat, Shoot:自动驾驶多视图相机的 BEV 语义表示学习
论文阅读·自动驾驶·数据驱动·lss·纯视觉bev感知·bev 语义分割·可解释的端到端轨迹规划
Mr_Oak20 小时前
【multi-model】DINOv2(包含iBOT)& 问答
图像处理·人工智能·深度学习·算法·多模态·对比学习·视觉大模型
七夜zippoe21 小时前
MateChat多模态交互实践:图文理解与语音对话系统集成
microsoft·架构·多模态·matechat
m0_6501082421 小时前
Sparse4D v3:端到端 3D 检测与跟踪的技术突破
论文阅读·自动驾驶·sparse4d v3·端到端3d感知框架·去噪思想·端到端跟踪·纯视觉感知
楚国的小隐士1 天前
努比亚M153和DeepSeek-Math-V2发布后,我对AI的思考
ai·大模型·哲学·辩证法·辩证唯物主义·教员思想·历史唯物主义·马列主义·唯物论·政治
小刘的AI小站2 天前
Qwen2.5 VL 源码解读
多模态
卫玠_juncheng2 天前
langchain1.0rag知识库项目分享:从数据清洗到模型微调的全方位教程
大模型·agent·rag·大模型训练
m0_650108242 天前
VADv2:基于概率规划的端到端矢量化自动驾驶
论文阅读·自动驾驶·端到端矢量化·驾驶场景中的不确定性·概率场建模·多模态编码·vadv2
晨同学03272 天前
【中文】CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
人工智能·多模态
合合技术团队2 天前
论文解读-潜在思维链推理的全面综述
大数据·人工智能·深度学习·大模型