【论文笔记】SCOPE: Sign Language Contextual Processing with Embedding from LLMs

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题 : SCOPE: Sign Language Contextual Processing with Embedding from LLMs
作者 : Yuqi Liu, Wenqian Zhang, Sihan Ren, Chengyu Huang, Jingyi Yu, Lan Xu
arXiv : https://arxiv.org/abs/2409.01073

摘要

手语,全球约7000万聋人使用,是一种视觉语言,传达视觉和语境信息。

基于视觉的手语识别(SLR)和翻译(SLT)的当前方法由于数据集多样性有限和忽略语境相关信息,在对话场景中存在困难。

为了解决这些挑战,我们引入了SCOPE(基于LLM嵌入的手语语境处理),这是一种新颖的语境感知视觉SLR和SLT框架。

对于SLR,我们通过多模态编码器利用对话语境来增强Gloss级识别。

对于随后的SLT,我们通过结合先前的对话语境进一步微调大型语言模型(LLM)。

我们还贡献了一个新的手语数据集,其中包含72小时的中国手语视频,涉及各种场景的语境对话。

实验结果表明,我们的SCOPE框架在多个数据集上实现了最先进的性能,包括Phoenix-2014T、CSL-Daily和我们的SCOPE数据集。

此外,对聋人社区参与者的调查进一步验证了我们的方法在实际应用中的鲁棒性和有效性。

我们的数据集和代码将开源,以促进进一步的研究。

  • (a) 我们的SCOPE数据集包含丰富的上下文信息和手语视频。
  • (b) 我们的SCOPE框架是一个强大的基于上下文的手语识别/翻译模型,能够识别基于对话的手语手势,预测词素,并在LLMs的帮助下生成口语句子。

方法

SCOPE框架

我们的嵌入对齐编码器将运动特征转换为嵌入,该嵌入能够捕捉整个运动序列的语言信息。将嵌入空间与冻结的LLM对齐,可以实现整合先前句子的上下文信息以识别gloss。最后,Q-LoRA微调通过辅助上下文信息,将预测的gloss翻译成口语。

SCOPE数据集

给定对话文本,经验丰富的手语者会制作相应的手语视频,并附上自我标注的词汇表。对于每个视频,其他手语者根据词汇表和文本复制数据。

数据集比较。广泛使用的手语数据集的关键统计数据。我们的数据集是目前包含对话上下文信息的中国手语(CSL)数据集中最大的数据集。

实验

主实验

消融实验

总结

我们提出了SCOPE数据集,这是首个包含词义和文本注释的基于对话的中文手语数据集。

该数据集包含从专业聋人群体收集的72.4小时手语视频,并辅以59,231个文本注释。

基于此数据集,我们引入了SCOPE框架,这是一个专门为解决手语识别(SLR)和手语翻译(SLT)任务而设计的强大流程,具有丰富的上下文信息。

我们的全面评估证明了我们方法的有效性以及我们的数据集为手语社区带来的显著改进。

我们相信,SCOPE将催化基于上下文的手语处理未来的研究。

相关推荐
Ayakanoinu1 小时前
【论文阅读】Dynamic Adversarial Patch for Evading Object Detection Models
论文阅读·目标检测·目标跟踪
寻丶幽风1 小时前
论文阅读笔记——ReconDreamer
论文阅读·笔记·自动驾驶·3dgs·世界模型·闭环仿真
金科铁码1 小时前
提示词工程 — 科研论文笔记
论文阅读
0x21111 小时前
[论文阅读]Attacking Open-domain Question Answering by Injecting Misinformation
论文阅读
黄雪超11 小时前
Flink介绍——实时计算核心论文之S4论文详解
大数据·论文阅读·flink
Matrix_1118 小时前
论文阅读:GS-Blur: A 3D Scene-Based Dataset for Realistic Image Deblurring
论文阅读·人工智能·计算摄影
s1ckrain1 天前
【论文阅读】LongDiff:Training-Free Long Video Generation in One Go
论文阅读·人工智能·计算机视觉
水深00安东尼1 天前
R-GCN-Modeling Relational Data with GraphConvolutional Networks(论文笔记)
论文阅读·神经网络·知识图谱
钟屿1 天前
Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring论文阅读
论文阅读·图像处理·人工智能·深度学习·计算机视觉·图像去模糊·图像恢复
laopeng3012 天前
Spring AI ToolCalling 扩展模型能力边界
java·人工智能·大模型·spring ai