【论文笔记】SCOPE: Sign Language Contextual Processing with Embedding from LLMs

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题 : SCOPE: Sign Language Contextual Processing with Embedding from LLMs
作者 : Yuqi Liu, Wenqian Zhang, Sihan Ren, Chengyu Huang, Jingyi Yu, Lan Xu
arXiv : https://arxiv.org/abs/2409.01073

摘要

手语,全球约7000万聋人使用,是一种视觉语言,传达视觉和语境信息。

基于视觉的手语识别(SLR)和翻译(SLT)的当前方法由于数据集多样性有限和忽略语境相关信息,在对话场景中存在困难。

为了解决这些挑战,我们引入了SCOPE(基于LLM嵌入的手语语境处理),这是一种新颖的语境感知视觉SLR和SLT框架。

对于SLR,我们通过多模态编码器利用对话语境来增强Gloss级识别。

对于随后的SLT,我们通过结合先前的对话语境进一步微调大型语言模型(LLM)。

我们还贡献了一个新的手语数据集,其中包含72小时的中国手语视频,涉及各种场景的语境对话。

实验结果表明,我们的SCOPE框架在多个数据集上实现了最先进的性能,包括Phoenix-2014T、CSL-Daily和我们的SCOPE数据集。

此外,对聋人社区参与者的调查进一步验证了我们的方法在实际应用中的鲁棒性和有效性。

我们的数据集和代码将开源,以促进进一步的研究。

  • (a) 我们的SCOPE数据集包含丰富的上下文信息和手语视频。
  • (b) 我们的SCOPE框架是一个强大的基于上下文的手语识别/翻译模型,能够识别基于对话的手语手势,预测词素,并在LLMs的帮助下生成口语句子。

方法

SCOPE框架

我们的嵌入对齐编码器将运动特征转换为嵌入,该嵌入能够捕捉整个运动序列的语言信息。将嵌入空间与冻结的LLM对齐,可以实现整合先前句子的上下文信息以识别gloss。最后,Q-LoRA微调通过辅助上下文信息,将预测的gloss翻译成口语。

SCOPE数据集

给定对话文本,经验丰富的手语者会制作相应的手语视频,并附上自我标注的词汇表。对于每个视频,其他手语者根据词汇表和文本复制数据。

数据集比较。广泛使用的手语数据集的关键统计数据。我们的数据集是目前包含对话上下文信息的中国手语(CSL)数据集中最大的数据集。

实验

主实验

消融实验

总结

我们提出了SCOPE数据集,这是首个包含词义和文本注释的基于对话的中文手语数据集。

该数据集包含从专业聋人群体收集的72.4小时手语视频,并辅以59,231个文本注释。

基于此数据集,我们引入了SCOPE框架,这是一个专门为解决手语识别(SLR)和手语翻译(SLT)任务而设计的强大流程,具有丰富的上下文信息。

我们的全面评估证明了我们方法的有效性以及我们的数据集为手语社区带来的显著改进。

我们相信,SCOPE将催化基于上下文的手语处理未来的研究。

相关推荐
胡耀超3 小时前
3.Python高级数据结构与文本处理
服务器·数据结构·人工智能·windows·python·大模型
张较瘦_12 小时前
[论文阅读] 人工智能 + 软件工程 | 大模型破局跨平台测试!LLMRR让iOS/安卓/鸿蒙脚本无缝迁移
论文阅读·人工智能·ios
CoderJia程序员甲12 小时前
GitHub 热榜项目 - 日榜(2025-09-09)
ai·开源·大模型·github·ai教程
Matrix_111 天前
论文阅读:VGGT Visual Geometry Grounded Transformer
论文阅读·计算摄影
CV-杨帆1 天前
论文阅读:ICLR 2021 BAG OF TRICKS FOR ADVERSARIAL TRAINING
论文阅读
kailp1 天前
突破效率与质量边界:深入解析MiniMax-Remover视频物体移除方案
人工智能·ai·大模型·gpu算力·图片渲染
roshy1 天前
MCP(模型上下文协议)入门教程1
人工智能·大模型·agent
一碗白开水一1 天前
【论文阅读】Far3D: Expanding the Horizon for Surround-view 3D Object Detection
论文阅读·人工智能·深度学习·算法·目标检测·计算机视觉·3d
张较瘦_1 天前
[论文阅读] 人工智能 + 软件工程 | TDD痛点破解:LLM自动生成测试骨架靠谱吗?静态分析+专家评审给出答案
论文阅读·人工智能·软件工程
算法打盹中1 天前
基于树莓派与Jetson Nano集群的实验边缘设备上视觉语言模型(VLMs)的性能评估与实践探索
人工智能·计算机视觉·语言模型·自然语言处理·树莓派·多模态·jetson nano