【论文笔记】SCOPE: Sign Language Contextual Processing with Embedding from LLMs

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题 : SCOPE: Sign Language Contextual Processing with Embedding from LLMs
作者 : Yuqi Liu, Wenqian Zhang, Sihan Ren, Chengyu Huang, Jingyi Yu, Lan Xu
arXiv : https://arxiv.org/abs/2409.01073

摘要

手语,全球约7000万聋人使用,是一种视觉语言,传达视觉和语境信息。

基于视觉的手语识别(SLR)和翻译(SLT)的当前方法由于数据集多样性有限和忽略语境相关信息,在对话场景中存在困难。

为了解决这些挑战,我们引入了SCOPE(基于LLM嵌入的手语语境处理),这是一种新颖的语境感知视觉SLR和SLT框架。

对于SLR,我们通过多模态编码器利用对话语境来增强Gloss级识别。

对于随后的SLT,我们通过结合先前的对话语境进一步微调大型语言模型(LLM)。

我们还贡献了一个新的手语数据集,其中包含72小时的中国手语视频,涉及各种场景的语境对话。

实验结果表明,我们的SCOPE框架在多个数据集上实现了最先进的性能,包括Phoenix-2014T、CSL-Daily和我们的SCOPE数据集。

此外,对聋人社区参与者的调查进一步验证了我们的方法在实际应用中的鲁棒性和有效性。

我们的数据集和代码将开源,以促进进一步的研究。

  • (a) 我们的SCOPE数据集包含丰富的上下文信息和手语视频。
  • (b) 我们的SCOPE框架是一个强大的基于上下文的手语识别/翻译模型,能够识别基于对话的手语手势,预测词素,并在LLMs的帮助下生成口语句子。

方法

SCOPE框架

我们的嵌入对齐编码器将运动特征转换为嵌入,该嵌入能够捕捉整个运动序列的语言信息。将嵌入空间与冻结的LLM对齐,可以实现整合先前句子的上下文信息以识别gloss。最后,Q-LoRA微调通过辅助上下文信息,将预测的gloss翻译成口语。

SCOPE数据集

给定对话文本,经验丰富的手语者会制作相应的手语视频,并附上自我标注的词汇表。对于每个视频,其他手语者根据词汇表和文本复制数据。

数据集比较。广泛使用的手语数据集的关键统计数据。我们的数据集是目前包含对话上下文信息的中国手语(CSL)数据集中最大的数据集。

实验

主实验

消融实验

总结

我们提出了SCOPE数据集,这是首个包含词义和文本注释的基于对话的中文手语数据集。

该数据集包含从专业聋人群体收集的72.4小时手语视频,并辅以59,231个文本注释。

基于此数据集,我们引入了SCOPE框架,这是一个专门为解决手语识别(SLR)和手语翻译(SLT)任务而设计的强大流程,具有丰富的上下文信息。

我们的全面评估证明了我们方法的有效性以及我们的数据集为手语社区带来的显著改进。

我们相信,SCOPE将催化基于上下文的手语处理未来的研究。

相关推荐
EEPI19 小时前
【论文阅读】PhotoBot: Reference-Guided Interactive Photography via Natural Language
论文阅读
多喝开水少熬夜19 小时前
SlaugFL论文阅读学习
论文阅读·学习
hongjianMa1 天前
【论文阅读】Hypercomplex Prompt-aware Multimodal Recommendation
论文阅读·python·深度学习·机器学习·prompt·推荐系统
张较瘦_2 天前
[论文阅读] 生成式人工智能嵌入对公众职业安全感冲击的影响机理及防范对策
论文阅读·人工智能
有Li2 天前
融合先验文本与解剖学知识的多模态回归网络用于舌鳞状细胞癌浸润深度的自动预测|文献速递-文献分享
论文阅读·人工智能·医学生
CoderJia程序员甲2 天前
GitHub 热榜项目 - 日榜(2025-11-11)
ai·开源·大模型·github·ai教程
only-code2 天前
MCP驱动的Rgentic RRG(向量数据库+网络搜索)
数据库·python·大模型·函数调用·mcp
居7然2 天前
详解监督微调(SFT):大模型指令遵循能力的核心构建方案
人工智能·分布式·架构·大模型·transformer
2301_797892832 天前
论文阅读:《Hypergraph Motif Representation Learning》
论文阅读·1024程序员节
探模之翼3 天前
DeepSeek-OCR 部署、配置解析与测试完整指南
docker·大模型·ocr