【论文笔记】SCOPE: Sign Language Contextual Processing with Embedding from LLMs

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题 : SCOPE: Sign Language Contextual Processing with Embedding from LLMs
作者 : Yuqi Liu, Wenqian Zhang, Sihan Ren, Chengyu Huang, Jingyi Yu, Lan Xu
arXiv : https://arxiv.org/abs/2409.01073

摘要

手语,全球约7000万聋人使用,是一种视觉语言,传达视觉和语境信息。

基于视觉的手语识别(SLR)和翻译(SLT)的当前方法由于数据集多样性有限和忽略语境相关信息,在对话场景中存在困难。

为了解决这些挑战,我们引入了SCOPE(基于LLM嵌入的手语语境处理),这是一种新颖的语境感知视觉SLR和SLT框架。

对于SLR,我们通过多模态编码器利用对话语境来增强Gloss级识别。

对于随后的SLT,我们通过结合先前的对话语境进一步微调大型语言模型(LLM)。

我们还贡献了一个新的手语数据集,其中包含72小时的中国手语视频,涉及各种场景的语境对话。

实验结果表明,我们的SCOPE框架在多个数据集上实现了最先进的性能,包括Phoenix-2014T、CSL-Daily和我们的SCOPE数据集。

此外,对聋人社区参与者的调查进一步验证了我们的方法在实际应用中的鲁棒性和有效性。

我们的数据集和代码将开源,以促进进一步的研究。

  • (a) 我们的SCOPE数据集包含丰富的上下文信息和手语视频。
  • (b) 我们的SCOPE框架是一个强大的基于上下文的手语识别/翻译模型,能够识别基于对话的手语手势,预测词素,并在LLMs的帮助下生成口语句子。

方法

SCOPE框架

我们的嵌入对齐编码器将运动特征转换为嵌入,该嵌入能够捕捉整个运动序列的语言信息。将嵌入空间与冻结的LLM对齐,可以实现整合先前句子的上下文信息以识别gloss。最后,Q-LoRA微调通过辅助上下文信息,将预测的gloss翻译成口语。

SCOPE数据集

给定对话文本,经验丰富的手语者会制作相应的手语视频,并附上自我标注的词汇表。对于每个视频,其他手语者根据词汇表和文本复制数据。

数据集比较。广泛使用的手语数据集的关键统计数据。我们的数据集是目前包含对话上下文信息的中国手语(CSL)数据集中最大的数据集。

实验

主实验

消融实验

总结

我们提出了SCOPE数据集,这是首个包含词义和文本注释的基于对话的中文手语数据集。

该数据集包含从专业聋人群体收集的72.4小时手语视频,并辅以59,231个文本注释。

基于此数据集,我们引入了SCOPE框架,这是一个专门为解决手语识别(SLR)和手语翻译(SLT)任务而设计的强大流程,具有丰富的上下文信息。

我们的全面评估证明了我们方法的有效性以及我们的数据集为手语社区带来的显著改进。

我们相信,SCOPE将催化基于上下文的手语处理未来的研究。

相关推荐
aqi001 天前
15天学会AI应用开发(八)使用向量数据库实现RAG功能
人工智能·python·大模型·ai编程·ai应用
aqi002 天前
15天学会AI应用开发(七)有了大模型为什么还要引入RAG
人工智能·python·大模型·ai编程·ai应用
vivo互联网技术4 天前
CVPR 2026 | 全新强化学习框架 BeautyGRPO:重塑真实人像
算法·大模型·cvpr·影像
大鱼>5 天前
大语言模型+物联网:LLM理解物理世界
物联网·struts·语言模型·多模态·aiot
cqbzcsq5 天前
CellFlow虚拟细胞论文阅读
论文阅读·人工智能·笔记·学习·生物信息
凌晨一点的秃头猪5 天前
论文阅读 GTI(Graph-based Tree Index): 面向高维空间最近邻搜索的动态图-树混合索引结构
论文阅读
AndrewHZ5 天前
【LLM技术全景】大模型能力探秘:In-Context Learning与思维链(CoT)
人工智能·语言模型·大模型·llm·cot·思维链·icl
Vergelight5 天前
实战拆解|三类RAG架构差异:朴素、进阶、多轮RAG落地选型指南
架构·大模型·aigc·agent·ai产品经理·转行·ai后台设计
有Li5 天前
PTCMIL:基于提示 token 聚类的全切片图像多实例学习分析文献速递/多模态医学影像最新进展
论文阅读·学习·数据挖掘·聚类·文献·医学生
大模型最新论文速读5 天前
06-16 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理