【论文笔记】Towards Privacy-Aware Sign Language Translation at Scale

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题 : Towards Privacy-Aware Sign Language Translation at Scale
作者 : Phillip Rust, Bowen Shi, Skyler Wang, Necati Cihan Camgöz, Jean Maillard
发表 : ACL 2024
arXiv : https://arxiv.org/abs/2402.09611

摘要

主要阻碍手语翻译(SLT)进步的因素是数据稀缺。

目前网络上可用的手语数据中,很大一部分由于缺乏对齐字幕,无法用于训练监督模型。

此外,使用大规模网络爬取的数据集进行SLT扩展存在隐私风险,因为其中包含生物识别信息,而SLT技术的负责任开发应考虑到这一点。

在本研究中,我们提出了一种两阶段框架,用于大规模隐私感知SLT,以解决这两个问题。

我们引入了SSVP-SLT,该系统利用匿名和无标注视频上的自监督视频预训练,随后在精心挑选的并行数据集上进行监督SLT微调。

SSVP-SLT在How2Sign数据集上实现了最先进的微调和零样本gloss-free SLT性能,其性能超过最强基线3 BLEU-4。

基于控制实验,我们进一步讨论了自监督预训练和通过面部模糊进行匿名化在SLT中的优势和局限性。

通用框架

我们概述了一个通用的、可扩展且隐私保护的SLT(手语翻译)两阶段迁移学习框架。

  • Stage I: 我们通过自监督学习训练一个模型,目标是学习高质量的手语连续表示。在此阶段使用的数据始终是匿名的。我们不对数据如何匿名化做出假设,即不涉及面部模糊,也不涉及使用合成外观等更复杂的方法。
  • Stage II: 我们使用较小且手工编纂的并行数据集以监督方式微调第一阶段训练的模型。理想情况下,由于微调数据集规模可管理,在从数据中的手语者获得明确同意后,可以取消匿名化以最大限度地减少信息损失。

方法

我们的框架的基本实现采用两步法,称为SSVP-SLT。

  • Self-Supervised Video Pretraining (MAE)
  • Supervised SLT Finetuning

Adding Language-supervised Pretraining

我们还在实验中使用语言监督预训练(LSP)步骤扩展了SSVP-SLT,以弥合输入视频和文本翻译之间的模态差距。

实验

主实验

不同预训练配置下SSVP-SLT的How2Sign测试性能与基线的比较。

消融实验

在YouTube-ASL和How2Sign上预训练或仅在How2Sign上预训练的How2Sign测试性能比较。

在各阶段是否对图像进行面部模糊处理对SSVPSLT在DailyMoth-70h数据集上未模糊测试数据上的表现的影响。

在(YouTube-ASL和)How2Sign上进行预训练时,SSVP-SLT在16帧与128帧视频帧大小下的How2Sign测试性能比较。

使用BART或T5以及随机初始化或使用预训练权重的How2Sign测试性能比较。

使用Hiera或SSVP-SLT不同训练目标下微调的How2Sign测试性能比较。

总结

通过控制实验,我们研究了自监督预训练在SLT中的有效性,同时考虑了隐私风险。

我们引入了SSVP-SLT,这是一种新颖、可扩展且具有隐私意识的SLT方法,它利用匿名视频上的掩码自动编码。

在How2Sign基准测试中,它实现了最先进的ASL到英语翻译性能,在微调和零样本设置中,比最佳先前模型高出超过3 BLEU。

我们的结果表明,自监督学习有望缓解数据稀缺问题,并进一步扩大未来手语处理规模。

我们发现,即使是简单的技术,如面部模糊,对下游性能的影响相对较小,进一步证明我们可以在不忽视重要隐私关注的情况下构建更熟练的系统。

我们希望这项工作,以及我们发布的代码和数据,将激发有利于聋人和听力受损社区的未来发展。

相关推荐
s1ckrain2 小时前
【论文阅读】DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning
论文阅读·强化学习·多模态大模型·vlm
张较瘦_21 小时前
[论文阅读] 人工智能 + 软件工程 | 需求获取访谈中LLM生成跟进问题研究:来龙去脉与创新突破
论文阅读·人工智能
北京地铁1号线1 天前
GPT-2论文阅读:Language Models are Unsupervised Multitask Learners
论文阅读·gpt·语言模型
张较瘦_2 天前
[论文阅读] 人工智能 + 软件工程 | 软件架构中自然问题主动辅助研究:从挑战到解决方案
论文阅读·人工智能·软件工程
有Li2 天前
通过具有一致性嵌入的大语言模型实现端到端乳腺癌放射治疗计划制定|文献速递-最新论文分享
论文阅读·深度学习·分类·医学生
张较瘦_2 天前
[论文阅读] 人工智能 | 深度学习系统崩溃恢复新方案:DaiFu框架的原位修复技术
论文阅读·人工智能·深度学习
selia10782 天前
[论文阅读] Neural Architecture Search: Insights from 1000 Papers
论文阅读
寻丶幽风2 天前
论文阅读笔记——NoPoSplat
论文阅读·笔记·三维重建·3dgs·相机位姿·dustr
寻丶幽风3 天前
论文阅读笔记——VGGT: Visual Geometry Grounded Transformer
论文阅读·笔记·transformer·三维重建·3dgs·vggt
张较瘦_3 天前
[论文阅读] 人工智能 + 软件工程 | Call Me Maybe:用图神经网络增强JavaScript调用图构建
论文阅读·人工智能·软件工程