【论文笔记】Towards Privacy-Aware Sign Language Translation at Scale

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题 : Towards Privacy-Aware Sign Language Translation at Scale
作者 : Phillip Rust, Bowen Shi, Skyler Wang, Necati Cihan Camgöz, Jean Maillard
发表 : ACL 2024
arXiv : https://arxiv.org/abs/2402.09611

摘要

主要阻碍手语翻译(SLT)进步的因素是数据稀缺。

目前网络上可用的手语数据中,很大一部分由于缺乏对齐字幕,无法用于训练监督模型。

此外,使用大规模网络爬取的数据集进行SLT扩展存在隐私风险,因为其中包含生物识别信息,而SLT技术的负责任开发应考虑到这一点。

在本研究中,我们提出了一种两阶段框架,用于大规模隐私感知SLT,以解决这两个问题。

我们引入了SSVP-SLT,该系统利用匿名和无标注视频上的自监督视频预训练,随后在精心挑选的并行数据集上进行监督SLT微调。

SSVP-SLT在How2Sign数据集上实现了最先进的微调和零样本gloss-free SLT性能,其性能超过最强基线3 BLEU-4。

基于控制实验,我们进一步讨论了自监督预训练和通过面部模糊进行匿名化在SLT中的优势和局限性。

通用框架

我们概述了一个通用的、可扩展且隐私保护的SLT(手语翻译)两阶段迁移学习框架。

  • Stage I: 我们通过自监督学习训练一个模型,目标是学习高质量的手语连续表示。在此阶段使用的数据始终是匿名的。我们不对数据如何匿名化做出假设,即不涉及面部模糊,也不涉及使用合成外观等更复杂的方法。
  • Stage II: 我们使用较小且手工编纂的并行数据集以监督方式微调第一阶段训练的模型。理想情况下,由于微调数据集规模可管理,在从数据中的手语者获得明确同意后,可以取消匿名化以最大限度地减少信息损失。

方法

我们的框架的基本实现采用两步法,称为SSVP-SLT。

  • Self-Supervised Video Pretraining (MAE)
  • Supervised SLT Finetuning

Adding Language-supervised Pretraining

我们还在实验中使用语言监督预训练(LSP)步骤扩展了SSVP-SLT,以弥合输入视频和文本翻译之间的模态差距。

实验

主实验

不同预训练配置下SSVP-SLT的How2Sign测试性能与基线的比较。

消融实验

在YouTube-ASL和How2Sign上预训练或仅在How2Sign上预训练的How2Sign测试性能比较。

在各阶段是否对图像进行面部模糊处理对SSVPSLT在DailyMoth-70h数据集上未模糊测试数据上的表现的影响。

在(YouTube-ASL和)How2Sign上进行预训练时,SSVP-SLT在16帧与128帧视频帧大小下的How2Sign测试性能比较。

使用BART或T5以及随机初始化或使用预训练权重的How2Sign测试性能比较。

使用Hiera或SSVP-SLT不同训练目标下微调的How2Sign测试性能比较。

总结

通过控制实验,我们研究了自监督预训练在SLT中的有效性,同时考虑了隐私风险。

我们引入了SSVP-SLT,这是一种新颖、可扩展且具有隐私意识的SLT方法,它利用匿名视频上的掩码自动编码。

在How2Sign基准测试中,它实现了最先进的ASL到英语翻译性能,在微调和零样本设置中,比最佳先前模型高出超过3 BLEU。

我们的结果表明,自监督学习有望缓解数据稀缺问题,并进一步扩大未来手语处理规模。

我们发现,即使是简单的技术,如面部模糊,对下游性能的影响相对较小,进一步证明我们可以在不忽视重要隐私关注的情况下构建更熟练的系统。

我们希望这项工作,以及我们发布的代码和数据,将激发有利于聋人和听力受损社区的未来发展。

相关推荐
钟屿18 小时前
Multiscale Structure Guided Diffusion for Image Deblurring 论文阅读
论文阅读·图像处理·人工智能·深度学习·计算机视觉
张较瘦_19 小时前
[论文阅读] 人工智能 + 软件工程 | NoCode-bench:评估LLM无代码功能添加能力的新基准
论文阅读·人工智能·软件工程
莫彩2 天前
【大模型论文阅读】2503.01821_On the Power of Context-Enhanced Learning in LLMs
论文阅读·人工智能·语言模型
王上上2 天前
【论文阅读51】-CNN-LSTM-安全系数和失效概率预测
论文阅读·cnn·lstm
有Li2 天前
弹性网:基于神经网络的多组分磁共振弹性成像波反演与不确定性量化|文献速递-医学影像算法文献分享
论文阅读·医学生
妙BOOK言2 天前
FalconFS: Distributed File System for Large-Scale Deep Learning Pipeline——论文阅读
论文阅读·元数据·分布式文件系统
2301_803652742 天前
PPO原论文阅读
论文阅读
北京地铁1号线3 天前
YOLO12论文阅读:Attention-Centric Real-Time Object Detectors
论文阅读·yolo·目标检测
张较瘦_3 天前
[论文阅读] 人工智能 + 软件工程 | 从OpenAPI到MCP服务器:AutoMCP如何让LLM工具集成自动化?
服务器·论文阅读·人工智能
锅挤3 天前
论文阅读--《Besting the Black-Box: Barrier Zones for Adversarial Example Defense》
论文阅读