【论文笔记】Towards Privacy-Aware Sign Language Translation at Scale

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题 : Towards Privacy-Aware Sign Language Translation at Scale
作者 : Phillip Rust, Bowen Shi, Skyler Wang, Necati Cihan Camgöz, Jean Maillard
发表 : ACL 2024
arXiv : https://arxiv.org/abs/2402.09611

摘要

主要阻碍手语翻译(SLT)进步的因素是数据稀缺。

目前网络上可用的手语数据中,很大一部分由于缺乏对齐字幕,无法用于训练监督模型。

此外,使用大规模网络爬取的数据集进行SLT扩展存在隐私风险,因为其中包含生物识别信息,而SLT技术的负责任开发应考虑到这一点。

在本研究中,我们提出了一种两阶段框架,用于大规模隐私感知SLT,以解决这两个问题。

我们引入了SSVP-SLT,该系统利用匿名和无标注视频上的自监督视频预训练,随后在精心挑选的并行数据集上进行监督SLT微调。

SSVP-SLT在How2Sign数据集上实现了最先进的微调和零样本gloss-free SLT性能,其性能超过最强基线3 BLEU-4。

基于控制实验,我们进一步讨论了自监督预训练和通过面部模糊进行匿名化在SLT中的优势和局限性。

通用框架

我们概述了一个通用的、可扩展且隐私保护的SLT(手语翻译)两阶段迁移学习框架。

  • Stage I: 我们通过自监督学习训练一个模型,目标是学习高质量的手语连续表示。在此阶段使用的数据始终是匿名的。我们不对数据如何匿名化做出假设,即不涉及面部模糊,也不涉及使用合成外观等更复杂的方法。
  • Stage II: 我们使用较小且手工编纂的并行数据集以监督方式微调第一阶段训练的模型。理想情况下,由于微调数据集规模可管理,在从数据中的手语者获得明确同意后,可以取消匿名化以最大限度地减少信息损失。

方法

我们的框架的基本实现采用两步法,称为SSVP-SLT。

  • Self-Supervised Video Pretraining (MAE)
  • Supervised SLT Finetuning

Adding Language-supervised Pretraining

我们还在实验中使用语言监督预训练(LSP)步骤扩展了SSVP-SLT,以弥合输入视频和文本翻译之间的模态差距。

实验

主实验

不同预训练配置下SSVP-SLT的How2Sign测试性能与基线的比较。

消融实验

在YouTube-ASL和How2Sign上预训练或仅在How2Sign上预训练的How2Sign测试性能比较。

在各阶段是否对图像进行面部模糊处理对SSVPSLT在DailyMoth-70h数据集上未模糊测试数据上的表现的影响。

在(YouTube-ASL和)How2Sign上进行预训练时,SSVP-SLT在16帧与128帧视频帧大小下的How2Sign测试性能比较。

使用BART或T5以及随机初始化或使用预训练权重的How2Sign测试性能比较。

使用Hiera或SSVP-SLT不同训练目标下微调的How2Sign测试性能比较。

总结

通过控制实验,我们研究了自监督预训练在SLT中的有效性,同时考虑了隐私风险。

我们引入了SSVP-SLT,这是一种新颖、可扩展且具有隐私意识的SLT方法,它利用匿名视频上的掩码自动编码。

在How2Sign基准测试中,它实现了最先进的ASL到英语翻译性能,在微调和零样本设置中,比最佳先前模型高出超过3 BLEU。

我们的结果表明,自监督学习有望缓解数据稀缺问题,并进一步扩大未来手语处理规模。

我们发现,即使是简单的技术,如面部模糊,对下游性能的影响相对较小,进一步证明我们可以在不忽视重要隐私关注的情况下构建更熟练的系统。

我们希望这项工作,以及我们发布的代码和数据,将激发有利于聋人和听力受损社区的未来发展。

相关推荐
张较瘦_1 小时前
[论文阅读] AI + 软件工程 | 3340个Python ML项目实证:PyQu工具+61种代码变更,精准提升软件质量!
论文阅读·人工智能·软件工程
张较瘦_4 天前
[论文阅读] AI + 教育 | AI赋能“三个课堂”的破局之道——具身认知与技术路径深度解读
论文阅读·人工智能
CV-杨帆4 天前
论文阅读:arxiv 2025 OptimalThinkingBench: Evaluating Over and Underthinking in LLMs
论文阅读
七元权4 天前
论文阅读-EfficientAD
论文阅读·深度学习·实时·异常检测
Matrix_114 天前
论文阅读:Multi-Spectral Image Color Reproduction
论文阅读·人工智能·计算摄影
噜~噜~噜~5 天前
论文笔记:“Mind the Gap Preserving and Compensating for the Modality Gap in“
论文阅读
张较瘦_5 天前
[论文阅读] AI+ | 从 “刚性科层” 到 “智能协同”:一文读懂 AI 应对国家安全风险的核心逻辑
论文阅读·人工智能
张较瘦_5 天前
[论文阅读] AI+ | GenAI重塑智慧图书馆:华东师大实践AI虚拟馆员,解放馆员聚焦高价值任务
论文阅读·人工智能
CoookeCola6 天前
MovieNet (paper) :推动电影理解研究的综合数据集与基准
数据库·论文阅读·人工智能·计算机视觉·视觉检测·database
张较瘦_7 天前
[论文阅读] AI+ | AI如何重塑审计行业?从“手工筛查”到“智能决策”:AI审计的核心逻辑与未来路径
论文阅读·人工智能