【论文笔记】Towards Privacy-Aware Sign Language Translation at Scale

🍊个人网站：小嗷犬的技术小站

🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

基本信息

标题 : Towards Privacy-Aware Sign Language Translation at Scale
作者 : Phillip Rust, Bowen Shi, Skyler Wang, Necati Cihan Camgöz, Jean Maillard
发表 : ACL 2024
arXiv : https://arxiv.org/abs/2402.09611

摘要

主要阻碍手语翻译（SLT）进步的因素是数据稀缺。

目前网络上可用的手语数据中，很大一部分由于缺乏对齐字幕，无法用于训练监督模型。

此外，使用大规模网络爬取的数据集进行SLT扩展存在隐私风险，因为其中包含生物识别信息，而SLT技术的负责任开发应考虑到这一点。

在本研究中，我们提出了一种两阶段框架，用于大规模隐私感知SLT，以解决这两个问题。

我们引入了SSVP-SLT，该系统利用匿名和无标注视频上的自监督视频预训练，随后在精心挑选的并行数据集上进行监督SLT微调。

SSVP-SLT在How2Sign数据集上实现了最先进的微调和零样本gloss-free SLT性能，其性能超过最强基线3 BLEU-4。

基于控制实验，我们进一步讨论了自监督预训练和通过面部模糊进行匿名化在SLT中的优势和局限性。

通用框架

我们概述了一个通用的、可扩展且隐私保护的SLT（手语翻译）两阶段迁移学习框架。

Stage I: 我们通过自监督学习训练一个模型，目标是学习高质量的手语连续表示。在此阶段使用的数据始终是匿名的。我们不对数据如何匿名化做出假设，即不涉及面部模糊，也不涉及使用合成外观等更复杂的方法。
Stage II: 我们使用较小且手工编纂的并行数据集以监督方式微调第一阶段训练的模型。理想情况下，由于微调数据集规模可管理，在从数据中的手语者获得明确同意后，可以取消匿名化以最大限度地减少信息损失。