Wav2vec2 论文阅读看到的一些问题

Wav2vec2 论文阅读看到的一些问题

这里只是简单的思考一下论文的一些问题,不是论文解读。

Q1. 为什么wav2vec依旧需要Transformer来做推理,而不直接使用VQ生成的内容?

A1. Transformer在更长的序列上有更好的编码效果,例如论文也写Contextualized representations with Transformers。另一个因素在于对比学习本质上是区分相似性,让正样本之间更接近,让正负样本之间更远离,而不是类似CE的完全逼近。参考损失函数:
− l o g e x p ( s i m ( c t , q t ) / κ ) ∑ q ∼ Q t ^ e x p ( s i m ( c t , q ^ ) / κ ) -log \frac{exp(sim(\textbf{c}_t, \textbf{q}t) / \kappa)}{\sum{\hat{\textbf{q} \sim \textbf{Q}_t} exp(sim (\textbf{c}_t, \hat{\textbf{q}})/ \kappa)}} −log∑q∼Qt^exp(sim(ct,q^)/κ)exp(sim(ct,qt)/κ)

Q2. VQ是怎么训练的?

A2. 是联合训练的,在训练早期CodeBook是随机初始化。这个一点和HuBERT有一点不太一样,后者是提前预训练。

相关推荐
有Li13 小时前
ULS23 挑战:用于计算机断层扫描中 3D 通用病变分割的基准模型及基准数据集|文献速递-深度学习医疗AI最新文献
论文阅读·深度学习·计算机视觉·医学生
R.X. NLOS15 小时前
论文阅读笔记 | Qwen-VL:一个视觉语言大模型,通晓理解、定位、文本阅读等多种能力
论文阅读·笔记·大模型·多模态大模型·qwen-vl
UQI-LIUWJ16 小时前
论文笔记:GTG: Generalizable Trajectory Generation Model for Urban Mobility.
论文阅读
K.Fire好好睡觉16 小时前
VINS-Mono论文阅读笔记
论文阅读·笔记
Catching Star19 小时前
【论文笔记】【强化微调】AgentThink:思维链推理 + 工具调用
论文阅读
Jamence2 天前
多模态大语言模型arxiv论文略读(125)
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
有Li2 天前
基于集体智能长尾识别的超声乳腺病变亚型分类|文献速递-深度学习医疗AI最新文献
论文阅读·人工智能·深度学习·医学生
柠石榴2 天前
【论文阅读笔记】《CodeS: Towards Building Open-source Language Models for Text-to-SQL 》
论文阅读·笔记·语言模型
CV-杨帆2 天前
论文阅读:2018 arxiv CrowdHuman: A Benchmark for Detecting Human in a Crowd
论文阅读
UQI-LIUWJ2 天前
论文笔记:Trajectory generation: a survey on methods and techniques
论文阅读