【AI视野·今日Sound 声学论文速览第二十七期】Tue, 17 Oct 2023

AI视野·今日CS.Sound 声学论文速览

Tue, 17 Oct 2023
Totally 15 papers
👉上期速览✈更多精彩请移步主页

Daily Sound Papers

|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| LocSelect: Target Speaker Localization with an Auditory Selective Hearing Mechanism Authors Yu Chen, Xinyuan Qian, Zexu Pan, Kainan Chen, Haizhou Li |
| BeatDance: A Beat-Based Model-Agnostic Contrastive Learning Framework for Music-Dance Retrieval Authors Kaixing Yang, Xukun Zhou, Xulong Tang, Ran Diao, Hongyan Liu, Jun He, Zhaoxin Fan 舞蹈与音乐是密切相关的表现形式，舞蹈视频与音乐的相互检索是教育、艺术、体育等各个领域的一项基本任务。然而，现有的方法经常遭受不自然的生成效应或无法充分探索音乐和舞蹈之间的相关性。为了克服这些挑战，我们提出了 BeatDance，一种新颖的基于节拍的模型不可知对比学习框架。 BeatDance 结合了节拍感知音乐舞蹈信息提取器、跨颞节拍混合器和节拍增强中心度减速器，通过利用音乐节拍和舞蹈动作之间的对齐来提高舞曲检索性能。我们还引入了 Music Dance MD 数据集，这是一个包含超过 10,000 个音乐舞蹈视频对的大规模集合，用于训练和测试。 MD 数据集上的实验结果证明了我们的方法相对于现有基线的优越性，实现了最先进的性能。 |
| Joint Music and Language Attention Models for Zero-shot Music Tagging Authors Xingjian Du, Zhesong Yu, Jiaju Lin, Bilei Zhu, Qiuqiang Kong 音乐标签是预测音乐录音标签的任务。然而，以前的音乐标签研究主要集中在封闭的音乐标签任务上，不能推广到新的标签。在这项工作中，我们提出了一种由联合音乐和语言注意 JMLA 模型建模的零样本音乐标签系统，以解决开放集音乐标签问题。 JMLA 模型由一个由预训练屏蔽自动编码器建模的音频编码器和一个由 Falcon7B 建模的解码器组成。我们引入了接收器重采样器来将任意长度的音频转换为固定长度的嵌入。我们在编码器层和解码器层之间引入密集的注意力连接，以改善编码器层和解码器层之间的信息流。我们从互联网上收集了大量的音乐和描述数据集。我们建议使用 ChatGPT 将原始描述转换为形式化且多样化的描述来训练 JMLA 模型。 |
| MERTech: Instrument Playing Technique Detection Using Self-Supervised Pretrained Model With Multi-Task Finetuning Authors Dichucheng Li, Yinghao Ma, Weixing Wei, Qiuqiang Kong, Yulun Wu, Mingjin Che, Fan Xia, Emmanouil Benetos, Wei Li 乐器演奏技巧 IPT 构成了音乐表达的关键组成部分。然而，自动 IPT 检测方法的发展面临着有限的标记数据和固有的类别不平衡问题。在本文中，我们建议应用在大规模未标记音乐数据上预训练的自监督学习模型，并在 IPT 检测任务上对其进行微调。这种方法解决了数据稀缺和类别不平衡的挑战。认识到音调在捕捉 IPT 细微差别中的重要性以及起始点在定位 IPT 事件中的重要性，我们研究了以音调和起始点检测作为辅助任务的多任务微调。此外，我们应用后处理方法进行事件级别预测，其中仅当起始输出确认该帧中的起始时，IPT 激活才会启动事件。我们的方法在多个 IPT 基准数据集的帧级和事件级指标方面都优于先前的方法。 |
| CoCoFormer: A controllable feature-rich polyphonic music generation method Authors Jiuyang Zhou, Tengfei Niu, Hong Zhu, Xingping Wang 本文探讨了复调音乐序列的建模方法。由于Transformer模型在音乐生成方面的巨大潜力，可控音乐生成越来越受到关注。在复调音乐任务中，目前的可控生成研究主要集中在控制和弦的生成上，而缺乏对合唱音乐织体的可控生成的精确调节。本文提出了 Condition Choir Transformer CoCoFormer，它通过在细粒度级别控制和弦和节奏输入来控制模型的输出。本文采用自监督方法改进损失函数，通过条件控制输入和无条件输入训练进行联合训练。为了缓解教师强制训练造成的生成样本缺乏多样性的问题，本文增加了对抗性训练方法。 CoCoFormer 通过对和弦和节奏的显式和隐式输入来增强模型性能。本文通过实验证明CoCoFormer已经达到了目前比现有模型更好的水平。 |
| SelfVC: Voice Conversion With Iterative Refinement using Self Transformations Authors Paarth Neekhara, Shehzeen Hussain, Rafael Valle, Boris Ginsburg, Rishabh Ranjan, Shlomo Dubnov, Farinaz Koushanfar, Julian McAuley 我们提出了 SelfVC，一种通过自我合成示例迭代改进语音转换模型的训练策略。以前在语音转换方面的努力主要集中在明确地解开语音表示，以分别对说话者特征和语言内容进行编码。然而，使用特定于任务的损失项来解开语音表示以捕获此类属性可能会因丢弃原始信号的更细微差别而导致信息丢失。在这项工作中，我们没有明确地将属性与损失项分开，而是提出了一个框架，用于在从自监督学习和说话人验证模型派生的纠缠语音表示上训练可控语音转换模型。首先，我们开发从音频信号和 SSL 表示中导出韵律信息的技术，以训练合成模型中的预测子模块。接下来，我们提出了一种训练策略，通过使用自我合成的示例创建具有挑战性的训练目标，迭代改进语音转换的合成模型。在这种训练方法中，合成模型的当前状态用于生成话语的语音转换变体，这些变体作为重建任务的输入，确保模型的连续和有目的的细化。我们证明，与仅在启发式扰动输入上训练的基线语音转换模型相比，在训练期间合并此类自合成示例可以提高生成语音的说话者相似度。 SelfVC 在没有任何文本的情况下进行训练，适用于一系列任务，例如零样本语音转换、跨语言语音转换以及具有音调和速度修改的可控语音合成。 |
| Dynamic Prediction of Full-Ocean Depth SSP by Hierarchical LSTM: An Experimental Result Authors Jiajun Lu, Wei Huang, Hao Zhang SSP分布影响水声信号的传播方式，是水下定位、导航和授时PNT的重要参数。为了准确预测未来声速分布，我们提出了一种用于未来声速预测的分层长短期记忆 H LSTM 神经网络，探索声速在时间维度上的分布模式。为了验证可行性和有效性，我们进行了模拟和真实实验。 |
| Advancing Test-Time Adaptation for Acoustic Foundation Models in Open-World Shifts Authors Hongfu Liu, Hengguan Huang, Ye Wang 测试时间适应 TTA 是解决推理过程中分布变化的关键范例，尤其是在视觉识别任务中。然而，虽然声学模型由于测试时语音的分布变化而面临类似的挑战，但专门为开放世界数据变化背景下的声学建模而设计的 TTA 技术仍然很少。当考虑声学基础模型的独特特征时，这种差距会进一步加剧：1它们主要建立在具有层归一化的变压器架构上，2它们以非平稳方式处理不同长度的测试时语音数据。这些方面使得直接应用以视觉为中心的 TTA 方法不可行，这些方法主要依赖于批量归一化并假设独立样本。在本文中，我们深入研究了面向开放世界数据变化的预训练声学模型的 TTA。我们发现嘈杂、高熵的语音帧（通常是非静音的）携带着关键的语义内容。传统的 TTA 方法可能会使用可能存在缺陷的启发法无意中过滤掉这些信息。作为回应，我们引入了一种启发式自由、基于学习的适应方法，通过信心增强来丰富。注意到语音信号表示短期一致性，我们还在测试时间优化期间应用一致性正则化。 |
| Generation or Replication: Auscultating Audio Latent Diffusion Models Authors Dimitrios Bralios, Gordon Wichern, Fran ois G. Germain, Zexu Pan, Sameer Khurana, Chiori Hori, Jonathan Le Roux 音频潜在扩散模型的引入能够根据文本描述按需生成逼真的声音片段，有可能彻底改变我们处理音频的方式。在这项工作中，我们初步尝试通过研究音频潜在扩散模型的音频输出与训练数据的比较来理解音频潜在扩散模型的内部工作原理，类似于医生通过聆听患者器官的声音来听诊患者的方式。使用在 AudioCaps 数据集上训练的文本到音频潜在扩散模型，我们系统地分析了记忆行为作为训练集大小的函数。我们还评估了训练数据记忆证据的不同检索指标，发现梅尔谱图之间的相似性在检测匹配方面比学习的嵌入向量更强大。 |
| Advancing Audio Emotion and Intent Recognition with Large Pre-Trained Models and Bayesian Inference Authors Dejan Porjazovski, Yaroslav Getman, Tam s Gr sz, Mikko Kurimo 大型预训练模型在副语言系统中至关重要，可以证明情感识别和口吃检测等任务的有效性。在本文中，我们为 ACM 多媒体计算副语言挑战赛采用大型预训练模型，解决请求和情感分享任务。我们探索利用音频和文本模式的纯音频和混合解决方案。我们的实证结果一致表明混合方法相对于纯音频模型的优越性。此外，我们引入贝叶斯层作为标准线性输出层的替代。多模式融合方法在 HC 请求方面实现了 85.4 UAR，在 HC 投诉方面实现了 60.2 UAR。 Emotion Share 任务的集成模型产生最佳 rho 值 0.614。本研究中探索的贝叶斯 wav2vec2 方法使我们能够轻松构建集成，但代价是仅微调一个模型。 |
| End-to-end Multichannel Speaker-Attributed ASR: Speaker Guided Decoder and Input Feature Analysis Authors Can Cui MULTISPEECH , Imran Ahamad Sheikh, Mostafa Sadeghi MULTISPEECH , Emmanuel Vincent MULTISPEECH 我们提出了一种端到端多通道说话人属性自动语音识别 MC SA ASR 系统，该系统将基于 Conformer 的编码器与多帧跨通道注意和说话人属性 Transformer 的解码器相结合。据我们所知，这是第一个在多通道设置中有效集成 ASR 和说话人识别模块的模型。在 LibriSpeech 数据的模拟混合中，与之前提出的单通道和多通道方法相比，我们的系统分别将字错误率 WER 降低了 12 和 16。此外，我们研究了不同输入特征（包括多通道幅度和相位信息）对 ASR 性能的影响。 |
| Real-time Speech Enhancement and Separation with a Unified Deep Neural Network for Single/Dual Talker Scenarios Authors Kashyap Patel, Anton Kovalyov, Issa Panahi 本文介绍了一种实用方法，利用实时深度学习模型根据输入混合物是否包含一个或两个活动说话者在语音增强和联合语音增强和分离之间进行交替。尺度不变信号失真比 SI SDR 已被证明是时域语音分离中的高效训练措施。然而，SI SDR 度量对于零能量目标信号的定义不明确，这在使用不同数量的说话者的话语来训练语音分离模型时会出现问题。与专注于修改损失函数以适应零能量目标信号的现有解决方案不同，所提出的方法通过训练模型在其两个输出通道上提取语音来规避此问题，无论输入是单说话者还是双说话者混合。还引入了轻量级说话者重叠检测 SOD 模块，以实时区分单和双说话者片段。所提出的模块利用新的公式，直接对分离模型给出的分离掩模进行操作，而不是对原始混合物进行操作，从而有效地简化了检测任务。 |
| Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring Authors Ankitha Sudarshan, Vinay Samuel, Parth Patwa, Ibtihel Amara, Aman Chadha 自动语音识别 ASR 引起了广泛的研究兴趣。最近的突破给 ASR 系统带来了不同的前景，例如忠实地转录口语，这是构建会话代理的关键进步。然而，准确识别上下文相关的单词和短语仍然面临着迫在眉睫的挑战。在这项工作中，我们提出了一种新方法，通过语义格处理增强 ASR 系统内的上下文识别，利用深度学习模型的力量，在各种词汇和说话风格中准确地提供准确的转录。我们的解决方案包括使用隐马尔可夫模型和高斯混合模型 HMM GMM 以及深度神经网络 DNN 模型，集成语言和声学建模以提高准确性。我们使用基于变压器的模型为我们的网络注入正确的重新评分词格，实现了显着降低词错误率 WER 的卓越功能。 |
| SALM: Speech-augmented Language Model with In-context Learning for Speech Recognition and Translation Authors Zhehuai Chen, He Huang, Andrei Andrusenko, Oleksii Hrinchuk, Krishna C. Puvvada, Jason Li, Subhankar Ghosh, Jagadeesh Balam, Boris Ginsburg 我们提出了一种新颖的语音增强语言模型 SALM，具有 em 多任务和 em 上下文学习功能。 SALM 包括冻结文本 LLM、音频编码器、模态适配器模块和 LoRA 层，以容纳语音输入和相关任务指令。统一的 SALM 不仅实现了与自动语音识别 ASR 和语音翻译 AST 的特定任务 Conformer 基线相当的性能，而且还展示了上下文学习能力中的零样本，这通过 ASR 和 AST 的关键字提升任务得到了证明。此外，提出了上下文训练中的 em 语音监督，以弥合 LLM 训练和下游语音任务之间的差距，从而进一步提高语音到文本模型的上下文学习能力。 |
| CORN: Co-Trained Full-Reference And No-Reference Audio Metrics Authors Pranay Manocha, Donald Williamson, Adam Finkelstein 感知评估构成了各种音频处理任务的一个重要方面。完全参考 FR 或基于相似性的度量依赖于高质量的参考录音，可以将其与较低质量或损坏的录音版本进行比较以进行评估。相比之下，没有任何参考 NR 指标可以在不依赖参考的情况下评估录音。 FR 和 NR 方法都具有各自的优点和缺点。在本文中，我们提出了一个名为 CORN 的新颖框架，它合并了这些双重方法，同时一起训练 FR 和 NR 模型。训练完成后，模型可以独立应用。我们通过预测几个常见的客观指标并跨两种不同的架构来评估 CORN。使用 CORN 训练的 NR 模型可以在训练期间访问参考记录，因此，正如人们所期望的那样，它始终优于独立训练的基线 NR 模型。也许更值得注意的是，CORN FR 模型也优于其基线模型，尽管它依赖于相同的训练数据和相同的模型架构。 |
| Chinese Abs From Machine Translation |

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

【AI视野·今日Sound 声学论文速览 第二十七期】Tue, 17 Oct 2023

Daily Sound Papers

【AI视野·今日Sound 声学论文速览第二十七期】Tue, 17 Oct 2023