希尔贝壳与西湖大学音频信息与信号处理实验室联合发布的论文被国际顶级会议 NeurIPS 2024 录用

神经信息处理系统大会(Conference on Neural Information Processing Systems,NeurIPS)是中国计算机学会(CCF)推荐的人工智能领域 A 类学术会议,其 H5 指数高达 337,在 Google Scholar 的 AI 类出版物中排名第一,与 ICML 和 ICLR 并称为机器学习领域难度最高、影响力最大的"三大会议"。

今年的会议 NeurIPS 2024 将于 12 月 10 日至 15 日在加拿大温哥华的 Vancouver Convention Center 举行。大会总共收到了 15671 篇有效投稿,最终录用率为 25.8%。希尔贝壳西湖大学音频信息与信号处理实验室联合发布的论文成功入选。

RealMAN是由希尔贝壳(AISHELL)与西湖大学音频信息与信号处理实验室(AUDIOLAB)联合开源的一个规模较大、实录、带标注的多通道麦克风语音与噪声数据集(RealMAN)。

数据组成

RealMAN是一个面向动态声学场景语音增强与声源定位任务的麦克风阵列音频数据集。具体而言,该数据集使用32通道高精度麦克风阵列进行录音,使用扬声器播放语音源信号。总共包括32个场景下录制的语音信号83小时(其中48小时为静态扬声器,35小时为移动扬声器),31个场景下录制的背景噪声144小时。

数据说明

RealMAN语音和噪声录制场景覆盖了各种常见的室内、室外、半室外和交通环境。录音设备见图1。借助于全向鱼眼摄像机标注扬声器相较于麦克风阵列的水平角,该标注可用于声源定位网络的训练。使用估计得到的直达路径滤波器对播放的语音源信号进行滤波,进而得到直达路径信号,方便语音增强网络的训练。

实验结果

  • 相比模拟数据,使用RealMAN数据集能够训练出更好的语音增强和声源定位网络;

  • 使用32通道麦克风阵列组成的不同子阵列可以训练出直接用于未见阵列的变阵列网络。

相关推荐
我的golang之路果然有问题1 分钟前
快速了解redis,个人笔记
数据库·经验分享·redis·笔记·学习·缓存·内存
Angindem1 小时前
SpringClound 微服务分布式Nacos学习笔记
分布式·学习·微服务
虾球xz2 小时前
游戏引擎学习第244天: 完成异步纹理下载
c++·学习·游戏引擎
BOB-wangbaohai2 小时前
Flowable7.x学习笔记(十四)查看部署流程Bpmn2.0-xml
xml·笔记·学习
先生沉默先2 小时前
c#接口_抽象类_多态学习
开发语言·学习·c#
豆芽8192 小时前
图解YOLO(You Only Look Once)目标检测(v1-v5)
人工智能·深度学习·学习·yolo·目标检测·计算机视觉
友善啊,朋友2 小时前
《普通逻辑》学习记录——性质命题及其推理
学习·逻辑学
Gsen28193 小时前
AI大模型从0到1记录学习 数据结构和算法 day20
数据结构·学习·算法·生成对抗网络·目标跟踪·语言模型·知识图谱
能来帮帮蒟蒻吗4 小时前
Docker安装(Ubuntu22版)
笔记·学习·spring cloud·docker·容器
每次的天空5 小时前
Android学习总结之Glide篇(缓存和生命周期)
android·学习·glide