语音识别错误率是多少,我们认为错误率是多少?

"The conclusions are clear: we are definitely not where we think we are in terms of WERs (Word Error Rates)."

编者按:本文摘编自由波兰Wrocław University of Science and Technology、美国Johns Hopkins University, Baltimore、波兰Poznan University of Technology等九名研究者发表在2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)的Findings论文--- "WER we are and WER we think we are"。EMNLP与ACL是国际上自然语言处理(NLP)领域最好的两个会议,均由ACL(Association for Computational Linguistics)主办。

WER是Word Error Rate的缩写,是评估语音识别(ASR)性能的主要指标。鉴于WER与单词where(在哪里)谐音,该文作者借此发出了灵魂之问:我们在哪里,我们认为我们在哪里?

该文作者站在NLP看ASR,指出应正确解读目前在常用基准数据集上报告的WER。该文观点犀利,充满思辨,并辅以实际实验结果进行论证,我们做中文摘编分享给读者。多些思辨和实事求是,将有助于跨领域学术同行、相关企业、政府及整个社会对当前语音识别乃至人工智能技术的客观认识,并有利于技术本身的健康长远发展。本摘编忠于原文,欢迎读者和专家指正。

原文链接:

https://aclanthology.org/2020.findings-emnlp.295/

摘要

对会话语音的自然语言处理(NLP)需要高质量的转录(transcript)。在本文中,我们对最近报道的现代自动语音识别(ASR)系统的很低单词错误率(WER)表示怀疑。我们概述了常用的几个基准数据集的若干问题,并在一个真实自然会话的内部数据集和HUB'05公开基准数据集上,比较了当前前沿水平(state-of-the-art)的三个商业ASR系统的性能。我们发现WER显著高于报道的结果。针对这些问题,我们提出包括创建真实、多领域、带高质量标注的数据集在内的若干行动方针,号召ASR和NLP两个领域的学术届和企业届进行跨学科合作,以推动ASR系统在下个十年的进步。

一、引言

自动语音识别(ASR)系统在过去几年取得了前所未有的进步,也可以看到一些厂商在努力展示其产品的质量和准确性。ASR系统在一些基准数据集上报告的WER低至 2%--3%。这些报告可能会给人一个错误的印象,即语音识别是一个大体上已解决的问题。但事实并非如此(Nothing could be further from the truth.)。

是什么导致了这样的误解和对准确性的严重高估?几个可能的原因包括:

  • 在人机对话、人人对话两种不同形式下,人们的语音有很大不同。当人们意识到是与机器对话,比如与Alex(编著注:Alex是全球出货最多的亚马逊智能音箱)交互时,说的话比较短且结构比较标准。而人们之间的对话则灵活多变,且充满各种不连贯(停顿、修补、回窜)。

  • 在Fisher、Switchboard这样的基准数据集中,参与录音的双方从预定主题中随机抽取主题进行对话,尽管这样努力去模仿真实的自然会话,其实本质还是伪造的(artificial),与现实生活中自然会话有很大不同。在真正具有挑战性的基准数据集上,如聚会谈话CHiME5测试,现代ASR报告的WER范围为46%--73%。

  • 在多样性方面,基准数据集的录音人员往往同质化,但在现实生活的对话中,年龄、性别、种族、口音、非母语等带来的声学(发音)和语言(词汇和句法)的多样性也都没有在ASR评估中得到考虑。无论是在语音信号特征还是会话语义层面,基准数据集都不能代表真实世界会话的真正多样性(the true diversity)。

二、错误率的现状

图1绘制了过去几年全球不同研究小组在几个基准数据集上报告的 ASR 错误率。从这些基准数据集上的报告结果看,截至2019年,错误率都低于15%。

  • Librispeech数据包含近1000小时的英语有声读物录音(用于模型训练和测试),其WER低至2%--4%。

  • WSJ'92 and '93数据包含约73小时干净语音听写和记者会话,其WER在3%--7%。

  • TED-LIUM数据包括118小时高质量TED演讲,其WER报告为5%。

  • HUB'05电话会话数据集上,在SWBD测试集上报告的最好WER是5%,在CallHome是9%。

图 1:ASR系统的WER变化。数据为在WER are we 1和Papers with Code2统计的过去5 年间报告的ASR结果。为了可读性删除了野点。

1、https://github.com/syhw/wer_are_we

2、https://paperswithcode.com/task/speech-recognition

为了评估,我们采集了50通真实呼叫中心会话(Call Center Conversations, CCC),其中语音时长2.2小时,涵盖多个领域(旅游预订、金融、两类保险领域和电信领域对话)。对三种不同的当前前沿水平(state-of-the-art)的商用ASR解决方案进行测试。在CCC测试集、HUB'05 SWBD和CallHome测试集上,评估得到的WER如表1所示。

不幸的是,如表 1 所示,在评估中,商用 ASR 系统在 HUB'05 测试集上的错误率几乎是文献报告(见图 1 **)的两倍。**这可能有如下两个原因。首先,论文中报告的WER通常使用人为标注的语音分段,而在我们评估中,各系统需要自己做语音端点检测。其次,对于基准数据集,论文中报告的系统一般使用在相应训练集上估计的语言模型(LM),而商业ASR系统一般使用通用语言模型,这显著降低了各商用系统的识别性能。

在CCC真实多领域测试集上的WER与在公共基准数据集上报告的WER,两者差距非常明显。表2给出了三个商用系统在CCC内部测试集上分领域的WER。可以看出,旅游预订和电信领域的错误率最高,这可能是由于这些语音中更多地包含日期和时间、金额、地点、产品或公司名称等有关的实体。

三、行动号召

我们认为,为了推动对人类会话语音的ASR,一个综合的行动计划应该包含下面几点:

  • 准备新的富标注的音频和转录数据集,包括:词性标签、依存文法结构、实体、情感等;

  • 开发能够采集会话语音的工具,众包采集真实自然会话,并象Librispeech一样公开发布;

  • 组织类似于Mozilla Common Voice的众包募捐活动,以便用户可以捐赠他们的电话和转录;

  • 进一步发展ASR声学与语言模型,并使NLP模型与方法能适配于会话应用;

  • 为ASR+NLP联合任务,设计开放的公共基准测试方案,以便评估该领域的进展;

  • 基于富标注的数据构建新的ASR性能度量,以更好地评估转语音识别转录质量的各个方面。

四、结论

结论非常明确:就 WER 而言,我们绝对没有达到我们认为的位置。

与NLP社区许多人的认识相反,现代ASR系统并不能满意地处理人类自然会话。在对多领域真实呼叫中心会话语音的识别上,我们看到了当前前沿水平的商用ASR系统的错误率远高于在传统基准数据集上的结果。我们相信,对ASR准确率过于乐观的认识将有损于会话NLP下游应用的发展。我们号召ASR和NLP两个领域的学术届和企业届进行跨学科合作,我们也讨论了若干行动计划,以推动ASR系统在下个十年的进步。

相关推荐
搬砖者(视觉算法工程师)2 小时前
用直白语言讲透 Transformer
人工智能
VALENIAN瓦伦尼安教学设备2 小时前
便携式蒸汽阀门漏气检测仪作用
人工智能·嵌入式硬件·算法
Cx330❀2 小时前
Linux ELF格式与可执行程序加载全解析:从磁盘文件到运行进程
linux·运维·服务器·人工智能·科技
杜子不疼.2 小时前
2026年AI Agent实战:从玩具到生产力的落地手册(附源码)
人工智能
科技快报2 小时前
华为发布AI数据平台,重塑数据基座,加速企业AI应用落地
大数据·人工智能·华为
Luke Ewin2 小时前
FunASR实时语音识别Websocket接口在Linux服务器中部署教程
linux·服务器·语音识别·funasr·实时语音转写·录音转写
智塑未来2 小时前
哪些GEO服务商有自研AI监测工具?2026年AI品牌监测平台深度对比
人工智能
不懒不懒2 小时前
【零基础入门 PyTorch:实现食物图片分类任务】
人工智能·pytorch·python
PengShuaiD52 小时前
【AI编码】用ChatGPT基于Whisper+ffmpeg实现一个根据视频字幕执行自动化裁剪本地小工具
人工智能·chatgpt·ffmpeg·whisper