语音识别指标计算 WER

AI视觉网奇2025-07-29 13:00

目录

[CER（Character Error Rate）](#CER（Character Error Rate）)

[WER = Word Error Rate（词错误率）](#WER = Word Error Rate（词错误率）)

[🧮 WER 计算方式](#🧮 WER 计算方式)

[📌 示例](#📌 示例)

[✅ 理解要点](#✅ 理解要点)

CER（Character Error Rate）

语音识别中的 CER（Character Error Rate） 是衡量语音识别系统准确性的一个重要指标，表示预测文本与参考文本在字符级别上的差异程度。

CER（Character Error Rate）定义：

CER 是编辑距离（Levenshtein 距离）与参考文本字符总数的比值：

语音识别 WER 是什么意思

WER = Word Error Rate（词错误率）

在语音识别（ASR, Automatic Speech Recognition）领域，WER 是一个常用的性能评估指标，全称是：WER = Word Error Rate（词错误率）

🧮 WER 计算方式

WER 是通过比较 识别结果（Hypothesis） 和 真实文本（Reference） 之间的差异来计算的，公式如下：

WER=S+D+IN\text{WER} = \frac{S + D + I}{N}WER=NS+D+I

其中：

S（Substitutions）：替换错误数（识别成了其他词）
D（Deletions）：漏识别的词数
I（Insertions）：多识别出的词数
N：真实文本中的词总数（即 Reference 中的词数）

📌 示例

假设真实文本是：

我爱自然语言处理

识别结果是：

我喜欢语言处理

对比：

"爱" → "喜欢"：1 个替换（S）
"自然" 被删掉：1 个删除（D）
没有额外多出的词：0 个插入（I）
总词数 N = 4

则：

WER=1（S）+1（D）+0（I）4=0.5=50%\text{WER} = \frac{1（S）+ 1（D）+ 0（I）}{4} = 0.5 = 50\%WER=41（S）+1（D）+0（I）=0.5=50%

✅ 理解要点

WER 越低越好，0% 表示识别完全正确。
常见语音识别模型，比如 Whisper、Kaldi、Wav2Vec2，在高质量数据上 WER 可以低至 5% 以下。
对于方言、多语种或嘈杂环境，WER 通常会高一些。

上一篇：MCP工具开发实战：打造智能体的“超能力“

下一篇：数智驱动的「库存管理」：从风险系数、ABC分类到OMS和ERP系统的协同优化策略

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03OpenClaw + 飞书（Feishu）环境搭建指南 04【OpenClaw 本地实战 Ep.3】突破瓶颈：强制修改 openclaw.json 解锁 32k 上下文记忆 05Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 06OpenClaw优化飞书API 额度已耗尽问题 07小黑课堂计算机二级WPSoffice题库软件下载安装教程（2026年3月最新版）08Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 09OpenClaw大龙虾机器人完整安装教程 10Window 10部署openclaw报错node.exe : npm error code 128