FunASR-1.5 方言识别

前两天我在家跟我妈视频，她说她想用手机上的语音助手查个天气预报，结果连说了三遍，手机愣是没听懂。

我妈普通话其实还行，就是带点口音。但这点口音，对一个正常人来说完全不影响交流。你随便在大街上拉个人，都能听懂她在说什么。

可AI就是听不懂。

这个事其实挺普遍的。你身边肯定也有这样的人，爸妈、爷奶、或者老家的亲戚。他们不是不想用这些新技术，是AI压根就没准备好接待他们。

语音识别这个赛道做了这么多年，普通话的识别率早就卷到了百分之九十七、百分之九十八，数字看着挺唬人。但你一换成方言，准确率直接腰斩。

这不是什么新问题，但一直没人真正意义上解决过。

最近阿里通义实验室发了一个东西，叫Fun-ASR1.5。坦率的讲，语音识别模型更新这种事，放在平时我可能扫一眼就过了。这个赛道太卷了，每隔几个月就有人说自己「再创新高」，看多了真的会麻。

但这次我多看了几眼。

因为一个数据，方言场景下的字错误率，相比上一版本，相对下降了百分之五十六点二。

你想想看，语音识别到了今天这个阶段，每往下压一个点都难得要命。百分之五十六点二的下降幅度，这不是微调出来的，是架构级别的变化。

我去看了一下具体的数字。目前Fun-ASR1.5在5种方言上的准确率已经突破百分之九十，在15种方言上超过百分之八十。

说真的，百分之九十这个数字放在方言识别领域里，已经可以算「工业级可用」了。

什么叫工业级可用呢，我用大白话解释一下。就是你可以真的把它用在产品里、用在业务里，而不只是在实验室的论文里刷个好看的分数。县域的教育直播可以用它给方言老师做实时字幕了。地方政务热线可以用它自动记录和转写了。方言文化纪录片可以直接用它来做字幕生产了。

这些场景以前全卡在「方言识别不准」这一个环节上。现在这个瓶颈，算是被打开了。

然后我注意到一个事，Fun-ASR1.5覆盖的方言范围比我想象得要广很多。

它支持汉语七大方言体系。官话、吴语、湘语、赣语、客家话、闽语、粤语，全覆盖。在这个基础上，还对20多种地方口音做了适配。河南、陕西、四川、重庆、云南、广东、广西、天津、山东、安徽、南京、杭州、甘肃、宁夏。。。

我看着这个列表的时候就在想，这哪是在做语音识别啊，这简直是在给中国的方言做一次数字化普查。

更有意思的是那几个长尾方言。上海话、闽南话、苏州话、温州话，这些在语音识别领域一直是出了名的硬骨头。温州话甚至在坊间被叫做「鬼话」，因为连浙江其他地方的人都听不太懂。Fun-ASR1.5对这几个方言做了专项优化，从官方给的识别结果来看，效果确实超出预期。

顺着方言这块再往下看，还有一个能力让我眼前一亮。

30种语言，一个模型。

对，你没看错。不是30个小模型拼在一起，是一个统一的大模型架构，直接覆盖了中日韩越泰、印尼马来菲律宾、印地阿拉伯，再加上英法德西葡俄意荷。。。欧洲那边我就不一个一个数了，反正主流的基本都在。

但这个能力的关键不在于「支持30种语言」这件事本身。很多模型都号称支持几十种语言。

关键在于它能处理混合语种对话。

什么意思呢。就是你在一段录音里先说了句中文，突然蹦了句英文，又切回中文夹了个日语词，Fun-ASR1.5不需要你提前告诉它「接下来是英文」，它自己就能识别出来并且正确切换。

这个能力在语音识别领域叫Code-Switching。听着很技术，但你想想身边的人怎么说话就明白了。在外企工作的朋友开会，中英文混着来是常态。做跨境电商的，跟东南亚供应商聊天可能一句话里夹三种语言。以前要处理这种混合录音，得先做语种检测，然后分段，然后分别送到不同模型里去跑。

现在一个模型就搞定了。

不过到这里为止，我觉得还在预期之内。方言做好了，多语言做好了，这是「该做的事做到了很高水准」。

真正让我没想到的，是下面这个。

古诗词识别。

Fun-ASR1.5做了一个专门的古诗词识别优化。团队构建了一套从先秦到近代的古诗词语音-文本对齐语料库，涵盖了《诗经》《楚辞》、李白杜甫的诗集、苏轼辛弃疾的词作，全是真人诵读的录音。

然后在这个语料库上做了专项训练，最终字符级准确率达到了百分之九十七。

你品一下。百分之九十七。

给AI念一首「春江花月夜」，从「春江潮水连海平」到「不知乘月几人归」，它几乎一个字不差。

古诗词的识别难度其实远超日常对话。文言文的语法跟现代汉语完全不一样，很多字在古诗词里的读音和含义都跟日常用法不同。更别提那些典故、异体字，还有吟诵时特有的拖腔和韵律。

这不是一个「顺便做了」的功能。这是真的花了力气的。

我自己的感受是，这个功能的商业价值可能没有方言识别那么直接，但它的文化意义是很特别的。想想看，国学在线课程里，老师用吟诵的方式讲古诗词，AI能实时生成精准字幕。有声诗词APP里，用户直接念出来，AI来判断你念对了没有。甚至未来中小学语文课上，学生跟读古诗词的时候，AI可以做实时发音纠正。

千年的韵律被现代技术听懂了。

这件事本身就挺浪漫的。

回到技术层面，Fun-ASR1.5还有一个改进。虽然不如前面几个那么让人兴奋，但对实际使用体验的提升可能是最直接的。

就是文本输出更规范了。

说真的，用过语音转写的人都知道，很多时候识别本身没问题，但输出的文本让你崩溃。没有标点，全是一坨。数字格式乱七八糟，「二零二六年」和「2026年」混着来。金额、电话、日期，格式五花八门。

Fun-ASR1.5在标点预测和文本归一化上做了重点优化。标点能根据上下文语义自动插入，数字、日期、金额、电话这些口语化的表达，也能自动转成规范书面格式。

这个改进的直接受益者是谁呢。开会的人，做会议纪要的人，做新闻采访整理的人，做法律笔录的人。这些场景以前语音转写完还得花大量时间做格式整理，现在这个成本直接砍下来一大截。

好了，技术层面聊得差不多了。

我想从稍微远一点的视角说说这件事。

方言这个东西在中国是一件很微妙的事。我们这一代人从小被教育说普通话，方言在很长一段时间里被认为是「不正式的」「上不了台面的」。很多人到大城市工作之后，会刻意把方言口音磨掉，说一口标准普通话。

但方言从来不只是「不标准的普通话」。

每一种方言背后，是一整套文化系统。是一个地方几百年甚至上千年的生活方式、思维方式、情感表达方式的浓缩。温州话里有些词，用普通话怎么翻译都不对味。四川话里的幽默感，换成普通话讲就没那个劲了。粤语歌为什么那么多经典？因为粤语的声调和音韵体系，天然适合某些旋律的表达。

联合国教科文组织有个数据，全球每两周就有一种语言消亡。中国的很多小众方言也在以肉眼可见的速度萎缩。年轻一代能听懂但不会说，再下一代可能连听都听不懂了。

所以当我看到Fun-ASR1.5说「方言工业级可用」的时候，我想到的不只是技术进步。我想到的是，AI终于开始认真听这些声音了。

当方言可以被准确地转写和记录，方言文化的传承就多了一个强有力的工具。当七大方言体系加20多种地方口音都能被一个模型覆盖，说明AI的听力正在从「听得清普通话」进化到「听得懂每一个中国人」。

这个变化，说真的，我觉得还是挺重要的。

目前Fun-ASR1.5已经在阿里云百炼平台上线了，提供API服务，也有开源Demo可以体验。如果你做语音相关的业务，或者单纯好奇想试试自己的方言它能不能听懂，都可以去玩一下。

我自己也还在摸索，可能有些理解不太准确。但我觉得这个方向是对的。AI不应该只听得懂「标准」的声音，它应该听得懂每一种声音。

突然想起小时候过年回老家，奶奶跟我说方言，我能听懂但已经不太会说了。那些声音、那些词汇、那些只有方言才能表达的细微情感，希望不只是留在记忆里。

希望AI，也能记住。