前两天我在家跟我妈视频,她说她想用手机上的语音助手查个天气预报,结果连说了三遍,手机愣是没听懂。
我妈普通话其实还行,就是带点口音。但这点口音,对一个正常人来说完全不影响交流。你随便在大街上拉个人,都能听懂她在说什么。
可AI就是听不懂。
这个事其实挺普遍的。你身边肯定也有这样的人,爸妈、爷奶、或者老家的亲戚。他们不是不想用这些新技术,是AI压根就没准备好接待他们。
语音识别这个赛道做了这么多年,普通话的识别率早就卷到了百分之九十七、百分之九十八,数字看着挺唬人。但你一换成方言,准确率直接腰斩。
这不是什么新问题,但一直没人真正意义上解决过。
最近阿里通义实验室发了一个东西,叫Fun-ASR1.5。坦率的讲,语音识别模型更新这种事,放在平时我可能扫一眼就过了。这个赛道太卷了,每隔几个月就有人说自己「再创新高」,看多了真的会麻。
但这次我多看了几眼。
因为一个数据,方言场景下的字错误率,相比上一版本,相对下降了百分之五十六点二。
你想想看,语音识别到了今天这个阶段,每往下压一个点都难得要命。百分之五十六点二的下降幅度,这不是微调出来的,是架构级别的变化。
我去看了一下具体的数字。目前Fun-ASR1.5在5种方言上的准确率已经突破百分之九十,在15种方言上超过百分之八十。
说真的,百分之九十这个数字放在方言识别领域里,已经可以算「工业级可用」了。
什么叫工业级可用呢,我用大白话解释一下。就是你可以真的把它用在产品里、用在业务里,而不只是在实验室的论文里刷个好看的分数。县域的教育直播可以用它给方言老师做实时字幕了。地方政务热线可以用它自动记录和转写了。方言文化纪录片可以直接用它来做字幕生产了。
这些场景以前全卡在「方言识别不准」这一个环节上。现在这个瓶颈,算是被打开了。
然后我注意到一个事,Fun-ASR1.5覆盖的方言范围比我想象得要广很多。
它支持汉语七大方言体系。官话、吴语、湘语、赣语、客家话、闽语、粤语,全覆盖。在这个基础上,还对20多种地方口音做了适配。河南、陕西、四川、重庆、云南、广东、广西、天津、山东、安徽、南京、杭州、甘肃、宁夏。。。
我看着这个列表的时候就在想,这哪是在做语音识别啊,这简直是在给中国的方言做一次数字化普查。
更有意思的是那几个长尾方言。上海话、闽南话、苏州话、温州话,这些在语音识别领域一直是出了名的硬骨头。温州话甚至在坊间被叫做「鬼话」,因为连浙江其他地方的人都听不太懂。Fun-ASR1.5对这几个方言做了专项优化,从官方给的识别结果来看,效果确实超出预期。
顺着方言这块再往下看,还有一个能力让我眼前一亮。
30种语言,一个模型。
对,你没看错。不是30个小模型拼在一起,是一个统一的大模型架构,直接覆盖了中日韩越泰、印尼马来菲律宾、印地阿拉伯,再加上英法德西葡俄意荷。。。欧洲那边我就不一个一个数了,反正主流的基本都在。
但这个能力的关键不在于「支持30种语言」这件事本身。很多模型都号称支持几十种语言。
关键在于它能处理混合语种对话。
什么意思呢。就是你在一段录音里先说了句中文,突然蹦了句英文,又切回中文夹了个日语词,Fun-ASR1.5不需要你提前告诉它「接下来是英文」,它自己就能识别出来并且正确切换。
这个能力在语音识别领域叫Code-Switching。听着很技术,但你想想身边的人怎么说话就明白了。在外企工作的朋友开会,中英文混着来是常态。做跨境电商的,跟东南亚供应商聊天可能一句话里夹三种语言。以前要处理这种混合录音,得先做语种检测,然后分段,然后分别送到不同模型里去跑。
现在一个模型就搞定了。
不过到这里为止,我觉得还在预期之内。方言做好了,多语言做好了,这是「该做的事做到了很高水准」。
真正让我没想到的,是下面这个。
古诗词识别。
Fun-ASR1.5做了一个专门的古诗词识别优化。团队构建了一套从先秦到近代的古诗词语音-文本对齐语料库,涵盖了《诗经》《楚辞》、李白杜甫的诗集、苏轼辛弃疾的词作,全是真人诵读的录音。
然后在这个语料库上做了专项训练,最终字符级准确率达到了百分之九十七。
你品一下。百分之九十七。
给AI念一首「春江花月夜」,从「春江潮水连海平」到「不知乘月几人归」,它几乎一个字不差。
古诗词的识别难度其实远超日常对话。文言文的语法跟现代汉语完全不一样,很多字在古诗词里的读音和含义都跟日常用法不同。更别提那些典故、异体字,还有吟诵时特有的拖腔和韵律。
这不是一个「顺便做了」的功能。这是真的花了力气的。
我自己的感受是,这个功能的商业价值可能没有方言识别那么直接,但它的文化意义是很特别的。想想看,国学在线课程里,老师用吟诵的方式讲古诗词,AI能实时生成精准字幕。有声诗词APP里,用户直接念出来,AI来判断你念对了没有。甚至未来中小学语文课上,学生跟读古诗词的时候,AI可以做实时发音纠正。
千年的韵律被现代技术听懂了。
这件事本身就挺浪漫的。
回到技术层面,Fun-ASR1.5还有一个改进。虽然不如前面几个那么让人兴奋,但对实际使用体验的提升可能是最直接的。
就是文本输出更规范了。
说真的,用过语音转写的人都知道,很多时候识别本身没问题,但输出的文本让你崩溃。没有标点,全是一坨。数字格式乱七八糟,「二零二六年」和「2026年」混着来。金额、电话、日期,格式五花八门。
Fun-ASR1.5在标点预测和文本归一化上做了重点优化。标点能根据上下文语义自动插入,数字、日期、金额、电话这些口语化的表达,也能自动转成规范书面格式。
这个改进的直接受益者是谁呢。开会的人,做会议纪要的人,做新闻采访整理的人,做法律笔录的人。这些场景以前语音转写完还得花大量时间做格式整理,现在这个成本直接砍下来一大截。
好了,技术层面聊得差不多了。
我想从稍微远一点的视角说说这件事。
方言这个东西在中国是一件很微妙的事。我们这一代人从小被教育说普通话,方言在很长一段时间里被认为是「不正式的」「上不了台面的」。很多人到大城市工作之后,会刻意把方言口音磨掉,说一口标准普通话。
但方言从来不只是「不标准的普通话」。
每一种方言背后,是一整套文化系统。是一个地方几百年甚至上千年的生活方式、思维方式、情感表达方式的浓缩。温州话里有些词,用普通话怎么翻译都不对味。四川话里的幽默感,换成普通话讲就没那个劲了。粤语歌为什么那么多经典?因为粤语的声调和音韵体系,天然适合某些旋律的表达。
联合国教科文组织有个数据,全球每两周就有一种语言消亡。中国的很多小众方言也在以肉眼可见的速度萎缩。年轻一代能听懂但不会说,再下一代可能连听都听不懂了。
所以当我看到Fun-ASR1.5说「方言工业级可用」的时候,我想到的不只是技术进步。我想到的是,AI终于开始认真听这些声音了。
当方言可以被准确地转写和记录,方言文化的传承就多了一个强有力的工具。当七大方言体系加20多种地方口音都能被一个模型覆盖,说明AI的听力正在从「听得清普通话」进化到「听得懂每一个中国人」。
这个变化,说真的,我觉得还是挺重要的。
目前Fun-ASR1.5已经在阿里云百炼平台上线了,提供API服务,也有开源Demo可以体验。如果你做语音相关的业务,或者单纯好奇想试试自己的方言它能不能听懂,都可以去玩一下。
我自己也还在摸索,可能有些理解不太准确。但我觉得这个方向是对的。AI不应该只听得懂「标准」的声音,它应该听得懂每一种声音。
突然想起小时候过年回老家,奶奶跟我说方言,我能听懂但已经不太会说了。那些声音、那些词汇、那些只有方言才能表达的细微情感,希望不只是留在记忆里。
希望AI,也能记住。