【企业级对话处理】自动估计说话人数 + 声纹聚类 + ASR 转写（FunASR + ModelScope + ClearVoice）

修一呀2025-12-01 21:19

企业语音处理场景中，对话识别是非常关键的能力，尤其是在会议场景、客服通话、机器人交互中：

话中断不断 → VAD 句子切分
不知道有几个人说话？ → 自动估计说话人数
谁说的？ → 声纹聚类
说了什么？ → ASR 转写
输出带人物身份的转写文本 ✔

今天带来一条完整的流水线技术演示👇

支持自动推断说话人数，完全不用手动指定！

输出结果:

bash 复制代码

[00:00:03.110--00:00:04.620] 陌生人1：你今天中午吃的啥？
[00:00:04.990--00:00:07.510] 陌生人2：今天中午吃了汉堡包，味道挺不错的。
[00:00:08.380--00:00:09.930] 陌生人1：你今天晚上打算吃啥？
[00:00:10.270--00:00:11.260] 陌生人1：有什么想法吗？
[00:00:11.650--00:00:13.880] 陌生人2：我还没有想好，让小智帮我决定吧。

【如果你对人工智能的学习有兴趣可以看看我的其他博客，对新手很友好！！！】

【本猿定期无偿分享学习成果,欢迎关注一起学习！！！】

一.🧠 功能流程概览

任意音频文件（两人或多人说话）

│