【声音分离】多人语音分离方案:ClearVoice + MossFormer2_SS_16K 实战教程

在智能语音处理领域,"双人同时说话"的重叠语音分离一直是一个高难度问题。很多企业应用,如智能客服、会议纪要、多麦克风设备,都需要把混在一条音轨里的两个人声音拆开,分别保存为独立的 wav 文件。

本文将手把手教你:
📌 一条混合的"双人同时说话"语音 → 输出为两条干净语音

【🚀🚀🚀如果你对人工智能的学习有兴趣可以看看我的其他博客,对新手很友好!🚀🚀🚀】

【🚀🚀🚀本猿定期无偿分享学习成果,欢迎关注一起学习!🚀🚀🚀】

一.🚀 为什么选 ClearVoice?

ClearVoice(ClearerVoice-Studio)是阿里云 ModelScope 团队开源的语音处理工具箱,具备:

能力模块 说明
降噪(Enhancement) FRCRN、MossFormer 等顶级模型
多说话人分离(Separation) MossFormer2_SS_16K 直接支持单通道重叠语音分离
目标说话人抽取(TSE) 可基于参考音频抽取指定人物声音
授权 Apache-2.0 友好商用许可

其中的 MossFormer2_SS_16K 专为单通道多说话人语音重叠分离设计,非常契合本文场景:

二.📂 工程目录结构

三.🔧 环境准备

推荐新环境安装:

bash 复制代码
conda create -n sep_env python=3.10 -y
conda activate sep_env

安装依赖:

bash 复制代码
pip install clearvoice soundfile

⚠️注意

如果输入不是 WAV,确保已安装 ffmpeg:

bash 复制代码
# Windows: 推荐 choco 安装(管理员 PowerShell)
choco install ffmpeg

如果你的机器带 GPU,并安装了 CUDA 版 PyTorch,分离速度会提升 3~10 倍。

四.🧠 核心代码

完整 main.py 如下👇

python 复制代码
# main.py
# 功能:用 ClearVoice 的 MossFormer2_SS_16K 把一条混合男女声,分离为两条独立人声音频

import os
from pathlib import Path

from clearvoice import ClearVoice  # 来自 ClearerVoice-Studio

BASE_DIR = Path(__file__).resolve().parent
DATA_DIR = BASE_DIR / "data"
INPUT_WAV = DATA_DIR / "input.wav"          # 你的混合音频
OUTPUT_DIR = BASE_DIR / "output_separated"  # 输出目录

def main():
    if not INPUT_WAV.exists():
        raise FileNotFoundError(f"找不到输入文件: {INPUT_WAV}")

    os.makedirs(OUTPUT_DIR, exist_ok=True)

    print("======= ClearVoice 多说话人分离(MossFormer2_SS_16K)=======")
    print(f"[INFO] 输入文件: {INPUT_WAV}")
    print(f"[INFO] 输出目录: {OUTPUT_DIR}")

    # 初始化分离模型:任务 = speech_separation,模型 = MossFormer2_SS_16K
    separator = ClearVoice(
        task="speech_separation",
        model_names=["MossFormer2_SS_16K"]
    )

    # online_write=True 表示:直接把分离后的每个通道写到 OUTPUT_DIR 里
    separator(
        input_path=str(INPUT_WAV),
        online_write=True,
        output_path=str(OUTPUT_DIR)
    )

    # 列出输出结果,方便你看到文件名
    wavs = sorted(OUTPUT_DIR.glob("*.wav"))
    print("\n[RESULT] 分离完成,生成的文件:")
    for i, w in enumerate(wavs):
        print(f"  [{i}] {w.name}")

if __name__ == "__main__":
    main()

五.🚀分离结果

**【非常清晰干净的两条人声】**🚀🚀🚀🚀🚀

六.🚀传送门🚀

【企业级对话处理】自动估计说话人数 + 声纹聚类 + ASR 转写(FunASR + ModelScope + ClearVoice)-CSDN博客

搭配本猿的这篇博客,效果更佳哦!🚀🚀🚀

相关推荐
GISer_Jing1 天前
AI自动化工作流:智能驱动未来(升级研究生项目!!!)
人工智能·前端框架·自动化
草捏子1 天前
Agent Skills:让 AI 一次学会、永远记住的能力扩展方案
人工智能
NocoBase1 天前
【2.0 教程】第 1 章:认识 NocoBase ,5 分钟跑起来
数据库·人工智能·开源·github·无代码
后端小肥肠1 天前
OpenClaw实战|从识图到公众号内容自动化,我跑通了完整链路
人工智能·aigc·agent
Elastic 中国社区官方博客1 天前
快速 vs. 准确:衡量量化向量搜索的召回率
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索
qq_381338501 天前
【技术日报】2026-03-18 AI 领域重磅速递
大数据·人工智能
NocoBase1 天前
开源项目管理工具选型指南(2026年最新)
人工智能·开源·无代码
feasibility.1 天前
AI 爬虫高手养成:Openclaw+Scrapling 手动部署 + 采集策略(以Walmart 电商平台为例)
人工智能·爬虫·科技·机器人·agi·openclaw·scrapling
程序员老猫1 天前
前端菜鸡狂喜!DeepSeek+Gemini,嘴炮出完整博客方案
人工智能
AI周红伟1 天前
周红伟:《OpenClaw安全防控:OpenClaw++Skills智能体安全部署、实操和企业应用实操》
人工智能·阿里云·云计算·腾讯云·openclaw