whisper+whisperx ASR加对齐

忘了怎么安装了,这里记录一下整理出来的类,不过这个识别容易出现幻觉,对齐也不是很准,比如说使用 large-v3 倒是能有一定的分句作用,但是每句最后一个字给的时间太短,这也表明了对齐不准。

python 复制代码
from chj.comm.pic import *

import json
import whisper
import whisperx
import gc

class Warp_whisper:
    def __init__(self, language="zh", device="cuda", compute_type="float32", model="large-v2" ):
        torch.backends.cudnn.enabled = False
        if not torch.cuda.is_available():
            device="cpu"
        dmodel="XXXXX/models/torch/whisper"
        self.asr_model=whisper.load_model(model, device, download_root=dmodel)
        self.txt_converter = None
        if model=="large-v2" and language=="zh":
            from opencc import OpenCC
            converter = OpenCC('t2s')
            self.txt_converter = converter
            self.prompt=None
        else:
            if language=="zh":
                self.prompt='以下是普通话的句子'
            else:
                self.prompt=None

        self.prompt=None

        self.language=language
        self.device=device
        self.align_model, self.align_metadata = whisperx.load_align_model(language_code=language, device=device)

    def do_asr_algin(self, fjson, fwav):
        audio = whisper.load_audio(fwav)
        result = self.asr_model.transcribe(audio, language=self.language, initial_prompt=self.prompt)
        #assert result["language"] == self.language
        result_segments = result["segments"]

        if self.txt_converter:
            for e in result_segments:
                e['text'] = converter.convert( e['text'] )
        result = whisperx.align(result_segments, self.align_model, self.align_metadata, audio, self.device, return_char_alignments=False)
        result=result["segments"]
        with open(fjson, "w") as fout:
            json.dump(result, fout, indent=4, ensure_ascii=False)

def f2_invoke():
    print("Doing... whisper align")
    basedir=sys.argv[1]
    din=f"{basedir}/audio_feats/wav16k"
    if not os.path.exists(din):
        print("no such dir", din)
        exit(1)
    dout=f"{basedir}/audio_feats/whisper_align"

	# model="large-v3
    cls_asr=Warp_whisper()
    chj_file.mkdir(dout)
    for fwav in tqdm( glob.glob(f"{din}/*.wav") ):
        nm = chj_file.get_nm(fwav)
        fnm=f"{dout}/{nm}.json"
        if os.path.isfile(fnm): continue
        cls_asr.do_asr_algin(fnm,fwav)
    print("Finished whisper align")
相关推荐
宋哥转AI8 小时前
学了Spring AI Graph再看LangGraph,发现API几乎一模一样
java·人工智能·agent
Z-D-K8 小时前
考验AI的“自我和意识“-AI对《红楼梦》后40回的改写(16)
人工智能·ai·aigc·交互·agi
AI破壁猿8 小时前
我做了一个 AI 工具,把 GitHub 仓库 5 分钟转成专利交底书
人工智能·llm·saas
升鲜宝供应链及收银系统源代码服务8 小时前
升鲜宝 AI助手模块功能关联、调用关系与软件开发说明(二)---升鲜宝生鲜配送供应链管理系统源代码服务
人工智能·生鲜配送系统·生鲜供应链源代码·供应链源代码出售·生鲜配送源代码服务·猪肉生产加工系统源代码·生鲜供应链系统
杨江8 小时前
codex开始使用
人工智能
财经资讯数据_灵砚智能8 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年6月6日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
落羽的落羽8 小时前
【项目】JsonRpc框架——开发实现1(细节功能、字段定义、抽象层、具象层)
linux·服务器·网络·c++·人工智能·算法·机器学习
Harvy_没救了8 小时前
【github爆款】Headroom:AI代理的智能上下文压缩层 —— 深度解析与洞察
人工智能·github
圣殿骑士-Khtangc8 小时前
GPT-5.5 全面上线:大模型进入“价值验证“之年,幻觉率断崖式下降52.5%
人工智能
weixin_468466858 小时前
深度学习图像数据增强新手实战指南
图像处理·人工智能·深度学习·ai·数据增强·机器视觉