技术栈

speech-to-text

GPUStack
5 个月前
stable diffusion·llm·whisper·speech-to-text·text-to-speech
GPUStack v0.4:文生图模型、语音模型、推理引擎版本管理、离线支持和部署本地模型GPUStack 是一个专为运行 AI 模型设计的开源 GPU 集群管理器,致力于支持基于任何品牌的异构 GPU 构建统一管理的算力集群。无论这些 GPU 运行在 Apple Mac、Windows PC 还是 Linux 服务器上,GPUStack 都能将它们纳入统一的算力集群中。管理员可以轻松地从 Hugging Face 等流行的模型仓库中部署 AI 模型,开发人员则能够通过 OpenAI 兼容的 API 访问这些私有模型服务,就像使用 OpenAI 或 Microsoft Azure 提供的公共模
码上飞扬
1 年前
人工智能·文本转语音·wav2vec·speech-to-text
开源语音转文本Speech-to-Text大模型实战之Wav2Vec篇近年来,语音转文本(Speech-to-Text, STT)技术取得了长足的进步,广泛应用于各种领域,如语音助手、自动字幕生成、智能客服等。本文将详细介绍如何利用开源语音转文本大模型进行实战,从模型选择、环境搭建、模型训练到实际应用,带您一步步实现语音转文本功能。