whisper

熊猫钓鱼>_>10 天前
开发语言·人工智能·python·深度学习·ffmpeg·whisper·trae
基于Trae/Whisper/FFmpeg与Knowledge Graph MCP技术开发语音生成会议纪要智能应用日常办公中,会议纪要是一个看似不起眼但是却非常关键的工作。传统记录会议纪要需要仔细聆听每位发言者的陈述内容,并拥有强大的语言组织能力和总结能力。 你是否经常绞尽脑汁也很难写出令上司满意的会议纪要?反复修改又费时费力。 作为一个开发者,应该首先考虑提升工作效率,现在我们基于Trae IDE和其强大的MCP功能,可以非常方便的开发智能体应用,让我们一起学习如何快速利用其强大的性能辅助我们智能办公!
未来之窗软件服务11 天前
javascript·whisper·语音识别·仙盟创梦ide·东方仙盟
幽冥大陆(七十一) Whisper-ASR网页对接语音识别—东方仙盟练气期在东方仙盟广袤无垠的世界里,ASR(Automatic Speech Recognition,自动语音识别)技术宛如一种神奇的 “灵识传音” 仙术,正悄然改变着商业与娱乐领域的格局,为其带来前所未有的便捷与奇妙体验。其中,基于 Whisper 的语音识别应用,更是如同仙盟中的神秘法器,发挥着关键作用。
未来之窗软件服务12 天前
人工智能·whisper·语音识别·仙盟创梦ide·东方仙盟
幽冥大陆(六十九) Whisper-CLI —东方仙盟练气期Whisper-CLI 是基于 OpenAI Whisper 模型的命令行工具,由 whisper.cpp 项目封装实现,能在本地快速完成语音转文字、精准识别特定指令的任务。对于初学者而言,无需复杂的代码开发,仅靠几条命令就能解锁语音识别能力。
红苕稀饭66613 天前
论文阅读·whisper
Whisper-Flamingo论文阅读2024.111.摘要background 数据不平衡问题:音视听语音识别(AVSR)利用唇语视频来提高噪音环境下的识别性能,但高质量的视频数据(几千小时)远少于纯音频数据(数十万小时)。
CrankZ13 天前
macos·whisper
幕译 1.7--本地字幕生成与翻译--支持macOS,Windows本地离线的字幕生成与翻译,支持双语字幕,支持macOS,Windows双系统,都支持GPU加速。可免费试用,无次数限制
未来之窗软件服务17 天前
c语言·开发语言·whisper·仙盟创梦ide·东方仙盟·东方仙盟自动化·东方仙盟商业开发
幽冥大陆(五十七)ASR whisper-cli命令行使用 C语言—东方仙盟筑基期whisper-cli 实际通常指 whisper.cpp 提供的命令行工具(main 可执行文件),以下是 Windows 环境下的核心使用说明,适配轻量级、CPU 优先的本地化语音识别需求:
手揽回忆怎么睡22 天前
java·开发语言·whisper
Java集成whisper.cpp
YXWik622 天前
linux·c++·whisper
Linux安装Whisper(C++版)音频解析文本文中所有相关文件已经上传到资源包中,直接下载home下创建whisper文件夹下载 https://github.com/ggerganov/whisper.cpp 上传到whisper目录 解压 下载ffmpeg
普通网友24 天前
whisper
解决下载慢!Whisper 模型国内镜像源汇总与各版本快速获取如果您在下载 OpenAI 的 Whisper 语音识别模型时遇到速度慢的问题,这通常是由于网络延迟或访问国外服务器导致的。通过使用国内镜像源,您可以显著提升下载速度(最高可达 10 倍),并快速获取不同版本(如 base、small、medium、large 等)。本指南将汇总可靠的国内镜像源,并提供分步下载方法。所有信息基于开源社区实践,确保真实可靠。
minhuan1 个月前
whisper·asr·多模态模型·语音转文本应用·语音大模型应用
大模型应用:语音转文本(ASR)实践:OpenAI Whisper精准转录解析.21前面我们详细介绍了文本转语音的细节和实践,今天我们继续探讨一下语音转文本(ASR),初次接触,OpenAI Whisper 是最易上手、效果最均衡的开源大模型,它无需复杂的专业知识,一行代码就能实现多语言语音转写,且在噪声、口音、多语言场景下的表现远优于传统 ASR。
DARLING Zero two♡1 个月前
前端·人工智能·whisper
浏览器里跑 AI 语音转写?Whisper Web + cpolar让本地服务跑遍全网Whisper Web 是一款能直接在浏览器中运行的语音转文字工具,依托 OpenAI 的 Whisper 模型和 WebGPU 加速,支持音频文件上传、语音实时录入等多种转写方式,输出文本还能导出为 TXT 或 JSON 格式。无论是需要整理会议录音的职场人、记录采访素材的媒体工作者,还是日常需要语音转文字的普通用户,都能快速上手。它的优点很突出:无需搭建后端服务器,模型在本地运行,数据处理更安全,且对硬件要求不高,普通电脑也能流畅使用。
johnny2331 个月前
whisper
OpenAI Whisper:生态在语音转文本ASR工具合集介绍ASR基础概念,汇总几款语音识别模型和项目,其中就包括OpenAI开源的Whisper。OpenAI Whisper则是技术原理和实战。
不解不惑1 个月前
服务器·whisper·语音识别
OpenAI whisper 语音识别服务器搭建语音识别是人机交互的一个关键技术,机器人本体携带的算力和能源一般比较有限,通过TCP/IP socket通信,把计算分配到云端是一种选择。
许泽宇的技术分享1 个月前
macos·whisper·xcode
用 OpenAI Whisper + pyannote.audio 打造“谁在说什么”的全栈语音理解系统只做语音识别的系统,只能回答“说了什么”; 只有说话人分离的系统,只能回答“谁在什么时候说话”; 把两者拼在一起,你就有了一个真正能看懂对话的机器。
这儿有一堆花2 个月前
人工智能·ai·whisper
使用 Whisper 转写语音的完整教学在常见的 Python 环境中,只需要一条指令即可安装开源版 Whisper:如果系统没有 FFmpeg,需要自行安装,否则 Whisper 可能无法处理常见的 .mp3、.wav、.m4a 文件。
数据饕餮2 个月前
whisper
Faster-Whisper命令和意图识别程序设计调优:上下文感知和领域词汇增强相干视频教程:《Faster-whisper热词详解与程序设计教程》《Faster-Whisper唤醒词检测程序设计实战》
落淼喵_G2 个月前
ubuntu·whisper
ubuntu部署whisper+speaker_large+qwen【一】整体实现的功能为:上传mp3格式的音频资源,将mp3格式的会议内容转为文字,之后提取和整理会议概要,调研后使用以下几类模型:
兔兔爱学习兔兔爱学习2 个月前
gpt·websocket·whisper
浏览器端实时语音采集 + WebSocket 传输 + 后端 Whisper + GPT 翻译 + 实时字幕返回这个版本相当于一个轻量级“实时同传字幕服务器”, 打开网页 → 点击录音 → 说话 后端实时识别并翻译 → 字幕实时显示 延迟在 1~2 秒内(取决于网络与模型大小) 可部署在局域网或云服务器(HTTP + WebSocket)
兔兔爱学习兔兔爱学习2 个月前
gpt·whisper
一个可本地运行的实时字幕翻译 Demo(Whisper + GPT + Streamlit),可以边说边出中英文字幕这个 demo 在本机运行(开发/会议桌面场景)能做到“边说边出字幕(英文 → 中文)”,并包含增量显示、简单断句与缓存策略,方便后续替换为低延迟 streaming ASR 或本地 LLM。
数据饕餮2 个月前
whisper
Faster-Whisper唤醒词检测程序设计实战1《Fast-Whisper开源框架唤醒词检测程序设计》唤醒词是一个预先设定的单词或短语,用于激活处于休眠或待机状态的语音助手,使其进入准备接收指令的状态。