技术栈
whisper
熊猫钓鱼>_>
10 天前
开发语言
·
人工智能
·
python
·
深度学习
·
ffmpeg
·
whisper
·
trae
基于Trae/Whisper/FFmpeg与Knowledge Graph MCP技术开发语音生成会议纪要智能应用
日常办公中,会议纪要是一个看似不起眼但是却非常关键的工作。传统记录会议纪要需要仔细聆听每位发言者的陈述内容,并拥有强大的语言组织能力和总结能力。 你是否经常绞尽脑汁也很难写出令上司满意的会议纪要?反复修改又费时费力。 作为一个开发者,应该首先考虑提升工作效率,现在我们基于Trae IDE和其强大的MCP功能,可以非常方便的开发智能体应用,让我们一起学习如何快速利用其强大的性能辅助我们智能办公!
未来之窗软件服务
11 天前
javascript
·
whisper
·
语音识别
·
仙盟创梦ide
·
东方仙盟
幽冥大陆(七十一) Whisper-ASR网页对接语音识别—东方仙盟练气期
在东方仙盟广袤无垠的世界里,ASR(Automatic Speech Recognition,自动语音识别)技术宛如一种神奇的 “灵识传音” 仙术,正悄然改变着商业与娱乐领域的格局,为其带来前所未有的便捷与奇妙体验。其中,基于 Whisper 的语音识别应用,更是如同仙盟中的神秘法器,发挥着关键作用。
未来之窗软件服务
12 天前
人工智能
·
whisper
·
语音识别
·
仙盟创梦ide
·
东方仙盟
幽冥大陆(六十九) Whisper-CLI —东方仙盟练气期
Whisper-CLI 是基于 OpenAI Whisper 模型的命令行工具,由 whisper.cpp 项目封装实现,能在本地快速完成语音转文字、精准识别特定指令的任务。对于初学者而言,无需复杂的代码开发,仅靠几条命令就能解锁语音识别能力。
红苕稀饭666
13 天前
论文阅读
·
whisper
Whisper-Flamingo论文阅读
2024.111.摘要background 数据不平衡问题:音视听语音识别(AVSR)利用唇语视频来提高噪音环境下的识别性能,但高质量的视频数据(几千小时)远少于纯音频数据(数十万小时)。
CrankZ
13 天前
macos
·
whisper
幕译 1.7--本地字幕生成与翻译--支持macOS,Windows
本地离线的字幕生成与翻译,支持双语字幕,支持macOS,Windows双系统,都支持GPU加速。可免费试用,无次数限制
未来之窗软件服务
17 天前
c语言
·
开发语言
·
whisper
·
仙盟创梦ide
·
东方仙盟
·
东方仙盟自动化
·
东方仙盟商业开发
幽冥大陆(五十七)ASR whisper-cli命令行使用 C语言—东方仙盟筑基期
whisper-cli 实际通常指 whisper.cpp 提供的命令行工具(main 可执行文件),以下是 Windows 环境下的核心使用说明,适配轻量级、CPU 优先的本地化语音识别需求:
手揽回忆怎么睡
22 天前
java
·
开发语言
·
whisper
Java集成whisper.cpp
YXWik6
22 天前
linux
·
c++
·
whisper
Linux安装Whisper(C++版)音频解析文本
文中所有相关文件已经上传到资源包中,直接下载home下创建whisper文件夹下载 https://github.com/ggerganov/whisper.cpp 上传到whisper目录 解压 下载ffmpeg
普通网友
24 天前
whisper
解决下载慢!Whisper 模型国内镜像源汇总与各版本快速获取
如果您在下载 OpenAI 的 Whisper 语音识别模型时遇到速度慢的问题,这通常是由于网络延迟或访问国外服务器导致的。通过使用国内镜像源,您可以显著提升下载速度(最高可达 10 倍),并快速获取不同版本(如 base、small、medium、large 等)。本指南将汇总可靠的国内镜像源,并提供分步下载方法。所有信息基于开源社区实践,确保真实可靠。
minhuan
1 个月前
whisper
·
asr
·
多模态模型
·
语音转文本应用
·
语音大模型应用
大模型应用:语音转文本(ASR)实践:OpenAI Whisper精准转录解析.21
前面我们详细介绍了文本转语音的细节和实践,今天我们继续探讨一下语音转文本(ASR),初次接触,OpenAI Whisper 是最易上手、效果最均衡的开源大模型,它无需复杂的专业知识,一行代码就能实现多语言语音转写,且在噪声、口音、多语言场景下的表现远优于传统 ASR。
DARLING Zero two♡
1 个月前
前端
·
人工智能
·
whisper
浏览器里跑 AI 语音转写?Whisper Web + cpolar让本地服务跑遍全网
Whisper Web 是一款能直接在浏览器中运行的语音转文字工具,依托 OpenAI 的 Whisper 模型和 WebGPU 加速,支持音频文件上传、语音实时录入等多种转写方式,输出文本还能导出为 TXT 或 JSON 格式。无论是需要整理会议录音的职场人、记录采访素材的媒体工作者,还是日常需要语音转文字的普通用户,都能快速上手。它的优点很突出:无需搭建后端服务器,模型在本地运行,数据处理更安全,且对硬件要求不高,普通电脑也能流畅使用。
johnny233
1 个月前
whisper
OpenAI Whisper:生态
在语音转文本ASR工具合集介绍ASR基础概念,汇总几款语音识别模型和项目,其中就包括OpenAI开源的Whisper。OpenAI Whisper则是技术原理和实战。
不解不惑
1 个月前
服务器
·
whisper
·
语音识别
OpenAI whisper 语音识别服务器搭建
语音识别是人机交互的一个关键技术,机器人本体携带的算力和能源一般比较有限,通过TCP/IP socket通信,把计算分配到云端是一种选择。
许泽宇的技术分享
1 个月前
macos
·
whisper
·
xcode
用 OpenAI Whisper + pyannote.audio 打造“谁在说什么”的全栈语音理解系统
只做语音识别的系统,只能回答“说了什么”; 只有说话人分离的系统,只能回答“谁在什么时候说话”; 把两者拼在一起,你就有了一个真正能看懂对话的机器。
这儿有一堆花
2 个月前
人工智能
·
ai
·
whisper
使用 Whisper 转写语音的完整教学
在常见的 Python 环境中,只需要一条指令即可安装开源版 Whisper:如果系统没有 FFmpeg,需要自行安装,否则 Whisper 可能无法处理常见的 .mp3、.wav、.m4a 文件。
数据饕餮
2 个月前
whisper
Faster-Whisper命令和意图识别程序设计调优:上下文感知和领域词汇增强
相干视频教程:《Faster-whisper热词详解与程序设计教程》《Faster-Whisper唤醒词检测程序设计实战》
落淼喵_G
2 个月前
ubuntu
·
whisper
ubuntu部署whisper+speaker_large+qwen【一】
整体实现的功能为:上传mp3格式的音频资源,将mp3格式的会议内容转为文字,之后提取和整理会议概要,调研后使用以下几类模型:
兔兔爱学习兔兔爱学习
2 个月前
gpt
·
websocket
·
whisper
浏览器端实时语音采集 + WebSocket 传输 + 后端 Whisper + GPT 翻译 + 实时字幕返回
这个版本相当于一个轻量级“实时同传字幕服务器”, 打开网页 → 点击录音 → 说话 后端实时识别并翻译 → 字幕实时显示 延迟在 1~2 秒内(取决于网络与模型大小) 可部署在局域网或云服务器(HTTP + WebSocket)
兔兔爱学习兔兔爱学习
2 个月前
gpt
·
whisper
一个可本地运行的实时字幕翻译 Demo(Whisper + GPT + Streamlit),可以边说边出中英文字幕
这个 demo 在本机运行(开发/会议桌面场景)能做到“边说边出字幕(英文 → 中文)”,并包含增量显示、简单断句与缓存策略,方便后续替换为低延迟 streaming ASR 或本地 LLM。
数据饕餮
2 个月前
whisper
Faster-Whisper唤醒词检测程序设计实战1
《Fast-Whisper开源框架唤醒词检测程序设计》唤醒词是一个预先设定的单词或短语,用于激活处于休眠或待机状态的语音助手,使其进入准备接收指令的状态。