基于Whisper的实时语音识别(1): 流式显示视频帧和音频帧

Whistream (微流)是基于openai-whisper 大语音模型下的流式语音识别工具

本期主要介绍实时显示工具Whishow,可以实时逐帧显示视频流(RTSP/RTMP)和离线文件(mp4,avi等)

下载地址:https://github.com/coolEphemeroptera/Whishow/releases/download/v1.0.0/whishow.exe

相关推荐
生医转码,四海为家17 分钟前
零基础-动手学深度学习-6.6 卷积神经网络(LeNet)
人工智能·深度学习·cnn
无名工程师22 分钟前
AI 学习过程中各阶段的学习重点、时间规划以及不同方向的选择与建议等内容
人工智能·学习
WXX_s44 分钟前
【OpenCV篇】OpenCV——03day.图像预处理(2)
人工智能·python·opencv·学习·计算机视觉
有才不一定有德1 小时前
深入剖析 MetaGPT 中的提示词工程:WriteCode 动作的提示词设计
人工智能·aigc·提示词工程
花月mmc2 小时前
CanMV-K230 AI学习笔记系列
人工智能·笔记·学习
lovep12 小时前
CLAP文本-音频基础模型: LEARNING AUDIO CONCEPTS FROM NATURAL LANGUAGE SUPERVISION
音视频·语音识别·多模态模型·音频识别·基础模型
s1ckrain2 小时前
【论文阅读】ON THE ROLE OF ATTENTION HEADS IN LARGE LANGUAGE MODEL SAFETY
论文阅读·人工智能·语言模型·大模型安全
Jackilina_Stone2 小时前
【论文|复现】YOLOFuse:面向多模态目标检测的双流融合框架
人工智能·python·目标检测·计算机视觉·融合
Java中文社群2 小时前
Coze开源版?别吹了!
人工智能·后端·开源