技术栈

字幕生成

逗逗班学Python
20 天前
python·语音识别·faster-whisper·字幕生成·会议纪要
基于 Faster-Whisper 的本地语音转字幕与会议纪要系统:从音频转写到 SRT 字幕与 Markdown 纪要完整项目实战摘要:本文围绕一个可以直接运行的 Python 项目,完整实现“本地语音转字幕 + 会议纪要自动生成”。项目以 Faster-Whisper 为真实识别引擎,结合 CTranslate2 的推理能力,支持将会议录音、课程音频、访谈素材或短视频音频转换为带时间戳的转写片段,并导出 SRT、VTT、TXT、JSON 和 Markdown 会议纪要。为了方便项目展示和 CSDN 文章复现,源码包还内置了一个离线演示模式,即使暂时不下载模型权重,也能运行主程序并看到完整结果。
lly_csdn123
1 年前
python·深度学习·ai·图像分类·多模态·字幕生成·属性识别
【Image Captioning】DynReferDynRefer是由中国科学院大学于2024年提出的用于1种用于区域级多模态任务的模型。DynRefer 通过模拟人类视觉认知过程,显著提升了区域级多模态识别能力。通过引入人眼的动态分辨率机制, 能够以同时完成区域识别、区域属性检测和区域字幕生成任务。
我是有底线的