字幕生成

逗逗班学Python

基于 Faster-Whisper 的本地语音转字幕与会议纪要系统：从音频转写到 SRT 字幕与 Markdown 纪要完整项目实战摘要：本文围绕一个可以直接运行的 Python 项目，完整实现“本地语音转字幕 + 会议纪要自动生成”。项目以 Faster-Whisper 为真实识别引擎，结合 CTranslate2 的推理能力，支持将会议录音、课程音频、访谈素材或短视频音频转换为带时间戳的转写片段，并导出 SRT、VTT、TXT、JSON 和 Markdown 会议纪要。为了方便项目展示和 CSDN 文章复现，源码包还内置了一个离线演示模式，即使暂时不下载模型权重，也能运行主程序并看到完整结果。

【Image Captioning】DynReferDynRefer是由中国科学院大学于2024年提出的用于1种用于区域级多模态任务的模型。DynRefer 通过模拟人类视觉认知过程，显著提升了区域级多模态识别能力。通过引入人眼的动态分辨率机制，能够以同时完成区域识别、区域属性检测和区域字幕生成任务。

我是有底线的