使用AI一步生成音视频文件的会议纪要或者课后笔记

使用AI一步生成音视频文件的会议纪要或者课后笔记

一、流程

ffmpeg 将 输入的音视频抽取wav文件,输出格式16KHz的单声道16位音频。

采用实时ASR将wav文件实时识别输出文本。

采用大语言模型分段提取摘要,再最后生成Markdown格式的会议纪要。

二、环境准备:

本程序需要用到大语言模型,可以采用阿里的千问3-14B模型,也可以采用大模型的OpenAI 兼容的API接口,比如deepseek,

设置--base-url 和 --api-key 及 --model 即可,比如:--base-url https://api.deepseek.com --api-key your-deepseek-api-key --model deepseek-chat

复制代码
# 下载源码
git clone https://github.com/chendanyu/Audio2Minutes.git

# Linux安装:
sudo apt update && sudo apt install ffmpeg

conda create -n meeting python=3.10
conda activate meeting

pip install torch torchaudio
pip install -U funasr
pip install openai tiktoken

#可选安装,如果要输出pdf,安装markdown weasyprint库:
pip install markdown weasyprint
# 若果报错,则切换镜像源
# pip install markdown weasyprint -i https://pypi.org/simple

# 如果采用本地部署LLM,则需要安装vllm并下载模型Qwen3-14B-AWQ:
pip install vllm -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com

下载模型:
git lfs install
cd /data/model/iic/
git clone https://www.modelscope.cn/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online.git
git clone https://www.modelscope.cn/iic/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx.git

cd /data3/
git clone https://www.modelscope.cn/Qwen/Qwen3-14B-AWQ.git

三、使用:

3.1.启动本地大模型

如果使用本地大模型进行推理,则启动服务:

bash 复制代码
cd /data4/meeting
conda activate meeting

# Qwen3-14B-AWQ 占用 46G左右显存
CUDA_VISIBLE_DEVICES=0,1 vllm serve /data3/Qwen3-14B-AWQ --served-model-name Qwen3-14B-AWQ --chat-template ./qwen3_nonthinking.jinja  --tensor-parallel-size 2 --api-key AI-QWEN3-A5b7E3g9 --port 8603

# 此时程序的参数为:--base-url http://127.0.0.1:8603/v1 --api-key AI-QWEN3-A5b7E3g9 --model Qwen3-14B-AWQ

3.2. 参数说明

3.2.1. 输入输出参数

参数 短参数 必需 默认值 描述
input 输入文件或目录路径(音频/视频文件)
--template -t 主模板文件路径(JSON格式)
--output -o 自动生成 输出文件路径(单个文件模式)或输出目录(批量模式)
--batch -b False 启用批量处理模式,当输入为目录时使用

3.2.2. 音频处理参数

参数 短参数 必需 默认值 描述
--ffmpeg-path ffmpeg ffmpeg可执行文件路径
--asr-model ASR(自动语音识别)模型路径
--punc-model 标点恢复模型路径
--chunk-ms 600 ASR处理块大小(毫秒),较小的值可以提高实时性但可能降低准确性
--keep-wav False 保留中间生成的WAV文件
--keep-transcript False 保留转录的文本文件

3.2.3. API配置参数

参数 短参数 必需 默认值 描述
--base-url http://10.234.1.105:8603/v1 LLM API基础URL
--api-key AI-QWEN3-A5b7E3g9 LLM API密钥
--model Qwen3-14B-AWQ 使用的LLM模型名称

3.2.4. 文本处理参数(覆盖模板设置)

这些参数会覆盖模板文件中的相应配置:

参数 短参数 必需 默认值 描述
--chunk-size 模板设置 文本分割块大小(token数)
--overlap 模板设置 文本块重叠大小(token数)
--batch-size 模板设置 批量处理大小(段落数)
--batch-delay 模板设置 批次之间的延迟时间(秒)

3.2.5. 自定义变量参数

参数 短参数 必需 默认值 描述
--variables 自定义变量,JSON格式字符串,如 '{"meeting_title":"周会","host":"张三"}'

3.2.6. 其他参数

参数 短参数 必需 默认值 描述
--verbose -v False 启用详细输出模式,显示更多调试信息
--max-workers 2 批量处理时的最大工作线程数

3.3.生成Markdown文件或者pdf文件:

方案一、分布生成

之所以分步生成,是因为Qwen3-14B-AWQ模型差不多需要46G GPU,而ASR和加标点模型也需要显存,此时超过我目前的总显存。如果是调用外部的openai兼容的API接口,则可以采用 "3.2.直接生成"这样更简单。

复制代码
cd /data4/meeting
conda activate meeting

# 步骤1.音视频文件转文本
python audio_to_text.py meeting.mp4 -o meeting.txt

# 2.生成课后笔记
# 参数:
# --input 输入的文本文件
# --output 输出的markdown文件
# --template 输出文件的模板文件
python meeting_minutes_generator.py --input meeting.txt --output meeting.md --template ./templates/note_template.json

python meeting_minutes_generator.py --input meeting.txt --output meeting.pdf --template ./templates/note_template.json

# 或者,改用别的模板
python meeting_minutes_generator.py --input meeting.txt --output meeting.md --template ./templates/stock_template.json
方案二.直接生成

直接由音视频文件生成课后笔记或者会议纪要

复制代码
cd /data4/meeting
conda activate meeting

# 指定输出和自定义变量
python audio_to_minutes.py meeting.mp4 -t ./templates/note_template.json -o ./output/minutes.md --variables '{"meeting_title":"周例会","host":"张三"}'

# 采用deepseek-chat的API接口
python audio_to_minutes.py meeting.mp4 -t ./templates/note_template.json -o ./output/meeting.md --variables '{"meeting_title":"周例会","host":"张三"}' --base-url https://api.deepseek.com --api-key your-deepseek-api-key --model deepseek-chat

当已有的模板不满足自己所需时,可以按照templates目录下面已有的模板新建自己的模板,然后修改--template和--summary-template这2个参数后面的参数值即可。

四、完整代码

参见:https://github.com/chendanyu/Audio2Minutes

相关推荐
程序员佳佳3 分钟前
【万字硬核】从零构建企业级AI中台:基于Vector Engine整合GPT-5.2、Sora2与Veo3的落地实践指南
人工智能·gpt·chatgpt·ai作画·aigc·api·ai编程
weixin_437988124 分钟前
范式推出面向AGI的Phanthy平台
人工智能·agi
Hcoco_me24 分钟前
RNN(循环神经网络)
人工智能·rnn·深度学习
踏浪无痕32 分钟前
AI 时代架构师如何有效成长?
人工智能·后端·架构
AI 智能服务33 分钟前
第6课__本地工具调用(文件操作)
服务器·人工智能·windows·php
clorisqqq1 小时前
人工智能现代方法笔记 第1章 绪论(1/2)
人工智能·笔记
kisshuan123961 小时前
YOLO11-RepHGNetV2实现甘蔗田杂草与作物区域识别详解
人工智能·计算机视觉·目标跟踪
charlie1145141911 小时前
嵌入式现代C++教程: 构造函数优化:初始化列表 vs 成员赋值
开发语言·c++·笔记·学习·嵌入式·现代c++
焦耳热科技前沿1 小时前
北京科技大学/理化所ACS Nano:混合价态Cu₂Sb金属间化合物实现高效尿素电合成
大数据·人工智能·自动化·能源·材料工程
C+-C资深大佬1 小时前
Creo 11.0 全功能解析:多体设计 + 仿真制造,机械设计效率翻倍下载安装
人工智能