AI视频处理系统功能总览


🎯 系统概述
这是一个智能短视频自动化处理系统,专门用于视频搬运和二次创作。系统支持多赛道配置,可以根据不同的内容类型(如"外国人少系列"等)应用不同的处理策略。
🏗️ 核心架构
数据库驱动
- 基于MySQL数据库管理视频任务
- 支持批量处理和状态追踪
- 自动回滚机制防止处理失败
多模型AI引擎
- 视觉识别:Ollama模型进行视频帧分析
- 文案生成:多个AI模型并行生成(DeepSeek、Qwen等)
- 智能评分:专用评分模型选择最佳文案
- 语音合成:豆包TTS生成配音
- 语音识别:剪映STT生成字幕
🎛️ 核心功能模块
1. 赛道管理系统
支持按赛道分类处理:
├── 赛道专用提示词
├── 赛道专用评分标准
├── 赛道专用背景音乐库
├── 赛道专用处理配置
└── 赛道专用二次创作效果
2. 智能视频分析
- 动态帧提取:根据视频时长智能选择关键帧数量
- 视觉识别:AI分析视频内容,生成详细描述
- 内容理解:结合多帧信息形成完整视频理解
3. 多模型文案生成
- 并行处理:同时调用多个AI模型生成文案
- 智能评分:专业评分系统选择最佳文案
- 赛道适配:根据赛道特点调整生成策略
- 质量保证:评分标准包括押韵、幽默、贴合度等
4. 音频处理链
- TTS生成:将文案转换为高质量语音
- STT字幕:自动生成准确的字幕文件
- 背景音乐:智能匹配赛道专用或通用背景音乐
- 音频混合:专业级音频混合,支持音量调节
5. 视频二次创作
创意效果套件:
├── 画面裁剪:智能边缘裁剪
├── 镜像翻转:水平镜像处理
├── 缩放边框:添加装饰边框
├── 变速处理:微调播放速度
├── 旋转调整:轻微角度调整
├── 色彩调整:亮度/对比度/饱和度/色相
└── 水印添加:支持多位置水印
6. 智能处理控制
每个赛道可独立配置:
- Vision开关:是否启用视觉识别
- TTS开关:是否生成配音
- STT开关:是否生成字幕
- BGM开关:是否添加背景音乐
- 创意效果:选择性应用二次创作效果
⚙️ 配置系统
分层配置架构
config.ini
├── [默认配置]
│ ├── 处理开关 (vision/tts/stt/bgm)
│ ├── 音量控制
│ ├── 视频参数
│ └── 水印设置
├── [赛道专用提示词] track_prompt_外国人系列
├── [赛道专用评分] track_judge_外国人系列
├── [赛道专用处理] track_processing_外国人系列
└── [赛道专用创意] track_creative_外国人系列
模型配置
- 支持多个AI服务商(DeepSeek、OpenRouter、Qwen等)
- 并发调用优化
- 超时和错误处理
- API密钥管理
🔄 处理流程
单视频处理模式
1. 数据库获取待处理视频
2. 根据赛道获取配置
3. 提取关键帧 → 视觉识别
4. 多模型并行生成文案
5. AI评分选择最佳文案
6. TTS生成配音 → STT生成字幕
7. 视频合成(音频+字幕+背景音乐+二次创作)
8. 结果写入数据库
批量合并模式
1. 获取多个视频进行合并
2. 视频拼接成长视频
3. 按合并视频整体进行AI处理
4. 统一应用音频和创意效果
5. 批量更新数据库记录
🎨 特色功能
智能音乐管理
- 通用音乐库:默认背景音乐池
- 赛道专用音乐:每个赛道可配置专属音乐风格
- 随机选择:避免重复使用相同背景音乐
专业级音视频处理
- FFmpeg集成:专业级音视频处理
- 多轨混音:原声+配音+背景音乐智能混合
- 画质优化:保持高质量输出
- 格式标准化:统一输出格式
容错和恢复机制
- 处理状态管理:防止重复处理
- 自动回滚:处理失败时恢复状态
- 详细日志:完整的处理过程记录
- 微信通知:处理完成实时推送
📱 命令行界面
启动选项
# 处理所有赛道
python main.py
# 处理指定赛道
python main.py -r "外国人少系列"
# 创建赛道音乐目录结构
python main.py --create-music-dirs
批处理控制
- 可配置同时处理的视频数量
- 支持大批量处理
- 资源使用优化
🔧 技术栈
核心依赖
- OpenCV:视频帧提取和图像处理
- MoviePy:视频编辑和合成
- FFmpeg:专业音视频处理
- MySQL:数据持久化
- Requests:AI API调用
AI集成
- 多模型支持:DeepSeek、Qwen、OpenRouter等
- 并发处理:ThreadPoolExecutor优化
- 智能评分:专用评分模型选择最佳结果
📊 应用场景
短视频搬运
- 自动化处理下载的视频内容
- 生成原创解说配音
- 添加个性化创意效果
- 规避平台检测机制
内容矩阵运营
- 多赛道内容差异化处理
- 批量生产高质量内容
- 统一品牌风格管理
- 规模化内容创作
二次创作优化
- 智能的视觉效果处理
- 专业的音频后期制作
- 自动化的字幕生成
- 个性化的风格调整
🎯 系统优势
- 高度自动化:从原始视频到成品的全流程自动化
- 智能化程度高:AI驱动的内容理解和文案生成
- 配置灵活:支持多赛道、多场景的个性化配置
- 处理质量高:专业级音视频处理效果
- 扩展性强:模块化设计,易于添加新功能
- 稳定可靠:完善的错误处理和恢复机制