做一个基于ffmpeg的AI Agent智能体
FFmpeg AI Agent:一条自然语言指令,实现一个简单音视频处理。
让用户说一句:音视频的处理要求,AI Agent帮你把活给做了。
实现比较简单,抛砖引玉,留下tools接口,可以无限扩展。
项目开源地址:
https://github.com/runner365/gollmagent
1. 主要功能
支持连接多个大模型平台:
-
openai
-
yuanbao (腾讯)
-
qwen (阿里)
当前支持下面一些音视频处理功能:
-
将多媒体文件提取音频, 转换为m4a格式
-
将多媒体文件转换为mp4格式, 主要为视频文件,并显示进度
-
合并多个多媒体文件为一个带有视频和音频的mp4文件
-
合并多个多媒体文件的音频为一个纯音频的m4a文件
-
给视频添加图片水印
-
给视频添加文字水印
-
给视频添加字幕
-
基于视频的I帧生成图片
-
在指定时刻截取视频帧
向大家推荐这本书《深入理解FFmpeg》,很多命令行都从这里借鉴而来。并且这本书后半部分讲解ffmpeg api的二次开发非常详细,显然是有丰富的ffmpeg api开发经验。

2. 如何使用
2.1 基础环境
-
golang开发环境
-
安装ffmpeg:可以系统下运行ffmpeg命令行
-
设置环境变量LLM_API_KEY:大模型的API_KEY,从各个大模型云厂商获取和配置你自己的API_KEY,个人测试过腾讯元宝大模型,阿里QWen大模型,OpenAI大模型
个人推荐腾讯元宝大模型,它的tools比较灵活,输入语句缺少参数信息,会有多轮对话自动提醒功能,国内的大模型网络也比较快。
环境ready后,
直接运行: go run gollmagent.go

系统启动一个对话命令行,可以与AI大模型继续聊天,来完成音视频处理任务。
下面给出一些通过与AI大模型聊天,来处理音视频文件的例子。
2.2 转码视频
直接向AI提问,要求转码一个视频文件,并指明分辨率
cpp
用户: 请转码一个视频文件为360p,文件地址:D:\movies\src\wenjian.mp4
AI: 转码任务已启动,输出文件为 D:\movies\src\wenjian_360p.mp4,需要几分钟,请稍后。
AI: 当前进度: 7.27%,转码中,已耗时1125毫秒。
AI: 进度34.33%,转码中,已耗时5145毫秒。
AI: 进度58.13%,转码中,已耗时8650毫秒。
AI: 进度:84.95%,状态:转码中,耗时:12658毫秒
AI: 任务进度: 100.00%,转码已完成。
用户: 谢谢
AI: 不客气,有什么我可以帮你的吗?
转码完成后,可以得到一个自己想要分辨率的媒体文件。
2.3 合并多个视频
向AI提出要求,合并多个视频文件,给出文件列表。
cpp
用户: 合并多个视频文件,文件列表为: D:\movies\src\1.mp4, D:\movies\src\2.mp4, D:\movies\src\3.mp4
AI: 已合并视频文件,输出为 1_concat_2193.mp4。
合并完成后,AI告知合成后的媒体文件地址。
2.4 截取视频某个时刻的图片
向AI提出要求,截取某个视频某时刻一张图片
cpp
用户: 对视频文件D:\movies\src\2.mp4,在00:00:15截取一张图片
AI: 已截取视频帧,图片保存为2_screenshot_00_00_15.png
完成后,AI告知图片的地址。
2.5 获取视频所有IFrame的图片
向AI提出要求,截取某个视频中所有IFrame,并生成图片列表
cpp
用户: 对视频D:\movies\src\1.mp4的所有iframe截取图片
AI: 已从视频D:\movies\src\1.mp4提取I帧图片,保存在D:\movies\src\1_pics目录下。
完成后,AI会告诉图片的目录。目录下生成所有的iframe图片:

2.6 对视频文件加入图片水印
向AI提出要求,对某视频文件加入图片水印
cpp
用户: 对视频文件D:\movies\src\1.mp4添加水印:D:\movies\src\media_talk_Logo.png, 位置左上角
AI: 已为视频添加左上角水印,输出文件为1_watermarked.mp4。
AI生成新视频后,会告知新视频文件地址。

其他的一些功能(不再详细叙述):
-
将多媒体文件提取音频, 转换为m4a格式
-
合并多个多媒体文件的音频为一个纯音频的m4a文件
-
给视频添加字幕
3. 扩展:动态添加新功能
AI Agent的tools功能,就是向大模型注册一个Tools列表,包含一些功能,功能映射的函数,函数需要的参数;
这里程序给出简单的注册新tools function接口,在llmproxy/tools.go中注册写的函数接口。
以注册一个图片截图功能为例。
第一步:向AI大模型注册功能,如下
cpp
func AddScreenshotAtMomentTool() *pub.ToolDefinition {
screenshotAtMomentParams := map[string]interface{}{
"type": "object",
"properties": map[string]interface{}{
"input_file": map[string]interface{}{
"type": "string",
"description": "输入的视频文件路径",
},
"moment": map[string]interface{}{
"type": "string",
"description": "截图时刻,格式为 HH:MM:SS",
},
},
"required": []string{"input_file", "moment"},
}
tool := AddFunctionTool("screenshot_at_moment", "在指定时刻截取视频帧", screenshotAtMomentParams)
return tool
}
func InitTools() string {
//....
FunctionTools = append(FunctionTools, AddScreenshotAtMomentTool())
//...
}
第二步:实现"screenshot_at_moment"功能函数
cpp
func CreateFunctionToolsHandler() {
//.....
functions["screenshot_at_moment"] = ScreenshotOnePictureAtMoment
}
func ScreenshotOnePictureAtMoment(args map[string]interface{}) interface{} {
inputFile, ok := args["input_file"].(string)
if !ok {
log.Errorf("invalid input_file arguments %+v", args)
return "invalid input_file arguments"
}
moment, ok := args["moment"].(string)
output := fmt.Sprintf("%s_screenshot_%02d_%02d_%02d.png", strings.TrimSuffix(filepath.Base(inputFile), filepath.Ext(inputFile)), hours, minutes, seconds)
//do ffmpeg cmd job
ffmpegcmd.ScreenshotOnePictureAtMoment(inputFile, moment, output)
//返回图片文件
return output_file
}
只需要两步,就能注册一个新的AI Agent功能。
这个开源功能很简单,仅仅是抛砖引玉,如果有很多的想法,可以在评论区讨论。