做一个基于ffmpeg的AI Agent智能体

做一个基于ffmpeg的AI Agent智能体

FFmpeg AI Agent:一条自然语言指令,实现一个简单音视频处理。

让用户说一句:音视频的处理要求,AI Agent帮你把活给做了。

实现比较简单,抛砖引玉,留下tools接口,可以无限扩展。

项目开源地址:

复制代码
https://github.com/runner365/gollmagent

1. 主要功能

支持连接多个大模型平台:

  • openai

  • yuanbao (腾讯)

  • qwen (阿里)

当前支持下面一些音视频处理功能:

  • 将多媒体文件提取音频, 转换为m4a格式

  • 将多媒体文件转换为mp4格式, 主要为视频文件,并显示进度

  • 合并多个多媒体文件为一个带有视频和音频的mp4文件

  • 合并多个多媒体文件的音频为一个纯音频的m4a文件

  • 给视频添加图片水印

  • 给视频添加文字水印

  • 给视频添加字幕

  • 基于视频的I帧生成图片

  • 在指定时刻截取视频帧

向大家推荐这本书《深入理解FFmpeg》,很多命令行都从这里借鉴而来。并且这本书后半部分讲解ffmpeg api的二次开发非常详细,显然是有丰富的ffmpeg api开发经验。

2. 如何使用

2.1 基础环境

  • golang开发环境

  • 安装ffmpeg:可以系统下运行ffmpeg命令行

  • 设置环境变量LLM_API_KEY:大模型的API_KEY,从各个大模型云厂商获取和配置你自己的API_KEY,个人测试过腾讯元宝大模型,阿里QWen大模型,OpenAI大模型

个人推荐腾讯元宝大模型,它的tools比较灵活,输入语句缺少参数信息,会有多轮对话自动提醒功能,国内的大模型网络也比较快。

环境ready后,

直接运行: go run gollmagent.go

系统启动一个对话命令行,可以与AI大模型继续聊天,来完成音视频处理任务。

下面给出一些通过与AI大模型聊天,来处理音视频文件的例子。

2.2 转码视频

直接向AI提问,要求转码一个视频文件,并指明分辨率

cpp 复制代码
用户: 请转码一个视频文件为360p,文件地址:D:\movies\src\wenjian.mp4

AI: 转码任务已启动,输出文件为 D:\movies\src\wenjian_360p.mp4,需要几分钟,请稍后。
AI:  当前进度: 7.27%,转码中,已耗时1125毫秒。
AI:  进度34.33%,转码中,已耗时5145毫秒。
AI:  进度58.13%,转码中,已耗时8650毫秒。
AI:  进度:84.95%,状态:转码中,耗时:12658毫秒
AI:  任务进度: 100.00%,转码已完成。

用户: 谢谢

AI: 不客气,有什么我可以帮你的吗?

转码完成后,可以得到一个自己想要分辨率的媒体文件。

2.3 合并多个视频

向AI提出要求,合并多个视频文件,给出文件列表。​​​​​​​

cpp 复制代码
用户: 合并多个视频文件,文件列表为: D:\movies\src\1.mp4, D:\movies\src\2.mp4, D:\movies\src\3.mp4

AI: 已合并视频文件,输出为 1_concat_2193.mp4。

合并完成后,AI告知合成后的媒体文件地址。

2.4 截取视频某个时刻的图片

向AI提出要求,截取某个视频某时刻一张图片​​​​​​​

cpp 复制代码
用户: 对视频文件D:\movies\src\2.mp4,在00:00:15截取一张图片

AI: 已截取视频帧,图片保存为2_screenshot_00_00_15.png

完成后,AI告知图片的地址。

2.5 获取视频所有IFrame的图片

向AI提出要求,截取某个视频中所有IFrame,并生成图片列表​​​​​​​

cpp 复制代码
用户: 对视频D:\movies\src\1.mp4的所有iframe截取图片

AI: 已从视频D:\movies\src\1.mp4提取I帧图片,保存在D:\movies\src\1_pics目录下。

完成后,AI会告诉图片的目录。目录下生成所有的iframe图片:

2.6 对视频文件加入图片水印

向AI提出要求,对某视频文件加入图片水印​​​​​​​

cpp 复制代码
用户: 对视频文件D:\movies\src\1.mp4添加水印:D:\movies\src\media_talk_Logo.png, 位置左上角

AI: 已为视频添加左上角水印,输出文件为1_watermarked.mp4。

AI生成新视频后,会告知新视频文件地址。

其他的一些功能(不再详细叙述):

  • 将多媒体文件提取音频, 转换为m4a格式

  • 合并多个多媒体文件的音频为一个纯音频的m4a文件

  • 给视频添加字幕

3. 扩展:动态添加新功能

AI Agent的tools功能,就是向大模型注册一个Tools列表,包含一些功能,功能映射的函数,函数需要的参数;

这里程序给出简单的注册新tools function接口,在llmproxy/tools.go中注册写的函数接口。

以注册一个图片截图功能为例。

第一步:向AI大模型注册功能,如下​​​​​​​

cpp 复制代码
func AddScreenshotAtMomentTool() *pub.ToolDefinition {
    screenshotAtMomentParams := map[string]interface{}{
        "type": "object",
        "properties": map[string]interface{}{
            "input_file": map[string]interface{}{
                "type":        "string",
                "description": "输入的视频文件路径",
            },
            "moment": map[string]interface{}{
                "type":        "string",
                "description": "截图时刻,格式为 HH:MM:SS",
            },
        },
        "required": []string{"input_file", "moment"},
    }
    tool := AddFunctionTool("screenshot_at_moment", "在指定时刻截取视频帧", screenshotAtMomentParams)
    return tool
}

func InitTools() string {
   //....
   FunctionTools = append(FunctionTools, AddScreenshotAtMomentTool())
   //...
}

第二步:实现"screenshot_at_moment"功能函数​​​​​​​

cpp 复制代码
func CreateFunctionToolsHandler() {
  //.....
  functions["screenshot_at_moment"] = ScreenshotOnePictureAtMoment
}

func ScreenshotOnePictureAtMoment(args map[string]interface{}) interface{} {
    inputFile, ok := args["input_file"].(string)
    if !ok {
        log.Errorf("invalid input_file arguments %+v", args)
        return "invalid input_file arguments"
    }
    moment, ok := args["moment"].(string)
    output := fmt.Sprintf("%s_screenshot_%02d_%02d_%02d.png", strings.TrimSuffix(filepath.Base(inputFile), filepath.Ext(inputFile)), hours, minutes, seconds)
    
    //do ffmpeg cmd job
    ffmpegcmd.ScreenshotOnePictureAtMoment(inputFile, moment, output)
    
    //返回图片文件
    return output_file    
}

只需要两步,就能注册一个新的AI Agent功能。

这个开源功能很简单,仅仅是抛砖引玉,如果有很多的想法,可以在评论区讨论。

相关推荐
策知道2 小时前
2026年北京政府工作报告产业指标深度解析
大数据·数据库·人工智能·搜索引擎·政务
咚咚王者2 小时前
人工智能之核心技术 深度学习 第八章 数据预处理与增强
人工智能·深度学习
百***35482 小时前
2026年AI搜索时代的企业认知突围:微盟星启如何重构品牌信息基础设施
人工智能·重构
极智-9962 小时前
GitHub 热榜项目-日榜精选(2026-02-03)| AI智能体、终端工具、RAG技术等 | claude-mem、99、termux-app等
人工智能·网络安全·github·ai智能体·llm应用·rag技术·torrent工具
跨境卫士苏苏2 小时前
跨境电商:从“跑量”到“跑赢利润”的一套打法
大数据·人工智能·跨境电商·亚马逊·内容营销
maoku662 小时前
LLaMA Factory全解析:让大模型“改装”像组装电脑一样简单
人工智能
袋鼠云数栈2 小时前
让多模态数据真正可用,AI 才能走出 Demo
大数据·人工智能·数据治理·多模态
esmap2 小时前
技术深度解析:ESMap引擎VS主流数字孪生竞品
人工智能·物联网·3d·编辑器·智慧城市·webgl
鹧鸪云光伏2 小时前
光伏清洗-AI算法助你找到积尘位置
人工智能·光伏