AI智能体 自动化生成视频

前言

大约在三年前 (2023) 的时候 关注过AIGC, 也上手研究过 stable diffusion 和 comfyUI。那个时候 comfyUI 还只有 web 版本。已经给我带来了不小的震撼。但是抽卡 还是很费力气。多手指 画面一大 直接社畜的情况 还是比较普遍。感觉距离商业化还差那么一点点。经过这三年的发展 。加上新购的 5070 16gb。 我觉得可以再试试的时候。感觉这三年AICG的发展 加上 各种 智能体平台的展现。如果能把他们组合起来 那么躺着变现 应该可以实现了。随着这个 想法的萌芽 我觉得试试看。

因为避免 燃烧token和 不依赖商业大模型 。 我这边的想法是全部以 本地搭建的方案来实施。目标呢就是实现 agent 视频自动生成 .。 那么我将 主要 解决 两个方面的问题。

  1. 流程控制(排版),控制台或者中台的选型和实现(智能体模型由本地 Ollama 提供)
  2. 中台调用 ComfyUI 实现绘图、视频 (ComfyUI 本地搭建提供)

#流程控制的选型

控制整个视频生成的流程控制 以及 多个智能体的创建控制。研究了市面主流框架主要由一下几个:资料来源,感谢李宏毅分享

1.LangChain: 深度定制的王者

核心模块化 解耦复杂需求, 将AI 应用解耦为独立,可复用的组件。赋予开发者极致灵活的控制力,四大组件: Modes + Memory + Tools + Agent

优势:
  • 丰富的工具链:官方集成了超过300种工具。覆盖主流数据库,API 和 云调用
  • 社区活跃:Github 星数量领先,文档丰富

2.Dify 零代码便捷性

主打零代码搭建快速上线。核心能力 拖拽式组件 预制模版。通过直观的可视化界面。无需写代码。大幅降低 AI开发门槛

优势:零代码 预制模版
补足:如果预制模版超出功能 那就...

3.N8n

核心定位:节点式编排链接一切, n8n是一个指挥官 可以通过可视化界面的流程编辑器,将不同的系统 不同平台进行打通,实现复杂的数据流程与业务的自动化。

优势:开源 与自定义扩展,和预支的即插即用节点。覆盖主流 Saas 服务

4.Coze

字节旗下的开源产品,中文场景母语级别支持。节点 流程丰富。

总结:

基于以上分析 我的需求事一个快速验证的流程的方案我这边选择 Coze 作为平台。 下一节当中我将 本地搭建 Coze 并且调用本地 Ollama 模型实现 Coza 的大模型支持