1flowbase模板:一键导入升级GLM5.2,deepseek 多模态

安装请看github仓库readme提供了docker环境下一键部署

之前组合模型使用方式,节点编排然后去路由,这样去做组合模型,但是这样其实太僵硬,所以我决定对1flowbase进行重磅升级,增加内置工具调用,简单来说将多模态LLM封装为一个内置工具,挂载到主力模型中如Deepseek V4 ,或者GLM 5.2 这样文本模型,当主力模型需要识别图片时候,调用工具多模型LLM,进行图片识别,识别后结果作为工具直接返回描述给主力模型。编排如:

GLM5.2 作为主力模型

或者Deepseek V4

感谢雷总对于1flowbase 虚拟模型赞助,Deepseek 这个功能我用来调试都干掉20块,给孩子点一个star,研发资金困难了。

实操

其实就是在LLM节点中开启工具注册:

自定义注册工具名字和标识,注意仅支持,大小写字母和数字下划线

如果文本模型塞入了图片,上游供应商会报错,说不支持,所以我们需要对于工具进行拦截:

bash 复制代码
[
  {
    "kind": "media_content_available",
    "media_kind": "image",
    "argument_path": [
      "media"
    ]
  }
]

拦截这部分目前只做了图片,后续会升级为动态配置拦截工具,这样就可以对于一些工具执行结果,强制拦截,改造返回给模型

然后我们需要配置工具传参,这部分会注册进入文本模型中,让文本模型进行传参

bash 复制代码
{
  "type": "object",
  "required": [
    "task"
  ],
  "properties": {
    "task": {
      "type": "string",
      "description": "给多模态模型的任务指示提示词"
    },
    "media": {
      "type": "array",
      "items": {
        "type": "object",
        "required": [
          "kind",
          "path",
          "source"
        ],
        "properties": {
          "kind": {
            "enum": [
              "image"
            ],
            "type": "string",
            "description": "媒体类型"
          },
          "path": {
            "type": "string",
            "description": "工作区内图片路径,例如 uploads/image_aionui_1781014667000.png"
          },
          "source": {
            "enum": [
              "workspace_path"
            ],
            "type": "string",
            "description": "媒体来源"
          }
        }
      },
      "description": "需要交给多模态模型处理的媒体引用"
    }
  }
}

这些JSON参数都是配置好的了,直接填入JSON schema 就可以直接解析了

解析保存了

下面是接入到claude code 中效果

我们把这张图给他看

这个是接入GLM 5 .2 表现

1flowbase 中日志,这次也针对claude code 源码进行一对一修复调整了

下面这个是Deepseek 4 V 表现:

这里调用多模态工具,失败原因是,没有满足我们前置条件,直接被我们拦截了

当然如果你觉得太麻烦了,我们在现在已经开始支持模板一键安装

首先需要下载两个供应商插件:

Deepseek 这些文本模型可以使用openai的chat协议或者其他都可以,但是mimo 2.5 这些不能用openai的chat模型,因为这些不支持图块,用这个协议mimo2.5没法看图,所以:

Deepseek(文本模型) 使用Deepseek 供应商插件

当然GLM也可以使用openai的chat协议

mimo2.5(多模态):anthropic 协议插件(当然openai的response协议和Gemini 协议也可以,但是我们模型里面是anthropic 协议),这里要注意一个点是,anthropic 没有模型发现接口,所以需要手动填模型

以的deepseek 为例

Deepseek 配置

mimo 这些模型需要开启并配置需要开启多模态:

然后你就集齐模型使用要素了,去模板市场下载

导入后没什么问题报错就是这样

然后直接发布,然后去API创建key

一定要把图块给传过来,不然就会直接提示他让他去重新找。

目前还在开发中功能,智能路由,我们不希望仅仅将LLM模型封装为工具,我们还希望,能够主力模型调用这个工具之后,能够无缝切换到工具LLM模型,工具LLM模型工作完之后,再回到主力模型继续工作总结。

假设我们设定了,测试要给GPT,那么Deepseek 主力模型遇到测试部分就会直接切到gpt,gpt代替ds继续输出,然后写测试,写完之后,再返回主力LLM,而对于claude code 这些客户端工具来说,是无感,在他们看来就是一个大模型上游。

目前在claude code 跑通了,但是不知道codex 效果如何,这是下一步计划了,各位期待一下侯后续更新。

如果喜欢的话,请给我点一个star ,这是我持续更新动力

https://github.com/taichuy/1flowbase