Claude Code 视觉桥接方案，全程 Agent 执行

夜起叶落2026-04-30 10:04

背景

Claude Code 接 DeepSeek 时，模型没有视觉能力。

遇到图片就"失明"，无法分析报错 UI 或设计稿。

解决思路

用 Kimi Vision API 做桥接，DeepSeek 遇到图片 → 调用脚本 → 返回文字描述 → 继续工作。

成本：我用的是 kimi 的模型，约 0.012 元/张。

第一步：部署脚本

把下面提示词发给任意 Agent，让它帮你写脚本。先确定你用哪个有视觉能力的模型厂商，我用的是 kimi （在提示词里面修改这段为你自己的模型"查询 Kimi 的视觉模型"）

提示词

diff 复制代码

帮我写一个 Python 脚本：describe_image.py

功能：
- 接收两个参数：图片路径、描述要求（文本）
- 返回图片的文字描述
- 查询 Kimi 的视觉模型，调用它 API 来处理这个图片识别功能

要求：
- 使用 uv run 执行，自动安装依赖
- API 调 OpenAI 兼容格式，base_url 是 https://api.moonshot.cn/v1
- 环境变量 MOONSHOT_API_KEY 读取 Key
- 图片转 base64 嵌入请求
- 返回模型的回复内容

脚本保存到 ~/.claude/describe_image.py，并添加好执行权限

配置环境变量

可以为了方便，直接把让 Agent 把 API Key 写在脚本里

也可以自己配置 API Key

在 ~/.zshrc 加一行：

ini 复制代码

export MOONSHOT_API_KEY="你的Kimi Key"

bash 复制代码

source ~/.zshrc

验证

bash 复制代码

~/.claude/describe_image.py /tmp/screenshot.png "描述这张图"

第二步：配置 CLAUDE.md

接着发给 Agent：

bash 复制代码

请在全局 `~/.claude/CLAUDE.md` 配置补充如下内容：

## 图片识别

如果你无法识别图片，立即调用：

$ uv run ~/.claude/describe_image.py <图片路径> "描述要求"

例如：uv run ~/.claude/describe_image.py /tmp/image.png "描述一下这张图片，关注里面报错信息内容"

拿到描述后直接带入上下文继续工作，不需要告诉用户"我无法看图"

第三步：授权该脚本免确认执行

接着发给 Agent：

复制代码

请全局配置，后续调用该图片识别脚本时无需确认