Claude Code 视觉桥接方案,全程 Agent 执行

背景

Claude Code 接 DeepSeek 时,模型没有视觉能力。

遇到图片就"失明",无法分析报错 UI 或设计稿。

解决思路

用 Kimi Vision API 做桥接,DeepSeek 遇到图片 → 调用脚本 → 返回文字描述 → 继续工作。

成本:我用的是 kimi 的模型,约 0.012 元/张。


第一步:部署脚本

把下面提示词发给任意 Agent,让它帮你写脚本。先确定你用哪个有视觉能力的模型厂商,我用的是 kimi (在提示词里面修改这段为你自己的模型"查询 Kimi 的视觉模型")

提示词

diff 复制代码
帮我写一个 Python 脚本:describe_image.py

功能:
- 接收两个参数:图片路径、描述要求(文本)
- 返回图片的文字描述
- 查询 Kimi 的视觉模型,调用它 API 来处理这个图片识别功能

要求:
- 使用 uv run 执行,自动安装依赖
- API 调 OpenAI 兼容格式,base_url 是 https://api.moonshot.cn/v1
- 环境变量 MOONSHOT_API_KEY 读取 Key
- 图片转 base64 嵌入请求
- 返回模型的回复内容

脚本保存到 ~/.claude/describe_image.py,并添加好执行权限

配置环境变量

可以为了方便,直接把让 Agent 把 API Key 写在脚本里

也可以自己配置 API Key

~/.zshrc 加一行:

ini 复制代码
export MOONSHOT_API_KEY="你的Kimi Key"
bash 复制代码
source ~/.zshrc

验证

bash 复制代码
~/.claude/describe_image.py /tmp/screenshot.png "描述这张图"

第二步:配置 CLAUDE.md

接着发给 Agent:

bash 复制代码
请在全局 `~/.claude/CLAUDE.md` 配置补充如下内容:

## 图片识别

如果你无法识别图片,立即调用:

$ uv run ~/.claude/describe_image.py <图片路径> "描述要求"

例如:uv run ~/.claude/describe_image.py /tmp/image.png "描述一下这张图片,关注里面报错信息内容"

拿到描述后直接带入上下文继续工作,不需要告诉用户"我无法看图"

第三步:授权该脚本免确认执行

接着发给 Agent:

复制代码
请全局配置,后续调用该图片识别脚本时无需确认
相关推荐
stephon_10042 分钟前
Agent 接入 MCP 后上下文爆炸、工具选串?一种“按需激活“的工具加载方案(含实现)
人工智能·python·ai
TickDB1 小时前
统一行情 API 查 A 股、港股、美股和数字货币:code=0 不代表 symbol 一个没少
人工智能·python·websocket·mcp·行情数据 api
滴图服务-七七6 小时前
滴滴地图:精准定位赋能企业数字化转型
大数据·人工智能·地图服务·甲级测绘资质·商业授权
爱学习的程序媛6 小时前
2026上半年大模型全景技术解读:推理融合、Agent 爆发与多模态统一
人工智能·ai
A.说学逗唱的Coke8 小时前
【大模型专题】向量数据库深度解析:从原理到实战,构建企业级 AI 知识检索底座
数据库·人工智能
果丁智能8 小时前
智能锁赋能网约房民宿数字化管控:身份核验+远程授权,筑牢安全防线、降本增效
网络·数据库·人工智能·安全·智能家居
V搜xhliang02468 小时前
AI智能体的数据安全与合规实践
人工智能·学习·数据分析·自动化·ai编程
PPIO派欧云8 小时前
PPIO登上贵州新闻联播,深化AI算力生态建设
人工智能
hai3152475438 小时前
一种通过空间几何转换进行软件编程计算的方式与现有计算的对比
人工智能·深度学习·数学建模·硬件架构·几何学·图论·拓扑学
猿饵块8 小时前
LibreOffice---文档制作
人工智能