国产首款视觉理解能力模型-Claude Code测评

文字目录

前言

近期,火山引擎发布了豆包编程相关模型:Doubao-Seed-Code。

按照介绍推文来看,Doubao-Seed-Code是国内首个具备视觉理解能力的编程模型,可参考手绘稿、UI设计封面或给予目标网站的配色等,自主完成样式修复和Bug修复,大幅提升前端开发效率。除此之外,原生支持 256K 长上下文, 轻松处理长代码文件、多模块依赖等复杂场景,实现端到端自主编程,全栈开发友好,前端能力突出。

在国内市场中,DeepSeek V3.1、Kimi K2、GLM 4.6、MiniMax M2 等 Coding 模型均不具备视觉理解能力,或需要依赖MCP实现,将图片转化成语义描述供模型理解,过程中信息折损会很大,效果远不及原生VLM能力;

一个强大的知识大脑加上可理解的视觉神经,回答或许可以不再是盲盒式地自我输出。

嗯,这对于在工作中日常和产品经理battle或想工作增效的开发人员来说是一个不可多得的"帮手",也因时常关注国内市场的大模型更新状态,所以这段时间闲暇之余对Doubao-Seed-Code进行了一些测试。

安装使用

看了介绍,我在Windows 11 安装了Claud Code,对底层调用模型进行更换,无需集成环境或其他MCP,相对于测评来说也比较方便。

首先在火山方舟上,开通这个模型的API Key。如果只是想轻量级体验的话,也可以通过火山引擎体验中心,选择Doubao-Seed-Code。

安装Calude Code

基础环境要求:

  • 安装Node.js 18+
  • 安装Git for windows
  1. 就这么简单!安装完基础环境在命令行界面(WIN + R ------不用我教吧),执行以下命令安装。
bash 复制代码
npm install -g @anthropic-ai/claude-code
  1. 安装结束后,执行以下命令查看安装结果。
bash 复制代码
claude --version

使用PowerShell配置环境变量

完场Claude Code安装后,配置以下环境变量。

  1. 在PowerShell中执行以下命令,设置环境变量。
bash 复制代码
# 去平台复制一下自己的api Key,其他不变
setx ANTHROPIC_AUTH_TOKEN <YOUR ARK_API_KEY>
setx ANTHROPIC_BASE_URL https://ark.cn-beijing.volces.com/api/coding
setx ANTHROPIC_MODEL doubao-seed-code-preview-latest
  1. 在新的PowerShell窗口执行以下命令,检查环境变量是否生效。
bash 复制代码
echo $env:ANTHROPIC_AUTH_TOKEN
echo $env:ANTHROPIC_BASE_URL
echo $env:ANTHROPIC_MODEL

使用Claude Code

启动Claude Code:进入项目目录,执行claude命令,即可开始使用Claude Code。

bash 复制代码
# 进入你自己的项目目录
cd my-project
# 启动Claude-Code
claude

模型状态验证:输入/status确认模型状态

Model后面跟着"doubao-seed-code-preview-latest"就是成功接上了!

功能测评

视觉理解能力

首先先测试一下模型的视觉理解能力,毕竟都这么宣传了,指定有它的优势之处。我的想法是:给它一个前端页面需求的手绘稿,然后参考某个网站的截图配色,生成对应的前端代码。

手绘稿:

参考苹果官网截图:

prompt:@AIlearning.jpg @mytheme2.png 我需要生成一个前端页面,为了展示在线学习网站的错题展示页面,主要以康奈尔笔记法结构展示,同时旁边有一个AI小助手供学习者提问。具体布局请参考我给出的手绘稿,网站的配色请参考我给出的网站截图。

第一次生成的效果就还可以,结构分布上和我的手绘稿差不多,配色也完美参考了我上传的网站截图配色,因此我没有做二次的prompt调整。只是在一些细节问题上,需要二次去页面上的内容作细化调整。在页面上,它自己生成了一些数学公式,但是却没有正常显示。针对这个问题我对它提出了疑问。(写代码就像聊天一样!( •̀ ω •́ )y)

改进后,就能正常显示数学公式,只不过加载的时候有一点点慢。

工作协助式编程

我在日常工作中,会有想到一些协助日常工作的工具,比如说会议备忘录、事件轻重缓急页面展示,或者弄一个摄证王的专属考试倒计时的可视化日历。那这次我就做一个工作备忘录。

prompt:用HTML写一个圣诞主题色的工作备忘录

第一次生成的页面效果还是一般,通过微调prompt,尝试对其增加更多的提示要求。

模型支持上下文,用@方法引用要参考的图片

第二次prompt:@mytheme.png 结合这张图片的风格再次修改

再次生成的效果比之前更顺眼了,弱化组件线条感,配色也更好看一些,同时也保留了圣诞元素。

兴趣便利可视化

基金作为我的日常兴趣爱好项,俺正好也可以利用这个模型写一个基金收益模拟器。

prompt:用HTML写一个基金定投计划以及收益率监控,提示加仓止盈点

这次我没有参考任何配色,仅仅让其自动生成对应的页面,我对其审美打个84分。如果还有时间的话,我还可以考虑加入爬虫or其他监控程序,每天自动跟踪最新基金净值,当然这可以放在后续完善工作进行。

小游戏可视化

我看有其他的大佬们完成了小游戏的测评,那么我这次也尝试实现一个经典款的游戏------愤怒的小鸟。

prompt:用HTML制作一款经典游戏"愤怒的小鸟"


暂时无法在飞书文档外展示此内容

第一次生成后,不依赖任何组件,在页面上仅仅只是通过鼠标的拖拽,就可以发射小鸟,完美实现了基本的游戏玩法。那么我将恶趣味一下,将小鸟换成老鼠,看看以它自己的审美会生成什么。

prompt:是Angry Bird游戏哦。同时把鸟换成老鼠看看,并命名为angry-mice

嗯,我感觉这只老鼠好像比小鸟还好看一些。

总结

总体测试下来,我对效果还是比较满意的。在视觉理解能力和编程能力上,能够基本满足我的prompt要求,生成的代码可以直接运行查看。但如何更好地优化可视化界面,完成人类与计算机之间的交互工作,还是得慢慢针对性调整与探索。希望国产大模型越做越好。

另外值得一提的是,目前它的调用价格很便宜,现在有一个 Coding Plan活动,可以 API 包月。首月只要9.9元,强烈推荐一下。

相关推荐
牛奶8 分钟前
2026年大模型怎么选?前端人实用对比
前端·人工智能·ai编程
牛奶10 分钟前
前端人为什么要学AI?
前端·人工智能·ai编程
KEEN的创享空间6 小时前
AI编程从0到1之10X提效(Vibe Coding 氛围式编码 )09篇
openai·ai编程
GPUStack7 小时前
Token 不再焦虑:用 GPUStack + OpenClaw 搭一个“无限用”的本地 AI 助手
ai·模型推理·gpustack·openclaw
AlienZHOU7 小时前
为 AI Agent 编写高质量 Skill:Claude 官方指南
agent·ai编程·claude
恋猫de小郭8 小时前
移动端开发稳了?AI 目前还无法取代客户端开发,小红书的论文告诉你数据
前端·flutter·ai编程
KaneLogger9 小时前
【翻译】打造 Agent Skills 的最佳实践
agent·ai编程·claude
王小酱9 小时前
Everything Claude Code 文档
openai·ai编程·aiops
雮尘10 小时前
如何在非 Claude IDE (TARE、 Cursor、Antigravity 等)下使用 Agent Skills
前端·agent·ai编程
刘贺同学10 小时前
Day12-龙虾哥打工日记:OpenClaw 子 Agent 到底看到了什么?
aigc·ai编程