国产首款视觉理解能力模型-Claude Code测评

文字目录

前言

近期,火山引擎发布了豆包编程相关模型:Doubao-Seed-Code。

按照介绍推文来看,Doubao-Seed-Code是国内首个具备视觉理解能力的编程模型,可参考手绘稿、UI设计封面或给予目标网站的配色等,自主完成样式修复和Bug修复,大幅提升前端开发效率。除此之外,原生支持 256K 长上下文, 轻松处理长代码文件、多模块依赖等复杂场景,实现端到端自主编程,全栈开发友好,前端能力突出。

在国内市场中,DeepSeek V3.1、Kimi K2、GLM 4.6、MiniMax M2 等 Coding 模型均不具备视觉理解能力,或需要依赖MCP实现,将图片转化成语义描述供模型理解,过程中信息折损会很大,效果远不及原生VLM能力;

一个强大的知识大脑加上可理解的视觉神经,回答或许可以不再是盲盒式地自我输出。

嗯,这对于在工作中日常和产品经理battle或想工作增效的开发人员来说是一个不可多得的"帮手",也因时常关注国内市场的大模型更新状态,所以这段时间闲暇之余对Doubao-Seed-Code进行了一些测试。

安装使用

看了介绍,我在Windows 11 安装了Claud Code,对底层调用模型进行更换,无需集成环境或其他MCP,相对于测评来说也比较方便。

首先在火山方舟上,开通这个模型的API Key。如果只是想轻量级体验的话,也可以通过火山引擎体验中心,选择Doubao-Seed-Code。

安装Calude Code

基础环境要求:

  • 安装Node.js 18+
  • 安装Git for windows
  1. 就这么简单!安装完基础环境在命令行界面(WIN + R ------不用我教吧),执行以下命令安装。
bash 复制代码
npm install -g @anthropic-ai/claude-code
  1. 安装结束后,执行以下命令查看安装结果。
bash 复制代码
claude --version

使用PowerShell配置环境变量

完场Claude Code安装后,配置以下环境变量。

  1. 在PowerShell中执行以下命令,设置环境变量。
bash 复制代码
# 去平台复制一下自己的api Key,其他不变
setx ANTHROPIC_AUTH_TOKEN <YOUR ARK_API_KEY>
setx ANTHROPIC_BASE_URL https://ark.cn-beijing.volces.com/api/coding
setx ANTHROPIC_MODEL doubao-seed-code-preview-latest
  1. 在新的PowerShell窗口执行以下命令,检查环境变量是否生效。
bash 复制代码
echo $env:ANTHROPIC_AUTH_TOKEN
echo $env:ANTHROPIC_BASE_URL
echo $env:ANTHROPIC_MODEL

使用Claude Code

启动Claude Code:进入项目目录,执行claude命令,即可开始使用Claude Code。

bash 复制代码
# 进入你自己的项目目录
cd my-project
# 启动Claude-Code
claude

模型状态验证:输入/status确认模型状态

Model后面跟着"doubao-seed-code-preview-latest"就是成功接上了!

功能测评

视觉理解能力

首先先测试一下模型的视觉理解能力,毕竟都这么宣传了,指定有它的优势之处。我的想法是:给它一个前端页面需求的手绘稿,然后参考某个网站的截图配色,生成对应的前端代码。

手绘稿:

参考苹果官网截图:

prompt:@AIlearning.jpg @mytheme2.png 我需要生成一个前端页面,为了展示在线学习网站的错题展示页面,主要以康奈尔笔记法结构展示,同时旁边有一个AI小助手供学习者提问。具体布局请参考我给出的手绘稿,网站的配色请参考我给出的网站截图。

第一次生成的效果就还可以,结构分布上和我的手绘稿差不多,配色也完美参考了我上传的网站截图配色,因此我没有做二次的prompt调整。只是在一些细节问题上,需要二次去页面上的内容作细化调整。在页面上,它自己生成了一些数学公式,但是却没有正常显示。针对这个问题我对它提出了疑问。(写代码就像聊天一样!( •̀ ω •́ )y)

改进后,就能正常显示数学公式,只不过加载的时候有一点点慢。

工作协助式编程

我在日常工作中,会有想到一些协助日常工作的工具,比如说会议备忘录、事件轻重缓急页面展示,或者弄一个摄证王的专属考试倒计时的可视化日历。那这次我就做一个工作备忘录。

prompt:用HTML写一个圣诞主题色的工作备忘录

第一次生成的页面效果还是一般,通过微调prompt,尝试对其增加更多的提示要求。

模型支持上下文,用@方法引用要参考的图片

第二次prompt:@mytheme.png 结合这张图片的风格再次修改

再次生成的效果比之前更顺眼了,弱化组件线条感,配色也更好看一些,同时也保留了圣诞元素。

兴趣便利可视化

基金作为我的日常兴趣爱好项,俺正好也可以利用这个模型写一个基金收益模拟器。

prompt:用HTML写一个基金定投计划以及收益率监控,提示加仓止盈点

这次我没有参考任何配色,仅仅让其自动生成对应的页面,我对其审美打个84分。如果还有时间的话,我还可以考虑加入爬虫or其他监控程序,每天自动跟踪最新基金净值,当然这可以放在后续完善工作进行。

小游戏可视化

我看有其他的大佬们完成了小游戏的测评,那么我这次也尝试实现一个经典款的游戏------愤怒的小鸟。

prompt:用HTML制作一款经典游戏"愤怒的小鸟"


暂时无法在飞书文档外展示此内容

第一次生成后,不依赖任何组件,在页面上仅仅只是通过鼠标的拖拽,就可以发射小鸟,完美实现了基本的游戏玩法。那么我将恶趣味一下,将小鸟换成老鼠,看看以它自己的审美会生成什么。

prompt:是Angry Bird游戏哦。同时把鸟换成老鼠看看,并命名为angry-mice

嗯,我感觉这只老鼠好像比小鸟还好看一些。

总结

总体测试下来,我对效果还是比较满意的。在视觉理解能力和编程能力上,能够基本满足我的prompt要求,生成的代码可以直接运行查看。但如何更好地优化可视化界面,完成人类与计算机之间的交互工作,还是得慢慢针对性调整与探索。希望国产大模型越做越好。

另外值得一提的是,目前它的调用价格很便宜,现在有一个 Coding Plan活动,可以 API 包月。首月只要9.9元,强烈推荐一下。

相关推荐
爱笑的眼睛1138 分钟前
超越AdamW:优化器算法的深度实现、演进与自定义框架设计
java·人工智能·python·ai
Alluxio2 小时前
Alluxio正式登陆Oracle云市场,为AI工作负载提供TB级吞吐量与亚毫秒级延迟
人工智能·分布式·机器学习·缓存·ai·oracle
zhz52142 小时前
代码之恋(第十五篇:分布式心跳与网络延迟)
网络·分布式·ai·重构·vue·结对编程
Elastic 中国社区官方博客3 小时前
Elasticsearch:构建一个 AI 驱动的电子邮件钓鱼检测
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
默 语3 小时前
IPIDEA 代理技术在海外品牌社媒数据采集中的实操落地(Instagram 营销分析案例版)
java·人工智能·ai·ai编程
badfl4 小时前
OpenAI官方发布gpt-image-1.5有哪些亮点?
人工智能·ai·ai作画
FIT2CLOUD飞致云4 小时前
新增合同模块与报价功能,集成嵌入“大单网”标讯平台,Cordys CRM发布v1.4.0版本
ai·开源·crm·销售管理·cordys crm·大单网
iFlow_AI4 小时前
知识驱动开发:用iFlow工作流构建本地知识库
前端·ai·rag·mcp·iflow·iflow cli·iflowcli
百锦再5 小时前
Python实现开源AI模型引入及测试全过程
人工智能·python·ai·开源·aigc·模型·自然语言
TDengine (老段)6 小时前
TDengine IDMP 1.0.9.0 上线:数据建模、分析运行与可视化能力更新一览
大数据·数据库·物联网·ai·时序数据库·tdengine·涛思数据