Claude Opus 4.8 来了,我感觉更像 4.7 满血版

刚刚,Claude 官方发布了自己的最新模型,Opus 4.8。距离上一代 4.7 只隔了 41 天,是它历代小版本里最快的一次。

从 4.8 和 4.7 的对比上来看,没有太多明显的突出的优势。甚至有一项数字 Terminal coding ,不如 GPT 5.5 。这个说的是考虑命令行里的复杂编排。

讽刺的是,4.8 在这个榜上从 66.1% 干到 74.6%,+8.5 个点,是它所有项目里单项涨幅最大的一个。结果还是输了,GPT-5.5 在这里 78.2%,还是压着它。

而官方的声明则表是,Opus 4.8 要具备更敏锐的判断力,对自身进展的诚实度更高,而且能够比之前的模型更长时间的独立工作。

token 标准价格没动,还是 5/5 / 5/25 每百万 token。

变的是 fast mode。Opus 4.8 的是 10/10 / 10/50,速度 2.5 倍;而 4.7 的要 30/30 / 30/150。同样的高速档,便宜了 3 倍。

官方还说,Opus 4.8 可以像经验丰富的工程师一样进行调用,而无需持续检查。

它在长时间运行的会话中保持专注,并在你的代码库中跟踪工作进展,因此你可以将一项功能或 bug 排查任务交给它,同时专注于下一步。(我想大家对 Opus 的期待不仅只是一项功能或者改一个 bug 吧)

而且 4.8 来了,就要把 4.6 和 4.7 下了,4.7 下了我能理解,但是 4.6 是为何?

到具体的选择上来说,做 agentic coding(让 agent 自己读代码、改、跑测试)的,你可以用上 4.8;如果活儿是 terminal 重度(一大堆命令行编排)的,GPT-5.5 还更稳。

这次还增加了一个新的功能,dynamic workflows(研究预览版)。

这玩意说的是,对于最棘手的研究类型等任务,Claude 会制定计划,运行数百个并行子代理,并在报告结果前验证其工作。

数百个子代理。。。活能干的好不好不说,token 反正是秒没。

我去官网看了一下这个 dynamic workflows 的介绍,它全文是这么说的:

它能够帮助 Claude 端到端地处理最具挑战性的任务。你通常需要数个季度才能完成的工作,现在只需几天即可完成。Claude 会动态编写编排脚本,在单个会话中运行数十到数百个并行 subagent ,并在您收到任何结果之前检查其工作。

因为有些问题比较复杂,单个 agent 无法一次性解决,尤其是在复杂的旧代码库中:比如在整个服务中搜寻错误,涉及数百个文件的迁移,或者在提交之前需要从各个角度进行严格测试的计划。动态工作流可以端到端地处理所有这些问题。

然后放了一张图

官方也发了⚠️声明:dynamic workflows 消耗的令牌数量可能比典型的 Claude Code 会话多得多,因此我们建议从范围较窄的任务开始,以便了解其在工作中的使用情况。

注意这一句多得多,我觉得至少是 2x 的消耗。

如果要用这项功能,官方建议你开 auto 模式,启动后,你有两种方式启动 dynamic workflows :

  1. 直接请 Claude 直接创建一个动态工作流程(例如,"创建工作流程")
  2. 启动 Claude Code 特有的设置 ultracode ,可以通过 effort 设置为 xhigh 拉满启动。

(目前在 Enterprise / Team / Max 上。),像我 Pro 的是没权限看的 :)

我看到 Theo 老哥用 100 美元的档位实测了一次,他说 ultracode 他用一个简单的 prompt 就达到 5h 限额了。

官方还放了一张容易被划过去的图:Misaligned behavior(失准行为)评分,越低越好。

评分越低,说明模型会比较诚实,代表着失准行为的下降。

这么一看,Opus 4.7 真是一坨了,活干的不好,还欺上瞒下,又臭又长。

这次模型发布的最后,Claude 介绍了自己未来要发布 mythos 的计划。

目前只有少数组织目前正在使用 Claude Mythos Preview 进行网络安全工作。这种能力水平的模型在普遍发布之前需要更强的网络安全保护措施。我们正在开发这些保护措施并取得迅速进展,预计在未来几周内将 Mythos 级模型提供给所有客户。

这也就是说 mythos 马上就要发布了。

而且 Claude 还介绍了自己未来要发布一些经济实惠并且能力相当的好模型。

参考资料:www.anthropic.com/news/claude...

claude.com/blog/introd...

相关推荐
是个红桃13 小时前
团队小、预算少,会议软件怎么挑?
人工智能·语音识别·实时音视频·视频
Dyanic13 小时前
基于互补特征分解和视觉显著性特征的光学与SAR图像融合
图像处理·人工智能
xixixi7777713 小时前
GPT-5.6(Iris-Alpha)细节泄露 + 国产 AI 芯片最高安全认证落地,全球 AI 格局迎来大变局
大数据·人工智能·gpt·ai·大模型·算力·智能体
特立独行的猫a13 小时前
Rust+ Tauri实现漂亮小巧的Mqtt客户端工具--AtomMQTT Client 实现详解
开发语言·后端·mqtt·rust
财经资讯数据_灵砚智能13 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年5月27日
大数据·人工智能·python·信息可视化·自然语言处理·ai编程·灵砚智能
Gopher_HBo13 小时前
Go语言学习笔记(二)
后端
图特摩斯科技13 小时前
原生本体数据库AbutionGraph,世界模型/本体智能应用 底座
数据库·人工智能·知识图谱·本体论·palantir·ontology
Agent手记13 小时前
跨境电商从选品到售后全流程自动化可能吗?基于实在Agent与LLM+RPA的端到端落地实战指南
运维·人工智能·ai·自动化·rpa