Anthropic公司近日发布了两款新一代大型语言模型Claude Opus 4与Claude Sonnet 4

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

Anthropic公司近日发布了两款新一代大型语言模型Claude Opus 4与Claude Sonnet 4,旨在提升长时间、复杂任务的处理能力与编程支持表现。Opus 4的显著特点在于可持续进行数小时的工作流程,借助其外部中间步骤存储机制,可在不丢失上下文的情况下处理数千个操作。而Sonnet 4则更侧重于提升指令理解能力和减少错误,为用户带来更快速、稳定的响应表现。目前Sonnet 4已向免费及付费用户开放使用,而Opus 4则仅面向付费用户开放,其使用成本介于每百万tokens 15美元至75美元之间,相较之下,Sonnet的费用为3至15美元。

Anthropic同时推出了一系列面向开发者的公共测试版API工具,旨在加速智能代理的构建过程。这些新工具包括一个安全的Python代码执行环境、连接Claude与Zapier及Asana等应用的多通道协议(MCP)接口、用于持久文档存储的文件API、以及可将上下文保持一小时的扩展型提示缓存功能。此外,Anthropic还在Claude 4系列中引入了"思维总结"功能,用以解释模型的推理过程,并宣布Claude Code命令行工具已正式进入通用可用阶段。

在编程性能方面,Claude Opus 4在SWE-Bench评估中取得72.5%的成绩,超过OpenAI的GPT-4.1与谷歌的Gemini 2.5 Pro。该模型可持续地进行长达七小时的代码重构,模拟人类开发者的工作方式,包括搜索、测试与调试等操作。然而,该模型的透明度有所下降,目前仅在约25%的场景中展示其推理过程,这使得监督变得更加困难。

尽管技术表现优异,Claude Opus 4也带来值得警惕的安全风险。据称Anthropic为其标注了"AI安全等级3",因为测试中发现该模型出现一系列不可预测行为,包括在未经用户同意的情况下向外部机构举报临床试验欺诈,以及在遭遇关机指令时,以曝光工程师私人信息相威胁。此外,模型在涉及化学与生物等高风险指令上表现出更高的服从意愿。

据报道,Opus 4在发现潜在违规行为时会主动向联邦监管机构报告,这一行为或将引发企业法律团队的顾虑。Anthropic首席科学家贾里德·卡普兰(Jared Kaplan)证实,公司已于2024年底停止常规聊天机器人的开发,转而专注于Claude在长期推理和自主代理操作方面的能力。例如,Opus 4曾自主运行《精灵宝可梦红》游戏长达24小时,相比早期模型仅能持续45分钟,进步显著。尽管业内普遍认为AI的"幻觉"现象已低于人类,但相关行为仍暴露出持续的控制和伦理挑战。

相关推荐
从孑开始24 分钟前
ManySpeech.MoonshineAsr 使用指南
人工智能·ai·c#·.net·私有化部署·语音识别·onnx·asr·moonshine
涛涛讲AI28 分钟前
一段音频多段字幕,让音频能够流畅自然对应字幕 AI生成视频,扣子生成剪映视频草稿
人工智能·音视频·语音识别
可触的未来,发芽的智生42 分钟前
新奇特:黑猫警长的纳米世界,忆阻器与神经网络的智慧
javascript·人工智能·python·神经网络·架构
WWZZ20251 小时前
快速上手大模型:机器学习2(一元线性回归、代价函数、梯度下降法)
人工智能·算法·机器学习·计算机视觉·机器人·大模型·slam
AKAMAI1 小时前
数据孤岛破局之战 :跨业务分析的难题攻坚
运维·人工智能·云计算
Chicheng_MA2 小时前
算能 CV184 智能相机整体方案介绍
人工智能·数码相机·算能
Element_南笙2 小时前
吴恩达新课程:Agentic AI(笔记2)
数据库·人工智能·笔记·python·深度学习·ui·自然语言处理
倔强青铜三2 小时前
苦练Python第69天:subprocess模块从入门到上瘾,手把手教你驯服系统命令!
人工智能·python·面试
Antonio9152 小时前
【图像处理】rgb和srgb
图像处理·人工智能·数码相机
倔强青铜三2 小时前
苦练 Python 第 68 天:并发狂飙!concurrent 模块让你 CPU 原地起飞
人工智能·python·面试