Claude和GPT新模型撞车发布。。。

最近一周AI科技圈又发生了啥新鲜事?

OpenAI发布GPT-5.3-Codex与企业智能体平台Frontier

OpenAI发布其当前最强的智能体编程模型GPT-5.3-Codex,在SWE-Bench Pro和Terminal-Bench 2.0上取得SOTA成绩,其中在Terminal-Bench 2.0得分比Claude Opus 4.6高11.9%;该模型结合GPT-5.2-Codex的编程能力与GPT-5.2的推理及专业知识,整体速度提升25%,并首次在自身开发中用于调试、部署、测试结果诊断等环节。GPT-5.3-Codex支持从写代码到调试、监控、指标分析等软件工程全生命周期任务,还能生成PPT、Excel等办公文档,并在OSWorld-Verified评测中达到64.7%(人类平均72%)。同期发布的Frontier是面向企业的智能体平台,支持共享上下文、权限控制、持续学习与跨系统集成,已获惠普、Uber、甲骨文等企业采用;目前GPT-5.3-Codex已向付费ChatGPT用户开放,API暂未上线,Frontier则处于有限客户试用阶段

https://openai.com/index/introducing-gpt-5-3-codex/

Anthropic发布Claude Opus 4.6

Anthropic推出Claude Opus 4.6,具备100万token上下文窗口,在MRCR v2 8-needle 1M测试中准确率达76%(Sonnet 4.5为18.5%),并引入自适应思考和上下文压缩功能;该模型在GDPval-AA金融法律任务评估中领先OpenAI GPT-5.2达144 Elo(胜率约70%),在"人类最后的考试"多学科推理测试及BigLaw Bench法律基准(得分90.2%,满分40%)中表现最优。Opus 4.6在Terminal-Bench 2.0编程评测中取得最高分,支持多语言代码库迁移,并通过Agent Teams实现16个AI代理协作。在安全测试中,该模型在无专门指令下自主发现超500个经验证的高危零日漏洞,部分案例中还自动生成PoC验证代码。模型定价维持每百万token输入5美元、输出25美元,需通过API指定"Claude-opus-4-6"调用,已在官网及主流云平台上线

https://www.anthropic.com/news/claude-opus-4-6

可灵AI正式发布3.0版本

可灵AI推出3.0版本,涵盖视频3.0、视频3.0 Omni、图片3.0及图片3.0 Omni四大模块,支持多模态输入输出一体化原生创作。视频3.0新增智能分镜、图生视频+主体参考、多语种及方言口型同步、15秒超长视频生成(支持3--15秒灵活时长)和高保真字形保留;视频3.0 Omni进一步提升主体相似度与指令响应精度,支持上传3--8秒角色视频提取样貌、身形、神韵及音色,并实现多图主体绑定专属声线。图片3.0 Omni支持影视级光影重构、单/多图生组图批量操作、原生2K/4K超清直出及跨多图元素融合(如指定不同参考图中的服饰、配饰组合生成新图像);图片3.0则强化一致性,最多支持10张参考图锁定核心元素与色调,并提升人像真实感与电影级质感

https://mp.weixin.qq.com/s/eX_H8JICU8RyjpFtLc4lVQ

何恺明团队提出单步无潜空间图像生成框架pMF

何恺明团队提出名为pixel MeanFlow(pMF)的单步、无潜空间图像生成新框架,摒弃传统扩散模型依赖的多步采样与VAE潜空间,直接从噪声输入映射到像素输出;该方法结合x-prediction参数化与改进均值流(iMF)的速度场建模,通过将去噪图像场x、平均速度场u和瞬时速度场v关联,使网络更易学习低维流形上的目标,并首次在像素空间中有效集成感知损失(如LPIPS);实验显示,在ImageNet 256×256分辨率下pMF达到2.22 FID,512×512下为2.48 FID,显著优于同类单步无潜方法(如EPG的8.82 FID),且在高分辨率(最高1024×1024)和大Patch尺寸(如64×64)下仍保持稳定性能

https://arxiv.org/pdf/2601.22158v1

通义千问开源Qwen3-Coder-Next

通义实验室开源专为编程智能体设计的混合专家(MoE)模型Qwen3-Coder-Next,总参数80B,每次推理仅激活3B,在SWE-Bench Verified基准上实现超过70%的问题解决率,性能媲美激活参数量10--20倍的稠密模型;该模型通过"智能体训练配方"进行持续预训练、监督微调、领域专家训练与知识蒸馏,融合27个专家能力,支持长时程、多工具、可交互的真实编程任务,如自动生成可玩网页游戏、部署服务并自动测试;得益于低激活参数,模型可灵活部署于本地IDE插件、命令行智能体或企业私有化系统,现已在魔搭、Hugging Face和阿里云百炼平台开源Base与Instruct两个版本

https://huggingface.co/collections/Qwen/qwen3-coder-next

智谱开源轻量级专业OCR模型GLM-OCR

智谱正式开源GLM-OCR,一款参数量仅0.9B的轻量级专业OCR模型,在OmniDocBench V1.5文档解析榜单中以94.6分取得SOTA成绩,并在公式识别、表格解析、信息抽取等细分任务中优于多款专项OCR模型,性能接近Gemini-3-Pro;该模型基于自研CogViT视觉编码器(400M参数)与GLM-0.5B语言解码器,采用"版面分析→并行识别"两阶段架构,支持手写体、印章、复杂表格、多语言混排等高难场景,可直接输出HTML表格与结构化JSON;推理效率方面,PDF处理吞吐达1.86页/秒,图片0.67张/秒,API成本低至0.2元/百万Tokens,1元可处理约2000张A4扫描图或200份10页PDF;模型已支持vLLM、SGLang和Ollama部署

https://github.com/zai-org/GLM-OCR

腾讯游戏寒假推"限玩令"并上线三项AI守护功能

腾讯游戏在寒假期间对未成年人实施严格游戏限制,规定29天内仅可在每周五、六、日及法定节假日的20时至21时登录,累计可玩时长不超过15小时;同时,成长守护平台推出三项AI新功能进行灰度测试:"AI游戏周报"可自动复盘孩子一周游戏行为,"AI一键管控"支持家长通过手机秒级管理游戏权限,"家长AI助手"提供24小时防沉迷咨询与家庭教育建议,旨在以智能化手段辅助家长实现精准引导,推动防沉迷从"硬性限制"向"智能协同管理"升级

https://news.qq.com/rain/a/20260205A04URG00

SpaceX宣布收购xAI

SpaceX已正式完成对马斯克旗下人工智能公司xAI的收购,合并后实体估值达1.25万亿美元,预计每股发行价为526.59美元;xAI成为SpaceX全资子公司,此前于1月以2300亿美元估值完成200亿美元融资。马斯克在内部备忘录中表示,此次整合将打造高度垂直整合的创新引擎,覆盖AI、火箭技术、太空互联网及直连移动通信,并计划在太空部署数据中心,利用星舰每年发射百万吨级卫星,每吨提供100kW算力,目标实现每年新增100GW乃至1TW的AI算力;SpaceX已提交向地球轨道发射100万颗卫星的申请,旨在构建轨道算力基础设施,支持AI规模化发展并推动人类迈向多行星文明

https://x.com/SpaceX/status/2018440335140024383

Vidu Q3 全球震撼来袭,为「剧」而生

Vidu Q3正式上线,作为全球首个支持16秒音视频同步直出的AI视频生成模型,可实现声画同出、一键成片,并支持多人对话、多语种(中、英、日等)文字自然嵌入视频画面;该模型具备导演级镜头调度能力,能根据剧情张力自动切换景别与转场,单次生成即可完成复杂叙事结构,适用于漫剧、短剧、影视剧等场景;在国际权威AI基准测试机构Artificial Analysis最新榜单中,Vidu Q3位列中国第一、全球第二,超越Runway Gen-4.5、Google Veo 3.1和OpenAI Sora 2;目前用户可通过Vidu.cn或Vidu API平台体验新功能。

Vidu.cn

相关推荐
NAGNIP20 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab21 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab21 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP1 天前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年1 天前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼1 天前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS1 天前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区1 天前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈1 天前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang1 天前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx