Claude和GPT新模型撞车发布。。。

最近一周AI科技圈又发生了啥新鲜事？

OpenAI发布GPT-5.3-Codex与企业智能体平台Frontier

OpenAI发布其当前最强的智能体编程模型GPT-5.3-Codex，在SWE-Bench Pro和Terminal-Bench 2.0上取得SOTA成绩，其中在Terminal-Bench 2.0得分比Claude Opus 4.6高11.9%；该模型结合GPT-5.2-Codex的编程能力与GPT-5.2的推理及专业知识，整体速度提升25%，并首次在自身开发中用于调试、部署、测试结果诊断等环节。GPT-5.3-Codex支持从写代码到调试、监控、指标分析等软件工程全生命周期任务，还能生成PPT、Excel等办公文档，并在OSWorld-Verified评测中达到64.7%（人类平均72%）。同期发布的Frontier是面向企业的智能体平台，支持共享上下文、权限控制、持续学习与跨系统集成，已获惠普、Uber、甲骨文等企业采用；目前GPT-5.3-Codex已向付费ChatGPT用户开放，API暂未上线，Frontier则处于有限客户试用阶段

https://openai.com/index/introducing-gpt-5-3-codex/

Anthropic发布Claude Opus 4.6

Anthropic推出Claude Opus 4.6，具备100万token上下文窗口，在MRCR v2 8-needle 1M测试中准确率达76%（Sonnet 4.5为18.5%），并引入自适应思考和上下文压缩功能；该模型在GDPval-AA金融法律任务评估中领先OpenAI GPT-5.2达144 Elo（胜率约70%），在"人类最后的考试"多学科推理测试及BigLaw Bench法律基准（得分90.2%，满分40%）中表现最优。Opus 4.6在Terminal-Bench 2.0编程评测中取得最高分，支持多语言代码库迁移，并通过Agent Teams实现16个AI代理协作。在安全测试中，该模型在无专门指令下自主发现超500个经验证的高危零日漏洞，部分案例中还自动生成PoC验证代码。模型定价维持每百万token输入5美元、输出25美元，需通过API指定"Claude-opus-4-6"调用，已在官网及主流云平台上线

https://www.anthropic.com/news/claude-opus-4-6

可灵AI正式发布3.0版本

可灵AI推出3.0版本，涵盖视频3.0、视频3.0 Omni、图片3.0及图片3.0 Omni四大模块，支持多模态输入输出一体化原生创作。视频3.0新增智能分镜、图生视频+主体参考、多语种及方言口型同步、15秒超长视频生成（支持3--15秒灵活时长）和高保真字形保留；视频3.0 Omni进一步提升主体相似度与指令响应精度，支持上传3--8秒角色视频提取样貌、身形、神韵及音色，并实现多图主体绑定专属声线。图片3.0 Omni支持影视级光影重构、单/多图生组图批量操作、原生2K/4K超清直出及跨多图元素融合（如指定不同参考图中的服饰、配饰组合生成新图像）；图片3.0则强化一致性，最多支持10张参考图锁定核心元素与色调，并提升人像真实感与电影级质感

https://mp.weixin.qq.com/s/eX_H8JICU8RyjpFtLc4lVQ

何恺明团队提出单步无潜空间图像生成框架pMF

何恺明团队提出名为pixel MeanFlow（pMF）的单步、无潜空间图像生成新框架，摒弃传统扩散模型依赖的多步采样与VAE潜空间，直接从噪声输入映射到像素输出；该方法结合x-prediction参数化与改进均值流（iMF）的速度场建模，通过将去噪图像场x、平均速度场u和瞬时速度场v关联，使网络更易学习低维流形上的目标，并首次在像素空间中有效集成感知损失（如LPIPS）；实验显示，在ImageNet 256×256分辨率下pMF达到2.22 FID，512×512下为2.48 FID，显著优于同类单步无潜方法（如EPG的8.82 FID），且在高分辨率（最高1024×1024）和大Patch尺寸（如64×64）下仍保持稳定性能

https://arxiv.org/pdf/2601.22158v1

通义千问开源Qwen3-Coder-Next

通义实验室开源专为编程智能体设计的混合专家（MoE）模型Qwen3-Coder-Next，总参数80B，每次推理仅激活3B，在SWE-Bench Verified基准上实现超过70%的问题解决率，性能媲美激活参数量10--20倍的稠密模型；该模型通过"智能体训练配方"进行持续预训练、监督微调、领域专家训练与知识蒸馏，融合27个专家能力，支持长时程、多工具、可交互的真实编程任务，如自动生成可玩网页游戏、部署服务并自动测试；得益于低激活参数，模型可灵活部署于本地IDE插件、命令行智能体或企业私有化系统，现已在魔搭、Hugging Face和阿里云百炼平台开源Base与Instruct两个版本

https://huggingface.co/collections/Qwen/qwen3-coder-next

智谱开源轻量级专业OCR模型GLM-OCR

智谱正式开源GLM-OCR，一款参数量仅0.9B的轻量级专业OCR模型，在OmniDocBench V1.5文档解析榜单中以94.6分取得SOTA成绩，并在公式识别、表格解析、信息抽取等细分任务中优于多款专项OCR模型，性能接近Gemini-3-Pro；该模型基于自研CogViT视觉编码器（400M参数）与GLM-0.5B语言解码器，采用"版面分析→并行识别"两阶段架构，支持手写体、印章、复杂表格、多语言混排等高难场景，可直接输出HTML表格与结构化JSON；推理效率方面，PDF处理吞吐达1.86页/秒，图片0.67张/秒，API成本低至0.2元/百万Tokens，1元可处理约2000张A4扫描图或200份10页PDF；模型已支持vLLM、SGLang和Ollama部署

https://github.com/zai-org/GLM-OCR

腾讯游戏寒假推"限玩令"并上线三项AI守护功能

腾讯游戏在寒假期间对未成年人实施严格游戏限制，规定29天内仅可在每周五、六、日及法定节假日的20时至21时登录，累计可玩时长不超过15小时；同时，成长守护平台推出三项AI新功能进行灰度测试："AI游戏周报"可自动复盘孩子一周游戏行为，"AI一键管控"支持家长通过手机秒级管理游戏权限，"家长AI助手"提供24小时防沉迷咨询与家庭教育建议，旨在以智能化手段辅助家长实现精准引导，推动防沉迷从"硬性限制"向"智能协同管理"升级

https://news.qq.com/rain/a/20260205A04URG00

SpaceX宣布收购xAI

SpaceX已正式完成对马斯克旗下人工智能公司xAI的收购，合并后实体估值达1.25万亿美元，预计每股发行价为526.59美元；xAI成为SpaceX全资子公司，此前于1月以2300亿美元估值完成200亿美元融资。马斯克在内部备忘录中表示，此次整合将打造高度垂直整合的创新引擎，覆盖AI、火箭技术、太空互联网及直连移动通信，并计划在太空部署数据中心，利用星舰每年发射百万吨级卫星，每吨提供100kW算力，目标实现每年新增100GW乃至1TW的AI算力；SpaceX已提交向地球轨道发射100万颗卫星的申请，旨在构建轨道算力基础设施，支持AI规模化发展并推动人类迈向多行星文明

https://x.com/SpaceX/status/2018440335140024383

Vidu Q3 全球震撼来袭，为「剧」而生

Vidu Q3正式上线，作为全球首个支持16秒音视频同步直出的AI视频生成模型，可实现声画同出、一键成片，并支持多人对话、多语种（中、英、日等）文字自然嵌入视频画面；该模型具备导演级镜头调度能力，能根据剧情张力自动切换景别与转场，单次生成即可完成复杂叙事结构，适用于漫剧、短剧、影视剧等场景；在国际权威AI基准测试机构Artificial Analysis最新榜单中，Vidu Q3位列中国第一、全球第二，超越Runway Gen-4.5、Google Veo 3.1和OpenAI Sora 2；目前用户可通过Vidu.cn或Vidu API平台体验新功能。

Vidu.cn