谷歌发布Nano Banana Pro,OpenAI GPT-5.1 Pro与GPT-5.1-Codex-Max同步发布

1. 谷歌发布Nano Banana Pro:深度融合Gemini 3,实现专业级图像生成与控制

谷歌正式推出新一代图像生成模型 Nano Banana Pro(即Gemini 3 Pro Image),深度融合Gemini 3的推理能力与知识库,实现多项专业级升级:支持生成2K/4K高分辨率图像,可融合多达14张参考图并保持5个人物的一致性;提供局部重塑、摄像机角度切换、光照调整等"分子级"创意控制;突破图像内文本生成难点,支持多语言翻译与精准渲染;结合Gemini 3的世界知识与实时搜索,生成更准确的信息图甚至自动生成PPT页面。此外,模型通过SynthID水印和C2PA元数据提升透明度,并面向免费用户、订阅用户、开发者及企业等多场景开放使用,显著降低专业图像创作门槛。

博客:

https://blog.google/technology/ai/nano-banana-pro/

2. DeepSeek开源LPLB:基于线性规划优化MoE训练负载均衡

DeepSeek近日在GitHub上悄然开源了LPLB(基于线性规划的负载均衡器),该工具旨在解决MoE(混合专家)模型训练中的动态负载不均问题。LPLB通过线性规划算法实时优化Token分配,结合专家重排序、副本构建及拓扑优化(支持立方体、超立方体等结构),有效平衡GPU间工作负载,减少因部分专家过载导致的训练效率瓶颈。尽管目前处于研究阶段且存在求解延迟等局限,但其轻量级设计与NVLink通信优化为MoE规模化训练提供了新的技术思路。

GitHub:

https://github.com/deepseek-ai/LPLB

3. 火山引擎提出VQ-Insight:基于渐进式强化学习的AIGC视频画质理解模型

火山引擎多媒体实验室与北京大学合作提出的VQ-Insight模型入选AAAI 2025 Oral,该模型通过渐进式视觉质量强化学习框架(包含图像打分预热、时序学习与联合微调三阶段),仅用少量数据即可实现AIGC视频的偏好比较、多维度画质评估及自然视频打分,并在各项任务中超越现有方法;其创新性地引入生成模型与评估模型的"共同进化"机制,使两者通过联合训练相互促进,为视频生成模型的后训练优化提供了有效的可插拔奖励模块。

论文:

https://arxiv.org/pdf/2506.18564

https://arxiv.org/pdf/2503.22679

GitHub:

https://github.com/bytedance/Q-Insight

Hugging Face:

https://huggingface.co/ByteDance/Q-Insight

4. MetaMind:基于元认知多智能体框架,实现人类级社交推理的AI突破

威斯康星大学麦迪逊分校与清华大学联合提出的MetaMind框架通过模拟人类元认知过程,构建了包含心智理论智能体(生成心理假设)、道德约束智能体(应用社会规范过滤)和响应验证智能体(生成并校验回答)的三阶段多智能体系统,结合动态社交记忆机制,使AI能够深度理解言外之意、推断潜在心理状态。该框架在8项心智理论测试中让LLM达到人类平均水平,显著提升了AI在社交场景中的上下文适应性与共情能力,为开发真正"读懂人心"的通用人工智能提供了新路径。

论文:

http://arxiv.org/abs/2505.18943

GitHub:

https://github.com/XMZhangAI/MetaMind

Hugging Face:

https://huggingface.co/papers/2505.18943

5. OpenAI双引擎升级:GPT-5.1 Pro与GPT-5.1-Codex-Max同步发布

OpenAI同时推出GPT-5.1 Pro对话模型与GPT-5.1-Codex-Max编程模型:前者在写作辅助、数据科学等复杂任务中提供更清晰、结构化的回答,ECI指数与GPT-5持平(151分);后者为首个原生支持压缩机制的代码模型,可连续工作超24小时处理数百万token,在SWE-bench测试中达77.9%高分,且推理token消耗降低30%。两大模型分别优化了生成质量与长程任务效率,标志着AI在通用能力与工程实用性上的协同进化。


参考

  1. https://mp.weixin.qq.com/s/rZqBxTyDI9KyXod03vteCg
  2. https://mp.weixin.qq.com/s/sJSxBSbXe8YrSmT-YqGtpw
  3. https://mp.weixin.qq.com/s/W-xdjB9cStkP9_vUNni3dw
  4. https://mp.weixin.qq.com/s/N9wVvxKnRZRHWFja3g87Tw
  5. https://mp.weixin.qq.com/s/T94yxqO0ulwvoD4NmGzL5Q
相关推荐
win4r7 小时前
🚀OpenClaw高级使用经验分享!2026年最强生产力!五分钟打造多Agent协作编程开发团队!模型容灾机制深度配置+云端Gateway操控本地macOS!
aigc·openai·ai编程
机器之心12 小时前
英伟达世界模型再进化,一个模型驱动所有机器人!机器人的GPT时刻真正到来
人工智能·openai
孟健14 小时前
OpenClaw 2.6 调教实录:从崩溃 4671 次到省 50% token
aigc·openai·ai编程
炼金术18 小时前
SkyPlayer v1.2.0 : AI 字幕-端侧 Whisper 实时语音识别实践
ffmpeg·openai
孟健1 天前
吹爆 OpenClaw!一个人 +6 个 AI 助理,我再也不想招人了
openai·agent·ai编程
callJJ2 天前
Spring AI ImageModel 完全指南:用 OpenAI DALL-E 生成图像
大数据·人工智能·spring·openai·springai·图像模型
core5126 天前
Vanna实现Text2SQL
sql·openai·text·vanna
猿小羽8 天前
探索 Codex:AI 编程助手的未来潜力
人工智能·openai·代码生成·codex·ai编程助手
梁辰兴8 天前
百亿美元赌注变数,AI军备竞赛迎来转折点?
人工智能·ai·大模型·openai·英伟达·梁辰兴·ai军备竞赛
特立独行的猫a11 天前
2026国内外主流大模型全景对比:技术演进与场景适配深度解析
ai·大模型·llm·openai