AI洞察 | Nano banana 图像新玩法，GPT-Realtime 实时语音交互革新

欢迎关注微信公众号：科技洞察者 📌

今日科技前沿，我们聚焦三大重磅发布：Google AI 图像编辑新星 Nano banana、OpenAI 实时语音交互革新 GPT-Realtime，以及微软突破性开源 TTS 模型 VibeVoice，共同描绘 AI 在视觉与听觉领域的最新进展。

Google Nano banana：AI 图像编辑的"魔术师"

Google 近期发布了其最新的 AI 图像编辑模型 Nano banana，它为 Gemini 应用、AI Studio 和 Vertex AI 带来了前所未有的图像生成与编辑能力，旨在提供更自然、更精准的图像修改体验。

核心能力与功能亮点

Nano banana 的核心优势在于其对图像主体特征的卓越保持能力。

以往 AI 编辑中常见的"面部或特征走样"问题得到了有效解决，无论是为人物更换发型，还是为宠物换装，其独特的外貌特征都能得到完美维持。

该模型支持通过自然语言实现精准的局部编辑，用户只需简单描述，即可对图像的特定区域进行修改。

此外，它还能将不同概念巧妙融合成一张全新画面，实现创意合成；在不改变主体的情况下应用新的艺术风格，完成风格迁移；甚至能基于逻辑模拟下一步可能出现的画面，进行推理生成。

优化提示词，释放创意潜能

为获得 Nano banana 的最佳效果，构建有效的提示词至关重要。

虽然简单输入也能出图，但要实现更精细的创意控制，提示词应包含六个核心要素：明确的"主体"、具体的"构图"、清晰的"动作"、详细的"地点"、指定的"风格"，以及针对现有图像的"编辑指令"，详见：

掌握这些技巧，用户便能更精准地驾驭模型的强大能力。

尽管功能强大，Nano banana 目前仍存在一些局限，例如风格化有时不稳定、文字渲染可能出现拼写错误，以及对保持图像宽高比仍不够稳定。但 Google 正在积极改进，鼓励用户大胆尝试，探索其无限创意可能。

📌 以下是 Nano banana 最近很火的图像生成玩法：

插画变3D手办 提示词：

Turn this photo into a characterfigure. Behind it, place a box withthe character's image printed on it,and a computer showing the Blendermodeling process on its screen. In frontof the box, add a round plastic basewith the character figure standing on it .set the scene

姿势控制 提示词：

Transform the person in picture 1 into the pose in picture 2. ( The results are random, so you may not be particularly satisfied every time. You can try a few more times. )
官网：aistudio.google.com/prompts/new...

试玩：www.modelscope.cn/studios/AI-...

介绍：blog.google/products/ge...

技巧：blog.google/products/ge...

OpenAI GPT-Realtime：实时语音交互新纪元

OpenAI 正式推出了其最新的多模态语音代理模型 GPT-Realtime，旨在彻底改变人机语音交互体验。这款先进的语音到语音模型采用独特的端到端架构，直接处理和生成音频，显著降低了传统语音交互中常见的延迟问题，并能保留语音的语调、情感和口音等细微差别，实现更自然、流畅的对话。

卓越性能与多模态能力

GPT-Realtime 的一大亮点是其对文本、音频和图像等多模态输入的支持。它能够处理并描述图像内容，极大地扩展了应用场景，例如在通话中直接理解并讨论屏幕上的图片。

该模型在智能、推理和理解能力上表现卓越，能够敏锐捕捉笑声、停顿等非语言线索，并在对话中无缝切换语言和调整语气。在基准测试中，GPT-Realtime 的推理准确率和指令遵循准确率均有显著提升，展现了强大的逻辑处理和指令执行能力。

创新功能与开发者友好

GPT-Realtime 还引入了多项创新功能，包括：

图像输入支持：提供视觉上下文，丰富对话内容。
外部系统集成：通过远程 Model Context Protocol (MCP) 和 Session Initiation Protocol (SIP) 实现与电话系统或外部工具的无缝连接。
可重用提示与会话修剪：开发者能精细控制对话上下文，优化成本和性能。

OpenAI 同步下调了 GPT-Realtime API 的价格，使其成为更具性价比的生产级语音代理解决方案，预计将加速语音代理在客户支持、个人助理和教育等企业级应用中的普及。

GPT-Realtime 被视为 OpenAI 多模态战略的关键一步，未来计划进一步扩展至视频等模态，并结合 Agents SDK 降低开发门槛，推动 AI 交互技术迈向新高度。

介绍：openai.com/index/intro...

API：platform.openai.com/docs/guides...

价格：platform.openai.com/docs/pricin...

微软 VibeVoice：开源 TTS 的新标杆

微软近期开源了其文本转语音（TTS）模型 VibeVoice，为 AI 语音技术领域树立了新标准。VibeVoice 的发布，极大地突破了传统 TTS 模型的时长限制，并带来了自然流畅的多人对话能力。

突破性进展与本地化优势

VibeVoice 能够一次性生成长达 90 分钟的连续语音，尤其适用于播客、有声书和教育内容等长篇音频制作。

更令人瞩目的是，它支持最多四人流畅对谈，其生成的多人对话语音自然逼真，接近真人效果，非常适合模拟多人播客或会议场景。

该模型在中文语音合成方面表现出色，语调、发音准确性和自然度均达到高水平，为中文市场提供了高质量的本地化语音解决方案。

此外，VibeVoice 还支持为播客音频添加背景音乐，进一步增强了内容的沉浸感和专业性。

作为一款在 GitHub 上开源的模型，VibeVoice 降低了高质量 TTS 技术的使用门槛，赋能全球开发者构建创新的语音应用，具有广阔的应用前景。

官网：microsoft.github.io/VibeVoice/

论文：arxiv.org/abs/2508.19...

试用：aka.ms/VibeVoice-D...

GitHub：github.com/microsoft/V...

HuggingFace：huggingface.co/microsoft/V...

🔥往期推荐：

如果对你有帮助的话，请点赞、分享。关注微信公众号科技洞察者，第一时间获取前沿科技讯息，还有数字人播客、演示视频等丰富内容，我们下期再见。