AI洞察 | Nano banana 图像新玩法,GPT-Realtime 实时语音交互革新

欢迎关注微信公众号:科技洞察者 📌

今日科技前沿,我们聚焦三大重磅发布:Google AI 图像编辑新星 Nano banana、OpenAI 实时语音交互革新 GPT-Realtime,以及微软突破性开源 TTS 模型 VibeVoice,共同描绘 AI 在视觉与听觉领域的最新进展。

Google Nano banana:AI 图像编辑的"魔术师"

Google 近期发布了其最新的 AI 图像编辑模型 Nano banana,它为 Gemini 应用、AI Studio 和 Vertex AI 带来了前所未有的图像生成与编辑能力,旨在提供更自然、更精准的图像修改体验。

核心能力与功能亮点

Nano banana 的核心优势在于其对图像主体特征的卓越保持能力。

以往 AI 编辑中常见的"面部或特征走样"问题得到了有效解决,无论是为人物更换发型,还是为宠物换装,其独特的外貌特征都能得到完美维持。

该模型支持通过自然语言实现精准的局部编辑,用户只需简单描述,即可对图像的特定区域进行修改。

此外,它还能将不同概念巧妙融合成一张全新画面,实现创意合成;在不改变主体的情况下应用新的艺术风格,完成风格迁移;甚至能基于逻辑模拟下一步可能出现的画面,进行推理生成。

优化提示词,释放创意潜能

为获得 Nano banana 的最佳效果,构建有效的提示词至关重要。

虽然简单输入也能出图,但要实现更精细的创意控制,提示词应包含六个核心要素:明确的"主体"、具体的"构图"、清晰的"动作"、详细的"地点"、指定的"风格",以及针对现有图像的"编辑指令",详见:

掌握这些技巧,用户便能更精准地驾驭模型的强大能力。

尽管功能强大,Nano banana 目前仍存在一些局限,例如风格化有时不稳定、文字渲染可能出现拼写错误,以及对保持图像宽高比仍不够稳定。但 Google 正在积极改进,鼓励用户大胆尝试,探索其无限创意可能。

📌 以下是 Nano banana 最近很火的图像生成玩法:

插画变3D手办 提示词:

Turn this photo into a characterfigure. Behind it, place a box withthe character's image printed on it,and a computer showing the Blendermodeling process on its screen. In frontof the box, add a round plastic basewith the character figure standing on it .set the scene

姿势控制 提示词:

Transform the person in picture 1 into the pose in picture 2. ( The results are random, so you may not be particularly satisfied every time. You can try a few more times. )
官网:aistudio.google.com/prompts/new...

试玩:www.modelscope.cn/studios/AI-...

介绍:blog.google/products/ge...

技巧:blog.google/products/ge...

OpenAI GPT-Realtime:实时语音交互新纪元

OpenAI 正式推出了其最新的多模态语音代理模型 GPT-Realtime,旨在彻底改变人机语音交互体验。这款先进的语音到语音模型采用独特的端到端架构,直接处理和生成音频,显著降低了传统语音交互中常见的延迟问题,并能保留语音的语调、情感和口音等细微差别,实现更自然、流畅的对话。

卓越性能与多模态能力

GPT-Realtime 的一大亮点是其对文本、音频和图像等多模态输入的支持。它能够处理并描述图像内容,极大地扩展了应用场景,例如在通话中直接理解并讨论屏幕上的图片。

该模型在智能、推理和理解能力上表现卓越,能够敏锐捕捉笑声、停顿等非语言线索,并在对话中无缝切换语言和调整语气。在基准测试中,GPT-Realtime 的推理准确率和指令遵循准确率均有显著提升,展现了强大的逻辑处理和指令执行能力。

创新功能与开发者友好

GPT-Realtime 还引入了多项创新功能,包括:

  • 图像输入支持:提供视觉上下文,丰富对话内容。
  • 外部系统集成:通过远程 Model Context Protocol (MCP) 和 Session Initiation Protocol (SIP) 实现与电话系统或外部工具的无缝连接。
  • 可重用提示与会话修剪:开发者能精细控制对话上下文,优化成本和性能。

OpenAI 同步下调了 GPT-Realtime API 的价格,使其成为更具性价比的生产级语音代理解决方案,预计将加速语音代理在客户支持、个人助理和教育等企业级应用中的普及。

GPT-Realtime 被视为 OpenAI 多模态战略的关键一步,未来计划进一步扩展至视频等模态,并结合 Agents SDK 降低开发门槛,推动 AI 交互技术迈向新高度。

介绍:openai.com/index/intro...

API:platform.openai.com/docs/guides...

价格:platform.openai.com/docs/pricin...

微软 VibeVoice:开源 TTS 的新标杆

微软近期开源了其文本转语音(TTS)模型 VibeVoice,为 AI 语音技术领域树立了新标准。VibeVoice 的发布,极大地突破了传统 TTS 模型的时长限制,并带来了自然流畅的多人对话能力。

突破性进展与本地化优势

VibeVoice 能够一次性生成长达 90 分钟的连续语音,尤其适用于播客、有声书和教育内容等长篇音频制作。

更令人瞩目的是,它支持最多四人流畅对谈,其生成的多人对话语音自然逼真,接近真人效果,非常适合模拟多人播客或会议场景。

该模型在中文语音合成方面表现出色,语调、发音准确性和自然度均达到高水平,为中文市场提供了高质量的本地化语音解决方案。

此外,VibeVoice 还支持为播客音频添加背景音乐,进一步增强了内容的沉浸感和专业性。

作为一款在 GitHub 上开源的模型,VibeVoice 降低了高质量 TTS 技术的使用门槛,赋能全球开发者构建创新的语音应用,具有广阔的应用前景。

官网:microsoft.github.io/VibeVoice/

论文:arxiv.org/abs/2508.19...

试用:aka.ms/VibeVoice-D...

GitHub:github.com/microsoft/V...

HuggingFace:huggingface.co/microsoft/V...

🔥往期推荐:

如果对你有帮助的话,请点赞、分享。关注微信公众号 科技洞察者,第一时间获取 前沿科技讯息,还有 数字人播客、演示视频 等丰富内容,我们下期再见。

相关推荐
机器之心21 小时前
首个代码世界模型引爆AI圈,能让智能体学会「真推理」,Meta开源
人工智能·openai
安思派Anspire1 天前
这不是炒作——Claude Code证明未来已然到来
aigc·openai
程序员爱钓鱼1 天前
Go语言100个实战案例-进阶与部署篇:使用Go打包生成可执行文件
后端·google·go
戴着眼镜看不清1 天前
2025年最新开源Nano Banana Plus商业化系统本地搭建教程
人工智能·gemini·nanobanana
机器之心2 天前
大模型七连发,外国人馋透了!阿里云栖大会全栈升级够狠
人工智能·openai
机器之心2 天前
Sam Altman发文,透露OpenAI正在干的大事业
人工智能·openai
Code_流苏2 天前
Gemini in Chrome深度解析:反垄断胜诉后,Chrome开启AI智能浏览时代!
前端·人工智能·chrome·gemini·智能时代·ai browser
鸽芷咕2 天前
告别Excel熬夜!基于LazyLLM框架打造财报分析Agent 副本
openai·agent
新智元2 天前
奥特曼刚刚发文,10GW 核爆级算力!每周一座核电站,五座新城官宣
人工智能·openai
Carson带你学Android5 天前
Android PC时代已到来?Chrome OS将和Android合并!
android·google·chrome os