Decart AI 发布 MirageLSD:号称零延迟的实时视频生成模型

谷歌 Veo 3 视频生成 API 开放付费预览

谷歌 Veo 3[1] 现已推出付费预览 API,该 API 目前可在 Gemini API 和 AI Studio 中付费使用。每次调用可生成 8 秒时长的视频内容,提供带音频和不带音频两种版本选择。

不过价格非常贵啊 - 带音频版本每秒收费 ,不带音频版本也要每秒0.5。

OpenAI 发布全能 ChatGPT Agent

OpenAI 重磅推出 ChatGPT agent 智能代理系统,这是一个通用 agentic 系统,配备了完整的工具套件,包括视觉浏览器、文本浏览器、终端和直连API,能够动态选择最佳路径,包括过滤结果、运行代码,甚至生成幻灯片和电子表格,同时在各个步骤中保持完整的任务上下文。

只有 Pro、Plus 和 Team 用户才可以使用,完整介绍可以看官方推文

AWS Kiro:文档先行的 AI IDE

AWS 最新推出的 Kiro[2] 是一款 AI IDE(类似 Cursor),其最大创新点在于采用 spec-driven(规范驱动)工作流 - 强调文档先行,而非即兴编程。

作为基于 VSCode 的套壳产品,Kiro 完美兼容现有插件生态。目前搭载的是 Anthropic 的 Sonnet 3.7 和 4.0 大模型。

目前还在预览阶段,完全免费但需要排队 Waitlist。不过官方已经画好大饼了:未来定价分为两档 - Kiro Pro 19 刀/月给 1000 次交互,Pro+ 39 刀/月给 3000 次交互

Decart AI 发布 MirageLSD:号称零延迟的实时视频生成模型

MirageLSD 是 Decart AI 发布的首个 Live-Stream Diffusion(实时流式扩散,简称 LSD)AI 视频模型,能够实现无限、实时的视频生成。

官方宣称延迟低至 40ms(不过没说明具体硬件配置),实际生成效果嘛...只能说还有进步空间。你可以在官方技术报告[3]查看完整技术细节。

Suno AI 4.5+ 更新:人声替换/伴奏翻转/歌单灵感三大功能

音乐生成AI领跑者Suno[4]刚刚发布了 4.5+ 版本更新,带来了三项功能:

  • 人声替换(Vocal Swap):用户可以轻松替换歌曲中的人声部分,为歌曲注入新的声音风格。
  • 伴奏翻转(Flip Instrumentals):用户可以对伴奏进行重新编排或翻转,创造出全新的音乐风格。
  • 从播放列表获取灵感(Spark a Song from Any Playlist):用户可以从任何播放列表中获取灵感,快速生成新的歌曲创意。

话说 Suno 好像好久都没有更新底模了。

v0 平台 API 公开测试版上线

v0 平台 API[5] 现已推出公开测试版!现在你可以通过官方 SDK 将 v0 的功能无缝集成到自己的系统中。

谷歌搜索 AI 模式现在支持 Gemini 2.5 Pro

谷歌DeepMind官方公告[6]显示,谷歌搜索的AI模式现已支持 Gemini 2.5 Pro,因为支持推理了,可以用来解决非常复杂的数学问题。

相关推荐
一只大侠的侠9 小时前
Flutter开源鸿蒙跨平台训练营 Day8获取轮播图网络数据并实现展示
flutter·开源·harmonyos
DolitD10 小时前
云流技术深度剖析:国内云渲染主流技术与开源和海外厂商技术实测对比
功能测试·云原生·开源·云计算·实时云渲染
一战成名99611 小时前
深度解析 CANN 模型转换工具链:从 ONNX 到 OM
人工智能·学习·安全·开源
聆风吟º17 小时前
CANN开源项目深度实践:基于amct-toolkit实现自动化模型量化与精度保障策略
运维·开源·自动化·cann
冬奇Lab18 小时前
一天一个开源项目(第15篇):MapToPoster - 用代码将城市地图转换为精美的海报设计
python·开源
大大大反派21 小时前
CANN 生态未来展望:统一框架 `CANN Unified` 与开源协同演进
开源
酷酷的崽79821 小时前
CANN 开源生态实战:端到端构建高效文本分类服务
分类·数据挖掘·开源
晚霞的不甘21 小时前
CANN 在工业质检中的亚像素级视觉检测系统设计
人工智能·计算机视觉·架构·开源·视觉检测
爱吃烤鸡翅的酸菜鱼1 天前
CANN ops-nn激活函数与池化算子深度解析
网络·开源·aigc
ujainu1 天前
CANN仓库中的AIGC可持续演进工程:昇腾AI软件栈如何构建“活”的开源生态
人工智能·开源·aigc