OpenArt Story 一键生成完整叙事短视频

三花AI2025-07-16 18:39

Voxtral 是 Mistral AI 最新开源的多语言语音转录模型，提供 24B 和 3B 两个参数版本。24B 版本专为生产环境优化，而轻量级的 3B 版本则非常适合本地和端侧设备部署。

根据其官方基准测试，其转录准确率显著超越 OpenAI Whisper v3 Large 和 Gemini Flash 2.5 等主流方案。

完整的技术细节和性能对比可查阅官方博客 $1$ 。

谷歌 Gemini Embedding 模型现已正式在 Gemini API 和 Vertex AI 中向开发者全面开放。价格方面极具竞争力，每 100 万输入 token 仅需 0.15 美元，这个定价可以说是非常便宜了。

完整公告详情 $2$ 请参阅谷歌官方博客。

PUSA V1.0 通过使用 VTA 微调 SOTA 模型 Wan2.1-T2V-14B，仅需 1/2500 的数据集、1/200 的训练成本和 1/5 的推理步骤，就超越了 Wan-I2V-14B 模型的性能。

更厉害的是，Wan-I2V 只能进行图像到视频的生成，而 PUSA 模型还支持包括首尾帧生成、视频扩展、文生视频等功能

代码和模型都已经开源啦，完整介绍可以看PUSA 项目官网 $3$ ～

OpenArt 推出了一个名为 OpenArt Story 的新功能，用户可以将任何想法、脚本、节奏或角色转化为 1 分钟视频，这个视频包含动作、音乐和完整的叙事线，不仅仅是简短的片段，而是一个完整的故事。

其背后的技术支持来自黑森林、可灵、海螺、pixverse、fal、openai 和谷歌。