OpenArt Story 一键生成完整叙事短视频

Mistral 开源 Voxtral:多语言语音转录模型,准确率超 Whisper v3

Voxtral 是 Mistral AI 最新开源的多语言语音转录模型,提供 24B 和 3B 两个参数版本。24B 版本专为生产环境优化,而轻量级的 3B 版本则非常适合本地和端侧设备部署。

根据其官方基准测试,其转录准确率显著超越 OpenAI Whisper v3 Large 和 Gemini Flash 2.5 等主流方案。

完整的技术细节和性能对比可查阅官方博客[1]。

谷歌 Gemini 嵌入模型 API 全面开放,每百万 token 仅 0.15 美元

谷歌 Gemini Embedding 模型现已正式在 Gemini API 和 Vertex AI 中向开发者全面开放。价格方面极具竞争力,每 100 万输入 token 仅需 0.15 美元,这个定价可以说是非常便宜了。

完整公告详情[2]请参阅谷歌官方博客。

PUSA V1.0:低成本高性能视频生成模型

PUSA V1.0 通过使用 VTA 微调 SOTA 模型 Wan2.1-T2V-14B,仅需 1/2500 的数据集、1/200 的训练成本和 1/5 的推理步骤,就超越了 Wan-I2V-14B 模型的性能。

更厉害的是,Wan-I2V 只能进行图像到视频的生成,而 PUSA 模型还支持包括首尾帧生成、视频扩展、文生视频等功能

代码和模型都已经开源啦,完整介绍可以看PUSA 项目官网[3]~

OpenArt Story 一键生成完整叙事短视频

OpenArt 推出了一个名为 OpenArt Story 的新功能,用户可以将任何想法、脚本、节奏或角色转化为 1 分钟视频,这个视频包含动作、音乐和完整的叙事线,不仅仅是简短的片段,而是一个完整的故事。

其背后的技术支持来自黑森林、可灵、海螺、pixverse、fal、openai 和谷歌。

相关推荐
修己xj2 小时前
Anki:让记忆更高效、更智能的开源力量
开源
冬奇Lab8 小时前
一天一个开源项目(第17篇):ViMax - 多智能体视频生成框架,导演、编剧、制片人全包
开源·音视频开发
一个处女座的程序猿9 小时前
AI之Agent之VibeCoding:《Vibe Coding Kills Open Source》翻译与解读
人工智能·开源·vibecoding·氛围编程
一只大侠的侠10 小时前
React Native开源鸿蒙跨平台训练营 Day16自定义 useForm 高性能验证
flutter·开源·harmonyos
IvorySQL11 小时前
PostgreSQL 分区表的 ALTER TABLE 语句执行机制解析
数据库·postgresql·开源
一只大侠的侠12 小时前
Flutter开源鸿蒙跨平台训练营 Day11从零开发商品详情页面
flutter·开源·harmonyos
一只大侠的侠12 小时前
React Native开源鸿蒙跨平台训练营 Day18自定义useForm表单管理实战实现
flutter·开源·harmonyos
一只大侠的侠12 小时前
React Native开源鸿蒙跨平台训练营 Day20自定义 useValidator 实现高性能表单验证
flutter·开源·harmonyos
晚霞的不甘12 小时前
Flutter for OpenHarmony 可视化教学:A* 寻路算法的交互式演示
人工智能·算法·flutter·架构·开源·音视频
晚霞的不甘14 小时前
Flutter for OpenHarmony 实现计算几何:Graham Scan 凸包算法的可视化演示
人工智能·算法·flutter·架构·开源·音视频