OpenArt Story 一键生成完整叙事短视频

Mistral 开源 Voxtral:多语言语音转录模型,准确率超 Whisper v3

Voxtral 是 Mistral AI 最新开源的多语言语音转录模型,提供 24B 和 3B 两个参数版本。24B 版本专为生产环境优化,而轻量级的 3B 版本则非常适合本地和端侧设备部署。

根据其官方基准测试,其转录准确率显著超越 OpenAI Whisper v3 Large 和 Gemini Flash 2.5 等主流方案。

完整的技术细节和性能对比可查阅官方博客[1]。

谷歌 Gemini 嵌入模型 API 全面开放,每百万 token 仅 0.15 美元

谷歌 Gemini Embedding 模型现已正式在 Gemini API 和 Vertex AI 中向开发者全面开放。价格方面极具竞争力,每 100 万输入 token 仅需 0.15 美元,这个定价可以说是非常便宜了。

完整公告详情[2]请参阅谷歌官方博客。

PUSA V1.0:低成本高性能视频生成模型

PUSA V1.0 通过使用 VTA 微调 SOTA 模型 Wan2.1-T2V-14B,仅需 1/2500 的数据集、1/200 的训练成本和 1/5 的推理步骤,就超越了 Wan-I2V-14B 模型的性能。

更厉害的是,Wan-I2V 只能进行图像到视频的生成,而 PUSA 模型还支持包括首尾帧生成、视频扩展、文生视频等功能

代码和模型都已经开源啦,完整介绍可以看PUSA 项目官网[3]~

OpenArt Story 一键生成完整叙事短视频

OpenArt 推出了一个名为 OpenArt Story 的新功能,用户可以将任何想法、脚本、节奏或角色转化为 1 分钟视频,这个视频包含动作、音乐和完整的叙事线,不仅仅是简短的片段,而是一个完整的故事。

其背后的技术支持来自黑森林、可灵、海螺、pixverse、fal、openai 和谷歌。

相关推荐
大师兄66685 小时前
「源力觉醒 创作者计划」_文心开源模型(ERNIE-4.5-VL-28B-A3B-PT)使用心得
百度·开源·文心大模型·gitcode·文心开源模型·ernie-4.5·开源模型部署
DogDaoDao5 小时前
2025年 GitHub 主流开源视频生成模型介绍
人工智能·深度学习·开源·大模型·github·音视频·视频生成
算家计算7 小时前
全链路开源+PBR物理渲染!Hunyuan3D-2.1本地部署教程:重新定义工业级3D生成
人工智能·开源
阿里云云原生9 小时前
回归开源,两位 Java 和 Go 程序员分享的开源贡献指引
微服务·开源
霍格沃兹测试开发12 小时前
Playwright 极速入门:1 小时搞定环境搭建与首个测试脚本
前端框架·开源·测试
WSSWWWSSW14 小时前
文本生成视频的主要开源模型
开源·音视频
JosieBook14 小时前
【开源】一款基于 .NET 和 Vue3 开源(Apache)的MES管理系统,您的新一代工厂管理助手!
开源·asp.net
开源头条15 小时前
2025开放原子开源生态大会 | openKylin的技术跃迁和全球协作
开源·开放原子
说私域15 小时前
链接型社群的数字化升级路径研究——基于开源链动2+1模式与AI智能名片的S2B2C商城小程序赋能视角
人工智能·小程序·开源