OpenArt Story 一键生成完整叙事短视频

Mistral 开源 Voxtral:多语言语音转录模型,准确率超 Whisper v3

Voxtral 是 Mistral AI 最新开源的多语言语音转录模型,提供 24B 和 3B 两个参数版本。24B 版本专为生产环境优化,而轻量级的 3B 版本则非常适合本地和端侧设备部署。

根据其官方基准测试,其转录准确率显著超越 OpenAI Whisper v3 Large 和 Gemini Flash 2.5 等主流方案。

完整的技术细节和性能对比可查阅官方博客1

谷歌 Gemini 嵌入模型 API 全面开放,每百万 token 仅 0.15 美元

谷歌 Gemini Embedding 模型现已正式在 Gemini API 和 Vertex AI 中向开发者全面开放。价格方面极具竞争力,每 100 万输入 token 仅需 0.15 美元,这个定价可以说是非常便宜了。

完整公告详情2请参阅谷歌官方博客。

PUSA V1.0:低成本高性能视频生成模型

PUSA V1.0 通过使用 VTA 微调 SOTA 模型 Wan2.1-T2V-14B,仅需 1/2500 的数据集、1/200 的训练成本和 1/5 的推理步骤,就超越了 Wan-I2V-14B 模型的性能。

更厉害的是,Wan-I2V 只能进行图像到视频的生成,而 PUSA 模型还支持包括首尾帧生成、视频扩展、文生视频等功能

代码和模型都已经开源啦,完整介绍可以看PUSA 项目官网3

OpenArt Story 一键生成完整叙事短视频

OpenArt 推出了一个名为 OpenArt Story 的新功能,用户可以将任何想法、脚本、节奏或角色转化为 1 分钟视频,这个视频包含动作、音乐和完整的叙事线,不仅仅是简短的片段,而是一个完整的故事。

其背后的技术支持来自黑森林、可灵、海螺、pixverse、fal、openai 和谷歌。

相关推荐
东方佑31 分钟前
分形递归状态机 (FRSM) 实验报告-更新对比
人工智能·语言模型·自然语言处理·开源
昇腾CANN36 分钟前
6月15号新课开讲|HCCL入门系列课,正式上线!
人工智能·开源·昇腾·cann
创世宇图41 分钟前
Markitdown 本地文档解析与转换实战指南
开源
小小龙学IT1 小时前
Composio:开源AI智能体工具集成平台深度解析
人工智能·开源
分布式存储与RustFS1 小时前
对标MinIO!RustFS新一代AI分布式对象存储开源能力前瞻
人工智能·分布式·开源·分布式对象存储·rustfs·minio平替·s3 table
分布式存储与RustFS2 小时前
Apache Iceberg数据湖轻量化搭建:基于Rust开源存储方案
开源·apache·iceberg·rustfs·ai存储·ai memory·s3 table
法欧特斯卡雷特2 小时前
从 Kotlin 编译器 API 的变化开始: 2.4.0
android·开源·github
AI产品库4 小时前
小米MiMo技术团队正式发布并开源终端原生AI编程助手 MiMo Code,标志着小米首次进入Coding Agent赛道
人工智能·开源·ai编程
学术头条15 小时前
清华团队开源SCAIL-2:角色动画告别骨骼依赖,端到端还原视频中动作细节
人工智能·科技·机器学习·ai·开源·音视频·agi