阿里开源 OmniAvatar:音频驱动数字人模型

阿里开源 OmniAvatar:音频驱动数字人模型

OmniAvatar[1] 是阿里开源的一款基于 Wan 2.1 的音频驱动数字人模型。用户只需上传图片、音频和脚本,即可生成嘴型精准匹配、带有自然动作和表情的口播视频。

不过要注意的是,这个模型至少需要 36G 显存才能运行。

官方推荐单次生成 30 秒左右的视频片段,这样能达到最佳效果。从目前已有的开源数字人模型来看,OmniAvatar 的表现算是相当出色了。

开源对话式图像编辑器 EasyEdit

EasyEdit[2] 是一款基于 Flux KContext 模型的开源图像编辑器,通过自然对话即可智能修改图片。

佬们可以直接在网页端免登录使用 Flux KContext Dev 基础模型,而 Pro 高级模型则需要提供 APIKey 能用。

NVIDIA 发布 DAM 模型:为图像局部生成详细描述

NVIDIA 推出的 Describe Anything Model (DAM)[3] 是一款多模态大语言模型,它能够为图像或视频中的特定区域生成详细描述,支持通过点击、框选、涂鸦或遮罩等多种交互方式指定目标区域。

目前官方提供了在线体验 demo[4](虽然有点卡卡的),实际效果还可以。

相关推荐
智碳未来科技有限公司1 小时前
开源赋能双碳|智碳能源管理系统:全栈开源工业级 EMS,打破能源管控技术壁垒,助力千行百业零碳转型
开源·能源管理系统·能源管理·能碳管理系统·绿色工厂申报·能碳管理·绿色工厂认证
IT观测2 小时前
全国一体成型电感供应商推荐:深圳陆海高分子,覆盖AI服务器、汽车电子的国产方案
开源
悟空码字2 小时前
多租户CRM系统开源了,支持公海、线索、客户、订单管理等核心功能(附源码)
开源·crm
M ? A2 小时前
Vue3 转 React 工具 VuReact v1.6.0 更新:useAttrs 完美兼容,修复模板迁移 / 类型错误
前端·javascript·vue.js·react.js·开源·vureact
AISHU爱数2 小时前
正式开源!Anybackup V9,首款 AI 原生数据韧性平台
人工智能·开源·备份·ai原生·恢复·自主验证
三无推导3 小时前
GitHub爆火项目ChinaTextbook——开源如何重新定义教育普惠的边界
学习·开源·github
亥时科技3 小时前
AI+ 无人机一体化平台:架构设计与行业应用实践
人工智能·开源·无人机·低空经济·ai巡检
M ? A3 小时前
Vue3 转 React:组件透传 Attributes 与 useAttrs 使用详解|VuReact 实战
前端·javascript·vue.js·经验分享·react.js·开源·vureact
BPM6663 小时前
2026主流工作流引擎评测:从开源引擎到企业平台,AlphaFlow、Camunda、Flowable、IBM、Microsoft 怎么选?
microsoft·开源