阿里开源 OmniAvatar:音频驱动数字人模型

阿里开源 OmniAvatar:音频驱动数字人模型

OmniAvatar[1] 是阿里开源的一款基于 Wan 2.1 的音频驱动数字人模型。用户只需上传图片、音频和脚本,即可生成嘴型精准匹配、带有自然动作和表情的口播视频。

不过要注意的是,这个模型至少需要 36G 显存才能运行。

官方推荐单次生成 30 秒左右的视频片段,这样能达到最佳效果。从目前已有的开源数字人模型来看,OmniAvatar 的表现算是相当出色了。

开源对话式图像编辑器 EasyEdit

EasyEdit[2] 是一款基于 Flux KContext 模型的开源图像编辑器,通过自然对话即可智能修改图片。

佬们可以直接在网页端免登录使用 Flux KContext Dev 基础模型,而 Pro 高级模型则需要提供 APIKey 能用。

NVIDIA 发布 DAM 模型:为图像局部生成详细描述

NVIDIA 推出的 Describe Anything Model (DAM)[3] 是一款多模态大语言模型,它能够为图像或视频中的特定区域生成详细描述,支持通过点击、框选、涂鸦或遮罩等多种交互方式指定目标区域。

目前官方提供了在线体验 demo[4](虽然有点卡卡的),实际效果还可以。

相关推荐
DevSecOps选型指南1 小时前
技术分享 | 悬镜亮相于“2025开放原子开源生态大会软件物料清单(SBOM)”分论坛
开源·开放原子·软件供应链安全工具·投毒情报中心·投毒情报
度假的小鱼1 小时前
【源力觉醒 创作者计划】对比与实践:基于文心大模型 4.5 的 Ollama+CherryStudio 知识库搭建教程
人工智能·开源·文心大模型·知识库搭建
请叫我小蜜蜂同学3 小时前
「源力觉醒 创作者计划」开源大模型重构数智文明新范式
重构·开源
小奏技术16 小时前
警惕开源项目PakePlus:一个正在偷取你GitHub token自动star fork的开源项目
开源
FIT2CLOUD飞致云18 小时前
飞致云开源社区月度动态报告(2025年7月)
开源
白鲸开源18 小时前
新手教程:用外部 PostgreSQL 和 Zookeeper 启动 Dolphinscheduler
postgresql·zookeeper·开源
lzhdim1 天前
C#开发的Panel里控件拖放例子 - 开源研究系列文章
开发语言·开源·c#
俊哥V1 天前
字节跳动“扣子”(Coze)开源:AI智能体生态的技术革命
人工智能·开源
ajassi20001 天前
开源 Arkts 鸿蒙应用 开发(十三)音频--MP3播放
linux·华为·开源·harmonyos
Allen_LVyingbo1 天前
智能AI医疗物资/耗材管理系统升级改造方案分析
人工智能·自然语言处理·开源·健康医疗·扩展屏应用开发