阿里开源 OmniAvatar:音频驱动数字人模型

阿里开源 OmniAvatar:音频驱动数字人模型

OmniAvatar[1] 是阿里开源的一款基于 Wan 2.1 的音频驱动数字人模型。用户只需上传图片、音频和脚本,即可生成嘴型精准匹配、带有自然动作和表情的口播视频。

不过要注意的是,这个模型至少需要 36G 显存才能运行。

官方推荐单次生成 30 秒左右的视频片段,这样能达到最佳效果。从目前已有的开源数字人模型来看,OmniAvatar 的表现算是相当出色了。

开源对话式图像编辑器 EasyEdit

EasyEdit[2] 是一款基于 Flux KContext 模型的开源图像编辑器,通过自然对话即可智能修改图片。

佬们可以直接在网页端免登录使用 Flux KContext Dev 基础模型,而 Pro 高级模型则需要提供 APIKey 能用。

NVIDIA 发布 DAM 模型:为图像局部生成详细描述

NVIDIA 推出的 Describe Anything Model (DAM)[3] 是一款多模态大语言模型,它能够为图像或视频中的特定区域生成详细描述,支持通过点击、框选、涂鸦或遮罩等多种交互方式指定目标区域。

目前官方提供了在线体验 demo[4](虽然有点卡卡的),实际效果还可以。

相关推荐
Jahzo10 小时前
openclaw本地化部署体验与踩坑记录--windows
开源·全栈
冬奇Lab14 小时前
一天一个开源项目(第39篇):PandaWiki - AI 驱动的开源知识库搭建系统
人工智能·开源·资讯
HelloGitHub15 小时前
这个年轻的开源项目,想让每个人都能拥有自己的专业级 AI 智能体
开源·github·agent
Kagol1 天前
🎉OpenTiny NEXT-SDK 重磅发布:四步把你的前端应用变成智能应用!
前端·开源·agent
冬奇Lab1 天前
OpenClaw 源码精读(2):Channel & Routing——一条消息如何找到它的 Agent?
人工智能·开源·源码阅读
冬奇Lab1 天前
一天一个开源项目(第38篇):Claude Code Telegram - 用 Telegram 远程用 Claude Code,随时随地聊项目
人工智能·开源·资讯
sunny8651 天前
Claude Code 跨会话上下文恢复:从 8 次纠正到 0 次的工程实践
人工智能·开源·github
strayCat232552 天前
Clawdbot 源码解读 7: 扩展机制
人工智能·开源
Moment2 天前
OpenClaw 从能聊到能干差的是这 50 个 Skills 😍😍😍
前端·后端·开源
草梅友仁2 天前
墨梅博客 1.7.0 发布与 AI 开发实践 | 2026 年第 9 周草梅周报
开源·github·ai编程