阿里开源 OmniAvatar:音频驱动数字人模型

阿里开源 OmniAvatar:音频驱动数字人模型

OmniAvatar[1] 是阿里开源的一款基于 Wan 2.1 的音频驱动数字人模型。用户只需上传图片、音频和脚本,即可生成嘴型精准匹配、带有自然动作和表情的口播视频。

不过要注意的是,这个模型至少需要 36G 显存才能运行。

官方推荐单次生成 30 秒左右的视频片段,这样能达到最佳效果。从目前已有的开源数字人模型来看,OmniAvatar 的表现算是相当出色了。

开源对话式图像编辑器 EasyEdit

EasyEdit[2] 是一款基于 Flux KContext 模型的开源图像编辑器,通过自然对话即可智能修改图片。

佬们可以直接在网页端免登录使用 Flux KContext Dev 基础模型,而 Pro 高级模型则需要提供 APIKey 能用。

NVIDIA 发布 DAM 模型:为图像局部生成详细描述

NVIDIA 推出的 Describe Anything Model (DAM)[3] 是一款多模态大语言模型,它能够为图像或视频中的特定区域生成详细描述,支持通过点击、框选、涂鸦或遮罩等多种交互方式指定目标区域。

目前官方提供了在线体验 demo[4](虽然有点卡卡的),实际效果还可以。

相关推荐
SongYuLong的博客36 分钟前
开源 C 标准库(C Library)
c语言·开发语言·开源
OpenCSG1 小时前
无需人类干预,300 轮自主思考!Kimi K2 Thinking 模型发布,多项基准达 SOTA
人工智能·开源·kimi·csghub
Tao____1 小时前
国产开源物联网基础平台
java·物联网·mqtt·开源·设备对接
致Great2 小时前
DeepSeek-V3.2技术报告解读:开源大模型的逆袭之战——如何用10%算力追平GPT-5
人工智能·gpt·开源·大模型·agent·智能体
nil2 小时前
shortcutkey:跨平台快捷键管理工具的设计与实现
python·开源·github
晚霞的不甘3 小时前
Flutter 与开源鸿蒙(OpenHarmony)性能调优与生产部署实战:从启动加速到线上监控的全链路优化
flutter·开源·harmonyos
疯不皮3 小时前
tiptiap3如何实现编辑器内部嵌套多个富文本编辑器
前端·vue.js·开源
晚霞的不甘4 小时前
Flutter 与开源鸿蒙(OpenHarmony)测试体系构建:从单元测试到真机自动化的一站式质量保障方案
flutter·开源·harmonyos
jiayong234 小时前
langchat开源项目sa-token权限方面的问题的一些实战
开源
说私域4 小时前
MarTech在客户运营中的作用:以开源AI大模型AI智能名片S2B2C商城小程序为例
人工智能·小程序·开源