阿里开源 OmniAvatar:音频驱动数字人模型

阿里开源 OmniAvatar:音频驱动数字人模型

OmniAvatar[1] 是阿里开源的一款基于 Wan 2.1 的音频驱动数字人模型。用户只需上传图片、音频和脚本,即可生成嘴型精准匹配、带有自然动作和表情的口播视频。

不过要注意的是,这个模型至少需要 36G 显存才能运行。

官方推荐单次生成 30 秒左右的视频片段,这样能达到最佳效果。从目前已有的开源数字人模型来看,OmniAvatar 的表现算是相当出色了。

开源对话式图像编辑器 EasyEdit

EasyEdit[2] 是一款基于 Flux KContext 模型的开源图像编辑器,通过自然对话即可智能修改图片。

佬们可以直接在网页端免登录使用 Flux KContext Dev 基础模型,而 Pro 高级模型则需要提供 APIKey 能用。

NVIDIA 发布 DAM 模型:为图像局部生成详细描述

NVIDIA 推出的 Describe Anything Model (DAM)[3] 是一款多模态大语言模型,它能够为图像或视频中的特定区域生成详细描述,支持通过点击、框选、涂鸦或遮罩等多种交互方式指定目标区域。

目前官方提供了在线体验 demo[4](虽然有点卡卡的),实际效果还可以。

相关推荐
冬奇Lab2 小时前
一天一个开源项目(第16篇):Code2Video - 用代码生成高质量教学视频的智能框架
开源·aigc·音视频开发
一只大侠的侠2 小时前
Flutter开源鸿蒙跨平台训练营 Day7Flutter+ArkTS双方案实现轮播图+搜索框+导航组件
flutter·开源·harmonyos
聆风吟º2 小时前
CANN开源项目实战指南:使用oam-tools构建自动化故障诊断与运维可观测性体系
运维·开源·自动化·cann
一只大侠的侠3 小时前
Flutter开源鸿蒙跨平台训练营 Day9分类数据的获取与渲染实现
flutter·开源·harmonyos
一只大侠的侠4 小时前
Flutter开源鸿蒙跨平台训练营 Day 5Flutter开发鸿蒙电商应用
flutter·开源·harmonyos
一只大侠的侠5 小时前
Flutter开源鸿蒙跨平台训练营 Day6ArkUI框架实战
flutter·开源·harmonyos
AllData公司负责人5 小时前
AllData数据中台-数据同步平台【Seatunnel-Web】整库同步MySQL同步Doris能力演示
大数据·数据库·mysql·开源
一只大侠的侠6 小时前
Flutter开源鸿蒙跨平台训练营 Day 4实现流畅的下拉刷新与上拉加载效果
flutter·开源·harmonyos
2501_943695336 小时前
高职大数据技术专业,怎么参与开源数据分析项目积累经验?
大数据·数据分析·开源
万岳科技程序员小金6 小时前
多商户商城系统源码 + APP/小程序开发:技术架构与应用解
程序员·开源·源码·多商户商城系统源码·多商户商城小程序·多商户商城app开发·多商户商城平台开发