阿里开源 OmniAvatar:音频驱动数字人模型

阿里开源 OmniAvatar:音频驱动数字人模型

OmniAvatar[1] 是阿里开源的一款基于 Wan 2.1 的音频驱动数字人模型。用户只需上传图片、音频和脚本,即可生成嘴型精准匹配、带有自然动作和表情的口播视频。

不过要注意的是,这个模型至少需要 36G 显存才能运行。

官方推荐单次生成 30 秒左右的视频片段,这样能达到最佳效果。从目前已有的开源数字人模型来看,OmniAvatar 的表现算是相当出色了。

开源对话式图像编辑器 EasyEdit

EasyEdit[2] 是一款基于 Flux KContext 模型的开源图像编辑器,通过自然对话即可智能修改图片。

佬们可以直接在网页端免登录使用 Flux KContext Dev 基础模型,而 Pro 高级模型则需要提供 APIKey 能用。

NVIDIA 发布 DAM 模型:为图像局部生成详细描述

NVIDIA 推出的 Describe Anything Model (DAM)[3] 是一款多模态大语言模型,它能够为图像或视频中的特定区域生成详细描述,支持通过点击、框选、涂鸦或遮罩等多种交互方式指定目标区域。

目前官方提供了在线体验 demo[4](虽然有点卡卡的),实际效果还可以。

相关推荐
大厂技术总监下海3 小时前
根治LLM胡说八道!用 Elasticsearch 构建 RAG,给你一个“有据可查”的AI
大数据·elasticsearch·开源
星浩AI3 小时前
Google 官方发布:让你的 AI 编程助手"边写、边看、边调",像人类开发者一样工作
人工智能·后端·开源
寺中人5 小时前
QtScrcpy手机投屏开源免费工具
开源·工具·投屏·实用·qtscrcpy
小润nature6 小时前
Spec-Driven Development (SDD) 框架与开源 AI 智能体-意图的进化
人工智能·开源
小羊羊Python9 小时前
Sound Maze - 基于 SFML+C++14 的音效迷宫开源游戏 | MIT 协议
c++·游戏·开源
Van_Moonlight11 小时前
RN for OpenHarmony 实战 TodoList 项目:已完成未完成数量显示
javascript·开源·harmonyos
济南壹软网络科技有限公司11 小时前
基于 ThinkPHP 8.1 + Workerman 的全开源商业级游戏陪玩系统技术架构设计
游戏·开源·游戏陪玩·php护航·商业版游戏护航
大厂技术总监下海11 小时前
大数据生态的“主动脉”:RocketMQ 如何无缝桥接 Flink、Spark 与业务系统?
大数据·开源·rocketmq
玖日大大12 小时前
Milvus 深度解析:开源向量数据库的技术架构、实践指南与生态生态
数据库·开源·milvus
这儿有一堆花12 小时前
MusicFree:开源多平台聚合音乐软件
开源·github