图像生成

AI生成未来13 天前
多模态·图像生成·综述·多模态大模型·视频生成
通向AGI的未来之路!首篇2D/视频/3D/4D统一生成框架全景综述(港科大&中山等)文章链接: https://arxiv.org/pdf/2503.04641理解并复现现实世界是人工通用智能(AGI)研究中的一个关键挑战。为实现这一目标,许多现有方法(例如世界模型)旨在捕捉支配物理世界的基本原理,从而实现更精确的模拟和有意义的交互。然而,当前的方法通常将不同模态(包括2D(图像)、视频、3D和4D表示)视为独立领域,忽略了它们之间的相互依赖性。此外,这些方法通常专注于现实的孤立维度,而没有系统地整合它们之间的联系。在本综述中,我们提出了一种多模态生成模型的统一综述,探讨了现实世界模拟中
春末的南方城市1 个月前
人工智能·数码相机·计算机视觉·语言模型·aigc·图像生成
CineMaster: 用于电影文本到视频生成的 3D 感知且可控的框架。CineMaster是一种 3D 感知且可控的文本到视频生成方法允许用户在 3D 空间中联合操纵物体和相机,以创作高质量的电影视频。
春末的南方城市2 个月前
人工智能·计算机视觉·3d·aigc·音视频·图像生成
Stability AI 联合 UIUC 提出单视图 3D 重建方法SPAR3D,可0.7秒完成重建并支持交互式用户编辑。Stability AI 联合 UIUC 提出一种简单而有效的单视图 3D 重建方法 SPAR3D,这是一款最先进的 3D 重建器,可以从单视图图像重建高质量的 3D 网格。SPAR3D 的重建速度很快,只需 0.7 秒,并支持交互式用户编辑。
datamonday2 个月前
人工智能·llm·图像生成·deepseek·多模态理解
[EAI-031] DeepSeek 的 Janus-Pro,统一的多模态理解和生成模型论文标题:Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling 论文作者:Xiaokang Chen, Zhiyu Wu, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan 论文链接:https://arxiv.org/abs/2501.17811v1 项目主页:https://github.co
曾小蛙2 个月前
图像生成·comfyui·comfyui-api
【ComfyUI】python调用生图API,实现批量出图官方给的示例:https://github.com/comfyanonymous/ComfyUI/blob/master/script_examples/websockets_api_example.pyhttps://github.com/comfyanonymous/ComfyUI/blob/master/script_examples/websockets_api_example.pyhttps://github.com/comfyanonymous/ComfyUI/blob/master/scri
春末的南方城市3 个月前
人工智能·计算机视觉·aigc·音视频·图像生成
浙大|腾讯|华为 提出定制化视频生成框架VideoMaker,可通过参考图实现Zero-shot定制化视频生成。浙大联合腾讯和华为提出了一种新的定制化视频生成框架——VideoMaker,利用VDM的内在能力,实现高质量的zero-shot定制化视频生成。该方法通过直接输入参考图像到VDM中,利用其固有的特征提取和注入机制,克服了以往方法在特征一致性和多样性方面的不足。通过对人类和物体视频生成的实验验证了该框架的有效性。
春末的南方城市3 个月前
人工智能·计算机视觉·aigc·图像生成
Google发布图像生成新工具Whisk:无需复杂提示词,使用图像和人工智能将想法可视化并重新混合Whisk 是 Google Labs 的一项新实验,可使用图像进行快速而有趣的创作过程。Whisk不会生成带有长篇详细文本提示的图像,而是使用图像进行提示。只需拖入图像,即可开始创建。
春末的南方城市3 个月前
人工智能·计算机视觉·adobe·aigc·音视频·图像生成
东京大学联合Adobe提出基于指令的图像编辑模型InstructMove,可通过观察视频中的动作来实现基于指令的图像编辑。东京大学联合Adobe提出的InstructMove是一种基于指令的图像编辑模型,使用多模态 LLM 生成的指令对视频中的帧对进行训练。该模型擅长非刚性编辑,例如调整主体姿势、表情和改变视点,同时保持内容一致性。此外,该方法通过集成蒙版、人体姿势和其他控制机制来支持精确的局部编辑。
AI生成未来3 个月前
图像生成·图像编辑·视频生成
NeurIPS 2024 | 像素级LLM实现图像视频理解、生成、分割和编辑大统一(昆仑万维等)Accepted by NeurIPS 2024文章链接:https://arxiv.org/pdf/2412.19806 项目链接:https://vitron-llm.github.io/ Github链接:https://github.com/SkyworkAI/Vitron
春末的南方城市3 个月前
人工智能·3d·aigc·音视频·图像生成
厦门大学联合网易提出StoryWeaver,可根据统一模型内给定的角色实现高质量的故事可视化厦门大学联合网易提出StoryWeaver,可以根据统一模型内给定的角色实现高质量的故事可视化。可根据故事文本生成与之匹配的图像,并且确保每个角色在不同的场景中保持一致。本文的方法主要包括以下几个步骤:
春末的南方城市3 个月前
人工智能·计算机视觉·aigc·controlnet·图像生成
Huggingface Trending!可控人物图像生成统一框架Leffa,可精确控制虚拟试穿和姿势转换!今天给大家介绍一个Huggingface上虚拟试穿的热门项目Leffa,Leffa是一个可控人物图像生成的统一框架,可以精确操纵外观(即虚拟试穿)和姿势(即姿势转换)。从效果看生成效果很不错!
AI生成未来3 个月前
图像生成·图像编辑·图像修复
图像修复和编辑大一统 | 腾讯&北大等联合提出BrushEdit:BrushNet进阶版来了文章链接:https://arxiv.org/pdf/2412.10316 项目链接:https://liyaowei-stu.github.io/project/BrushEdit
春末的南方城市3 个月前
人工智能·3d·aigc·controlnet·图像生成
单幅图像合成 360° 3D 场景的新方法:PanoDreamer,可同时生成全景图像和相应的深度信息。论文介绍了一种从单幅图像合成 360° 3D 场景的新方法。该方法以连贯的方式生成全景图及其相应的深度,解决了现有最先进方法(如 LucidDreamer 和 WonderJourney 的局限性。这些方法按照生成轨迹依次添加细节,通常在循环回输入图像时导致可见的接缝。相比之下,该方法可确保整个 360° 场景的一致性,如图所示。黄色条显示每个结果中与输入相对应的区域。
算家云4 个月前
人工智能·aigc·sd·图像生成·comfyui·工作流·unclip 模型
ComfyUI-unclip模型部署指南unCLIP 模型是 SD 模型的版本,经过专门调整,除了文本提示之外,还可以接收图像概念作为输入。使用这些模型附带的 CLIPVision 对图像进行编码,然后在采样时将其提取的概念传递给主模型。
YIN_尹5 个月前
图像生成
Fooocus图像生成软件本地部署教程:在Windows上快速上手AI创作本篇文章将介绍如何在本地Windows11电脑部署开源AI生图软件Fooocus,并结合Cpolar内网穿透工具轻松实现公网环境远程访问与使用。
BH042509095 个月前
计算机视觉·扩散模型·图像生成·cv
VQGAN(2021-06:Taming Transformers for High-Resolution Image Synthesis)论文:Taming Transformers for High-Resolution Image Synthesis
青云交5 个月前
人工智能·aigc·文本生成·图像生成·音乐生成·生成对抗网络(gan)·挑战与解决方案
智创 AI 新视界 -- 探秘 AIGC 中的生成对抗网络(GAN)应用💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的博客,正是这样一个温暖美好的所在。在这里,你们不仅能够收获既富有趣味又极为实用的内容知识,还可以毫无拘束地畅所欲言,尽情分享自己独特的见解。我真诚地期待着你们的到来,愿我们能在这片小小的天地里共同成长,共同进步。💖💖💖
算家云5 个月前
人工智能·aigc·图像生成·模型训练·抠图·背景去除·内容创作
BRIA-RMBG-1.4容器构建指南BRIA-RMBG-1.4 是 BRIA AI 公司开发的一款先进的背景去除模型,旨在高效、准确地从各种类别和类型的图像中分离前景和背景。
算家云5 个月前
人工智能·aigc·gpu·图像生成·hugging face·3d模型生成·comfyui、
stable-zero123模型构建指南stabilityai出品,能够对有简单背景的物体进行三维视角图片的生成,简单来说也就是通过调整变换观察的视角生成对应视角的图片。
春末的南方城市5 个月前
人工智能·计算机视觉·stable diffusion·aigc·音视频·图像生成
港大和字节提出长视频生成模型Loong,可生成具有一致外观、大运动动态和自然场景过渡的分钟级长视频。HKU, ByteDance|⭐️港大和字节联合提出长视频生成模型Loong,该模型可以生成外观一致、运动动态大、场景过渡自然的分钟级长视频。选择以统一的顺序对文本标记和视频标记进行建模,并使用渐进式短到长训练方案和损失重新加权来克服长视频训练的挑战。