图像生成

HyperAI超神经

OmniGen2 多模态推理×自我纠正双引擎，引领图像生成新范式；95 万分类标签！TreeOfLife-200M 解锁物种认知新维度近年来，生成式 AI 技术在图像领域取得显著突破，如 Stable Diffusion 系列、 DALL-E3 等模型通过扩散模型实现了高质量文本到图像生成。然而，这些模型缺乏视觉生成通用模型所需的全面感知理解和生成能力。 OmniGen 应运而生，基于扩散模型架构，为各种生成任务提供统一的解决方案，具备多任务处理能力，无需额外插件即可生成高质量图像。不可否认的是，该模型在多模态解耦与数据多样性方面仍存在局限。

旺旺碎碎冰_

自回归图像编辑 EditAR: Unified Conditional Generation with Autoregressive ModelsPaperhttps://arxiv.org/pdf/2501.04699Code (coming soon)

MIT何恺明再次突破传统：分形递归架构引爆生成模型新纪元！论文链接：https://arxiv.org/pdf/2502.17437 代码链接：https://github.com/LTH14/fractalgen

通向AGI的未来之路！首篇2D/视频/3D/4D统一生成框架全景综述(港科大&中山等)文章链接： https://arxiv.org/pdf/2503.04641理解并复现现实世界是人工通用智能（AGI）研究中的一个关键挑战。为实现这一目标，许多现有方法（例如世界模型）旨在捕捉支配物理世界的基本原理，从而实现更精确的模拟和有意义的交互。然而，当前的方法通常将不同模态（包括2D（图像）、视频、3D和4D表示）视为独立领域，忽略了它们之间的相互依赖性。此外，这些方法通常专注于现实的孤立维度，而没有系统地整合它们之间的联系。在本综述中，我们提出了一种多模态生成模型的统一综述，探讨了现实世界模拟中

春末的南方城市

CineMaster: 用于电影文本到视频生成的 3D 感知且可控的框架。CineMaster是一种 3D 感知且可控的文本到视频生成方法允许用户在 3D 空间中联合操纵物体和相机，以创作高质量的电影视频。

春末的南方城市

Stability AI 联合 UIUC 提出单视图 3D 重建方法SPAR3D，可0.7秒完成重建并支持交互式用户编辑。Stability AI 联合 UIUC 提出一种简单而有效的单视图 3D 重建方法 SPAR3D，这是一款最先进的 3D 重建器，可以从单视图图像重建高质量的 3D 网格。SPAR3D 的重建速度很快，只需 0.7 秒，并支持交互式用户编辑。

[EAI-031] DeepSeek 的 Janus-Pro，统一的多模态理解和生成模型论文标题：Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling 论文作者：Xiaokang Chen, Zhiyu Wu, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan 论文链接：https://arxiv.org/abs/2501.17811v1 项目主页：https://github.co

【ComfyUI】python调用生图API，实现批量出图官方给的示例：https://github.com/comfyanonymous/ComfyUI/blob/master/script_examples/websockets_api_example.pyhttps://github.com/comfyanonymous/ComfyUI/blob/master/script_examples/websockets_api_example.pyhttps://github.com/comfyanonymous/ComfyUI/blob/master/scri

春末的南方城市

浙大|腾讯|华为提出定制化视频生成框架VideoMaker，可通过参考图实现Zero-shot定制化视频生成。浙大联合腾讯和华为提出了一种新的定制化视频生成框架——VideoMaker，利用VDM的内在能力，实现高质量的zero-shot定制化视频生成。该方法通过直接输入参考图像到VDM中，利用其固有的特征提取和注入机制，克服了以往方法在特征一致性和多样性方面的不足。通过对人类和物体视频生成的实验验证了该框架的有效性。

春末的南方城市

Google发布图像生成新工具Whisk：无需复杂提示词，使用图像和人工智能将想法可视化并重新混合Whisk 是 Google Labs 的一项新实验，可使用图像进行快速而有趣的创作过程。Whisk不会生成带有长篇详细文本提示的图像，而是使用图像进行提示。只需拖入图像，即可开始创建。

春末的南方城市

东京大学联合Adobe提出基于指令的图像编辑模型InstructMove，可通过观察视频中的动作来实现基于指令的图像编辑。东京大学联合Adobe提出的InstructMove是一种基于指令的图像编辑模型，使用多模态 LLM 生成的指令对视频中的帧对进行训练。该模型擅长非刚性编辑，例如调整主体姿势、表情和改变视点，同时保持内容一致性。此外，该方法通过集成蒙版、人体姿势和其他控制机制来支持精确的局部编辑。

NeurIPS 2024 | 像素级LLM实现图像视频理解、生成、分割和编辑大统一（昆仑万维等）Accepted by NeurIPS 2024文章链接：https://arxiv.org/pdf/2412.19806 项目链接：https://vitron-llm.github.io/ Github链接：https://github.com/SkyworkAI/Vitron

春末的南方城市

厦门大学联合网易提出StoryWeaver，可根据统一模型内给定的角色实现高质量的故事可视化厦门大学联合网易提出StoryWeaver，可以根据统一模型内给定的角色实现高质量的故事可视化。可根据故事文本生成与之匹配的图像，并且确保每个角色在不同的场景中保持一致。本文的方法主要包括以下几个步骤：

春末的南方城市

Huggingface Trending！可控人物图像生成统一框架Leffa，可精确控制虚拟试穿和姿势转换！今天给大家介绍一个Huggingface上虚拟试穿的热门项目Leffa，Leffa是一个可控人物图像生成的统一框架，可以精确操纵外观（即虚拟试穿）和姿势（即姿势转换）。从效果看生成效果很不错！

图像修复和编辑大一统 | 腾讯&北大等联合提出BrushEdit：BrushNet进阶版来了文章链接：https://arxiv.org/pdf/2412.10316 项目链接：https://liyaowei-stu.github.io/project/BrushEdit

春末的南方城市

单幅图像合成 360° 3D 场景的新方法：PanoDreamer，可同时生成全景图像和相应的深度信息。论文介绍了一种从单幅图像合成 360° 3D 场景的新方法。该方法以连贯的方式生成全景图及其相应的深度，解决了现有最先进方法（如 LucidDreamer 和 WonderJourney 的局限性。这些方法按照生成轨迹依次添加细节，通常在循环回输入图像时导致可见的接缝。相比之下，该方法可确保整个 360° 场景的一致性，如图所示。黄色条显示每个结果中与输入相对应的区域。

ComfyUI-unclip模型部署指南unCLIP 模型是 SD 模型的版本，经过专门调整，除了文本提示之外，还可以接收图像概念作为输入。使用这些模型附带的 CLIPVision 对图像进行编码，然后在采样时将其提取的概念传递给主模型。

Fooocus图像生成软件本地部署教程：在Windows上快速上手AI创作本篇文章将介绍如何在本地Windows11电脑部署开源AI生图软件Fooocus，并结合Cpolar内网穿透工具轻松实现公网环境远程访问与使用。

VQGAN（2021-06：Taming Transformers for High-Resolution Image Synthesis）论文：Taming Transformers for High-Resolution Image Synthesis

智创 AI 新视界 -- 探秘 AIGC 中的生成对抗网络（GAN）应用💖💖💖亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。💖💖💖