图像生成

m0_650108245 天前
计算机视觉·图像生成·视频生成·dim·论文精读·双向状态空间模型·高效生成模型
【论文精读】Diffusion Mamba:基于双向 SSM 的高效图像与视频生成架构标题:Scaling Diffusion Mamba with Bidirectional SSMs for Efficient Image and Video Generation
这张生成的图像能检测吗8 天前
人工智能·计算机视觉·交互·生成模型·图像生成·视觉语言模型·3d重建
(论文速读)InteractVLM: 基于2D基础模型的3D交互推理论文题目:InteractVLM: 3D Interaction Reasoning from 2D Foundational Models(基于2D基础模型的3D交互推理)
这张生成的图像能检测吗9 天前
人工智能·计算机视觉·图像生成·1024程序员节·开放词汇·3d重建
(论文速读)开放词汇3D场景理解的掩蔽点-实体对比论文题目:Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding(开放词汇3D场景理解的掩蔽点-实体对比)
聚梦小课堂15 天前
人工智能·深度学习·图像生成·benchmark·imagenworld
ComfyUI Blog: ImagenWorld 发布:面向图像生成与编辑的真实世界基准测试数据集comfyui官方blog 10月17发了一篇blog,原文地址:https://blog.comfy.org/p/introducing-imagenworld
AI生成未来23 天前
多模态·扩散模型·图像生成
统一高效图像生成与编辑!百度&新加坡国立提出Query-Kontext,多项任务“反杀”专用模型论文链接:https://arxiv.org/pdf/2509.26641亮点直击Query-Kontext,一种经济型集成多模态模型(UMM),能够将视觉语言模型(VLMs)中的多模态生成推理与扩散模型执行的高保真视觉渲染相分离。
学技术的大胜嗷1 个月前
人工智能·深度学习·图像生成
使用BatchNorm偏置填充边界:确保推理一致性与数值稳定性在深度学习模型中,BatchNorm(BN)层通过标准化数据来加速训练并提高模型的稳定性。然而,在实际应用中,边界区域的标准化常常存在一定的挑战,尤其是在推理阶段。偏置填充是一种有效的策略,它通过对边界数据进行平移,确保了边界区域的输出与中间区域的一致性。
_Meilinger_1 个月前
人工智能·生成对抗网络·gan·扩散模型·图像生成·diffusion model
碎片笔记|生成模型原理解读:AutoEncoder、GAN 与扩散模型图像生成机制前言:本篇博客简要介绍不同生成模型架构的图像生成原理,主要包括AutoEncoder、GAN 和 Diffusion Models 三类。
这张生成的图像能检测吗1 个月前
人工智能·深度学习·计算机视觉·prompt·图像生成·超分辨率重建·clip
(论文速读)Prompt-Free Diffusion:告别提示工程的烦恼论文题目:Prompt-Free Diffusion: Taking “Text” out of Text-to-Image Diffusion Models(无提示扩散:从文本到图像的扩散模型中提取“文本”)
这张生成的图像能检测吗2 个月前
人工智能·计算机视觉·图像生成·图像编辑
(论文速读)BlenderGym:图形编辑的基准基础模型系统论文题目:BlenderGym: Benchmarking Foundational Model Systems for Graphics Editing(BlenderGym:图形编辑的基准基础模型系统)
天下弈星~3 个月前
图像处理·pytorch·python·深度学习·vae·图像生成·变分自编码器
变分自编码器VAE的Pytorch实现这里只展示一部分vae_gen_img_4.jpgvae_gen_img_29.jpgvae_gen_img_49.jpg
HyperAI超神经4 个月前
人工智能·数据挖掘·数据集·图像生成·医疗健康·在线教程·数学代码
OmniGen2 多模态推理×自我纠正双引擎,引领图像生成新范式;95 万分类标签!TreeOfLife-200M 解锁物种认知新维度近年来,生成式 AI 技术在图像领域取得显著突破,如 Stable Diffusion 系列、 DALL-E3 等模型通过扩散模型实现了高质量文本到图像生成。然而,这些模型缺乏视觉生成通用模型所需的全面感知理解和生成能力。 OmniGen 应运而生,基于扩散模型架构,为各种生成任务提供统一的解决方案,具备多任务处理能力,无需额外插件即可生成高质量图像。不可否认的是,该模型在多模态解耦与数据多样性方面仍存在局限。
旺旺碎碎冰_5 个月前
人工智能·计算机视觉·回归·aigc·图像生成
自回归图像编辑 EditAR: Unified Conditional Generation with Autoregressive ModelsPaperhttps://arxiv.org/pdf/2501.04699Code (coming soon)
AI生成未来7 个月前
扩散模型·图像生成·合成模型
MIT何恺明再次突破传统:分形递归架构引爆生成模型新纪元!论文链接:https://arxiv.org/pdf/2502.17437 代码链接:https://github.com/LTH14/fractalgen
AI生成未来8 个月前
多模态·图像生成·综述·多模态大模型·视频生成
通向AGI的未来之路!首篇2D/视频/3D/4D统一生成框架全景综述(港科大&中山等)文章链接: https://arxiv.org/pdf/2503.04641理解并复现现实世界是人工通用智能(AGI)研究中的一个关键挑战。为实现这一目标,许多现有方法(例如世界模型)旨在捕捉支配物理世界的基本原理,从而实现更精确的模拟和有意义的交互。然而,当前的方法通常将不同模态(包括2D(图像)、视频、3D和4D表示)视为独立领域,忽略了它们之间的相互依赖性。此外,这些方法通常专注于现实的孤立维度,而没有系统地整合它们之间的联系。在本综述中,我们提出了一种多模态生成模型的统一综述,探讨了现实世界模拟中
春末的南方城市8 个月前
人工智能·数码相机·计算机视觉·语言模型·aigc·图像生成
CineMaster: 用于电影文本到视频生成的 3D 感知且可控的框架。CineMaster是一种 3D 感知且可控的文本到视频生成方法允许用户在 3D 空间中联合操纵物体和相机,以创作高质量的电影视频。
春末的南方城市9 个月前
人工智能·计算机视觉·3d·aigc·音视频·图像生成
Stability AI 联合 UIUC 提出单视图 3D 重建方法SPAR3D,可0.7秒完成重建并支持交互式用户编辑。Stability AI 联合 UIUC 提出一种简单而有效的单视图 3D 重建方法 SPAR3D,这是一款最先进的 3D 重建器,可以从单视图图像重建高质量的 3D 网格。SPAR3D 的重建速度很快,只需 0.7 秒,并支持交互式用户编辑。
datamonday9 个月前
人工智能·llm·图像生成·deepseek·多模态理解
[EAI-031] DeepSeek 的 Janus-Pro,统一的多模态理解和生成模型论文标题:Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling 论文作者:Xiaokang Chen, Zhiyu Wu, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan 论文链接:https://arxiv.org/abs/2501.17811v1 项目主页:https://github.co
曾小蛙9 个月前
图像生成·comfyui·comfyui-api
【ComfyUI】python调用生图API,实现批量出图官方给的示例:https://github.com/comfyanonymous/ComfyUI/blob/master/script_examples/websockets_api_example.pyhttps://github.com/comfyanonymous/ComfyUI/blob/master/script_examples/websockets_api_example.pyhttps://github.com/comfyanonymous/ComfyUI/blob/master/scri
春末的南方城市10 个月前
人工智能·计算机视觉·aigc·音视频·图像生成
浙大|腾讯|华为 提出定制化视频生成框架VideoMaker,可通过参考图实现Zero-shot定制化视频生成。浙大联合腾讯和华为提出了一种新的定制化视频生成框架——VideoMaker,利用VDM的内在能力,实现高质量的zero-shot定制化视频生成。该方法通过直接输入参考图像到VDM中,利用其固有的特征提取和注入机制,克服了以往方法在特征一致性和多样性方面的不足。通过对人类和物体视频生成的实验验证了该框架的有效性。
春末的南方城市10 个月前
人工智能·计算机视觉·aigc·图像生成
Google发布图像生成新工具Whisk:无需复杂提示词,使用图像和人工智能将想法可视化并重新混合Whisk 是 Google Labs 的一项新实验,可使用图像进行快速而有趣的创作过程。Whisk不会生成带有长篇详细文本提示的图像,而是使用图像进行提示。只需拖入图像,即可开始创建。