图像生成

TTGGGFF14 天前
图像生成
【实战教程】Flux.1-dev 360° 全景驾驶舱:从零到一的“零坑”部署指南Flux.1-dev 是目前开源界最强的文生图模型,但其高达 24GB+ 的参数量让 24G 显存(如 3090/4090)环境极易崩溃。本教程整理自真实踩坑记录,教你如何利用 ModelScope 极速下载、身份自动鉴权和显存顺序卸载技术,在单卡环境下完美复现。
OpenBayes17 天前
人工智能·深度学习·自然语言处理·数据集·机器翻译·图像生成
HY-MT1.5-1.8B 支持多语言神经机器翻译;Med-Banana-50K 提供医学影像编辑基准数据6 个公共数据集:* Human faces 人脸数据集* SimpleQA 简明事实性问答评测数据集
梁辰兴1 个月前
人工智能·科技·ai·chatgpt·大模型·openai·图像生成
OpenAI更新ChatGPT Images:生成速度最高提升4倍,原生多模态模型你以为AI画图还停留在“等一分钟出四张”的龟速时代?OpenAI最新发布的GPT-Image1直接打破认知,实测512x512图像生成耗时缩短75%,程序员圈曾调侃的“冒烟GPU”梗竟成真预言。这波操作堪比给AI绘画装上涡轮增压引擎,但油门到底的秘诀,绝非单纯的算力堆砌,而是模型架构、硬件加速与长文本联动的三重革命。
这张生成的图像能检测吗1 个月前
人工智能·生成对抗网络·计算机视觉·知识蒸馏·图像生成·模型压缩技术
(论文速读)Nickel and Diming Your GAN:通过知识蒸馏提高GAN效率的双重方法论文题目:Nickel and Diming Your GAN: A Dual-Method Approach to Enhancing GAN Efficiency via Knowledge Distillation (通过知识蒸馏提高GAN效率的双重方法)
这张生成的图像能检测吗1 个月前
人工智能·机器学习·计算机视觉·文生图·图像生成·视觉语言模型
(论文速读)ParaDiffusion:基于信息扩散模型的段落到图像生成论文题目:Paragraph-to-Image Generation with Information-Enriched Diffusion Model(基于信息扩散模型的段落到图像生成)
OpenBayes2 个月前
人工智能·深度学习·数据集·图像识别·语音合成·图像生成·视频生成
VibeVoice-Realtime TTS重构实时语音体验;覆盖9大真实场景,WenetSpeech-Chuan让模型听懂川话公共资源速递5 个公共数据集:* VOccl3D 三维人体遮挡视频数据集* Spatial-SSRL-81k 空间感知自监督数据集
我很哇塞耶2 个月前
人工智能·ai·大模型·图像生成
告别VAE压缩损耗,南京大学用DiP让扩散模型回归像素空间,实现10倍加速与SOTA级画质扩散模型(Diffusion Models)重塑了图像合成、视频生成和3D创作的格局,全面超越了生成对抗网络(GANs),但其背后的算力消耗惊人。
风巽·剑染春水2 个月前
diffusion·图像生成·mri·脑肿瘤
【技术追踪】D2Diff:一种用于精确多对比度MRI合成的双域扩散模型(MICCAI-2025)多对一 MRI 生成!论文:D2Diff : A Dual Domain Diffusion Model for Accurate Multi-Contrast MRI Synthesis 代码:https://github.com/sanuwanihewa/D2Diff
8Qi82 个月前
人工智能·深度学习·stable diffusion·图像生成
Stable Diffusion详解Stable Diffusion(简称 SD)是由 Stability AI、CompVis 和 Runway 团队合作开发的一种潜在扩散模型。它于 2022 年 8 月正式开源,具有出图快、扩展性强、数据安全等特点。
8Qi83 个月前
人工智能·深度学习·神经网络·生成对抗网络·图像生成·伪装图像生成
伪装图像生成之——GAN与Diffusion图像生成是人工智能领域的核心研究方向之一,其目标是让模型学会“创造”逼真的图像,而不仅仅是识别或分类。 近年来,生成模型广泛应用于艺术创作、虚拟场景、医学影像合成、图像修复、图像风格迁移,以及特殊任务如 伪装图像生成(Camouflage Image Generation)。
这张生成的图像能检测吗3 个月前
人工智能·计算机视觉·图像生成·工业检测·计算机图像学
(综述)基于深度学习的制造业表面缺陷检测图像合成方法综述论文题目:A comprehensive survey of image synthesis approaches for Deep Learning-based surface defect detection in manufacturing(基于深度学习的制造业表面缺陷检测图像合成方法综述)
m0_650108243 个月前
计算机视觉·图像生成·视频生成·dim·论文精读·双向状态空间模型·高效生成模型
【论文精读】Diffusion Mamba:基于双向 SSM 的高效图像与视频生成架构标题:Scaling Diffusion Mamba with Bidirectional SSMs for Efficient Image and Video Generation
这张生成的图像能检测吗3 个月前
人工智能·计算机视觉·交互·生成模型·图像生成·视觉语言模型·3d重建
(论文速读)InteractVLM: 基于2D基础模型的3D交互推理论文题目:InteractVLM: 3D Interaction Reasoning from 2D Foundational Models(基于2D基础模型的3D交互推理)
这张生成的图像能检测吗3 个月前
人工智能·计算机视觉·图像生成·1024程序员节·开放词汇·3d重建
(论文速读)开放词汇3D场景理解的掩蔽点-实体对比论文题目:Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding(开放词汇3D场景理解的掩蔽点-实体对比)
聚梦小课堂3 个月前
人工智能·深度学习·图像生成·benchmark·imagenworld
ComfyUI Blog: ImagenWorld 发布:面向图像生成与编辑的真实世界基准测试数据集comfyui官方blog 10月17发了一篇blog,原文地址:https://blog.comfy.org/p/introducing-imagenworld
AI生成未来4 个月前
多模态·扩散模型·图像生成
统一高效图像生成与编辑!百度&新加坡国立提出Query-Kontext,多项任务“反杀”专用模型论文链接:https://arxiv.org/pdf/2509.26641亮点直击Query-Kontext,一种经济型集成多模态模型(UMM),能够将视觉语言模型(VLMs)中的多模态生成推理与扩散模型执行的高保真视觉渲染相分离。
学技术的大胜嗷4 个月前
人工智能·深度学习·图像生成
使用BatchNorm偏置填充边界:确保推理一致性与数值稳定性在深度学习模型中,BatchNorm(BN)层通过标准化数据来加速训练并提高模型的稳定性。然而,在实际应用中,边界区域的标准化常常存在一定的挑战,尤其是在推理阶段。偏置填充是一种有效的策略,它通过对边界数据进行平移,确保了边界区域的输出与中间区域的一致性。
_Meilinger_4 个月前
人工智能·生成对抗网络·gan·扩散模型·图像生成·diffusion model
碎片笔记|生成模型原理解读:AutoEncoder、GAN 与扩散模型图像生成机制前言:本篇博客简要介绍不同生成模型架构的图像生成原理,主要包括AutoEncoder、GAN 和 Diffusion Models 三类。
这张生成的图像能检测吗4 个月前
人工智能·深度学习·计算机视觉·prompt·图像生成·超分辨率重建·clip
(论文速读)Prompt-Free Diffusion:告别提示工程的烦恼论文题目:Prompt-Free Diffusion: Taking “Text” out of Text-to-Image Diffusion Models(无提示扩散:从文本到图像的扩散模型中提取“文本”)
这张生成的图像能检测吗5 个月前
人工智能·计算机视觉·图像生成·图像编辑
(论文速读)BlenderGym:图形编辑的基准基础模型系统论文题目:BlenderGym: Benchmarking Foundational Model Systems for Graphics Editing(BlenderGym:图形编辑的基准基础模型系统)