技术栈
图像生成
TTGGGFF
14 天前
图像生成
【实战教程】Flux.1-dev 360° 全景驾驶舱:从零到一的“零坑”部署指南
Flux.1-dev 是目前开源界最强的文生图模型,但其高达 24GB+ 的参数量让 24G 显存(如 3090/4090)环境极易崩溃。本教程整理自真实踩坑记录,教你如何利用 ModelScope 极速下载、身份自动鉴权和显存顺序卸载技术,在单卡环境下完美复现。
OpenBayes
17 天前
人工智能
·
深度学习
·
自然语言处理
·
数据集
·
机器翻译
·
图像生成
HY-MT1.5-1.8B 支持多语言神经机器翻译;Med-Banana-50K 提供医学影像编辑基准数据
6 个公共数据集:* Human faces 人脸数据集* SimpleQA 简明事实性问答评测数据集
梁辰兴
1 个月前
人工智能
·
科技
·
ai
·
chatgpt
·
大模型
·
openai
·
图像生成
OpenAI更新ChatGPT Images:生成速度最高提升4倍,原生多模态模型
你以为AI画图还停留在“等一分钟出四张”的龟速时代?OpenAI最新发布的GPT-Image1直接打破认知,实测512x512图像生成耗时缩短75%,程序员圈曾调侃的“冒烟GPU”梗竟成真预言。这波操作堪比给AI绘画装上涡轮增压引擎,但油门到底的秘诀,绝非单纯的算力堆砌,而是模型架构、硬件加速与长文本联动的三重革命。
这张生成的图像能检测吗
1 个月前
人工智能
·
生成对抗网络
·
计算机视觉
·
知识蒸馏
·
图像生成
·
模型压缩技术
(论文速读)Nickel and Diming Your GAN:通过知识蒸馏提高GAN效率的双重方法
论文题目:Nickel and Diming Your GAN: A Dual-Method Approach to Enhancing GAN Efficiency via Knowledge Distillation (通过知识蒸馏提高GAN效率的双重方法)
这张生成的图像能检测吗
1 个月前
人工智能
·
机器学习
·
计算机视觉
·
文生图
·
图像生成
·
视觉语言模型
(论文速读)ParaDiffusion:基于信息扩散模型的段落到图像生成
论文题目:Paragraph-to-Image Generation with Information-Enriched Diffusion Model(基于信息扩散模型的段落到图像生成)
OpenBayes
2 个月前
人工智能
·
深度学习
·
数据集
·
图像识别
·
语音合成
·
图像生成
·
视频生成
VibeVoice-Realtime TTS重构实时语音体验;覆盖9大真实场景,WenetSpeech-Chuan让模型听懂川话
公共资源速递5 个公共数据集:* VOccl3D 三维人体遮挡视频数据集* Spatial-SSRL-81k 空间感知自监督数据集
我很哇塞耶
2 个月前
人工智能
·
ai
·
大模型
·
图像生成
告别VAE压缩损耗,南京大学用DiP让扩散模型回归像素空间,实现10倍加速与SOTA级画质
扩散模型(Diffusion Models)重塑了图像合成、视频生成和3D创作的格局,全面超越了生成对抗网络(GANs),但其背后的算力消耗惊人。
风巽·剑染春水
2 个月前
diffusion
·
图像生成
·
mri
·
脑肿瘤
【技术追踪】D2Diff:一种用于精确多对比度MRI合成的双域扩散模型(MICCAI-2025)
多对一 MRI 生成!论文:D2Diff : A Dual Domain Diffusion Model for Accurate Multi-Contrast MRI Synthesis 代码:https://github.com/sanuwanihewa/D2Diff
8Qi8
2 个月前
人工智能
·
深度学习
·
stable diffusion
·
图像生成
Stable Diffusion详解
Stable Diffusion(简称 SD)是由 Stability AI、CompVis 和 Runway 团队合作开发的一种潜在扩散模型。它于 2022 年 8 月正式开源,具有出图快、扩展性强、数据安全等特点。
8Qi8
3 个月前
人工智能
·
深度学习
·
神经网络
·
生成对抗网络
·
图像生成
·
伪装图像生成
伪装图像生成之——GAN与Diffusion
图像生成是人工智能领域的核心研究方向之一,其目标是让模型学会“创造”逼真的图像,而不仅仅是识别或分类。 近年来,生成模型广泛应用于艺术创作、虚拟场景、医学影像合成、图像修复、图像风格迁移,以及特殊任务如 伪装图像生成(Camouflage Image Generation)。
这张生成的图像能检测吗
3 个月前
人工智能
·
计算机视觉
·
图像生成
·
工业检测
·
计算机图像学
(综述)基于深度学习的制造业表面缺陷检测图像合成方法综述
论文题目:A comprehensive survey of image synthesis approaches for Deep Learning-based surface defect detection in manufacturing(基于深度学习的制造业表面缺陷检测图像合成方法综述)
m0_65010824
3 个月前
计算机视觉
·
图像生成
·
视频生成
·
dim
·
论文精读
·
双向状态空间模型
·
高效生成模型
【论文精读】Diffusion Mamba:基于双向 SSM 的高效图像与视频生成架构
标题:Scaling Diffusion Mamba with Bidirectional SSMs for Efficient Image and Video Generation
这张生成的图像能检测吗
3 个月前
人工智能
·
计算机视觉
·
交互
·
生成模型
·
图像生成
·
视觉语言模型
·
3d重建
(论文速读)InteractVLM: 基于2D基础模型的3D交互推理
论文题目:InteractVLM: 3D Interaction Reasoning from 2D Foundational Models(基于2D基础模型的3D交互推理)
这张生成的图像能检测吗
3 个月前
人工智能
·
计算机视觉
·
图像生成
·
1024程序员节
·
开放词汇
·
3d重建
(论文速读)开放词汇3D场景理解的掩蔽点-实体对比
论文题目:Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding(开放词汇3D场景理解的掩蔽点-实体对比)
聚梦小课堂
3 个月前
人工智能
·
深度学习
·
图像生成
·
benchmark
·
imagenworld
ComfyUI Blog: ImagenWorld 发布:面向图像生成与编辑的真实世界基准测试数据集
comfyui官方blog 10月17发了一篇blog,原文地址:https://blog.comfy.org/p/introducing-imagenworld
AI生成未来
4 个月前
多模态
·
扩散模型
·
图像生成
统一高效图像生成与编辑!百度&新加坡国立提出Query-Kontext,多项任务“反杀”专用模型
论文链接:https://arxiv.org/pdf/2509.26641亮点直击Query-Kontext,一种经济型集成多模态模型(UMM),能够将视觉语言模型(VLMs)中的多模态生成推理与扩散模型执行的高保真视觉渲染相分离。
学技术的大胜嗷
4 个月前
人工智能
·
深度学习
·
图像生成
使用BatchNorm偏置填充边界:确保推理一致性与数值稳定性
在深度学习模型中,BatchNorm(BN)层通过标准化数据来加速训练并提高模型的稳定性。然而,在实际应用中,边界区域的标准化常常存在一定的挑战,尤其是在推理阶段。偏置填充是一种有效的策略,它通过对边界数据进行平移,确保了边界区域的输出与中间区域的一致性。
_Meilinger_
4 个月前
人工智能
·
生成对抗网络
·
gan
·
扩散模型
·
图像生成
·
diffusion model
碎片笔记|生成模型原理解读:AutoEncoder、GAN 与扩散模型图像生成机制
前言:本篇博客简要介绍不同生成模型架构的图像生成原理,主要包括AutoEncoder、GAN 和 Diffusion Models 三类。
这张生成的图像能检测吗
4 个月前
人工智能
·
深度学习
·
计算机视觉
·
prompt
·
图像生成
·
超分辨率重建
·
clip
(论文速读)Prompt-Free Diffusion:告别提示工程的烦恼
论文题目:Prompt-Free Diffusion: Taking “Text” out of Text-to-Image Diffusion Models(无提示扩散:从文本到图像的扩散模型中提取“文本”)
这张生成的图像能检测吗
5 个月前
人工智能
·
计算机视觉
·
图像生成
·
图像编辑
(论文速读)BlenderGym:图形编辑的基准基础模型系统
论文题目:BlenderGym: Benchmarking Foundational Model Systems for Graphics Editing(BlenderGym:图形编辑的基准基础模型系统)