图像生成

春末的南方城市4 天前
人工智能·3d·aigc·controlnet·图像生成
单幅图像合成 360° 3D 场景的新方法:PanoDreamer,可同时生成全景图像和相应的深度信息。论文介绍了一种从单幅图像合成 360° 3D 场景的新方法。该方法以连贯的方式生成全景图及其相应的深度,解决了现有最先进方法(如 LucidDreamer 和 WonderJourney 的局限性。这些方法按照生成轨迹依次添加细节,通常在循环回输入图像时导致可见的接缝。相比之下,该方法可确保整个 360° 场景的一致性,如图所示。黄色条显示每个结果中与输入相对应的区域。
算家云1 个月前
人工智能·aigc·sd·图像生成·comfyui·工作流·unclip 模型
ComfyUI-unclip模型部署指南unCLIP 模型是 SD 模型的版本,经过专门调整,除了文本提示之外,还可以接收图像概念作为输入。使用这些模型附带的 CLIPVision 对图像进行编码,然后在采样时将其提取的概念传递给主模型。
YIN_尹2 个月前
图像生成
Fooocus图像生成软件本地部署教程:在Windows上快速上手AI创作本篇文章将介绍如何在本地Windows11电脑部署开源AI生图软件Fooocus,并结合Cpolar内网穿透工具轻松实现公网环境远程访问与使用。
BH042509092 个月前
计算机视觉·扩散模型·图像生成·cv
VQGAN(2021-06:Taming Transformers for High-Resolution Image Synthesis)论文:Taming Transformers for High-Resolution Image Synthesis
青云交2 个月前
人工智能·aigc·文本生成·图像生成·音乐生成·生成对抗网络(gan)·挑战与解决方案
智创 AI 新视界 -- 探秘 AIGC 中的生成对抗网络(GAN)应用💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的博客,正是这样一个温暖美好的所在。在这里,你们不仅能够收获既富有趣味又极为实用的内容知识,还可以毫无拘束地畅所欲言,尽情分享自己独特的见解。我真诚地期待着你们的到来,愿我们能在这片小小的天地里共同成长,共同进步。💖💖💖
算家云2 个月前
人工智能·aigc·图像生成·模型训练·抠图·背景去除·内容创作
BRIA-RMBG-1.4容器构建指南BRIA-RMBG-1.4 是 BRIA AI 公司开发的一款先进的背景去除模型,旨在高效、准确地从各种类别和类型的图像中分离前景和背景。
算家云2 个月前
人工智能·aigc·gpu·图像生成·hugging face·3d模型生成·comfyui、
stable-zero123模型构建指南stabilityai出品,能够对有简单背景的物体进行三维视角图片的生成,简单来说也就是通过调整变换观察的视角生成对应视角的图片。
春末的南方城市2 个月前
人工智能·计算机视觉·stable diffusion·aigc·音视频·图像生成
港大和字节提出长视频生成模型Loong,可生成具有一致外观、大运动动态和自然场景过渡的分钟级长视频。HKU, ByteDance|⭐️港大和字节联合提出长视频生成模型Loong,该模型可以生成外观一致、运动动态大、场景过渡自然的分钟级长视频。选择以统一的顺序对文本标记和视频标记进行建模,并使用渐进式短到长训练方案和损失重新加权来克服长视频训练的挑战。
春末的南方城市2 个月前
人工智能·计算机视觉·stable diffusion·aigc·图像生成
端到端的开源OCR模型:GOT-OCR-2.0,支持场景文本、文档、乐谱、图表、数学公式等内容识别!今天给大家分享一个端到端的开源 OCR 模型,号称 OCR 2.0! 支持场景文本、文档、乐谱、图表、数学公式等内容识别,拿到了 BLEU 0.972 高分。
春末的南方城市2 个月前
人工智能·计算机视觉·stable diffusion·开源·aigc·图像生成
个性化图像生成新SOTA!阿里开源MIP-Adapter,可将无需微调的IP-Adapter推广到同时合并多个参考图像。今天给大家介绍阿里最近开源的个性化图像生成的新方法MIP-Adapter,将无需微调的预训练模型(IP-Adapter)推广到同时合并多个参考图像。MIP-Adapter会根据每个参考图像与目标对象的相关性来给这些图像分配不同的“重要性分数”。这样,在生成图像时,系统能更好地理解每个对象应该如何表现,从而生成更高质量的图像。
春末的南方城市2 个月前
人工智能·计算机视觉·stable diffusion·aigc·图像生成
ScribbleDiff:使用涂鸦引导扩散,实现无需训练的文本到图像生成ScribbleDiff可以通过简单的涂鸦帮助计算机生成图像。比如你在纸上随意画了一些线条,表示你想要的图像的轮廓。ScribbleDiff会利用这些线条来指导图像生成的过程。
春末的南方城市2 个月前
人工智能·计算机视觉·stable diffusion·aigc·图像生成
新个性化时尚解决方案!Prompt2Fashion:自动生成多风格、类型时尚图像数据集。今天给大家介绍一种自动化生成时尚图像数据的方法Prompt2Fashion。 首先创建了一组描述,比如“适合婚礼的休闲风格服装”,然后用这些描述来指导计算机生成图像。具体来说,他们使用了大型语言模型来写出这些服装的描述,接着将这些描述输入到另一个模型中,生成出实际的服装图像。为了确保这些图像看起来好看且合适,研究人员还请了一些人来检查这些图像,确保它们符合时尚的标准。因此,该方法可以快速有效地创造出符合不同场合和风格需求的时尚图像。
算家云2 个月前
人工智能·aigc·conda·图像生成·comfyui·工作流·文本转图像
PhotoMaker部署文档PhotoMaker:一种高效的、个性化的文本转图像生成方法,能通过堆叠 ID 嵌入自定义逼真的人类照片。相当于把一张人的照片特征提取出来,然后可以生成你想要的不同风格照片,如写真等等。
春末的南方城市3 个月前
人工智能·计算机视觉·stable diffusion·aigc·图像生成
FLUX的ID保持项目也来了! 字节开源PuLID-FLUX-v0.9.0,开启一致性风格写真新纪元!之前的文章已经和大家介绍过字节开源的ID保持项目PuLID。随着FLUX模型的发布,PuLID也开源了 FLUX 版本的模型,不得不说FLUX的强大,两个月生态就赶上了SDXL。这次新发布PuLID-FLUX-v0.9.0模型,它为FLUX.1-dev提供了无需调整的ID定制解决方案。
知来者逆3 个月前
人工智能·计算机视觉·3d·图像生成
V3D——从单一图像生成 3D 物体论文地址:https://arxiv.org/abs/2403.06738 源码地址:https://github.com/heheyas/V3D.git
AI生成未来3 个月前
transformer·图像生成·视频生成·动画生成·人像动画生成
生动灵活,MegActor重磅升级!旷视科技发布MegActor-Σ:首个基于DiT的人像动画方法!文章链接:https://arxiv.org/pdf/2408.14975 项目链接:https://megactor-ops.github.io/
csdn5659738504 个月前
文生图·图像生成·通义万相·人像美化
图像生成技术飞速发展,个人化艺术创造还有多远?在开始话题之前,我先点进去了话题中提供的体验链接:https://www.aliyun.com/solution/tech-solution/tongyi-wanxiang 最开始进去这个页面看着和通义万相感觉一点关系没有,后来再次确认了链接没有错,那么意思就是需要自己部署 【通义万相文本绘图与人像美化】 这个,然后再体验通义万相的文生图 在文档中找到部署操作的内容,这里我为了可以快速体验自己部署版的通义万相,我选择【一键部署】 进入一键部署后,部署步骤比较简单,按照部署步骤先准备账号和DashScope
庞德公4 个月前
人工智能·图像生成·grok 2
Grok 2携AI图片生成重生埃隆·马斯克(Elon Musk)的人工智能初创公司xAI推出其最新的AI助手Grok 2的测试版,添加了类似于OpenAI的DALL-E和Google的Gemini的图像生成工具,但对可以生成的图像类型的限制显然较少。<这是其中的一个“亮点”,一些用户尝试Grok-2成功生成敏感图像,其中包括一张是某国前总统唐某发射两把手枪,一张是某国副总统哈某穿着军装站在加沙地带等等>
txdt5 个月前
人工智能·文生图·扩散模型·图像生成
从DDPM到DDIM(四) 预测噪声与后处理下图展示了DDPM的双向马尔可夫模型。训练目标。最大化证据下界等价于最小化以下损失函数:推理过程。推理过程利用马尔可夫链蒙特卡罗方法。
春末的南方城市5 个月前
人工智能·计算机视觉·aigc·图像生成
蚂蚁集团推出EchoMimic:能通过音频和面部标志生成逼真的肖像动画视频蚂蚁集团最近推出了一项名为EchoMimic的新技术。能通过音频和面部标志生成逼真的肖像动画视频,让你的声音和面部动作被完美复制到视频中,效果自然如照镜子。