技术栈
图像生成
春末的南方城市
8 天前
人工智能
·
计算机视觉
·
aigc
·
音视频
·
图像生成
浙大|腾讯|华为 提出定制化视频生成框架VideoMaker,可通过参考图实现Zero-shot定制化视频生成。
浙大联合腾讯和华为提出了一种新的定制化视频生成框架——VideoMaker,利用VDM的内在能力,实现高质量的zero-shot定制化视频生成。该方法通过直接输入参考图像到VDM中,利用其固有的特征提取和注入机制,克服了以往方法在特征一致性和多样性方面的不足。通过对人类和物体视频生成的实验验证了该框架的有效性。
春末的南方城市
12 天前
人工智能
·
计算机视觉
·
aigc
·
图像生成
Google发布图像生成新工具Whisk:无需复杂提示词,使用图像和人工智能将想法可视化并重新混合
Whisk 是 Google Labs 的一项新实验,可使用图像进行快速而有趣的创作过程。Whisk不会生成带有长篇详细文本提示的图像,而是使用图像进行提示。只需拖入图像,即可开始创建。
春末的南方城市
17 天前
人工智能
·
计算机视觉
·
adobe
·
aigc
·
音视频
·
图像生成
东京大学联合Adobe提出基于指令的图像编辑模型InstructMove,可通过观察视频中的动作来实现基于指令的图像编辑。
东京大学联合Adobe提出的InstructMove是一种基于指令的图像编辑模型,使用多模态 LLM 生成的指令对视频中的帧对进行训练。该模型擅长非刚性编辑,例如调整主体姿势、表情和改变视点,同时保持内容一致性。此外,该方法通过集成蒙版、人体姿势和其他控制机制来支持精确的局部编辑。
AI生成未来
20 天前
图像生成
·
图像编辑
·
视频生成
NeurIPS 2024 | 像素级LLM实现图像视频理解、生成、分割和编辑大统一(昆仑万维等)
Accepted by NeurIPS 2024文章链接:https://arxiv.org/pdf/2412.19806 项目链接:https://vitron-llm.github.io/ Github链接:https://github.com/SkyworkAI/Vitron
春末的南方城市
21 天前
人工智能
·
3d
·
aigc
·
音视频
·
图像生成
厦门大学联合网易提出StoryWeaver,可根据统一模型内给定的角色实现高质量的故事可视化
厦门大学联合网易提出StoryWeaver,可以根据统一模型内给定的角色实现高质量的故事可视化。可根据故事文本生成与之匹配的图像,并且确保每个角色在不同的场景中保持一致。本文的方法主要包括以下几个步骤:
春末的南方城市
21 天前
人工智能
·
计算机视觉
·
aigc
·
controlnet
·
图像生成
Huggingface Trending!可控人物图像生成统一框架Leffa,可精确控制虚拟试穿和姿势转换!
今天给大家介绍一个Huggingface上虚拟试穿的热门项目Leffa,Leffa是一个可控人物图像生成的统一框架,可以精确操纵外观(即虚拟试穿)和姿势(即姿势转换)。从效果看生成效果很不错!
AI生成未来
1 个月前
图像生成
·
图像编辑
·
图像修复
图像修复和编辑大一统 | 腾讯&北大等联合提出BrushEdit:BrushNet进阶版来了
文章链接:https://arxiv.org/pdf/2412.10316 项目链接:https://liyaowei-stu.github.io/project/BrushEdit
春末的南方城市
1 个月前
人工智能
·
3d
·
aigc
·
controlnet
·
图像生成
单幅图像合成 360° 3D 场景的新方法:PanoDreamer,可同时生成全景图像和相应的深度信息。
论文介绍了一种从单幅图像合成 360° 3D 场景的新方法。该方法以连贯的方式生成全景图及其相应的深度,解决了现有最先进方法(如 LucidDreamer 和 WonderJourney 的局限性。这些方法按照生成轨迹依次添加细节,通常在循环回输入图像时导致可见的接缝。相比之下,该方法可确保整个 360° 场景的一致性,如图所示。黄色条显示每个结果中与输入相对应的区域。
算家云
2 个月前
人工智能
·
aigc
·
sd
·
图像生成
·
comfyui
·
工作流
·
unclip 模型
ComfyUI-unclip模型部署指南
unCLIP 模型是 SD 模型的版本,经过专门调整,除了文本提示之外,还可以接收图像概念作为输入。使用这些模型附带的 CLIPVision 对图像进行编码,然后在采样时将其提取的概念传递给主模型。
YIN_尹
3 个月前
图像生成
Fooocus图像生成软件本地部署教程:在Windows上快速上手AI创作
本篇文章将介绍如何在本地Windows11电脑部署开源AI生图软件Fooocus,并结合Cpolar内网穿透工具轻松实现公网环境远程访问与使用。
BH04250909
3 个月前
计算机视觉
·
扩散模型
·
图像生成
·
cv
VQGAN(2021-06:Taming Transformers for High-Resolution Image Synthesis)
论文:Taming Transformers for High-Resolution Image Synthesis
青云交
3 个月前
人工智能
·
aigc
·
文本生成
·
图像生成
·
音乐生成
·
生成对抗网络(gan)
·
挑战与解决方案
智创 AI 新视界 -- 探秘 AIGC 中的生成对抗网络(GAN)应用
💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的博客,正是这样一个温暖美好的所在。在这里,你们不仅能够收获既富有趣味又极为实用的内容知识,还可以毫无拘束地畅所欲言,尽情分享自己独特的见解。我真诚地期待着你们的到来,愿我们能在这片小小的天地里共同成长,共同进步。💖💖💖
算家云
3 个月前
人工智能
·
aigc
·
图像生成
·
模型训练
·
抠图
·
背景去除
·
内容创作
BRIA-RMBG-1.4容器构建指南
BRIA-RMBG-1.4 是 BRIA AI 公司开发的一款先进的背景去除模型,旨在高效、准确地从各种类别和类型的图像中分离前景和背景。
算家云
3 个月前
人工智能
·
aigc
·
gpu
·
图像生成
·
hugging face
·
3d模型生成
·
comfyui、
stable-zero123模型构建指南
stabilityai出品,能够对有简单背景的物体进行三维视角图片的生成,简单来说也就是通过调整变换观察的视角生成对应视角的图片。
春末的南方城市
3 个月前
人工智能
·
计算机视觉
·
stable diffusion
·
aigc
·
音视频
·
图像生成
港大和字节提出长视频生成模型Loong,可生成具有一致外观、大运动动态和自然场景过渡的分钟级长视频。
HKU, ByteDance|⭐️港大和字节联合提出长视频生成模型Loong,该模型可以生成外观一致、运动动态大、场景过渡自然的分钟级长视频。选择以统一的顺序对文本标记和视频标记进行建模,并使用渐进式短到长训练方案和损失重新加权来克服长视频训练的挑战。
春末的南方城市
3 个月前
人工智能
·
计算机视觉
·
stable diffusion
·
aigc
·
图像生成
端到端的开源OCR模型:GOT-OCR-2.0,支持场景文本、文档、乐谱、图表、数学公式等内容识别!
今天给大家分享一个端到端的开源 OCR 模型,号称 OCR 2.0! 支持场景文本、文档、乐谱、图表、数学公式等内容识别,拿到了 BLEU 0.972 高分。
春末的南方城市
3 个月前
人工智能
·
计算机视觉
·
stable diffusion
·
开源
·
aigc
·
图像生成
个性化图像生成新SOTA!阿里开源MIP-Adapter,可将无需微调的IP-Adapter推广到同时合并多个参考图像。
今天给大家介绍阿里最近开源的个性化图像生成的新方法MIP-Adapter,将无需微调的预训练模型(IP-Adapter)推广到同时合并多个参考图像。MIP-Adapter会根据每个参考图像与目标对象的相关性来给这些图像分配不同的“重要性分数”。这样,在生成图像时,系统能更好地理解每个对象应该如何表现,从而生成更高质量的图像。
春末的南方城市
3 个月前
人工智能
·
计算机视觉
·
stable diffusion
·
aigc
·
图像生成
ScribbleDiff:使用涂鸦引导扩散,实现无需训练的文本到图像生成
ScribbleDiff可以通过简单的涂鸦帮助计算机生成图像。比如你在纸上随意画了一些线条,表示你想要的图像的轮廓。ScribbleDiff会利用这些线条来指导图像生成的过程。
春末的南方城市
3 个月前
人工智能
·
计算机视觉
·
stable diffusion
·
aigc
·
图像生成
新个性化时尚解决方案!Prompt2Fashion:自动生成多风格、类型时尚图像数据集。
今天给大家介绍一种自动化生成时尚图像数据的方法Prompt2Fashion。 首先创建了一组描述,比如“适合婚礼的休闲风格服装”,然后用这些描述来指导计算机生成图像。具体来说,他们使用了大型语言模型来写出这些服装的描述,接着将这些描述输入到另一个模型中,生成出实际的服装图像。为了确保这些图像看起来好看且合适,研究人员还请了一些人来检查这些图像,确保它们符合时尚的标准。因此,该方法可以快速有效地创造出符合不同场合和风格需求的时尚图像。
算家云
3 个月前
人工智能
·
aigc
·
conda
·
图像生成
·
comfyui
·
工作流
·
文本转图像
PhotoMaker部署文档
PhotoMaker:一种高效的、个性化的文本转图像生成方法,能通过堆叠 ID 嵌入自定义逼真的人类照片。相当于把一张人的照片特征提取出来,然后可以生成你想要的不同风格照片,如写真等等。