文生图

寻丶幽风12 天前
论文阅读·笔记·文生图·扩散模型·t2i
论文阅读笔记——PixArt-α,PixArt-δPixArt-α 论文 仅使用 28400 美元,28M 训练数据,训练时长为 SD 1.5 的 10.8%,只有 0.6B 参数量,达到接近商业应用的水准。 现有数据集存在的缺陷:图文匹配偏差、描述信息不完整、词汇多样性不足(长尾效应显著)、低质量数据。 为了实现低成本训练,华为采用了三阶段的训练策略:第一个阶段是学习像素依赖关系,简单来说是先学习生成真实的图像,这里是用ImageNet数据集训练一个基于类别的条件扩散模型;然后是学习文本和图像的对齐,即学习文本作为条件下的图像生成,这里的一个关键是采用
白熊18815 天前
人工智能·计算机视觉·文生图
【图像大模型】FLUX.1-dev:深度解析与实战指南在人工智能领域,图像生成技术一直是研究的热点之一。FLUX.1-dev 是由 Black Forest Labs 开发的一款开源的 120 亿参数的图像生成模型,它能够根据文本描述生成高质量的图像。本文将从算法工程师的角度,深入探讨 FLUX.1-dev 的技术细节、实现方式以及实战中的运行和问题解决方法。
白熊18816 天前
人工智能·计算机视觉·开源·文生图·音视频
【图像生成大模型】Wan2.1:下一代开源大规模视频生成模型在人工智能的浪潮中,视频生成技术正逐渐成为研究和应用的前沿领域。随着深度学习技术的不断进步,生成高质量、多样化视频的能力对于娱乐、教育、广告等多个行业都具有巨大的价值。Wan2.1 项目正是在这个背景下应运而生,它不仅代表了当前视频生成技术的先进水平,还为研究人员和开发者提供了一个强大的开源工具。
q_q王22 天前
大模型·文生图·comfyui·工作流·图生视频
Ubuntu源码版comfyui的安装Comfyui也出桌面版了,但是想让大家多个人都使用怎么办呢?也有方法,安装Linux版,启动后会生成个网页地址,打开就能用了。
SHIPKING39324 天前
llm·prompt·文生图
【Prompt工程—文生图】案例大全目录一、人物绘图二、卡通头像三、风景图四、logo设计图五、动物形象图六、室内设计图七、动漫风格八、二次元图
Panesle1 个月前
人工智能·计算机视觉·文生图·多模态
Chroma:一个开源的8.9B文生图模型Chroma 是一个基于 FLUX.1-schnell 的 8.9B 参数模型。它采用了 Apache 2.0 许可证,完全开源,允许任何人使用、修改和在其基础上进行开发,不存在企业限制。该模型目前正在训练中,训练数据集从 20M 样本中精心挑选出 5M 数据,涵盖动漫、兽类、艺术作品和照片等多种类型。Chroma 模型完全未经过审查,重新引入了缺失的人体解剖学概念,旨在成为一个可靠且开放的开源选择。
听吉米讲故事1 个月前
文生图·openai·gpt-4o
GPT-4o最新图像生成完全指南:10大应用场景与提示词模板OpenAI于近期推出的全新GPT-4o图像生成功能,代表了AI图像创作领域的重大突破。作为一个原生多模态系统,GPT-4o将文本理解和图像生成无缝整合,为创作者、教育工作者和专业人士提供了前所未有的视觉创作灵活性。本文将分享10个GPT-4o图像生成的典型应用场景,并提供详细的提示词示例,帮助您创建理想的图像作品。
公子公子~1 个月前
prompt·文生图·即梦·文字海报
任意文字+即梦3.0的海报设计Prompt即梦3.0版本发布后,对文字的呈现能力得到了极大的提升,网上也出现了各种文章教大家怎么写提示词。但是你有没有发现一个问题,好的提示词是需要艺术细胞的,只有那些浸淫设计领域的专家总结的提示词才算上乘。
小研学术1 个月前
人工智能·ai·文生图·多模态·deepseek·ai生图
AI文生图工具推荐一、AI文生图技术实现原理 AI文生图(Text-to-Image)基于生成对抗网络(GAN)或扩散模型(Diffusion Model)实现,通过深度学习将文本描述转化为图像。其核心流程包括:
曲幽1 个月前
python·ai·stable diffusion·lora·文生图·diffusers
Stable Diffusion LoRA模型加载实现风格自由对于模型微调来说,直接进行微调需要的硬件配置和时间都是相当夸张的,但要想实现风格切换自由,也不是只有模型微调一个方式,LoRA技术可以说很完美的解决了这个难题。无论是二次元画风还是复古胶片质感,都只需要加载小巧的LoRA模型,就能立即解锁意料之外的百变创作可能!
Jeremy_lf2 个月前
人工智能·文生图·transformer·多模态·扩散模型
【图像生成之21】融合了Transformer与Diffusion,Meta新作Transfusion实现图像与语言大一统论文:Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
猪猪的超超2 个月前
人工智能·prompt·文生图·gpt-4o
从吉卜力漫画到艺术创造:GPT-4o多种风格绘图Prompt大全在3月底,GPT-4o掀起了一阵吉卜力绘图浪潮,大家纷纷输入一张图片,让4o模型进行风格化迁移,其中吉卜力风格的漫画在社交媒体上最为火热。在大家争议4o的训练数据是否侵权和4o背后的技术原理的时候,我们先来玩一玩,体验一下,4o为我们带来的绘画乐趣。🤗
x-cmd2 个月前
人工智能·gpt·文生图·openai·命令行·neovim
[250401] OpenAI 向免费用户开放 GPT-4o 图像生成功能 | Neovim 0.11 新特性解读2025年4月1日早上,OpenAI CEO Sam Altman 宣布,GPT-4o 的图片生成功能现已向所有免费用户开放。但需要明确的是,免费用户在生成速度和每日使用量上会有所限制。
放羊郎2 个月前
stable diffusion·文生图·本地部署
从零开始实现Stable Diffusion本地部署文件打包下载地址(Stable Diffusion)浏览器打开 http://127.0.0.1:7860
吾与谁归in3 个月前
python·文生图·deepseek
【python运行Janus-Pro-1B文生图功能】体验了一把本地部署Janus-Pro-1B实现文生图功能。官方开源项目代码直接从Github上下载。模型官方下载需要魔法 Janus-Pro-1B模型文件:Janus-Pro-1B模型文件 百度网盘: https://pan.baidu.com/s/16t4H4z-QZe2UDAg4EF5g3w?pwd=6666
紫雾凌寒3 个月前
深度学习·计算机视觉·stable diffusion·aigc·文生图·图像分割·diffusion
计算机视觉|从0到1揭秘Diffusion:图像生成领域的新革命Diffusion 模型是一种基于扩散过程的生成模型,其灵感来源于非平衡热力学的理论框架。简单来说,它通过模拟数据的逐步退化与重建过程来生成新数据。具体而言,Diffusion 模型先通过正向扩散,向原始数据(如图像)中逐步添加噪声,使其逐渐演变为随机噪声;随后,通过学习一个反向过程,从纯噪声开始逐步还原出原始数据。这种方法在图像生成领域表现尤为突出,能够根据文本描述等条件生成逼真的图像。此外,它还在视频生成中展现出潜力,可生成连贯且高质量的动态内容,在当前人工智能生成内容(AIGC)领域中占据了一席之地
正在走向自律3 个月前
人工智能·文生图·音视频·ai绘画·文生视频·ai视频·通义万相 2.1
通义万相2.1:开启视频生成新时代文章摘要:通义万相 2.1 是一款在人工智能视频生成领域具有里程碑意义的工具,它通过核心技术的升级和创新,为创作者提供了更强大、更智能的创作能力。本文详细介绍了通义万相 2.1 的背景、核心技术、功能特性、性能评测、用户反馈以及应用场景,并提供了上手教程和未来展望,帮助读者全面了解这一先进的视频生成工具。
xinxiyinhe3 个月前
人工智能·文生图
浅谈文生图AI三款工具(DALL·E3/MidJourney/StableDiffusion)目前评价最好的文生图AI工具主要集中在"DALL·E3"、"MidJourney"和"StableDiffusion"三款工具上,它们各自在不同场景下表现突出。以下是综合对比和推荐:
铮铭4 个月前
深度学习·文生图·deepseek·janus-pro·图像理解
联想Y7000+RTX4060+i7+Ubuntu22.04运行DeepSeek开源多模态大模型Janus-Pro-1B+本地部署直接上手搓了:由于RTX4060只有8G显存,只能运行1B的模型,下面是下载模型的代码:修改demo/app_januspro.py中model的名称为1B。运行后用浏览器打开http://127.0.0.1:7860即可。
算家云6 个月前
人工智能·文生图·开源模型·模型构建·算家云·算力租赁·auraflow
文生图模型开源之光!ComfyUI - AuraFlow本地部署教程AuraFlow 是唯一一个真正开源的文生图模型,由Fal团队开源,其代码和权重都放在了 FOSS 许可证下。基于 6.8B 参数优化模型架构,采用最大更新参数化技术,还重新标注数据集提升指令遵循质量。在物体空间和色彩上有优势。并支持在线试用和与主流平台集成。未来有望在多领域广泛应用,以开源特色和强大实力吸引更多用户和开发者。下面将介绍AuraFlow的本地部署教程,希望能帮助到大家~