生成模型

盼小辉丶5 天前
pytorch·深度学习·transformer·生成模型
PyTorch实战(23)——基于Transformer生成音乐我们已经学习了如何使用 MuseGAN 生成逼真的多音轨音乐。MuseGAN 将一段音乐视为一个类似图像的多维对象,并生成与训练数据集中相似的音乐作品。在本节中,将采另一种方法来创作音乐,将音乐视为一系列音乐事件。具体来说,将开发一个类似 GPT 的模型,基于序列中所有先前事件来预测下一个音乐事件。本节将创建的音乐 Transformer 拥有 2016 万个参数,足以捕捉不同音符在音乐作品中的长期关系,同时也可以在合理的时间内完成训练。 我们将使用 Maestro 钢琴音乐作为训练数据,MIDI 文件转
盼小辉丶11 天前
pytorch·深度学习·stable diffusion·生成模型
PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践在本节中,我们将为扩散模型添加文本控制能力。学习如何通过文字描述来引导图像生成过程,实现从"纯噪声+文本"生成图像,而不仅是从纯噪声生成。
盼小辉丶12 天前
pytorch·深度学习·stable diffusion·生成模型
PyTorch实战(21)——扩散模型(Diffusion Model)我们已经学习了如何使用生成对抗网络 (Generative Adversarial Network, GAN) 生成图像。本节将探讨一种更前沿的图像生成范式——扩散模型 (Diffusion Model)。我们将首先解析扩散模型的工作原理,然后使用 PyTorch 从零开始训练扩散模型以生成逼真图像。通过本节学习,将掌握使用 PyTorch 从零开始训练扩散模型的完整流程。
盼小辉丶15 天前
pytorch·深度学习·生成模型·扩散模型
PyTorch生成式人工智能(30)——扩散模型(Diffusion Model)文本生成图像 (text-to-image) Transformer 模型,如 OpenAI 的 DALL-E 2、Stability AI 的 Stable Diffusion,能够根据文本描述生成高质量的图像。这些文本生成图像的模型包含三个核心组成部分:一个文本编码器,将文本压缩成潜表示;一个将文本信息融入图像生成过程的方法;以及一个扩散机制,逐步优化图像以产生逼真的输出。理解扩散机制对于理解文本生成图像 Transformer 尤其重要,因为扩散模型构成了所有主流文本生成图像 Transformer
盼小辉丶16 天前
pytorch·深度学习·生成模型
PyTorch实战——pix2pix详解与实现我们已经深入探讨了生成对抗网络 (Generative Adversarial Network, GAN) 模型,现有数百种不同类型的 GAN 变体,且仍在持续涌现。这些 GAN 变体的差异主要体现在以下三方面:目标应用长场景、基础模型架构和优化策略调整(如损失函数修改)。例如,超分辨率 GAN (SRGAN) 用于提升低分辨率图像的分辨率;CycleGAN 采用双生成器架构;最小二乘 GAN (LSGAN) 使用均方误差替代传统交叉熵作为判别器损失。 在本节中,我们将探讨与神经风格迁移模型相关的一种 G
盼小辉丶23 天前
pytorch·深度学习·生成对抗网络·生成模型
PyTorch实战(20)——生成对抗网络(Generative Adversarial Network,GAN)生成式人工智能已成为当前研究的热门领域,生成对抗网络 (Generative Adversarial Network, GAN) 模型于 2014 年提出,自基础 GAN 架构诞生以来,针对不同应用场景的各类 GAN 变体不断涌现并持续演进。 与变分自编码器 (Variational Autoencoder, VAE) 不同,VAE 可以学习数据的潜分布,并通过从该分布中采样生成新的样本;自回归模型则逐步生成数据,每次生成一个元素,并以之前生成的元素为条件生成数据。而 GAN 无需显式建模数据分布,即可生
这张生成的图像能检测吗24 天前
人工智能·图神经网络·生成模型·分子设计·药物发现
(论文速读)VJTNN+GAN分子优化的图到图翻译论文题目:Learning Multimodal Graph-to-Graph Translation for Molecular Optimization(学习用于分子优化的多模态图到图转换)
有为少年1 个月前
人工智能·深度学习·神经网络·学习·机器学习·计算机视觉·生成模型
带噪学习 | Ambient Diffusion (NeurIPS 2023) 上篇Ambient Diffusion是首个基于扩散模型的框架,可仅通过高度损坏的样本(如缺失 90% 像素的图像)学习干净数据的分布,其核心思路是在扩散过程中引入额外测量失真,要求模型从进一步损坏的图像中预测原始损坏图像,能避免生成模型记忆训练样本,在 CelebA、CIFAR-10、AFHQ 等基准数据集上表现优异,还可在单 GPU 上仅用数小时微调基础模型(如 Deepfloyd IF),适用于 MRI 扫描等小样本损坏数据集,同时在逆问题求解中仅需 1 步预测就可比肩需数百步的现有方法。
盼小辉丶1 个月前
pytorch·深度学习·生成模型
生成模型实战 | 残差流(Residual Flow)详解与实现残差流模型 (Residual Flow) 是一种基于归一化流 (Normalizing Flow) 的生成模型,它通过一系列可逆的残差变换将简单分布(如高斯分布)转换为复杂的数据分布。与传统的归一化流不同,残差流使用残差连接来构建可逆变换,这使得模型能够构建更深的网络结构。在本节中,我们将介绍残差流模型的基本原理并使用 PyTorch 从零开始实现残差流模型。
吐个泡泡v1 个月前
深度学习·vae·生成模型·自编码器
深度学习中的“压缩与解压“艺术:自编码器与VAE详解想象一下你拍了一张高清照片,文件大小动辄几MB甚至几十MB。为了方便传输,你需要把它压缩到几百KB,但又希望解压后看起来依然清晰。这就像我们今天要聊的自编码器——一个会"压缩与解压"的神经网络。
盼小辉丶1 个月前
pytorch·深度学习·lstm·生成模型
PyTorch实战(16)——基于LSTM实现音乐生成本节我们将介绍音乐生成,利用 PyTorch 构建能够创作类古典音乐的机器学习模型。在本节中,我们将采用长短期记忆网络 (Long Short-Term Memory, LSTM) 来处理序列化音乐数据。训练数据选自莫扎特的古典音乐作品,每首乐曲将被分解为钢琴音符序列。读取以 MIDI (Musical Instrument Digital Interface) 格式存储的音乐数据,MIDI 是一种跨设备、跨环境读写音乐数据的通用标准格式。 在将 MIDI 文件转换为钢琴音符序列(即钢琴卷帘谱,piano
盼小辉丶2 个月前
深度学习·语言模型·bert·生成模型
生成模型实战 | BERT详解与实现BERT (Bidirectional Encoder Representations from Transformers) 是 Google 在提出的预训练语言模型,它通过 Transformer 编码器结构和掩码语言模型 (Masked Language Model, MLM) 任务,实现了真正的双向上下文理解。在本节中,我们将学习如何从零开始训练自编码语言模型。训练过程包括模型的预训练和针对特定任务的训练。首先,学习 BERT (Bidirectional Encoder Representatio
这张生成的图像能检测吗3 个月前
人工智能·计算机视觉·交互·生成模型·图像生成·视觉语言模型·3d重建
(论文速读)InteractVLM: 基于2D基础模型的3D交互推理论文题目:InteractVLM: 3D Interaction Reasoning from 2D Foundational Models(基于2D基础模型的3D交互推理)
youcans_3 个月前
论文阅读·人工智能·计算机视觉·3d·生成模型
【医学影像 AI】一种用于生成逼真的3D血管的分层部件生成模型更多内容请关注【医学影像 AI by youcans@Xidian 专栏】2025 年 清华大学 Siqi Chen 等在 MICCAI2025 发表论文 “一种用于生成逼真的3D血管的分层部件生成模型(Hierarchical Part-based Generative Model for Realistic 3D Blood Vessel)”。
盼小辉丶3 个月前
深度学习·神经网络·cnn·生成模型
使用CNN构建VAE在原始变分自编码器 (Variational Autoencoder, VAE) 中,VAE 网络采用全连接网络实现。本节将使用卷积神经网络 (Convolutional Neural Network, CNN) 提升生成数字的质量,同时将参数数量大幅减少至 134165 个。
孤狼灬笑3 个月前
rnn·深度学习·算法·cnn·生成模型·fnn
深度学习经典分类(算法分析与案例)目录前馈神经网络(FNN)卷积神经网络(CNN)循环神经网络(RNN)生成模型总结与展望深度学习是人工智能的重要分支,其分类方式多样,主要可以从学习方式、模型架构和应用场景等角度进行划分。例如,按照学习方式可分为监督学习、无监督学习和强化学习;按照应用场景分类,深度学习广泛应用于图像识别、自然语言处理、语音识别和推荐系统等领域。比如,CNN在医疗诊断中用于分析医学图像,RNN和Transformer在机器翻译和文本生成中表现优异。本文主要是从模型架构的角度来进行分类的。
盼小辉丶4 个月前
人工智能·深度学习·计算机视觉·keras·生成模型
视频生成技术Deepfake我们已经了解并建立了多种用于图像生成的模型,包括 StyleGAN、Self-Attention GAN (SAGAN) 和扩散模型等,在本节中我们将继续学习视频生成(合成)。本质上,视频只是一系列图像。因此,最基本的视频生成方法是单独生成图像,并按顺序将它们放在一起以制作视频。在本节中,我们将概述视频生成。然后,我们将实现视频生成技术 Deepfake。我们将使用此功能将视频中的人脸与其他人的脸部交换。
盼小辉丶4 个月前
深度学习·生成对抗网络·aigc·keras·生成模型
AIGC实战——BicycleGAN详解与实现pix2pix 和 CycleGAN 是非常的流行生成对抗网络 (Generative Adversarial Network, GAN) ,不仅在学术界有许多变体,同时也有许多基于此的应用。但是,它们都有一个缺点——图像的输出看起来几乎总是相同的。例如,如果我们要执行斑马到马的转换,被转换的同一马的照片将始终具有相同的外观和色调,这是由于它学会过滤了噪声的随机性。为了进行多样化图像转换,本文详解了 BicycleGAN 如何解决此问题以生成更丰富的图像,并利用 Tensorflow2 实现 Bicycl
盼小辉丶4 个月前
深度学习·生成模型
生成模型与概率分布基础概率分布是机器学习的基础,在生成模型中尤为重要。在本节中,我们首先了解什么是概率,以及如何在不使用任何神经网络或复杂算法的情况下使用它来生成人脸图像。仅借助基本数学和 NumPy 代码,学习如何创建概率生成模型。
大千AI助手5 个月前
人工智能·深度学习·生成对抗网络·gan·生成模型·ian goodfellow·对抗训练
生成对抗网络(GAN):深度学习领域的革命性突破本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!