【生成式人工智能-十五-经典的影像生成方法-GAN】

经典的影像生成方法-GAN

前面讲过VAE和Flow-based以及diffusion Model ,今天讲最后一种经典的生成方法GAN。

GAN

前面讲的几种模型都是用加入额外资讯的方式 ,来补充文字叙述所缺失内容,让模型依据这个生成的noise生成图片,但是GAN跟这些的生成方式不太一样。

GAN的模型是这样的:

Discriminator

这个Discriminator,它负责根据输入的描述和对应的图片进行评价,如果符合就给高分,跟之前讲过的CLIP模型处理方式是一样的,

当然它要学习低分的情况,要不然它永远只会答高分了,在CLIP模型中,它是打乱图片和描述,clip模型就给低分。

而在GAN这里不太一样。GAN是把一个生成模型生成的图片,只要是它生成的,就给低分,直到生成模型能骗过Discriminator,让它误以为这是真实的图片,然后打高分,说白了,就是直到生成模型生成的图片能够把Discriminator骗到让他误以为这是原本真实的图片和描述。下面再来讲生成模型:

Generator

Generator 负责根据描述的输入,生成图片,这些生成的图片和描述输入给Discriminator后,Discriminator进行打分,Generator就是根据这个分数不断的调整参数,直到能够骗过它,让Discriminator打出高分。

在这个训练过程与其他模型有何不同?
Generator的生成并没有一个确切的正确答案 ,它要做的就是让另外一个模型打出高分,仅此而已,不需要根据真实的图片进行比对。实际上在训练过程中,Discriminator和Generator的训练是交替进行的。Discriminator 不断的让自己变厉害,Generator也不断的调整自己,Discriminator不断的提高识别能力,Generator不断的提升生成能力。

还需要加入额外信息么

其他三个模型在生成图片的时候都需要加入额外的信息来生成图片,那么GAN还需要么?

答案是不需要。虽然现在大部分论文中仍有加入额外信息的习惯,但是实践以后发现,即使没有,生成的效果也很不错。

GAN可以加在其他模型上面

实际上GAN是可以作为外挂,挂在其他模型上面,以加强其他模型的能力的,比如VAE+GAN,Flow+GAN , Diffusion+GAN

我们可以用影像生成模型做什么?

讲了这么多模型,我们可以用它做什么呢?有没有可能人类与模型做一些更深入的互动呢?

现在已经有人在做了,比如Genie,它可以输入图片,然后输入一个动作,从而生成下一张图片,进入下一个场景,然后人可以继续输入动作,继续操作,就像玩游戏的一幕幕一样,无限下去:

你可能也发现这部分训练的难度就在于影像可以获得,但是影像中对应的动作,我们并不清楚,这个就跟我们讲VAE的模型是同样的道理,我们可以做一个模型,用来获取这个可能的动作是什么:

这个动作抽取的模型就是用来抽取这个画面我们可能进行的操作,然后再去生成图片,我们最终的目标就是生成的图片跟输入的下一个画面是一致的,这是跟VAE一样的原理的

有了这样的模型,我们可以跟环境做更加深入的互动。比如输入一段影片,输入操作,它就会不断的变换场景,而这种场景是根据你的输入随时可以切换的。就像是赛车游戏,我们不再局限于设定好的道路,而是随处拍到的照片都可以了。

相关推荐
Black_Rock_br6 分钟前
本地部署的终极多面手:Qwen2.5-Omni-3B,视频剪、音频混、图像生、文本写全搞定
人工智能·音视频
用什么都重名15 分钟前
《GPT-OSS 模型全解析:OpenAI 回归开源的 Mixture-of-Experts 之路》
人工智能·大模型·openai·gpt-oss
CV-杨帆32 分钟前
使用LLaMA-Factory的数据集制作流程与训练微调Qwen3及评估
人工智能
AI决策者洞察1 小时前
Vibe Coding(氛围编程):把代码交给 AI 的瞬间,也交出了未来的维护权——慢慢学AI162
人工智能
德育处主任1 小时前
终结开发混乱,用 Amazon Q 打造AI助手
人工智能·aigc
铁锚1 小时前
在MAC环境中安装unsloth
人工智能·python·macos·语言模型
学行库小秘1 小时前
基于门控循环单元的数据回归预测 GRU
人工智能·深度学习·神经网络·算法·回归·gru
XIAO·宝2 小时前
机器学习--数据预处理
人工智能·机器学习·数据预处理
爱喝奶茶的企鹅2 小时前
Ethan独立开发新品速递 | 2025-08-21
人工智能