这篇文章介绍了一类全新的生成式人工智能模型------光学生成模型(Optical Generative Models) ,其核心思想是利用光学系统和光传播过程本身来执行图像生成任务 ,从而实现高效、低功耗、可扩展的图像合成。以下是文章主要研究内容的总结:
🌟 研究背景与动机
-
当前数字生成模型(如扩散模型、GAN、VAE)在图像、文本、音频等生成任务中表现出色,但模型规模庞大、推理能耗高、延迟大。
-
随着生成式AI的广泛应用,能效与可扩展性成为关键瓶颈。
-
本文提出光学生成模型 ,通过光学模拟计算 替代部分数字计算,显著降低能耗并提升生成速度。
🔬 核心方法
1. 模型结构
-
浅层数字编码器:将随机高斯噪声快速映射为二维相位图(称为"光学生成种子")。
-
可重构衍射光学解码器 :通过自由空间光传播,全光学地将相位种子转换为图像。
-
整个光学路径在生成图像时无需额外计算功耗,仅需光照和SLM(空间光调制器)驱动。
2. 两种生成模式
-
快照光学生成(Snapshot):一次性从噪声生成图像,适用于快速生成。
-
迭代光学生成(Iterative):模拟扩散过程,逐步去噪生成图像,质量更高,适合复杂分布。
🧪 实验验证
-
数据集:MNIST、Fashion-MNIST、Butterflies-100、CelebA、梵高画作等。
-
图像类型 :手写数字、时尚商品、人脸、蝴蝶、艺术作品等,支持单色与彩色图像生成。
-
实验平台:基于可见光的自由空间光学系统,使用SLM和图像传感器。
-
性能指标:IS(Inception Score)、FID(Fréchet Inception Distance)、CLIP Score、分类准确率等。
-
结果 :光学生成模型在图像质量、多样性、语义一致性等方面与数字扩散模型相当甚至更优。
⚙️ 技术优势
-
能效极高:生成图像时光学部分几乎不耗能,主要能耗来自编码器与SLM。
-
速度快:光传播过程在纳秒级别完成,整体速度受限于SLM刷新率。
-
可扩展性强:通过更换生成种子和衍射解码器,可快速切换不同图像分布任务。
-
结构简单 :衍射解码器可固化为被动光学元件(如纳米结构表面),无需复杂硬件。
🔐 拓展应用
-
隐私保护与多路复用 :同一光学种子在不同波长下可被不同解码器还原为不同图像,实现加密通信与定向显示。
-
AR/VR与边缘计算:适用于对能耗和体积敏感的显示与生成任务。
-
三维图像生成:利用衍射网络可在空间中生成立体图像,拓展至全息显示等领域。
✅ 结论
本文提出的光学生成模型 首次实现了全光学、可训练、可扩展的图像生成系统 ,在能效、速度、图像质量 等方面展现出巨大潜力。该研究为光学人工智能、生成式模型、模拟计算 等领域开辟了新的方向,未来有望应用于智能显示、边缘AI、隐私通信、艺术创作等场景。
这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:

项目地址在这里,如下所示:

摘要
生成模型广泛应用于图像与视频合成、自然语言处理、分子设计等多个领域。随着数字生成模型规模的不断扩大,实现快速且能效高的可扩展推理成为一大挑战。本文提出了一种受扩散模型启发的光学生成模型 ,其通过一个浅层且快速的数字编码器将随机噪声映射为相位图样,作为目标数据分布的"光学生成种子";随后,一个联合训练的自由空间可重构光学解码器以全光学方式处理这些生成种子,生成从未出现过的图像,且符合目标数据分布。除了照明功耗和通过浅层编码器生成随机种子外,这些光学生成模型在图像合成过程中不消耗计算功耗 。我们展示了基于MNIST、Fashion-MNIST、Butterflies-100、Celeb-A以及梵高绘画等数据集的手写数字、时尚商品、蝴蝶、人脸和艺术作品的单色与多色图像的光学生成 ,其整体性能与基于数字神经网络的生成模型相当。为实验验证光学生成模型,我们使用可见光生成了手写数字和时尚商品图像,并利用单色与多波长照明生成了梵高风格的艺术作品。这些光学生成模型有望为能效高、可扩展的推理任务开辟新路径,进一步挖掘光学与光子在人工智能生成内容中的潜力。
近年来,数字生成模型已能创作多样化的、高质量的合成图像¹⁻⁴,具备类人自然语言处理能力⁵,生成新乐曲⁶,甚至设计新蛋白质⁷。这些新兴的生成式人工智能技术对大型语言模型(LLMs)⁵,¹¹、具身智能⁸以及 AI 生成内容⁹,¹⁰等应用至关重要。随着模型规模不断增大,其对算力、内存和推理时间的需求也急剧上升¹¹,其可扩展性与碳排放问题日益受到关注¹³,¹⁴。尽管已有多种方法²⁰⁻³⁹试图缩小模型、降低功耗并加速推理,但仍亟需开发替代方案,以实现高能效、可扩展的生成式 AI。
本文提出光学生成模型 ,可直接利用光学过程 合成符合目标数据分布的单色或彩色图像,即在光学域内生成从未出现过的图像 。受扩散模型⁴启发,该方法先用一个浅层数字编码器 将随机二维高斯噪声快速映射为二维相位结构,作为"光学生成种子";此步骤一次性完成。随后,通过预计算的光学生成种子 按需调用,经联合训练的自由空间可重构衍射解码器 全光学地生成图像。该框架可用集成光子或自由空间光学硬件实现(扩展数据图1)。本文以自由空间方案为例(图1及扩展数据图1b):每个生成种子加载到空间光调制器(SLM)并被平面波照射后,经由针对特定数据分布优化的静态衍射解码器完成成像,刷新率仅受限于 SLM 帧频。整个成像过程的光学计算完全通过自由空间光传播完成,无需额外功耗。
实验在可见光波段搭建自由空间系统,生成了手写数字、时尚商品、蝴蝶、人脸及梵高风格艺术作品等单色与多色图像,数据分布分别对应 MNIST¹⁵、Fashion-MNIST¹⁶、Butterflies-100¹⁷、Celeb-A¹⁸ 及梵高画作¹⁹。结果显示,光学生成模型在统计意义上与数字神经网络生成模型性能相当。实验还验证了模型能准确捕捉各目标分布的内在特征与关系。
该框架具有高度灵活性:针对不同数据分布的生成任务,只需更换生成种子及对应的衍射解码器表面,无需改动光学架构,即可合成无数图像。光学生成模型的高能效、可扩展与易重构特性,将为 AI 生成内容、图像视频处理与合成等应用提供新的解决方案⁴⁰。

快照图像生成
图1展示了我们单色快照图像生成模型的示意图。如图1a所示,遵循正态分布的随机二维输入首先由一个数字编码器编码为二维相位图样,该编码器快速提取潜在特征并将其编码到相位通道中,以便后续的模拟处理。这些由随机噪声生成的相位编码输入作为我们的"光学生成种子",被加载到空间光调制器(SLM)上,为衍射光学生成模型提供输入信息。在相干照明下,携带这些编码相位图样的光场传播并被一个针对特定目标数据分布优化的衍射解码器处理。最终,生成的图像被图像传感器捕获,代表符合目标数据分布的图像。
训练过程如图1b所示,我们首先基于去噪扩散概率模型(DDPM)训练一个教师数字生成模型,以学习目标数据分布。训练完成后,该DDPM模型被冻结,并持续生成噪声-图像数据对,用于训练快照光学生成模型。浅层数字相位编码器与光学生成模型进行联合训练,使模型能够以简单且可重构的架构高效学习目标分布。
图1c展示了我们的盲推理过程:由数字编码器从随机噪声图样生成的编码相位图样(即光学种子)被预先计算,光学生成模型通过自由空间解码这些生成相位种子,使用一个固定或静态的解码器。为了快速从随机高斯噪声中合成光学生成相位种子,数字编码器由三个全连接层组成,其中前两层后接非线性激活函数(详见方法部分)。可重构衍射解码器经过优化,例如包含400×400个可学习相位特征,每个覆盖0--2π范围,优化完成后对每个目标数据分布保持静态。关于快照图像生成过程及联合优化解码层的详细信息见方法部分和补充图1。
我们在MNIST数据集和Fashion-MNIST数据集上分别训练了对应的光学生成模型。在扩展数据图2a、b中展示了这些模型生成的手写数字和时尚商品图像,这些图像从未在训练集中出现,但在各自的数据分布下展现出高质量的输出。我们使用Inception Score(IS)和Fréchet Inception Distance(FID)作为图像质量评估指标(扩展数据图2c、d)。这两个指标均在1000张生成图像的批次上计算,随机整数种子s ∈ [0, 10,000)用于控制随机高斯输入I(x, y)的采样。在IS评估中,我们生成与原始数据集相同数量的图像,以衡量整体数据分布。我们还对光学生成图像数据与原始数据集进行了t检验,P值用于评估IS指标提升的统计显著性(扩展数据图2c)。较高的IS值与P值小于0.05共同表明,我们的快照光学图像生成模型生成的图像在统计上比原始数据集更具多样性。基于FID的评估也显示了100次重复计算的统计结果,证明了光学生成图像与原始数据分布之间的一致性。
为了进一步评估快照光学生成模型的有效性,我们训练了三组共十个二元分类器,每组基于卷积神经网络架构。第一组分类器仅使用标准MNIST训练数据;第二组在由50%真实数据和50%光学生成图像组成的混合数据集上训练;第三组则完全使用光学生成图像进行训练(详见方法部分)。每个分类器负责识别一个特定的手写数字,所有训练集样本数量相同。这些分类器随后在标准MNIST测试集上进行盲评估,分类准确率如扩展数据图2e所示。完全由生成图像训练的分类器平均准确率为99.18%,相比基于标准MNIST数据训练的分类器仅下降0.4%。结合扩展数据图2f中各数字类别的IS和FID指标,这些分析表明快照光学生成的手写数字图像既遵循目标分布(由较低的平均FID值体现),又在风格上具有新颖性(由较高的平均IS值体现)。
接下来,我们评估了输出衍射效率(η)对光学生成模型图像生成性能的影响。η定义为图像传感器上分布的总光功率与照射在SLM平面上光学相位种子的总输入功率之比。根据可用照明功率和光学硬件中的噪声水平,可以通过在训练中加入与η相关的损失项来优化衍射效率。通过训练多个针对不同η水平的光学生成模型,我们在扩展数据图2g中报告了这些模型的FID与输出衍射效率之间的经验关系,批次大小为200,重复100次随机种子实验。值得注意的是,对于单层解码器的光学生成模型(蓝线),η平均可提升至41.8%,而图像质量仅略有下降,显示出快照光学生成模型在实现高能效图像合成方面的能力。我们还训练了具有五层连续解码层的光学生成模型(橙线),在给定输出衍射效率下进一步提升了图像质量;例如,η平均可提升至约50%,同时保持FID ≈ 100。这些分析表明,在期望的图像质量指标下,使用更深的解码器架构可以实现更高的输出衍射效率。
我们还进一步扩展了光学生成模型以支持多色图像生成,使用三种照明波长(即λR、λG和λB)。相关结果和分析见扩展数据图3及方法部分。
迭代光学生成模型
前述结果均基于快照光学生成模型,即每个相位编码的光学种子通过单次照明生成图像。我们还设计了一种迭代光学生成模型,可从高斯噪声中递归地重构目标数据分布。如图2a所示,该模型同样工作于三种照明波长,由浅层数字相位编码器编码的多通道相位图样依次加载到同一SLM上。为展示该迭代光学模型的生成能力,我们使用了5层联合优化并固定的解码层。与快照模型不同,在图像传感器平面上记录初始强度图像后,该图像会被加入设计方差的高斯噪声,作为下一时间步的迭代光学输入(时间步t ∈ [0, T],I_T ∼ N(0, I))。训练过程如图2b所示,我们采样一批时间步(t₁, t₂, ...),对原始数据I₀加噪得到噪声样本(I_t₁, I_t₂, ...),这些样本经过浅层数字编码器和迭代光学生成模型处理,输出结果。与标准DDPM不同,迭代光学生成模型直接预测去噪样本,损失函数与I₀计算。图2c展示了盲推理过程:模型从时间步T的高斯噪声开始,递归地去噪,最终在传感器平面生成图像(详见方法部分)。

我们训练了两个迭代光学生成模型,用于生成符合Butterflies-100¹⁷和Celeb-A¹⁸分布的多色图像(见扩展数据图4a)。与快照模型相比,迭代模型生成的图像质量更高,背景更清晰,显示出在不依赖数字扩散指导的情况下实现多样化图像生成的潜力。迭代模型的另一关键优势是不会出现模式崩塌,因为逐次迭代将分布映射任务分解为由不同时间步控制的独立高斯过程。
为突出浅层数字编码器与衍射解码器协作的重要性,我们还实现了一个不带数字编码器的迭代光学模型 ,并在Celeb-A数据集上训练。该模型仍能生成具有不同风格和背景的多色人脸图像,表明直接在SLM上实现强度到相位转换,结合图像传感器的光电转换,也能实现复杂的域映射,尽管性能和图像多样性略逊于使用数字编码器的版本。

扩展数据图4b展示了迭代光学生成模型在时间步t = 1000, 800, ..., 20, 1时的中间结果,清晰显示了模型如何逐步将噪声分布映射到目标数据域。扩展数据图4c、d分别给出了迭代模型的FID和IS指标,结果显示其图像生成性能显著提升:更低的FID表明生成图像更接近目标分布,更高的IS值及t检验结果表明其生成结果比原始数据集更具多样性。我们还报告了不带数字编码器的迭代模型的FID和IS值,其性能明显低于联合训练有浅层数字编码器的版本。
实验验证
我们在可见光波段搭建了一个可重构系统,实验验证了快照光学生成模型(图3a)。520 nm的激光经准直后均匀照射到一块空间光调制器(SLM)上;该SLM加载由浅层数字编码器预先生成的相位种子图样ϕ(x, y)。经过分束器后,被编码相位调制的光场进入另一块作为固定衍射解码器的SLM。针对不同目标分布,只需切换解码器状态而无需改动光路。最终,图像传感器记录生成的强度图样(图3b及方法)。
首先训练了两个模型,分别对应MNIST手写数字和Fashion-MNIST时尚商品。图3c给出实验结果:在MNIST和Fashion-MNIST上测得的FID分别为131.08与180.57,验证了系统对两种分布的适应能力,并证明快照光学生成的可行性。推理速度主要受SLM刷新限制,使用>1 kHz的高速SLM可进一步缩短。更多快照样例见补充图2、3及视频1、2。
为探索潜在空间,我们进行了噪声-图像插值实验(方法、扩展数据图5、视频3-9)。还在受限条件下(相位范围0--π/2 vs 0--2π;解码器位深4 bit vs 8 bit)测试了快照生成,结果(补充图4、5)表明增大相位编码范围与衍射解码器位深对质量至关重要。
随后利用同一装置进行高分辨率梵高风格图像实验。数字编码器与联合优化的衍射解码器配合,实现快照单色生成(扩展数据图6;补充图6给出网络结构)。补充图7显示衍射解码器远优于自由空间解码;后者CLIP评分常低于10--15,甚至完全失败,而前者输出稳定、质量高。增大SLM-解码器距离带来的数值孔径限制使分辨率略有下降(补充图7 vs 8),但衍射解码器依旧稳健。
进一步把数字编码器参数量从4400万增至5.8亿,可显著提升梵高风格图像的分辨率和细节(扩展数据图7)。图4、5给出了使用5.8亿参数编码器的高分辨率单色与RGB彩色实验结果:单色用520 nm照明,彩色按{450, 520, 638} nm顺序曝光并数字合色。图4左侧三列显示单张快照结果与使用10亿参数、1000步推理的教师扩散模型高度一致;右侧橙色框内则展示了光学模型跳出教师输出、具备创造性多样性的例子。图5的彩色梵高作品同样既可与教师模型一致,也可呈现不同风格,虽存在轻微色差,但高分辨率彩色图像质量依旧出色。补充图11、12提供更多彩色样例。
补充图13的峰值信噪比表明实验结果与数值仿真高度吻合;补充图14的CLIP评分进一步验证了语义一致性。
讨论
本工作利用衍射网络架构,首次实现了从噪声快照式光学生成图像。与以往自由空间光学网络主要聚焦计算成像、传感、降噪或分类等不同,我们的框架光学式地从噪声中"创造"出多样化图像,拓展了光学计算的应用边界。且无需更换硬件,仅通过重配置衍射解码器即可切换不同数据分布,对边缘计算、AR/VR显示及娱乐内容生成具有重要意义。
在教师DDPM指导下,光学模型可有效蒸馏目标分布的语义知识(扩展数据图8)。迭代式光学生成通过模仿扩散过程,自监督地学习数据分布,避免模式崩塌,甚至能生成比原始数据集更丰富的样本(扩展数据图4)。此外,相位编码提供了关键的非线性信息映射机制,其性能显著优于幅度或强度编码(扩展数据图9)。
当然,光学生成模型也面临对准误差、硬件缺陷、SLM相位量化深度有限等挑战。将硬件限制纳入训练可提升鲁棒性(补充图15)。若用二光子聚合或光刻将解码器固化为仅三阶相位(0, 2π/3, 4π/3)的被动薄膜,可进一步简化系统、降低成本,并利于实现空间/光谱复用、三维体成像等扩展功能,为近眼显示、可穿戴艺术生成等应用提供紧凑、高能效的"光学画师"。

另一个挑战在于光学调制器件或表面在物理实现生成种子与解码层时,其相位量化位深有限 。为此,我们在测试中人为施加不同相位位深约束,数值分析了三种情形(补充图15)。值得注意的是,即使在测试阶段强制限制相位位深,未受此限制训练的模型仍能生成可辨认的手写数字 。为缓解实际光学系统中的这一缺陷,可把位深限制直接纳入训练过程,使软件优化结果更贴近硬件能力与物理极限。相比训练时不考虑位深约束的模型,该策略显著提升了性能(补充图15)。
一项关键洞察是:仅需三个离散相位等级(每像素 0、2π/3、4π/3)的简化解码表面即可胜任生成任务 。这为用双光子聚合 或光学光刻纳米加工 制作被动式超薄解码元件打开了大门,可进一步简化系统,实现更紧凑、轻量、低成本的本地光学生成装置。
基于所提框架,还可设计空间或频谱复用 的光学生成模型,在不同空间与光谱通道上并行输出多幅独立图像 (参见方法与扩展数据图10的频分复用示例)。此外,借助衍射解码器对视觉信息的高速处理能力 ,光学生成模型有望实现真三维体成像,为增强现实、虚拟现实及娱乐应用等带来新机遇。

方法
快照光学图像生成过程




光学生成模型的训练策略


快照光学生成模型的实现细节
对于包含类别标签的 MNIST 和 Fashion-MNIST 数据集,数字编码器的第一层输入特征被表述为:


模型使用 PyTorch 2.21 进行训练和测试,使用四个 NVIDIA RTX 4090 图形处理单元。更多细节可以在补充信息部分 3 中找到。为了评估快照光学图像生成的质量,使用 IS 和 FID 指标来量化生成图像与原始分布相比的多样性和保真度。对于类别条件生成,例如手写数字,我们进一步通过比较在不同数据集组成上训练的各个二进制分类器的有效性来检验快照光学生成图像的效果。如扩展数据图 2e 所示,每个二进制分类器,基于相同的卷积神经网络架构,被训练来判断给定的手写数字是否属于特定的数字或类别。标准 MNIST 数据集、50%--50% 混合数据集和光学生成图像数据集每个目标数字包含 5000 张图像,非目标数字也包含 5000 张,非目标数字是从剩余类别中均匀采样的。为了模拟手写笔画厚度的变化,我们通过应用形态学操作(腐蚀和膨胀)生成的二进制掩模(随机核大小)来增强光学生成图像。为了评估高分辨率图像生成,使用 CLIP 分数来量化生成图像与参考文本之间的对齐程度(详细信息见扩展数据图 7)。
多色光学生成模型
扩展数据图 3a 展示了我们的多色光学生成模型的示意图,其硬件配置与"结果"部分中报告的单色对应物相同。对于多色图像生成,三个通道的随机高斯噪声输入被送入一个浅而快速的数字编码器,每个波长通道的相位编码生成种子模式
依次加载到同一个输入 SLM 上(扩展数据图 3a)。在相应波长的顺序照明下,通过一个固定衍射解码器生成遵循期望数据分布的多色图像,该解码器针对相同的图像生成任务进行了联合优化。生成的多色图像像以前一样在同一个图像传感器上记录。我们使用 3 种不同的波长(450 纳米、520 纳米、638 纳米)对扩展数据图 3a 中展示的多色光学图像生成框架进行了数值测试,其中 2 种不同的生成光学模型分别在 Butterflies-100 数据集和 Celeb-A 数据集上进行了训练。由于这两个图像数据集没有显式的类别,浅层数字编码器仅使用随机采样的高斯噪声作为输入,而不使用类别标签嵌入。例如,扩展数据图 3b 展示了多色光学生成模型生成的各种蝴蝶图像,揭示了遵循相应数据分布的各种图像特征和特性。在扩展数据图 3c 和 d 中,也展示了 Butterflies-100 和 Celeb-A 数据集的FID 和 IS 性能指标。IS 指标和 t 检验结果表明,与原始 Butterflies-100 数据集相比,光学多色图像生成模型在图像多样性和 IS 分数方面具有统计学意义上的显著改进(P<0.05),而与原始 Celeb-A 数据分布相比,没有显示出统计学意义上的显著差异。此外,一些失败的图像生成案例在扩展数据图 3b 的右下角用红框突出显示。这些罕见案例是基于噪声方差标准自动识别的,其中估计噪声方差(σ2)超过经验阈值 0.015 的生成图像被分类为生成失败。分别在 Butterflies-100 和 Celeb-A 数据集的光学生成图像中观察到 3.3% 和 6.8% 的图像生成失败。扩展数据图 3e 揭示了随着训练的继续,这种图像生成失败变得更加严重。这种行为在概念上类似于有时在训练阶段后期观察到的模式崩溃问题,使得训练时间更长的多色光学生成模型的输出局限于一些重复的图像特征。
性能分析与比较
我们对快照光学生成模型和由堆叠的全连接层组成的全数字深度学习模型进行了性能比较,这些模型在相同的图像生成任务上进行了训练。补充图 17-21 展示了这些光学和全数字生成模型的不同配置。在此分析中,我们报告了它们的计算操作(即浮点运算(FLOPs))、训练参数、平均 IS 值以及生成图像的例子,提供了这些方法的全面比较。补充图 18 中的数字生成模型以对抗性方式进行训练,结果表明,当全数字深度学习生成模型的深度较浅时,输出图像质量无法捕捉目标数据集的整个分布,导致失败或重复生成。然而,具有浅层数字编码器的快照光学生成模型能够实现与使用九个全连接层堆叠的更深层数字生成模型相匹配的统计上可比的图像生成性能(补充图 18)。为了提供额外的比较,补充图 19-20 中的数字模型使用与光学生成模型相同的教师 DDPM 进行训练,结果也显示了类似的结论。在补充图 21 中,我们还展示了使用数字 DDPM 的比较,其中 DDPM 中的 U-Net 的参数数量减少以匹配我们的浅层数字编码器的数量,这导致数字 DDPM 的输出中出现一些图像生成失败(尽管使用了 1000 步去噪),这些失败的输出在补充图 21c 中用红框突出显示。总体而言,我们在补充图 18-21 中报告的发现表明,使用大型 DDPM 作为光学生成模型的教师,可以通过浅层数字相位编码器后跟光学衍射解码器,在单次快照中实现图像的稳定合成。我们还将我们的快照光学生成模型的架构与基于自由空间传播的光学解码模型进行了比较,其中移除了衍射解码器(补充图 22a 和 b)。这一比较的结果表明,衍射解码器表面在提高生成图像的视觉质量方面发挥着关键作用。在补充图 22c 中,我们还分析了数字编码器中的类别嵌入特征;这一额外分析揭示了没有类别嵌入的光学模型的快照图像生成质量较低,表明这一额外信息使光学生成模型能够更好地捕捉底层目标数据分布的整体结构。为了进一步了解我们快照光学生成模型的物理特性,在补充图 23 中,我们报告了光学生成模型的性能作为编码相位范围 [0−απ] 的函数。我们的分析揭示了 SLM 处 [0−2π] 输入相位编码提供了更好的图像生成结果,正如预期的那样。在补充图 17a 中,我们还探索了光学生成种子相位模式的空间分辨率与生成图像质量之间的经验关系。随着编码相位种子模式的空间分辨率降低,图像生成的质量也会降低,这揭示了在生成光学种子处的空带宽积的重要性。此外,在补充图 15 中,我们探索了光学生成种子平面和衍射解码器处有限的相位调制水平(即有限的相位比特深度)的影响。这些比较揭示了可以通过在训练过程的前向模型中包括调制比特深度限制(由于例如廉价的 SLM 硬件或表面制造限制)来改进图像生成结果。这种使用有限相位比特深度的训练策略揭示了固定或静态解码器表面可以使用 4 相位比特深度甚至每个特征的 3 个离散相位水平(例如,0, 2π/3, 4π/3)成功地通过其解码器相位函数生成图像(补充图 15)。这一点很重要,因为大多数两光子聚合或光学光刻制造方法可以常规地制造每个特征具有 2-16 个离散相位水平的表面,这有助于用被动制造的表面结构替换解码器 SLM。
我们还调查了我们受扩散模型启发的训练策略对快照光学生成模型成功的重要性(补充图 17b)。当以生成对抗网络或变分自编码器的方式训练光学生成模型时,我们观察到光学生成模型难以捕捉底层数据分布,导致输出结果有限且重复或高度相似------未能生成符合期望数据分布的多样化和高质量图像。对于彩色梵高风格艺术作品的生成,我们还对光学生成模型、缩小版扩散模型(与我们的相位编码器大小匹配)和预训练的教师扩散模型进行了性能比较,如扩展数据图 8 所示。与我们的光学生成模型相比,与我们的相位编码器大小匹配的缩小版扩散模型尽管使用了 1000 步推理,但生成的图像质量较差,缺乏语义细节。光学生成模型的输出与教师扩散模型(也使用了 10.7 亿个可训练参数和 1000 步推理)相匹配。此外,CLIP 分数评估表明,光学生成的图像与底层语义内容有良好的对齐。关于梵高风格艺术作品生成的额外评估在补充图 13 和 14 中呈现,其中报告了峰值信噪比和 CLIP 分数,以证明在像素水平和语义水平上的一致性。由于只有大约 800 幅经过认证的梵高绘画作品可供使用,因此针对有限的数据分布计算 IS 或 FID 指标是没有意义的,并且会不够稳定。
相位编码与振幅或强度编码
光学生成模型采用的相位编码策略提供了一种有效的非线性信息编码机制,因为输入处的相位模式的线性组合不会在输出处创建可以表示为各个输出的线性叠加的复场或强度模式。事实上,这种相位编码策略增强了衍射解码层的能力;相比之下,我们在扩展数据图 9 中展示了使用振幅编码或强度编码训练的光学生成模型,这进一步突出了相位编码的优势,其优越性能通过生成的手写数字图像上的较低 FID 分数来量化。同样,对于梵高风格艺术作品的生成,使用振幅编码或强度编码的光学生成模型未能生成一致的高质量和高分辨率输出图像,如扩展数据图 9 所示,而相位编码策略成功生成了梵高风格的艺术作品。这些比较强调了相位编码在光学生成模型中的关键作用。
迭代光学生成模型的实现细节

因此,我们引入了一个系数来实现目标分布的转换(见补充信息部分2.4 的详细信息)。迭代光学生成模型的损失函数如下:


迭代光学生成模型的性能分析
我们还研究了衍射层的数量对性能的影响,以及由于多层衍射解码器的制造或组装中可能出现的潜在错位而导致的性能限制。我们的分析表明,没有数字编码器的迭代光学图像生成质量随着衍射层数量的减少而降低。补充图 24 进一步展示了衍射解码器的可扩展性:随着解码层数量的增加,Celeb-A 数据集上的 FID 得分降低,表明迭代光学生成模型的生成能力得到增强。此外,如补充图 25 所示,横向随机错位会导致多层迭代光学模型的图像生成性能下降。然而,使用少量随机错位训练迭代光学生成模型可以使其推理对这些未知的随机扰动更具鲁棒性(补充图 25),这是在光学生成模型中实现更深层衍射解码器架构的一个重要策略。
实验设置

通过快照光学生成模型进行潜在空间插值实验
为了探索快照光学生成模型的潜在空间,我们进行了实验,以研究随机噪声输入和生成图像之间的关系(扩展数据图 5、补充图 26 和补充视频 3-9)。如扩展数据图 5a 所示,从正态分布 N(0,I) 中采样两个随机输入 J1 和 J2,并使用方程 γJ=γJ1+(1−γ)J2 进行线性插值,其中 γ 是插值系数。需要注意的是,类别嵌入也以与输入相同的方式进行插值。插值后的输入 Jγ 和类别嵌入随后被送入训练有素的数字编码器,产生相应的生成相位种子,该种子被送入快照光学生成设置以输出相应的图像。扩展数据图 5b 展示了使用我们的光学生成设置对手写数字结果图像进行这种插值的实验结果。每一行显示从 J1(最左侧)到 J2(最右侧)生成的图像,中间图像由 γ 从 0 变化到 1 的插值输入产生。生成的图像在不同手写数字之间显示出平滑的过渡,表明快照光学生成模型学习了一个连续且组织良好的潜在空间表示。值得注意的是,使用插值后的类别嵌入表明所学习的模型实现了外部泛化:在整个插值过程中,生成的图像保持可识别的数字特征,通过插值后的类别嵌入逐渐将一个手写数字转换为另一个数字,表明有效地捕捉了手写数字的底层数据分布。我们光学设置的更多基于插值的实验图像生成结果如补充图 26 和补充视频 3-9 所示。
多路复用光学生成模型
我们在扩展数据图 10 中展示了光学生成模型作为隐私保护和多路复用视觉信息生成平台的潜力。在扩展数据图 10a 所示的方案中,由随机种子生成的单个编码相位模式在不同波长下被照明,只有正确配对的衍射解码器才能准确重建并揭示对应波长通道中的预期信息。这建立了安全的内容生成,并以多路复用的方式同时向一组观众传输视觉信息,其中数字编码器呈现的信息除非使用正确的物理解码器,否则对其他人不可访问(扩展数据图 10b)。这与基于自由空间的图像解码不同,基于自由空间的图像解码由于不同通道之间的强串扰,无法使用相同的编码模式多路复用信息通道,如扩展数据图 10c 所示。通过在给定的解码器架构中增加与波长数量成比例的可训练衍射特征数量,这种隐私保护的多路复用能力可以扩展到包括许多波长,其中每个独特的解码器只能访问来自相同或公共编码器输出的一个信息通道。这种通过衍射解码器实现的安全多路复用能力不需要解码器材料的色散工程,还可以通过在衍射解码器系统中加入偏振多样性来进一步提高。如果没有经过空间优化的衍射解码器,它们作为物理安全密钥,简单的波长和/或偏振多路复用方案通过自由空间衍射或显示器无法提供真正的保护或隐私,因为任何人都可以在给定的波长和/或偏振组合下访问生成的图像内容。因此,与数字编码器一起设计的物理解码器架构为加密和隐私保护提供了天然的安全信息处理。由于编码器和解码器是协同设计的,而且可以在没有设计文件的情况下访问时,很难逆向工程或复制物理解码器。这种由不同物理解码器启用的隐私保护和多路复用能力,这些解码器从相同的数字编码器接收信号,对于传统的图像显示技术来说很难实现,因为它们呈现的内容对任何观察者都是可见的。对于各种应用,如安全视觉通信向一组用户(例如在公共场合)、防伪和个性化访问控制(例如动态适应每个用户的特定属性或历史),私有和多路复用的生成视觉内容的传输将非常受欢迎。这种安全的多路复用光学生成模型也可以设计为与部分空间相干光一起工作,通过在光学前向模型中适当地包含所需的空间相干直径来实现,这将使所提出的框架能够应用于例如发光二极管。
光学生成模型的能耗和速度
所展示的光学生成模型包括四个主要组件:电子编码器网络、输入 SLM、照明光和衍射解码器,它们共同针对图像显示进行了优化。用于 MNIST 和 Fashion-MNIST 数据集的电子编码器由三个全连接层组成,每张图像需要 6.29 MFLOPs,能耗约为 0.5-5.5 pJ FLOP^-1,因此每张图像的能耗为 0.003-0.033 mJ。对于图 4 和 5 以及扩展数据图 6 中报告的梵高风格艺术作品,这种能耗分别增加到约 1.13-12.44 J 和约 0.28-3.08 J 每张图像。输入 SLM 的功率范围为 1.9-3.5 W,在 60-Hz 刷新率下每张图像消耗约 30-58 mJ。使用最先进的 SLM 可以将这种 SLM 相关的能耗降低到 <2.5 mJ 每张图像。如果使用第二个 SLM,衍射解码器的能耗与输入 SLM 相似;然而,如果使用静态解码器(例如,被动制造的表面或层),其贡献将变得微不足道。至于照明光,每个波长通道的能耗可以估计为每张图像小于 0.8 mJ,与其他因素相比可以忽略不计。如果通过图像传感器芯片(例如,5-10 百万像素的 CMOS 成像仪)对生成的图像进行数字化,这也将增加额外的能耗,约为每张图像 2-4 mJ。因此,对于旨在由人类感知的生成图像的整体能耗------不包括数字相机的需要------在低分辨率图像生成中主要由基于 SLM 的功率主导,而对于高分辨率图像生成任务(例如梵高风格艺术作品)则由数字编码器的功率消耗成为主导因素。相比之下,使用 DDPM 模型的基于 GPU 的生成系统具有不同的能耗特性,这些特性主要由扩散和连续去噪过程(例如,1000 步)主导。例如,使用数字 DDPM 模型生成 MNIST、Fashion-MNIST 和梵高风格艺术作品图像的计算需求分别约为 287.68 GFLOPs 和 530.26 TFLOPs,分别对应于 MNIST 和 Fashion-MNIST 的每张图像约 0.14-1.58 J 和梵高风格艺术作品的每张图像 265-2916 J。我们还注意到,各种先前的工作集中在加速扩散模型以提高其推理速度和能效。例如,去噪扩散隐式模型使内容生成速度比 DDPM 快达 20 倍,同时保持相当的图像质量。在这种加速配置下,使用数字去噪扩散隐式模型生成图像所需的计算能量将约为 MNIST 和 Fashion-MNIST 的每张图像 7-79 mJ,梵高风格艺术作品的每张图像 13.25-145.8 J。此外,如果必须在显示器上显示生成的图像以供人类感知,将产生额外的能耗------通常在 60-Hz 刷新率下每张图像约为 13 mJ 至 500 mJ。总体而言,这些比较揭示了如果要生成的图像信息将被存储和处理或在数字域中利用,光学生成模型将因涉及光学设置中的数字-模拟和模拟-数字转换步骤而面临额外的功率和速度惩罚。然而,如果要生成的图像信息将保留在模拟域中供人类观察者直接可视化(例如,在近眼或头戴式显示器中),光学生成种子可以预先计算,每个种子的能耗如上所述。此外,静态衍射解码器表面可以使用光学光刻或两光子聚合基纳米制造方法制造,这将在显示设置中光学生成快照图像。这可以通过用制造的被动表面替换后端衍射解码器来实现"光学艺术家"等紧凑且成本效益高的图像生成器------通过使用更简单的本地光学硬件生成无数图像,包括各种形式的艺术作品。从数字生成模型的角度来看,作为比较,也可以使用标准图像显示器以及通过例如数字 DDPM 模型预先计算和存储的图像;然而,如前所述,这需要通过扩散和连续去噪过程进行图像生成的大幅增加的能耗。探索使用纳米制造表面的光学生成架构将使各种应用成为可能,特别是对于图像和近眼显示系统,包括头戴式和可穿戴设置。
报告总结
有关研究设计的进一步信息可在与本文链接的《自然组合》报告总结中找到。
数据可用性
作者声明,支持本研究结果的所有数据均可在正文、方法和补充信息中找到。
代码可用性
本文中使用的深度学习模型采用了 PyTorch 中公开可用的标准库和脚本。训练和测试代码可通过 Zenodo 在 https://zenodo.org/records/15446687 (ref. 72) 中找到。

扩展数据图 1 | 光学生成模型的说明
a, 光学生成模型的一般概念。从高斯噪声中随机采样的输入依次经过浅层数字编码器和光学处理器,生成遵循期望数据分布的全新输出图像------例如,生成全新的人脸图像。b, 自由空间基础光学生成模型的设计架构。c, 集成光子芯片基础光学生成模型的示意图。

扩展数据图 2 | 快照光学生成模型的数值性能评估
本图包含 AI 生成的图像。a, 由快照光学生成模型生成的全新手写数字图像(遵循 MNIST 数据分布)。b, 由快照光学生成模型生成的全新时尚产品图像(遵循 Fashion-MNIST 数据分布)。c, 在快照图像生成和原始目标数据集上进行的 IS 评估,其中还报告了两个分布之间的 t 检验结果。d, MNIST 和 Fashion-MNIST 快照光学图像生成过程的 FID 评估。e, 三组不同的 10 个二进制分类器(每个数字一个)的分类准确率。第一组(图 e 中的蓝色曲线)仅使用标准 MNIST 训练数据进行训练,第二组(图 e 中的橙色曲线)使用由标准和光学生成图像数据组成的 50-50% 混合数据集进行训练,而第三组(图 e 中的绿色曲线)使用 100% 光学生成图像进行训练。所有这些都在标准 MNIST 数据集的相同测试集上进行测试。使用 100% 生成图像数据训练的分类器平均准确率达到 99.18%(绿色曲线),与标准 MNIST 训练(蓝色曲线)相比,平均下降了 0.40%。f, 每个数字(0 到 9)的快照光学图像生成的平均 IS 和 FID 指标。g, 光学生成模型的 FID 得分与输出衍射效率之间的关系;基于一层和五层解码器的快照光学图像生成。

扩展数据图 3 | 多色光学生成模型的数值结果
本图包含 AI 生成的图像。a, 多色光学生成模型的示意图。b, 由多色光学生成模型生成的全新蝴蝶图像(遵循 Butterflies-100 数据分布)。我们在 b 的右下角用红框标出了部分生成失败的案例。c, 多色光学生成模型的 FID 评估。d, 多色光学生成模型与原始数据集的 IS 评估对比,其中还列出了每对分布之间的 t 检验结果。e, 随着对 Celeb-A 的持续训练,图像生成失败的比例。

扩展数据图 4 | 迭代光学生成模型的数值性能评估
本图包含 AI 生成的图像。a, 由迭代光学生成模型生成的全新蝴蝶图像(遵循 Butterflies-100 数据分布)。b, 迭代光学生成模型在不同时间步的中间结果。c, 迭代光学生成全新蝴蝶和人脸图像的 FID 评估。d, 迭代光学生成模型结果与原始对应数据集(Butterflies-100 和 Celeb-A)的 IS 对比,其中还列出了每对分布之间的 t 检验结果。迭代光学生成模型的 IS 值高于原始数据集,这表明光学模型能够生成比目标数据分布更多样化的图像。

扩展数据图 5 | 通过快照光学生成模型进行潜在空间插值的实验结果
本图包含 AI 生成的图像。a, 我们展示了通过快照光学生成模型进行潜在空间插值的过程,其中首先将两个不同的随机噪声模式(从正态分布中采样)和两个类别嵌入通过权重融合,然后输入到实验光学生成模型中。右侧展示了如何通过权重控制潜在空间插值过程以及插值后的类别嵌入,逐渐将一个手写数字转换为另一个数字。b, 展示了更多的潜在空间插值的实验结果。请参阅补充图 S26 和补充视频 3-9。

扩展数据图 6 | 单色梵高风格全新艺术作品生成的快照光学生成模型的数值和实验结果与 1000 步的教师数字扩散模型对比
本图包含 AI 生成的图像。我们展示了数字教师扩散模型(使用 10.7 亿个可训练参数和每张图像 1000 步推理)和快照光学生成模型在单色梵高风格全新艺术作品生成上的对比结果,以及快照光学生成模型的实验结果。数字相位编码器有 8500 万个可训练参数,每张快照光学图像由一个独特的随机噪声输入生成。

扩展数据图 7 | 快照光学生成模型生成的梵高风格艺术作品的文本-图像对齐的 CLIP 分数评估
本图包含 AI 生成的图像。由快照光学生成模型生成的图像通过计算对比语言-图像预训练分数(CLIP 分数)来评估,该分数量化了生成图像与参考文本:"梵高风格建筑绘画"之间的对齐程度。

扩展数据图 8 | 彩色梵高风格艺术作品的生成
本图包含 AI 生成的图像。多色光学生成模型(5.8 亿参数)的数值模拟结果与从头开始训练的缩小版扩散模型(中间显示)对比,其 U-Net 的可学习参数数量与光学生成模型中的数字编码器(5.8 亿参数)相同,以及预训练的教师扩散模型(右侧显示,10.7 亿参数)。多色光学生成模型、缩小版扩散模型和预训练教师扩散模型的平均 CLIP 分数分别为 28.25、24.45 和 28.72(参考文本:"梵高风格绘画 {建筑、植物、人物}")。

扩展数据图 9 | 使用快照光学生成模型对手写数字和彩色梵高风格艺术作品生成的不同信息编码策略的评估
本图包含 AI 生成的图像。a, 展示了不同数字到光学信息编码方法的对比。使用 FID 计算以量化图像生成的质量和多样性,其中相位编码获得了最佳分数。b, 对于梵高风格艺术作品的生成,相位编码在具有复杂细节的场景中显示出最佳的视觉效果。

扩展数据图 10 | 光学生成模型用于私有和多路复用信息生成
本图包含 AI 生成的图像。a, 展示了使用光学生成模型进行隐私保护和多路复用信息/图像投影的演示。从随机种子生成的单个编码相位模式在不同波长下被照明,只有匹配的衍射解码器才能正确重建并揭示预期信息;通过三个独特的衍射解码器,每个观众可以看到从同一编码相位模式生成的不同光学图像(即,梵高风格的建筑、植物、人物绘画)。b, 混淆矩阵显示了每个观众(V1、V2 或 V3)感知到的解码图像;每个观众都分配了一个单独的解码器(D1、D2 或 D3)。行代表不同的照明波长,而列对应于不同的衍射解码器,D1、D2、D3。c, 基于自由空间的解码(没有衍射解码器)在多路复用图像生成中失败。此外,它无法实现保护或隐私,因为任何人都可以在没有物理解码器的情况下观察到不同波长下的图像。