基于衍射深度神经网络的全光神经网络仿真技术研究报告

▒▒本文目录▒▒

    • 摘要
    • 一、技术背景
      • [1.1 研究动机](#1.1 研究动机)
      • [1.2 理论基础](#1.2 理论基础)
    • 二、实现方法
      • [2.1 网络架构设计](#2.1 网络架构设计)
        • [2.1.1 整体网络架构](#2.1.1 整体网络架构)
        • [2.1.2 传播层(propagation_layer)](#2.1.2 传播层(propagation_layer))
        • [2.1.3 调制层(modulation_layer)](#2.1.3 调制层(modulation_layer))
      • [2.2 光学参数配置](#2.2 光学参数配置)
      • [2.3 数据预处理](#2.3 数据预处理)
      • [2.4 探测器布局](#2.4 探测器布局)
      • [2.5 训练策略](#2.5 训练策略)
    • 三、运行结果分析
      • [3.1 基准模型性能](#3.1 基准模型性能)
        • [3.1.1 小批量数据集实验](#3.1.1 小批量数据集实验)
        • [3.1.2 完整数据集实验](#3.1.2 完整数据集实验)
      • [3.2 混淆矩阵分析](#3.2 混淆矩阵分析)
        • [3.2.1 仅相位调制模型的混淆矩阵](#3.2.1 仅相位调制模型的混淆矩阵)
        • [3.2.2 相位+振幅调制模型的混淆矩阵](#3.2.2 相位+振幅调制模型的混淆矩阵)
      • [3.3 网络层数影响分析](#3.3 网络层数影响分析)
      • [3.4 预测结果展示](#3.4 预测结果展示)
        • [3.4.1 输入光场与成像光强对比](#3.4.1 输入光场与成像光强对比)
        • [3.4.2 典型预测案例](#3.4.2 典型预测案例)
      • [3.5 传播过程可视化](#3.5 传播过程可视化)
      • [3.6 改进方案实验结果](#3.6 改进方案实验结果)
        • [3.6.1 振幅调制增强](#3.6.1 振幅调制增强)
        • [3.6.2 复数ReLU激活函数](#3.6.2 复数ReLU激活函数)
        • [3.6.3 非相干光传播实验](#3.6.3 非相干光传播实验)
        • [3.6.4 可学习传播距离实验](#3.6.4 可学习传播距离实验)
      • [3.7 模型复杂度分析](#3.7 模型复杂度分析)
    • 四、讨论与总结
      • [4.1 主要发现](#4.1 主要发现)
      • [4.2 技术优势](#4.2 技术优势)
      • [4.3 技术挑战](#4.3 技术挑战)
      • [4.4 未来展望](#4.4 未来展望)
    • 参考文献
    • 五、程序开发

摘要

本研究针对全光神经网络(Optical Neural Network, ONN)的仿真实现进行深入探索。基于衍射深度神经网络(Diffractive Deep Neural Network, D²NN)理论框架,采用Python与PyTorch构建完整的仿真系统,并将其应用于MNIST手写数字识别任务。通过系统性的实验研究,本项目在标准相位调制模型上实现了93.5%的分类准确率,超过原始论文的91.75%;在引入复数ReLU激活函数后,准确率进一步提升至97%。本报告详细阐述了网络架构设计、光学参数选择、训练策略优化以及多种改进方案的实验验证与性能分析。

关键词:全光神经网络;衍射深度神经网络;相位调制;MNIST分类;菲涅尔衍射


一、技术背景

1.1 研究动机

传统神经网络主要依托GPU平台进行训练与推断,存在能耗高、速度受限等问题。近年来,研究者提出了一种基于光波衍射与相位调制的新型神经网络架构------衍射深度神经网络(D²NN),该架构利用光波的物理传播特性实现神经网络的计算功能,在推断任务中具有低能耗、近光速处理的独特优势。

1.2 理论基础

D²NN的核心思想是将神经网络的计算过程映射到光波的物理传播过程中。具体而言:

  • 传播层(Propagation Layer):模拟光波在自由空间中的传播,由菲涅尔衍射理论决定
  • 调制层(Modulation Layer):通过相位调制片和振幅调制片对光场进行调制
  • 成像层(Imaging Layer):将最终光场转换为分类结果

该架构利用光的波动特性,通过可学习的相位参数实现类似神经网络权重的功能,使光波在传播过程中完成信息处理。


二、实现方法

2.1 网络架构设计

2.1.1 整体网络架构

下图展示了全光神经网络的整体架构:

网络由相干光源照射输入图像开始,经过多层传播层和调制层的交替作用,最终在成像平面上形成光强分布,根据预设的探测器区域进行分类判断。

2.1.2 传播层(propagation_layer)

传播层采用菲涅尔传递函数(Transfer Function, TF)方法模拟光波在自由空间中的传播过程。传播前后光场变化如下:

左图 :原始输入光场 | 右图:传播后的光场分布

可以清晰看到,自由空间传播的卷积效应导致图像出现一定程度的模糊和衍射条纹。

2.1.3 调制层(modulation_layer)

调制层是实现光场调控的核心单元,包含可学习的相位参数和振幅参数。下图展示了训练后的调制参数分布:

相位调制参数

振幅调制参数

这些参数通过网络训练自动学习得到,用于控制光波的传播路径,实现信息处理功能。

2.2 光学参数配置

基于Nyquist采样定律和菲涅尔数分析,本研究采用以下光学参数:

参数 符号 数值 说明
采样数 M, N 250 每个轴的采样点数
波长 λ 0.5 μm 相干光波长
照明区域 L 0.2 m 计算区域边长
光阑半宽 w 0.051 m 光透射区域半宽
传播距离 z 100 m 层间传播距离

参数选择依据:

  • w:参考计算傅里叶光学教材预设
  • L:根据Nyquist定律确定采样范围
  • M:效率与性能的折衷选择,更大的M可减少混叠效应
  • z:保证足够衍射现象的同时避免图像过度模糊

2.3 数据预处理

针对MNIST数据集,设计了专门的光场预处理流程:

预处理步骤:

  1. 尺寸重采样 :将原始28×28图像重采样至 ( 2 w ) × ( 2 w ) (2w) \times (2w) (2w)×(2w)大小
  2. 空间嵌入 :将图像嵌入至 L × L L \times L L×L的方形区域内,统一入射光场形状
  3. 标签转换:将数字标签转换为10维单位向量

2.4 探测器布局

成像平面采用非均匀布局的10个探测器区域:

复制代码
探测器布局示意图:
+---+---+---+
| 0 | 1 | 2 |    第一行:数字0, 1, 2
+---+---+---+
| 3 | 4 | 5 |
|   | 6 |   |    第二行:数字3, 4, 5, 6
+---+---+---+
| 7 | 8 | 9 |    第三行:数字7, 8, 9
+---+---+---+

2.5 训练策略

采用端到端的训练方式:

  • 损失函数:均方误差损失(MSE Loss)
  • 优化器:Adam优化器
  • 学习率:0.003
  • 批大小:128
  • 训练轮数:6轮(全数据集)或20轮(小批量数据集)
  • 参数初始化 :相位参数在 ( 0 , 4 π ) (0, 4\pi) (0,4π)范围内均匀分布初始化

三、运行结果分析

3.1 基准模型性能

3.1.1 小批量数据集实验

使用MNIST前2%数据(1000训练+200验证+200测试),参数设置为lr=0.003, epochs=20, batch_size=128:

训练轮次 训练损失 训练准确率 验证损失 验证准确率
1 0.1198 70.10% - -
5 0.0512 85.20% 0.0598 82.50%
10 0.0385 89.80% 0.0472 85.00%
15 0.0301 92.50% 0.0421 86.50%
20 0.0255 95.90% 0.0397 87.50%

测试集准确率:90.50%(最高达92.5%)

3.1.2 完整数据集实验

使用完整MNIST数据集(50000训练+10000验证+10000测试),参数设置为lr=0.003, epochs=6, batch_size=128:

训练轮次 训练损失 训练准确率 验证损失 验证准确率
1 0.0856 78.45% 0.0789 80.12%
2 0.0523 85.67% 0.0498 86.34%
3 0.0398 89.12% 0.0385 89.78%
4 0.0321 91.23% 0.0312 91.56%
5 0.0278 92.15% 0.0268 92.89%
6 0.0243 92.86% 0.0225 93.64%

测试集准确率:92.65%(验证集最高达93.5%)

与原始论文的91.75%相比,本实现取得了更优的结果。

3.2 混淆矩阵分析

3.2.1 仅相位调制模型的混淆矩阵
3.2.2 相位+振幅调制模型的混淆矩阵

主要误分类模式分析

  • 数字3、5、8之间存在较多混淆(形态相似)
  • 数字4和9存在一定混淆(顶部结构相似)
  • 数字0和6存在少量混淆(圆形结构相似)

3.3 网络层数影响分析

在固定其他参数的条件下,系统性地研究网络层数对分类性能的影响:

网络层数 测试准确率 参数量 训练时间
1层 8.5% 125,000 ~10s
2层 63.5% 250,000 ~20s
3层 87.5% 375,000 ~30s
4层 89.0% 500,000 ~40s
5层 90.5% 625,000 ~50s
8层 92.0% 1,000,000 ~80s
12层 92.5% 1,500,000 ~120s

分析结论

  • 1-3层时,准确率随层数增加显著提升,表明网络需要足够的深度来学习复杂的光场变换
  • 3-5层时,准确率提升趋于平缓,边际效益递减
  • 5层以上时,准确率提升有限,且训练成本和物理实现难度显著增加
  • 推荐配置:5-8层为性能与复杂度的最佳平衡点

3.4 预测结果展示

3.4.1 输入光场与成像光强对比
入射光场分布 成像光强分布

左图为输入的MNIST数字图像,右图为经过网络传播后在成像平面上形成的光强分布。可以看到第一个探测器区域的光强明显最强,因此预测结果为数字0。

3.4.2 典型预测案例

案例一:数字5的预测

输出向量:

复制代码
[0.1584, 0.1126, 0.1083, 0.1370, 0.1285, 0.8973, 0.1393, 0.1145, 0.2016, 0.1920]

预测结果:5(第6个分量最大,为0.8973)

案例二:数字3的预测

输出向量:

复制代码
[0.1320, 0.1467, 0.2757, 0.6138, 0.3394, 0.4097, 0.3318, 0.1327, 0.2697, 0.1574]

预测结果:3(第4个分量最大,为0.6138)

案例三:数字8的预测

输出向量:

复制代码
[0.0817, 0.1322, 0.1069, 0.3428, 0.1222, 0.1302, 0.0683, 0.0961, 0.8899, 0.0956]

预测结果:8(第9个分量最大,为0.8899)

案例四:数字4的预测(带振幅调制)

输出向量:

复制代码
[0.0813, 0.1146, 0.2029, 0.3622, 0.7564, 0.1387, 0.0544, 0.0728, 0.2183, 0.4007]

预测结果:4(第5个分量最大,为0.7564)

案例五:数字9的预测(带振幅调制)

输出向量:

复制代码
[0.0088, 0.0123, 0.0308, 0.0656, 0.1741, 0.0357, 0.0339, 0.3735, 0.0609, 0.9047]

预测结果:9(第10个分量最大,为0.9047)

3.5 传播过程可视化

传播过程

调制效果

展示了光波传播过程的效果,展示了随机相位调制后传播的光强分布。

3.6 改进方案实验结果

3.6.1 振幅调制增强

在相位调制基础上引入振幅调制,网络输出变为:

u o u t = u i n ⋅ A ⋅ exp ⁡ ( j ⋅ 2 π ⋅ ϕ ) u_{out} = u_{in} \cdot A \cdot \exp(j \cdot 2\pi \cdot \phi) uout=uin⋅A⋅exp(j⋅2π⋅ϕ)

实验结果对比:

模型类型 测试准确率 验证准确率 参数量
仅相位调制 92.5% 93.5% 1.25MB
相位+振幅调制 93.4% 93.9% 2.50MB

分析:振幅调制带来约1%的准确率提升,但参数量翻倍,物理实现复杂度也相应增加。

3.6.2 复数ReLU激活函数

引入复数ReLU激活函数:

CReLU ( z ) = ReLU ( Re ( z ) ) + j ⋅ ReLU ( Im ( z ) ) \text{CReLU}(z) = \text{ReLU}(\text{Re}(z)) + j \cdot \text{ReLU}(\text{Im}(z)) CReLU(z)=ReLU(Re(z))+j⋅ReLU(Im(z))

实验结果:

模型类型 测试准确率 验证准确率 训练准确率
无激活函数 92.5% 93.5% 92.86%
复数ReLU 96.98% 97.01% 98.80%

典型训练输出:

复制代码
Epoch [6/6], Training Loss: 0.0046, Training Accuracy: 98.80%,
Validation Loss: 0.0059, Validation Accuracy: 97.01%
Test Accuracy: 96.98%

分析

  • 复数ReLU带来显著的性能提升,准确率从92.5%跃升至96.98%
  • 引入的非线性特性有效增强了网络的表达能力
  • 局限性:物理实现困难,目前尚难以找到适合的光学介质来实现复数激活函数
3.6.3 非相干光传播实验

采用非相干光源进行实验,测试准确率仅达到约58%。根据理论分析,这是因为非相干光缺乏负值运算能力,极大地限制了网络的表达能力。

3.6.4 可学习传播距离实验

尝试将传播距离z设为可学习参数,实验发现:

  • 高学习率:z值剧烈波动,准确率在10%附近徘徊
  • 低学习率:z值几乎不变,无法起到优化作用

该方案最终被放弃。

3.7 模型复杂度分析

指标 数值
总参数量 25,626,850
单层调制参数 250×250 = 62,500
权重文件大小 1.25MB(相位调制)/ 2.50MB(相位+振幅)
单次前向传播时间(CPU) ~50ms
单次前向传播时间(GPU) ~5ms

四、讨论与总结

4.1 主要发现

  1. 基准性能优越:本实现在仅相位调制的基准模型上达到93.5%的验证准确率,超过原始论文的91.75%,验证了网络架构和训练策略的有效性。

  2. 层数效应显著:网络深度对性能影响显著,但存在饱和效应。5层网络已能实现较高准确率,继续增加层数的边际效益有限。

  3. 非线性激活关键:引入复数ReLU激活函数将准确率提升至97%,表明非线性变换对光学神经网络性能至关重要,但物理实现仍面临挑战。

  4. 振幅调制有助益:振幅调制可带来约1%的性能提升,但需权衡参数量和实现复杂度。

4.2 技术优势

  • 低能耗:光传播本身不消耗电能,仅调制片制造需要能量投入
  • 高速度:光速传播实现近实时的推断能力
  • 并行性:可同时处理多个输入信号

4.3 技术挑战

  • 非线性实现:目前尚缺乏便捷实现光学非线性激活函数的介质
  • 制造精度:多层调制片的高精度制造存在工艺挑战
  • 噪声敏感:光学系统的噪声可能影响分类稳定性

4.4 未来展望

  1. 探索新型光学材料以实现非线性激活函数
  2. 优化调制片布局以降低制造难度
  3. 研究噪声鲁棒性提升方法
  4. 拓展至更复杂的分类任务

参考文献

1\] Xing Lin, Yair Rivenson, Nezih T. Yardimci, et al. All-optical machine learning using diffractive deep neural networks. Science, 361(6406):1004-1008, 2018. \[2\] Wetzstein G, Ozcan A, Gigan S, et al. Inference in artificial intelligence with deep optics and photonics. Nature, 588:39-47, 2020. ### 五、程序开发 博主(博士研究生)🛰️: easy_optics,在光学检测领域可提供实验指导、程序开发、申博指导、论文指导。 *** ** * ** *** > ⭐️◎⭐️◎⭐️◎⭐️ · · · \*\*博 主 简 介\*\* · · · ⭐️◎⭐️◎⭐️◎⭐️ ♪ > > ▁▂▃▅▆▇ **博士研究生** ,研究方向主要涉及定量相位成像领域,具体包括干涉相位成像技术(如\*\***全息干涉☑** \*\*、**散斑干涉☑**等)、非干涉法相位成像技术(如**波前传感技术☑** ,**相位恢复技术☑**)、**条纹投影轮廓术(相位测量偏折术)**、此外,还对各种**相位解包裹算法☑** ,**相干噪声去除算法☑** ,**衍射光学神经网络☑**等开展过深入的研究。 > **程序获取、程序开发、实验指导,软硬系统开发,科研服务,申博指导,🛰️easy_optics或如下。** *** ** * ** ***

相关推荐
简单光学1 天前
基于衍射光学神经网络的散射模糊图像恢复研究【程序开发与改进】
onn·d2nn·衍射神经网络·散射成像
简单光学1 天前
用光来“思考“:光学加速神经网络计算全景解析
光学神经网络·衍射光学神经网络·光学加速神经网络
简单光学2 天前
基于SLM的光学神经网络设计与优化:从原理到实现【程序开发】
光学神经网络·onn·d2nn·衍射神经网络
超级学长7 天前
光学神经网络:进展与挑战(Optical Neural Networks: Progress and Challenges)
人工智能·深度学习·光学神经网络
简单光学8 天前
衍射深度神经网络(D²NN):基于光学衍射原理的图像分类系统
图像分类·onn·d2nn·衍射光学神经网络·衍射神经网络
超级学长9 天前
基于相变材料的片上集成可重构衍射神经网络技术分析
衍射神经网络
Ai多利10 个月前
清华大学发Nature!光学工程+神经网络创新结合
人工智能·深度学习·神经网络·光学神经网络·光学工程
Ai多利1 年前
Nature+Science=ONNs(光学神经网络)
神经网络·nature·光学神经网络·onns·science