设计普遍逼近的深度神经网络:一阶优化方法

论文地址:https://ieeexplore.ieee.org/document/10477580

传统的基于优化的神经网络设计方法通常从一个具有显式表示的目标函数出发,采用特定的优化算法进行求解,再将优化迭代格式映射为神经网络架构,例如著名的 LISTA-NN 就是利用 LISTA 算法求解 LASSO 问题所得 [4],这种方法受限于目标函数的显式表达式,可设计得到的网络结构有限。一些研究者尝试通过自定义目标函数,再利用算法展开等方法设计网络结构,但他们也需要如权重绑定等与实际情况可能不符的假设。

论文提出的易于操作的网络架构设计方法从一阶优化算法的更新格式出发,将梯度或邻近点算法写成如下的更新格式:

再将梯度项替换为神经网络中的可学习模块 T,即可得到 L 层神经网络的骨架。

链接

相关推荐
迦南的迦 亚索的索3 分钟前
机器学习_04_逻辑回归
人工智能·机器学习·逻辑回归
sponge'1 小时前
sam3的代码、问题备注
机器学习
RSTJ_16251 小时前
PYTHON+AI LLM DAY FOURTY-NINE
人工智能·python·深度学习
Hali_Botebie1 小时前
【蒸馏】Tinybert:Distilling BERT for natural language understanding.
人工智能·深度学习·bert
nashane2 小时前
HarmonyOS 6学习:卡片组件圆角白边问题的诊断与修复实战
人工智能·pytorch·深度学习·harmonyos
Hali_Botebie2 小时前
【量化】Q-bert: Hessian based ultra low precision quantization of bert.
人工智能·深度学习·bert
HyperAI超神经2 小时前
速度提升252倍,斯坦福/UCLA等用LSTM将二阶非线性光学仿真带入毫秒级时代
人工智能·深度学习
HUUH2 小时前
Kaggle入门比赛试验记录 -- Petals to the Metal
深度学习
星浩AI3 小时前
(三)一文看懂 Transformer:从 Token 到预测下一个字
人工智能·深度学习·llm
z小猫不吃鱼3 小时前
04 ViT 原论文精读:An Image is Worth 16x16 Words
transformer