设计普遍逼近的深度神经网络:一阶优化方法

论文地址:https://ieeexplore.ieee.org/document/10477580

传统的基于优化的神经网络设计方法通常从一个具有显式表示的目标函数出发,采用特定的优化算法进行求解,再将优化迭代格式映射为神经网络架构,例如著名的 LISTA-NN 就是利用 LISTA 算法求解 LASSO 问题所得 [4],这种方法受限于目标函数的显式表达式,可设计得到的网络结构有限。一些研究者尝试通过自定义目标函数,再利用算法展开等方法设计网络结构,但他们也需要如权重绑定等与实际情况可能不符的假设。

论文提出的易于操作的网络架构设计方法从一阶优化算法的更新格式出发,将梯度或邻近点算法写成如下的更新格式:

再将梯度项替换为神经网络中的可学习模块 T,即可得到 L 层神经网络的骨架。

链接

相关推荐
暴躁小师兄数据学院6 分钟前
【AI大模型应用开发工程师特训笔记】第04讲(第4章):运算符
人工智能·笔记·机器学习
凯丨11 分钟前
让 AI 通宵优化神经网络:Karpathy autoresearch 的设计哲学与启示
人工智能·深度学习·神经网络
名字不好奇13 分钟前
多模态大模型原理:一切皆向量,一切皆可生成
llm·transformer
AI医影跨模态组学27 分钟前
Sci. Adv.(IF=12.5)首都医科大学宣武医院卢洁等团队:一种用于预测乳腺癌新辅助化疗病理完全缓解的多模态全自动系统
人工智能·深度学习·论文·医学影像·影像组学
lucky_syq1 小时前
【深度学习核心】注意力机制(Attention)详细解析
人工智能·深度学习
君为先-bey2 小时前
Latte——视频生成的潜在扩散变换器
算法·机器学习·音视频·扩散模型
运维行者_2 小时前
使用Applications Manager监控的关键MongoDB指标
服务器·开发语言·网络·数据库·mongodb·机器学习·云计算
砥锋2 小时前
图注意力网络(GAT)深度实战:原理推导+PyG代码+从零开始写GAT层(附注意力可视化)
深度学习·机器学习
Deepoch2 小时前
Deepoc数学大模型:重塑半导体研发与制造的核心算法范式
人工智能·算法·机器学习·半导体·deepoc·数学大模型
哦哦~9212 小时前
AI 赋能复合材料力学:机器学习、PINN 与多尺度仿真实战
人工智能·机器学习·复合材料