[智能算法]可微的神经网络搜索算法-FBNet

一、概述

相较于基于强化学习的NAS,可微NAS能直接使用梯度下降更新模型结构超参数,其中较为有名的算法就是DARTS,其具体做法如下。

首先,用户需要定义一些**候选模块,**这些模块内部结构可以互不相同(如设置不同种类和数量的卷积,使用不同种类的连接结构等);其次,用户也需要指定神经网络的层数,每一层由候选模块的其中之一构成。

由于搜索空间 =(其中为候选模块种类,为预先指定的神经网络层数)巨大,为了从庞大的搜索空间中找到合适的结构,需要引入superNet

二、SuperNet

以下内容均基于论文:FBNethttps://openaccess.thecvf.com/content_CVPR_2019/papers/Wu_FBNet_Hardware-Aware_Efficient_ConvNet_Design_via_Differentiable_Neural_Architecture_Search_CVPR_2019_paper.pdf

2.1模型结构

这里以SuperNet 中的某一层为例,设置候选模块一共9种,这层superNet由9种不同的模块并联而成。输入向量在候选模块处理后分别得到9个向量,这个处理过程记作:,其中为模块中的权重。将这些向量进行加权求和,这些权重记作,所有之和为1(由softmax计算得到),权重就是模型要学习的神经网络结构超参数

通过堆叠上述模块,组成一个完整的superNet,经过训练,每一层最终会保留一个模块。

2.2训练

将superNet的候选模块一共9个,记作;设superNet一共20层,记作;得第层中第个模块的参数记作,故,这两个即为需要训练并学习的参数。superNet做出的预测记作

交叉熵损失函数可以写作,在这个损失函数中,由于是关于的函数,且两者可微,故损失函数能通过传递给,所以可以直接使用反向梯度传播更新模型。

基于学习到的,我们可以计算出superNet中没一层中每个模块的权重 ,对于每层而言,选取其中权重最大的模块作为该层的结构,这些模块串联即可得到整个模型的结构,如下图所示。

三、使用额外的性能指标优化superNet

以应用于移动设备的轻量化神经网络举例,这类神经网络由于需要考虑移动设备的算力限制,往往需要延迟(latency,推理时间)越小越好。

可以事先测量每个候选模块的平均延迟,计算这一层中每个模块的延迟加权平均,如下图所示。

将20层网络中的延迟求和,得到:,其中的定义在2.2节中已经给出,可以进一步记作,其中的为计算得到的常数。

损失函数为:,其中可以决定牺牲多少准确率来换取计算速度。

另外也可以使用,作为损失函数,效果和上式相同。

相关推荐
Yao.Li44 分钟前
PVN3D ORT CUDA Custom Ops 实现与联调记录
人工智能·3d·具身智能
诺伦1 小时前
LocalClaw 在智能制造的新机会:6部门AI+电商政策下的工厂AI升级方案
人工智能·制造
小陈工3 小时前
Python Web开发入门(十七):Vue.js与Python后端集成——让前后端真正“握手言和“
开发语言·前端·javascript·数据库·vue.js·人工智能·python
墨染天姬7 小时前
【AI】端侧AIBOX可以部署哪些智能体
人工智能
AI成长日志7 小时前
【Agentic RL】1.1 什么是Agentic RL:从传统RL到智能体学习
人工智能·学习·算法
2501_948114247 小时前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠7 小时前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
黎阳之光8 小时前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
小超同学你好8 小时前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型
智星云算力8 小时前
本地GPU与租用GPU混合部署:混合算力架构搭建指南
人工智能·架构·gpu算力·智星云·gpu租用