NUS神经网络生成我感觉解读过于夸大了

网上对其解读有点过了,只是合成了最后标准化层的参数,或者是更多的其他层参数。而不是网络结构。对于新任务下的网络结构以及参数如何生成,应该是做不到的,论文意义有限。

论文片段:我们提出了神经网络扩散(p-diff),其目的是从随机噪声中生成高性能的参数。如图2所示,我们的方法由两个过程组成,即参数自动编码器和生成器。给定一组训练过的高性能模型,我们首先选择这些参数中的一个子集,并将它们压平为一维向量。随后,我们引入了一个编码器,从这些向量中提取潜在表示,并伴随着一个解码器,负责从潜在表示中重建参数。然后,训练一个标准的潜在扩散模型,从随机噪声中合成潜在表示。经过训练后,我们利用p-diff通过以下链生成新的参数:随机噪声→反向处理→训练的解码器→生成的参数。

图2

1、什么是参数中的子集呢?如果是压缩成一维向量后再做编码解码训练的,那么解码后的依旧为一维向量,又如何恢复为特定的参数和参数值呢?

论文片段:训练autoencoder decoder。我们对预训练模型的参数子集进行了微调,并将微调后的参数密集地保存为训练样本。然后,我们将这些参数S压扁为一维向量V = [v1,......,vk,......,vK],其中V∈R (K×D),D是子集参数的大小。然后,训练一个自动编码器来重建这些参数V。我们默认使用一个自动编码器和一个4层编码器和解码器。与正常的自动编码器训练相同,我们将V'和V之间的均方误差(MSE)损失最小化如下

其中v'k是第k个模型的重构参数。

论文片段:直接将随机噪声输入反向过程和经过训练的解码器,以生成一组新的高性能参数。这些生成的参数与剩余的模型参数连接起来,形成新的模型进行评估。神经网络参数和图像像素在几个关键方面表现出显著的差异,包括数据类型、维度、范围和物理解释。与图像不同的是,神经网络参数大多没有空间相关性,因此我们在参数自编码器和参数生成过程中,用一维卷积代替二维卷积。

论文片段:通过在潜在扩散模型和训练解码器中加入随机噪声,合成了100个新参数。然后将这些合成参数与上述固定参数连接起来,形成我们生成的模型。从这些生成的模型中,我们选择了在训练集上表现最好的模型。

从以上内容可以看出,模型中选取部分参数(参数子集)作为训练样本,K为训练样本数(不同模型)。但没有讲如何恢复100个参数的细节。

2、在有限的训练样本下训练了这个模型,其意义在哪里? 模型和图片不同,应该是不具备迁移效果的,更何况这些模型根据任务的不同,不同层的参数也有区别。给你一个新模型结构,生成的参数有意义吗?

论文片段:应用p-diff的位置。我们默认是合成最后两个标准化层的参数。为了研究p-diff在其他归一化层深度上的有效性,我们还探讨了合成其他浅层参数的性能。为了保持相同数量的BN参数,我们对三组BN层实现了我们的方法,它们是在不同深度的层之间。如标签页中所示。2(b),我们通过经验发现,我们的方法在所有BN层设置的深度上都比原始模型获得了更好的性能(最佳精度)。另一个发现是,合成深层比生成浅层可以获得更好的精度。这是因为生成浅层参数比生成深层参数更容易在正向传播过程中积累误差

所以,网上对其解读有点过了,知识合成了最后标准化层的参数,或者是更多的其他层参数。而不是网络结构。

相关推荐
AI人工智能+1 小时前
一种融合AI与OCR的施工许可证识别技术,提升工程监管效率,实现自动化、精准化处理。
人工智能·自动化·ocr·施工许可证识别
大力水手(Popeye)2 小时前
Pytorch——tensor
人工智能·pytorch·python
ygy.白茶3 小时前
从电影分类到鸢尾花识别
人工智能
AI_gurubar6 小时前
大模型教机器人叠衣服:2025年”语言理解+多模态融合“的智能新篇
人工智能·机器人
XINVRY-FPGA7 小时前
EPM240T100I5N Altera FPGA MAX II CPLD
人工智能·嵌入式硬件·fpga开发·硬件工程·dsp开发·射频工程·fpga
HuggingFace8 小时前
开源开发者须知:欧盟《人工智能法案》对通用人工智能模型的最新要求
人工智能
Coovally AI模型快速验证9 小时前
农田扫描提速37%!基于检测置信度的无人机“智能抽查”路径规划,Coovally一键加速模型落地
深度学习·算法·yolo·计算机视觉·transformer·无人机
媒体人8889 小时前
GEO 优化专家孟庆涛:技术破壁者重构 AI 时代搜索逻辑
大数据·人工智能
小菜AI科技9 小时前
Windsurf 评测:这款 人工智能 IDE 是你需要的颠覆性工具吗?
人工智能
RaymondZhao349 小时前
【全面推导】策略梯度算法:公式、偏差方差与进化
人工智能·深度学习·算法·机器学习·chatgpt