SEKI —— 基于大型语言模型的自进化与知识启发式神经架构搜索

01、项目概述

我们引入了一种基于新型大型语言模型( LLM )的神经架构搜索( NAS )方法,名为 SEKI 。SEKI 受到现代 LLM 中思维链( CoT )范式的启发,分为两个关键阶段运行:自进化和知识蒸馏。在自进化阶段, LLM 最初缺乏足够的参考示例,因此我们实施了一种迭代细化机制,该机制基于性能反馈增强架构。随着时间的推移,这个过程积累了一个高性能架构的存储库。在知识蒸馏阶段, LLM 分析这些架构中的共同模式以生成新的、优化的设计。结合这两个阶段, SEKI 极大地利用了 LLM 在 NAS 上的能力,并且不需要任何特定领域的数据。实验结果表明, SEKI 在各种数据集和搜索空间上实现了最先进的( SOTA )性能,同时只需要0.05 GPU-Days ,无论是在效率还是准确性方面都优于现有方法。此外, SEKI 展示了强大的泛化能力,在多个任务上都取得了与 SOTA 相竞争的结果。

02、主要特点

  • 创新的自进化机制:SEKI 采用了一种新颖的自进化机制,该机制允许大型语言模型( LLM )在初始缺乏足够参考示例的情况下,通过迭代细化逐步提升神经网络架构的性能。这种机制基于性能反馈不断优化架构,随着时间的推移,积累了大量高性能的架构设计。

  • 知识启发机制:从历史高性能架构中提取共性,通过 LLM 生成更优的架构设计,有效避免搜索陷入局部最优。

  • 无需特定领域数据:SEKI 的一个显著优势是它不依赖于任何特定领域的数据。这与传统的 NAS 方法不同,后者通常需要大量特定领域的数据来训练和优化模型。SEKI 的方法更加灵活,可以广泛应用于不同的领域和任务。

  • 强大的泛化能力:SEKI 不仅在特定的数据集上表现优异,还展现了强大的泛化能力。在多个任务上, SEKI 都能够取得与 SOTA 相竞争的结果,这证明了 SEKI 方法的通用性和适应不同任务的能力。

  • 无需领域特定数据:该方法不依赖特定领域的数据,降低了数据收集和预处理的需求,使得架构搜索更加灵活和广泛适用。

  • 高效计算:SEKI 在 CIFAR-10 任务上的搜索成本仅为 0.05 GPU-Days ,而传统方法如 AmoebaNet 需 3150 GPU-Days ,计算效率显著提升。

  • 广泛适用性:在多个任务(图像分类、目标检测、语义分割等)和搜索空间中均表现优异,展现了良好的泛化能力。

03、技术细节

  • 两阶段的搜索策略
  1. 自进化(Self-Evolution)阶段

架构初始化:从一个随机初始化或预定义的神经网络架构开始。

性能评估:在验证数据集上评估当前架构的性能,记录关键性能指标,如准确率和损失。

反馈驱动的优化:利用性能反馈来指导 LLM 生成优化策略。这可能包括增加新的网络层、调整超参数或改变层间的连接。

生成新架构:应用 LLM 生成的优化策略来产生一个新的神经网络架构。

迭代细化:重复上述步骤,每次迭代都基于前一次迭代的性能反馈来改进架构。

知识库更 :将每次迭代产生的新架构及其性能指标存储在知识库中,为后续的知识蒸馏阶段提供数据支持。

ii. 知识启发( Knowledge Inspiration )阶段

模式识别:LLM 分析知识库中积累的高性能架构,识别共同的设计模式和原则。

知识筛选:从知识库中选择性能表现最优秀的前 K 个架构,并且从 K 个中随机选择 ξ 个架构组成输入 prompt 。

知识总结和架构生成:对输入的架构进行总结和启发,直接生成新的候选架构,这些架构旨在结合历史最佳实践并探索新的优化空间。

架构评估与迭代:对新生成的架构进行评估,并将结果反馈到知识库中,以便在未来的迭代中使用。

  • Prompt 设计

SEKI 采用两种 Prompt 设计,指导 LLM 进行架构优化:

  1. 自进化 Prompt :提供任务信息、搜索空间、当前架构及其性能, LLM 生成优化策略,并基于该策略生成新架构。

  2. 知识启发 Prompt :输入历史高性能架构及其评估分数, LLM 提取共性,生成更优架构。

  • 搜索算法

SEKI 通过迭代优化搜索最优架构,主要流程如下:

  1. 初始化架构并计算评估分数。

  2. 前 λ 轮执行自进化( Self-Evolution ),优化架构并存入知识库。

  3. 后 γ 轮执行知识启发( Knowledge Inspiration ),基于知识库提炼新架构。

  4. 最终从知识库中选择最佳架构作为输出。

  • 性能表现

SEKI 在多个搜索空间( DARTS、NAS201、Trans101 )上的实验结果表明,其性能优于现有 NAS 方法。

  • Results on Trans101

下表展现了 SEKI 在 Trans101 Benchmark 上的多个任务都展现了极具竞争力的表现,其中多个任务达到最优的性能表现:

在 Trans101 任务上,SEKI 同样展现了卓越的适应性。相比其他 NAS 方法,SEKI 在多个子任务(目标分类、语义分割、自动编码等)上均获得了更优的性能,并在平均排名上保持领先。实验表明,SEKI 在保持高精度的同时,仍能兼顾计算效率,尤其是在计算资源有限的情况下,能够快速找到具有竞争力的架构。此外,SEKI 在不同任务间的泛化能力强,说明其优化策略不仅适用于特定数数据集,也能推广至更广泛的计算机视觉任务。

  • Results on DARTS search space

下表展现了在 DARTS 搜索空间下,不同的数据集,SEKI 方法不仅体现了搜索效率的高效,同时兼具优异的性能表现:

在 DARTS 搜索空间中 CIFAR-10 和 CIFAR-100 数据集上,SEKI 性能表现分别为97.71%和84.14%,仅耗费 0.05 GPU-Days ,相比传统 NAS 方法具有明显优势。从结果来看,SEKI 在 CIFAR-10 和 CIFAR-100 上都表现出色,相比 DARTS、PC-DARTS 及 GENAS,在保持较高准确率的同时,显著减少了搜索时间。实验表明,SEKI 的知识启发机制能够有效提取高质量架构模式,并持续优化,使得架构的整体性能不断提升。

  • LLM 选择对 SEKI 的影响

实验比较了 SEKI 使用不同 LLM( Qwen2.5-32B 和 GPT4o-mini )的表现:

结果表明,SEKI 在不同 LLM 上,相较于传统的方法均保持高性能,这也体现了该方法良好的鲁棒性。


该论文已发布在 arXiv :https://arxiv.org/pdf/2502.20422v1

点击"阅读原文"即刻学习

相关推荐
atbigapp.com13 分钟前
AI数据分析:deepseek生成SQL
人工智能·sql·ai·数据分析·提示词
我们的五年17 分钟前
ChatGPT与DeepSeek:开源与闭源的AI模型之争
人工智能·chatgpt
栈老师不回家38 分钟前
MapStruct 对象转换工具【DDD 架构】
架构
xiaosenyouli1 小时前
政务信息化项目命名有什么门道?
大数据·人工智能
找方案1 小时前
黑龙江省地标-DB31/T 862-2021 “一网通办”政务服务中心建设和运行规范
大数据·人工智能·政务
LeeConstantine1 小时前
FPGA开发,使用Deepseek V3还是R1(7):以“FPGA的整体设计框架”为例
fpga开发·语言模型
gordon~92 小时前
面试题-微服务
微服务·云原生·架构
windyrain2 小时前
AI 学习之路(一)- 重新认识 AI
人工智能·机器学习·aigc
小杨4042 小时前
springboot框架启动流程二(源码分析)
spring boot·后端·架构
北京青翼科技3 小时前
【PCIE737】基于全高PCIe x8总线的KU115 FPGA高性能硬件加速卡
图像处理·人工智能·信号处理·智能硬件