NOVA：面向工业推荐系统、具备校验能力的架构进化智能调度框架

论文基础信息

原文链接：https://arxiv.org/html/2606.27243v1
arXiv编号：2606.27243v1 $cs.IR$ ，发布时间：2026-06-25
作者：刘少华、方亮、孙一龙、黄树东等（腾讯），共同一作，黄树东通讯作者
开源协议：CC BY-SA 4.0
关键词：推荐系统、模型架构进化、多智能体、模型校验、工业广告推荐

摘要

工业广告推荐系统依靠持续的模型架构迭代提升业务收益，RankMixer、TokenMixer-Large、MixFormer等新型结构均证明网络骨架创新是效果增长核心来源。但传统架构迭代高度依赖资深算法工程师，难以规模化自动化。

现有自动化方案存在明显短板：AutoML/神经架构搜索仅支持超参调优，无法完成跨模块拓扑改动；通用代码智能体仅保证代码可编译执行，生成的模型结构会出现隐性失效（silent failure）------代码能跑，但破坏推荐特有结构语义，离线AUC、线上GMV、预估偏差全面恶化。

本文提出NOVA ，一套分层感知、内置多级校验的模型架构进化智能调度框架。核心创新为架构梯度（Architecture Gradient） ：类比SGD梯度下降，聚合历史修改记录、校验诊断、指标变化、迭代轨迹记忆，生成非可微结构化更新信号，指导下一轮模型改动。配套多级校验流水线，在昂贵训练前拦截语义非法候选，并将失效模式记录为禁止修改方向 ，避免重复踩坑。

框架按任务复杂度划分L1-L4四层难度，自动区分全自动运行与人工复核模式（Copilot），高风险创新任务强制人工介入。

核心工业落地效果

在两大核心任务（L2参数规模扩展、L3论文方案工程落地）有效通过率分别达54.5%、60.0%，远超人类工程师基线、通用代码智能体、AutoML；
单篇论文转线上模型全流程人工耗时压缩13倍以上；
线上A/B实验：迁移后的TokenMixer架构在3个核心广告转化目标GMV分别提升1.25%、1.70%、2.02%，预估偏差降低58.8%/66.7%/37.3%。

三大核心贡献

架构梯度驱动分层进化框架NOVA
提出类比SGD的结构化更新信号架构梯度，结合L1-L4任务分层与自动/人工双运行模式，实现可审计、风险可控的大规模模型架构自动迭代。
隐性失效多级校验流水线
在训练前完成模型结构语义、本地可执行性双重校验，拦截"能跑但无效"的坏候选；校验诊断结果回流为禁止修改方向，从源头减少重复隐性失效。
大规模工业广告系统落地验证
部署服务亿级用户广告推荐平台，对比人工、通用代码智能体、AutoML基线；线上真实流量实验证明自动生成架构可稳定提升商业指标、降低预估偏差。

1 引言

1.1 推荐架构演进历史脉络

推荐模型迭代主线是网络表达能力升级：

浅层线性模型：LR、FM、FFM（特征交叉）；
深度记忆网络：Wide&Deep、DeepFM、DCN；
用户序列建模：DIN、DIEN、SIM；
Transformer交互排序：RankMixer、TokenMixer、MixFormer。
简单特征工程收益见顶，业务增长高度依赖新型交互骨干网络，自动化架构迭代成为工业刚需。

1.2 现有方案三大痛点

AutoML/NAS局限：仅调学习率、隐层维度等局部超参，无法完成跨模块拓扑修改（如替换注意力融合通路、新增交互模块），且无视生产约束（张量维度、推理时延、参数量上限）；
通用代码智能体缺陷：评判标准仅为编译、单元测试通过，不校验推荐专属结构语义（序列掩码、注意力流向、logit融合逻辑），大量"可运行但退化"隐性失效；
人工迭代成本极高：论文复现、结构适配、多轮调参、离线训练、线上实验全链路依赖专家，迭代周期长、难以批量并行。

1.3 NOVA核心解决思路

把架构迭代建模为反馈闭环搜索，用架构梯度整合全流程历史信息，替代无方向随机生成；
前置多级语义校验，将失效样本固化为禁止修改模板，优化后续搜索方向；
分层管控任务风险，简单参数调全自动执行，开放式创新强制人工复核。

2 相关工作

2.1 自进化推荐智能体

YouTube自演化系统、AgenticRecTune、Meta REA依靠LLM生成模型改动，但缺少架构语义前置校验，失效案例无法沉淀为搜索约束；NOVA创新将校验诊断回流到迭代信号中。

2.2 LLM文本梯度优化（TextGrad/ProTeGi）

利用LLM反馈优化提示词/代码，但仅适用于文本优化；NOVA面向带严格工程约束的离散模型拓扑，构造结构化、可约束的架构梯度信号。

2.3 AutoML/NAS/HPO

Optuna、DARTS等工具仅在固定算子空间搜索超参，不支持论文新模块迁移、跨模块结构重构，与工业真实迭代需求脱节。

2.4 通用代码智能体（SWE-agent/OpenHands）

以代码可执行为唯一目标，不感知推荐模型业务语义，大量隐性失效，NOVA新增推荐专属语义校验层填补空白。

3 问题形式化

给定线上生产基准模型，在算力、时延、参数量等硬约束下，迭代生成、校验、评估可行架构修改方案，优化离线AUC与线上GMV、预估偏差。

3.1 架构状态与可行修改空间

单轮架构状态定义：At=(Gt,ϕt,Ft)A_t=(G_t,\phi_t,F_t)At=(Gt,ϕt,Ft)

GtG_tGt：模型计算图拓扑；
ϕt\phi_tϕt：结构超参（层数、维度等）；
FtF_tFt：特征配置、特征分组。

初始状态A0A_0A0从生产代码库解析得到；论文、知识库提供历史有效结构先验。

单次修改操作：At+1=Apply(At,et)A_{t+1}=\mathrm{Apply}(A_t,e_t)At+1=Apply(At,et)

约束集合Ω\OmegaΩ包含：张量维度、数据类型、特征可用性、训练框架兼容、线上推理时延、参数量/FLOPs预算等。

表1 支持的架构修改类型

修改分类	典型操作
结构超参调整	Token维度、序列长度、混合层数联合缩放
特征增删	新增业务特征、剔除高偏差特征、重组特征分组
序列建模升级	将基础注意力升级为Seq/Non-Seq双Token交互、MixFormer结构
算子模块替换	残差层替换为AttentionRes、新增交叉混合块
论文架构迁移	将TokenMixer/MixFormer等学术模块适配生产基线

3.2 评估目标

离线内层目标 ：AUC，用于迭代内候选筛选
Joffline(A)=AUC(A)J_{\mathrm{offline}}(A)=\mathrm{AUC}(A)Joffline(A)=AUC(A)
线上外层业务目标 ：加权GMV-预估偏差组合
Jonline(A)=∑wi⋅mi,mi∈{GMV,Bias}J_{\mathrm{online}}(A)=\sum w_i\cdot m_i,\quad m_i\in\{\mathrm{GMV},\mathrm{Bias}\}Jonline(A)=∑wi⋅mi,mi∈{GMV,Bias}
偏差指标赋予负权重（越小越好）。

3.3 架构梯度核心定义

模型拓扑离散不可导，无法直接求梯度，类比SGD设计非可微更新信号架构梯度gtg_tgt ：

gt=Grad(et−1,Vt,ΔJt,Ht)g_t=\mathrm{Grad}(e_{t-1},V_t,\Delta J_t,H_t)gt=Grad(et−1,Vt,ΔJt,Ht)

输入四元信息：

et−1e_{t-1}et−1：上一轮修改方案；
VtV_tVt：本轮多级校验诊断结果；
ΔJt\Delta J_tΔJt：离线AUC变化；
HtH_tHt：全局迭代轨迹记忆（成功/失败修改、对应诊断）。

梯度输出三类指导信息：

性能瓶颈薄弱模块；
优先探索修改方向；
禁止重复失效模式。

基于梯度生成候选后筛选最优可行修改：

et∗∈arg⁡max⁡e∈EScore(e;gt,Ht), s.t. Apply(At,e)∈AΩe_t^{*}\in\arg\max_{e\in\mathcal{E}}\mathrm{Score}(e;g_t,H_t),\ \mathrm{s.t.}\ \mathrm{Apply}(A_t,e)\in\mathcal{A}_{\Omega}et∗∈arge∈EmaxScore(e;gt,Ht), s.t. Apply(At,e)∈AΩ

更新架构：At+1=Apply(At,et∗)A_{t+1}=\mathrm{Apply}(A_t,e_t^{*})At+1=Apply(At,et∗)

3.4 问题总目标

迭代预算NNN轮内，选出所有可行架构中离线AUC最高的方案，再上线A/B验证：

Aoff∗=arg⁡max⁡A∈TB∩AΩJoffline(A)A_{\mathrm{off}}^{*}=\arg\max_{A\in\mathcal{T}B\cap\mathcal{A}{\Omega}}J_{\mathrm{offline}}(A)Aoff∗=argA∈TB∩AΩmaxJoffline(A)

4 NOVA完整框架

4.1 分层感知闭环工作流

整体分为三层控制逻辑：

顶层任务分层控制：L1~L4四档复杂度，区分AutoRun全自动 / Copilot人工复核模式；
中层七阶段流水线：初始化→方案设计→代码生成→质量校验→本地测试→离线训练→线上实验；
底层反馈回流 校验+指标结果更新架构梯度与轨迹记忆HHH。

表3 L1-L4任务分层与运行模式

层级	任务类型	典型场景	执行模式
L1	原子超参调优	单独调整RankMixer层数、token维度	AutoRun全自动
L2	约束下规模扩展	多耦合参数同步缩放，控制总参数量±10%	AutoRun全自动
L3	论文工程落地	迁移TokenMixer/MixFormer等新型交互模块	AutoRun / Copilot
L4	开放式创新	基于业务趋势设计全新交互骨架	Copilot人工审核

判定规则：修改完全覆盖已有技能库则全自动；高风险/无成熟方案强制人工确认。

4.2 初始化与多源信号输入

迭代前构造初始架构梯度g0=Grad(∅,V(A0),基线指标,H0)g_0=\mathrm{Grad}(\emptyset,V(A_0),\mathrm{基线指标},H_0)g0=Grad(∅,V(A0),基线指标,H0)，三类信息源：

生产代码解析：提取基线拓扑、固有约束；
论文文档解析：拆解学术架构，生成可落地修改方案；
静态知识库：历史有效/失效修改模板。

4.3 架构梯度搜索算法（算法1完整流程）

复制代码

输入：初始架构A0、修改空间E、约束Ω、迭代上限N、每轮候选数K、离线/线上指标
1. 初始化轨迹记忆H=空，迭代轮次t=0
2. 判定任务层级，选择AutoRun/Copilot模式
3. 生成初始梯度g0
4. 循环：未收敛且t<N
    a. 基于gt生成K个候选修改Cand
    b. 约束+禁止方向过滤候选
    c. 多级校验流水线筛选存活候选：
        i 语义校验Vsem：张量、掩码、注意力、logit融合合法性
        ii 本地执行校验Vlocal：单机可运行测试
        iii 失败修改写入H，标记为禁止方向
    d. 无存活候选：直接更新gt进入下一轮
    e. 存活候选打分选出最优e*；Copilot模式需人工确认
    f. 应用修改得到At+1，离线训练计算ΔJ
    g. 将本轮修改、校验、指标存入H，计算gt+1
    h. t=t+1
5. 遍历轨迹选出离线最优可行架构A*
6. 线上A/B实验输出GMV与偏差指标

表4 核心算子释义

算子	功能说明
Converged	早停：AUC连续多轮无提升
Propose	依据架构梯度生成多候选修改
FilterByConstraints	过滤违反时延/参数量等硬约束方案
Vsem 语义门	推荐专属结构合法性校验（核心防隐性失效）
Vlocal 本地门	代码编译、单机运行测试
ΔJ_fail	全候选失效时的负向梯度信号

4.4 隐性失效多级校验流水线

四级递进校验，前置低成本拦截，避免浪费GPU训练资源：

结构语义校验门（核心创新）
不只是张量维度合法，校验序列因果掩码、注意力流向、特征映射、logit融合路径；捕获"代码可跑但建模逻辑错误"隐性失效，失败模式存入禁止方向库。
本地可执行校验门
单机快速运行，拦截导入错误、算子不兼容等工程故障。
离线AUC评估环
校验通过候选才投入完整训练，筛选离线正向改动。
线上业务验证环
离线最优方案进入真实流量A/B，评估GMV与预估偏差。

校验作为梯度降噪机制：每一类失效修改固化为禁止方向，下一轮生成候选时直接规避，逐步缩小无效搜索空间。

4.5 系统多智能体实现

NOVA由主调度智能体统筹7个子智能体，流水线有向依赖：

初始化→方案设计→代码生成→质量评审→本地测试→离线训练→线上实验

三类故障处理机制

临时环境故障：有限重试，不污染梯度记忆；
候选结构性失效：写入禁止方向，下一轮规避；
超出技能库高风险改动：跳转人工Copilot复核。

5 实验部分

5.1 四大研究问题RQ

RQ1 有效性：同等算力预算下，NOVA生成正向AUC架构比例是否优于基线？

RQ2 消融实验：各核心模块（论文解析、方案设计、多候选、质量校验、架构梯度）分别贡献多少收益？

RQ3 工程案例：NOVA如何修改真实线上生产代码？

RQ4 线上验证：离线最优架构能否提升真实业务GMV、降低预估偏差？

5.2 实验基础配置

任务设置

L2规模扩展：RankMixer基线，联合调整token数、维度、层数，总参数量浮动±10%；
L3论文落地：将TokenMixer-Large迁移至线上精排模型，保证特征管线、推理全兼容。

数据集

工业广告全量线上流量样本，单月十亿级用户交互，千维特征场，所有候选从零训练。

统一控制变量

全部方法底层LLM固定为Claude Sonnet 4.6；每任务10次独立重复，单轮最多10迭代，每轮生成K个候选。

核心评估指标

LPR本地通过率：生成候选中本地测试可运行占比
LPR=Np/Ng\mathrm{LPR}=N_p/N_gLPR=Np/Ng
SFR隐性失效率：本地可运行但离线AUC无提升的候选占比
SFR=(Np−N+)/Np\mathrm{SFR}=(N_p-N_+)/N_pSFR=(Np−N+)/Np
EPR有效通过率：端到正向架构总占比（核心指标）
EPR=LPR×(1−SFR)\mathrm{EPR}=\mathrm{LPR}\times(1-\mathrm{SFR})EPR=LPR×(1−SFR)

5.3 对比基线

人工专家基线：历史工程师迭代日志，统一评测协议复现；
ReAct单智能体：无分层、无语义校验、无架构梯度；
OpenHands通用代码智能体：仅保证代码可执行；
Optuna-TPE AutoML：仅支持超参搜索，仅L2任务对比。

5.4 RQ1主实验结果

表5 L2/L3任务基线对比

方案	L2 ScaleUp(LPR/SFR/EPR)	L3论文落地(LPR/SFR/EPR)
人工专家	95.5% / 48.4% / 49.3%	40.0% / 22.2% / 31.1%
OpenHands	33.3% / 80.0% / 6.7%	27.3% / 62.5% / 10.2%
ReAct单智能体	37.5% / 66.7% / 12.5%	25.0% / 71.4% / 7.1%
Optuna-TPE	17.2% / 72.7% / 4.7%	---
NOVA完整框架	99.0% / 45.5% / 54.5%	86.7% / 30.8% / 60.0%

结论

L2：NOVA本地通过率接近满分，隐性失效略低于人工，有效通过率最高；AutoML无视结构耦合约束效果极差；
L3论文迁移：通用代码智能体本地通过率极低，大量结构语义隐性失效；NOVA将EPR从31.1%提升至60%，是人工两倍。

5.5 RQ2模块消融实验（L3任务）

表6 组件消融结果

消融变体	LPR	SFR	EPR	核心结论
完整NOVA	86.7	30.8	60.0	基准
移除论文结构化解析	91.7	63.6	33.3	看懂论文结构是落地基础
移除方案设计模块	72.2	77.8	18.2	论文到生产改造桥梁不可或缺
移除多候选生成	66.7	61.5	25.9	单候选容错极低，易卡死错误路线
移除质量校验	70.4	69.6	21.9	无语义校验隐性失效暴增
移除架构梯度反馈	87.5	57.1	37.5	失效无法沉淀，搜索无方向

综合：方案设计+架构梯度是两大核心增益来源；多候选、语义校验显著降低隐性失效。

5.6 RQ3生产代码修改案例

案例1 参数轻量化TokenMixer适配

直接照搬论文4层Block参数量过大，NOVA自动优化为2层结构，缩小FFN扩张比例，新增独立Norm残差支路，参数量下降43%且离线效果持平，完美匹配线上时延约束。

案例2 辅助损失梯度修正

初始迁移后任务1收益不足，NOVA多轮迭代调整全局/任务专属辅助损失权重、修正特征读取索引、屏蔽任务3干扰分支；自动识别过度特化风险，收敛至最优平衡方案，体现架构梯度迭代修正能力。

5.7 RQ4 线上A/B验证结果

L3最优TokenMixer架构上线5%流量灰度实验，结果：

GMV增益：任务1 +1.25%、任务2 +1.70%、任务3 +2.02%；
pCVR预估偏差分别降低58.8%、66.7%、37.3%；
所有指标统计显著，证明自动生成架构可落地带来真实商业收益。

6 结论与未来工作

6.1 核心结论

NOVA实现带多级隐性失效校验、架构梯度闭环的工业推荐模型自动进化框架，分层管控任务风险；相比人工、通用代码智能体大幅提升有效架构产出率，压缩迭代人力成本，线上真实流量验证自动架构可同时提升GMV、降低预估偏差。

行业关键痛点"可运行但建模失效"通过前置语义校验+失效记忆架构梯度得到系统性解决。

6.2 四大未来拓展方向

全链路覆盖：从精排pCVR拓展至召回、粗排、重排全流水线模型自动进化；
全生命周期R&D自动化：串联业务分析、特征挖掘、数据实验、线上实验多智能体；
自进化技能库：自动沉淀校验规则、修改方案，无需人工维护提示词；
资源感知调度：依据校验置信度、早期AUC信号动态分配GPU训练预算，减少无效训练开销。

附录A 框架资源、效率与可复现性

A.1 NOVA各智能体资源开销

表8 各子智能体提示词大小、Token消耗

智能体模块	提示包大小	单次输入Token	单次输出Token	单任务总调用	单任务总Token
初始化智能体	45KB	92.5K	0.9K	29.3	2.74M
方案设计	110KB	154.5K	1.1K	136.1	21.17M
代码生成	50KB	89.6K	0.5K	83.5	7.51M
质量评审	40KB	96.0K	0.3K	155.3	14.95M
本地测试	15KB	67.9K	0.4K	95.7	6.54M
离线评估	5KB	71.9K	0.5K	32.8	2.38M
线上实验	10KB	54.3K	0.4K	28.3	1.55M
主调度智能体不调用LLM，仅做流程控制。

A.2 人工vs NOVA全流程效率对比

训练阶段GPU耗时无优化，节省全部来自人工工时：

论文复现：人工28单位工时 → NOVA 0.7（40倍压缩）；
本地调试：人工6 → 0.3（20倍）；
迭代复盘规划：人工12 → 0.3（40倍）；
端到端总墙钟时间82→37（2.2倍加速）；
人工参与总工时54→4，压缩13.5倍（论文核心工业结论）。

A.3 可复现性开源工件（无生产私有规则，仅开放机制模板）

A.3.1 方案设计智能体提示词骨架

固定结构：角色定义→路径规范→四层任务路由→架构梯度输入定义→四步任务规范→输出JSON协议，完整模板见原文附录。

A.3.2 禁止规则与迭代轨迹示例

失效规则样例：无因果掩码的序列自注意力 → 未来信息泄露，永久过滤

迭代轨迹：t7生成无掩码注意力，语义校验失败写入禁止规则；t8架构梯度规避该方向，生成带三角因果掩码方案，校验通过、离线AUC正向。

A.3.3 三大核心技能库模板

论文转代码技能：解析论文张量/算子→生成可落地代码+歧义日志；
架构修改规划：读取基线拓扑+约束，生成带风险标签修改方案；
多LLM并行代码评审：多模型交叉审查，输出统一通过/驳回决策。