NOVA:面向工业推荐系统、具备校验能力的架构进化智能调度框架
论文基础信息
- 原文链接:https://arxiv.org/html/2606.27243v1
- arXiv编号:2606.27243v1 cs.IR,发布时间:2026-06-25
- 作者:刘少华、方亮、孙一龙、黄树东等(腾讯),共同一作,黄树东通讯作者
- 开源协议:CC BY-SA 4.0
- 关键词:推荐系统、模型架构进化、多智能体、模型校验、工业广告推荐
摘要
工业广告推荐系统依靠持续的模型架构迭代提升业务收益,RankMixer、TokenMixer-Large、MixFormer等新型结构均证明网络骨架创新是效果增长核心来源。但传统架构迭代高度依赖资深算法工程师,难以规模化自动化。
现有自动化方案存在明显短板:AutoML/神经架构搜索仅支持超参调优,无法完成跨模块拓扑改动;通用代码智能体仅保证代码可编译执行,生成的模型结构会出现隐性失效(silent failure)------代码能跑,但破坏推荐特有结构语义,离线AUC、线上GMV、预估偏差全面恶化。
本文提出NOVA ,一套分层感知、内置多级校验的模型架构进化智能调度框架。核心创新为架构梯度(Architecture Gradient) :类比SGD梯度下降,聚合历史修改记录、校验诊断、指标变化、迭代轨迹记忆,生成非可微结构化更新信号,指导下一轮模型改动。配套多级校验流水线,在昂贵训练前拦截语义非法候选,并将失效模式记录为禁止修改方向 ,避免重复踩坑。
框架按任务复杂度划分L1-L4四层难度,自动区分全自动运行与人工复核模式(Copilot),高风险创新任务强制人工介入。
核心工业落地效果
- 在两大核心任务(L2参数规模扩展、L3论文方案工程落地)有效通过率分别达54.5%、60.0%,远超人类工程师基线、通用代码智能体、AutoML;
- 单篇论文转线上模型全流程人工耗时压缩13倍以上;
- 线上A/B实验:迁移后的TokenMixer架构在3个核心广告转化目标GMV分别提升1.25%、1.70%、2.02%,预估偏差降低58.8%/66.7%/37.3%。
三大核心贡献
- 架构梯度驱动分层进化框架NOVA
提出类比SGD的结构化更新信号架构梯度,结合L1-L4任务分层与自动/人工双运行模式,实现可审计、风险可控的大规模模型架构自动迭代。 - 隐性失效多级校验流水线
在训练前完成模型结构语义、本地可执行性双重校验,拦截"能跑但无效"的坏候选;校验诊断结果回流为禁止修改方向,从源头减少重复隐性失效。 - 大规模工业广告系统落地验证
部署服务亿级用户广告推荐平台,对比人工、通用代码智能体、AutoML基线;线上真实流量实验证明自动生成架构可稳定提升商业指标、降低预估偏差。
1 引言
1.1 推荐架构演进历史脉络
推荐模型迭代主线是网络表达能力升级:
- 浅层线性模型:LR、FM、FFM(特征交叉);
- 深度记忆网络:Wide&Deep、DeepFM、DCN;
- 用户序列建模:DIN、DIEN、SIM;
- Transformer交互排序:RankMixer、TokenMixer、MixFormer。
简单特征工程收益见顶,业务增长高度依赖新型交互骨干网络,自动化架构迭代成为工业刚需。
1.2 现有方案三大痛点
- AutoML/NAS局限:仅调学习率、隐层维度等局部超参,无法完成跨模块拓扑修改(如替换注意力融合通路、新增交互模块),且无视生产约束(张量维度、推理时延、参数量上限);
- 通用代码智能体缺陷:评判标准仅为编译、单元测试通过,不校验推荐专属结构语义(序列掩码、注意力流向、logit融合逻辑),大量"可运行但退化"隐性失效;
- 人工迭代成本极高:论文复现、结构适配、多轮调参、离线训练、线上实验全链路依赖专家,迭代周期长、难以批量并行。
1.3 NOVA核心解决思路
- 把架构迭代建模为反馈闭环搜索,用架构梯度整合全流程历史信息,替代无方向随机生成;
- 前置多级语义校验,将失效样本固化为禁止修改模板,优化后续搜索方向;
- 分层管控任务风险,简单参数调全自动执行,开放式创新强制人工复核。
2 相关工作
2.1 自进化推荐智能体
YouTube自演化系统、AgenticRecTune、Meta REA依靠LLM生成模型改动,但缺少架构语义前置校验,失效案例无法沉淀为搜索约束;NOVA创新将校验诊断回流到迭代信号中。
2.2 LLM文本梯度优化(TextGrad/ProTeGi)
利用LLM反馈优化提示词/代码,但仅适用于文本优化;NOVA面向带严格工程约束的离散模型拓扑,构造结构化、可约束的架构梯度信号。
2.3 AutoML/NAS/HPO
Optuna、DARTS等工具仅在固定算子空间搜索超参,不支持论文新模块迁移、跨模块结构重构,与工业真实迭代需求脱节。
2.4 通用代码智能体(SWE-agent/OpenHands)
以代码可执行为唯一目标,不感知推荐模型业务语义,大量隐性失效,NOVA新增推荐专属语义校验层填补空白。
3 问题形式化
给定线上生产基准模型,在算力、时延、参数量等硬约束下,迭代生成、校验、评估可行架构修改方案,优化离线AUC与线上GMV、预估偏差。
3.1 架构状态与可行修改空间
单轮架构状态定义:At=(Gt,ϕt,Ft)A_t=(G_t,\phi_t,F_t)At=(Gt,ϕt,Ft)
- GtG_tGt:模型计算图拓扑;
- ϕt\phi_tϕt:结构超参(层数、维度等);
- FtF_tFt:特征配置、特征分组。
初始状态A0A_0A0从生产代码库解析得到;论文、知识库提供历史有效结构先验。
单次修改操作:At+1=Apply(At,et)A_{t+1}=\mathrm{Apply}(A_t,e_t)At+1=Apply(At,et)
约束集合Ω\OmegaΩ包含:张量维度、数据类型、特征可用性、训练框架兼容、线上推理时延、参数量/FLOPs预算等。
表1 支持的架构修改类型
| 修改分类 | 典型操作 |
|---|---|
| 结构超参调整 | Token维度、序列长度、混合层数联合缩放 |
| 特征增删 | 新增业务特征、剔除高偏差特征、重组特征分组 |
| 序列建模升级 | 将基础注意力升级为Seq/Non-Seq双Token交互、MixFormer结构 |
| 算子模块替换 | 残差层替换为AttentionRes、新增交叉混合块 |
| 论文架构迁移 | 将TokenMixer/MixFormer等学术模块适配生产基线 |
3.2 评估目标
- 离线内层目标 :AUC,用于迭代内候选筛选
Joffline(A)=AUC(A)J_{\mathrm{offline}}(A)=\mathrm{AUC}(A)Joffline(A)=AUC(A) - 线上外层业务目标 :加权GMV-预估偏差组合
Jonline(A)=∑wi⋅mi,mi∈{GMV,Bias}J_{\mathrm{online}}(A)=\sum w_i\cdot m_i,\quad m_i\in\{\mathrm{GMV},\mathrm{Bias}\}Jonline(A)=∑wi⋅mi,mi∈{GMV,Bias}
偏差指标赋予负权重(越小越好)。
3.3 架构梯度核心定义
模型拓扑离散不可导,无法直接求梯度,类比SGD设计非可微更新信号架构梯度gtg_tgt :
gt=Grad(et−1,Vt,ΔJt,Ht)g_t=\mathrm{Grad}(e_{t-1},V_t,\Delta J_t,H_t)gt=Grad(et−1,Vt,ΔJt,Ht)
输入四元信息:
- et−1e_{t-1}et−1:上一轮修改方案;
- VtV_tVt:本轮多级校验诊断结果;
- ΔJt\Delta J_tΔJt:离线AUC变化;
- HtH_tHt:全局迭代轨迹记忆(成功/失败修改、对应诊断)。
梯度输出三类指导信息:
- 性能瓶颈薄弱模块;
- 优先探索修改方向;
- 禁止重复失效模式。
基于梯度生成候选后筛选最优可行修改:
et∗∈argmaxe∈EScore(e;gt,Ht), s.t. Apply(At,e)∈AΩe_t^{*}\in\arg\max_{e\in\mathcal{E}}\mathrm{Score}(e;g_t,H_t),\ \mathrm{s.t.}\ \mathrm{Apply}(A_t,e)\in\mathcal{A}_{\Omega}et∗∈arge∈EmaxScore(e;gt,Ht), s.t. Apply(At,e)∈AΩ
更新架构:At+1=Apply(At,et∗)A_{t+1}=\mathrm{Apply}(A_t,e_t^{*})At+1=Apply(At,et∗)
3.4 问题总目标
迭代预算NNN轮内,选出所有可行架构中离线AUC最高的方案,再上线A/B验证:
Aoff∗=argmaxA∈TB∩AΩJoffline(A)A_{\mathrm{off}}^{*}=\arg\max_{A\in\mathcal{T}B\cap\mathcal{A}{\Omega}}J_{\mathrm{offline}}(A)Aoff∗=argA∈TB∩AΩmaxJoffline(A)
4 NOVA完整框架
4.1 分层感知闭环工作流
整体分为三层控制逻辑:
- 顶层任务分层控制:L1~L4四档复杂度,区分AutoRun全自动 / Copilot人工复核模式;
- 中层七阶段流水线:初始化→方案设计→代码生成→质量校验→本地测试→离线训练→线上实验;
- 底层反馈回流 校验+指标结果更新架构梯度与轨迹记忆HHH。
表3 L1-L4任务分层与运行模式
| 层级 | 任务类型 | 典型场景 | 执行模式 |
|---|---|---|---|
| L1 | 原子超参调优 | 单独调整RankMixer层数、token维度 | AutoRun全自动 |
| L2 | 约束下规模扩展 | 多耦合参数同步缩放,控制总参数量±10% | AutoRun全自动 |
| L3 | 论文工程落地 | 迁移TokenMixer/MixFormer等新型交互模块 | AutoRun / Copilot |
| L4 | 开放式创新 | 基于业务趋势设计全新交互骨架 | Copilot人工审核 |
判定规则:修改完全覆盖已有技能库则全自动;高风险/无成熟方案强制人工确认。
4.2 初始化与多源信号输入
迭代前构造初始架构梯度g0=Grad(∅,V(A0),基线指标,H0)g_0=\mathrm{Grad}(\emptyset,V(A_0),\mathrm{基线指标},H_0)g0=Grad(∅,V(A0),基线指标,H0),三类信息源:
- 生产代码解析:提取基线拓扑、固有约束;
- 论文文档解析:拆解学术架构,生成可落地修改方案;
- 静态知识库:历史有效/失效修改模板。
4.3 架构梯度搜索算法(算法1完整流程)
输入:初始架构A0、修改空间E、约束Ω、迭代上限N、每轮候选数K、离线/线上指标
1. 初始化轨迹记忆H=空,迭代轮次t=0
2. 判定任务层级,选择AutoRun/Copilot模式
3. 生成初始梯度g0
4. 循环:未收敛且t<N
a. 基于gt生成K个候选修改Cand
b. 约束+禁止方向过滤候选
c. 多级校验流水线筛选存活候选:
i 语义校验Vsem:张量、掩码、注意力、logit融合合法性
ii 本地执行校验Vlocal:单机可运行测试
iii 失败修改写入H,标记为禁止方向
d. 无存活候选:直接更新gt进入下一轮
e. 存活候选打分选出最优e*;Copilot模式需人工确认
f. 应用修改得到At+1,离线训练计算ΔJ
g. 将本轮修改、校验、指标存入H,计算gt+1
h. t=t+1
5. 遍历轨迹选出离线最优可行架构A*
6. 线上A/B实验输出GMV与偏差指标
表4 核心算子释义
| 算子 | 功能说明 |
|---|---|
| Converged | 早停:AUC连续多轮无提升 |
| Propose | 依据架构梯度生成多候选修改 |
| FilterByConstraints | 过滤违反时延/参数量等硬约束方案 |
| Vsem 语义门 | 推荐专属结构合法性校验(核心防隐性失效) |
| Vlocal 本地门 | 代码编译、单机运行测试 |
| ΔJ_fail | 全候选失效时的负向梯度信号 |
4.4 隐性失效多级校验流水线
四级递进校验,前置低成本拦截,避免浪费GPU训练资源:
- 结构语义校验门(核心创新)
不只是张量维度合法,校验序列因果掩码、注意力流向、特征映射、logit融合路径;捕获"代码可跑但建模逻辑错误"隐性失效,失败模式存入禁止方向库。 - 本地可执行校验门
单机快速运行,拦截导入错误、算子不兼容等工程故障。 - 离线AUC评估环
校验通过候选才投入完整训练,筛选离线正向改动。 - 线上业务验证环
离线最优方案进入真实流量A/B,评估GMV与预估偏差。
校验作为梯度降噪机制:每一类失效修改固化为禁止方向,下一轮生成候选时直接规避,逐步缩小无效搜索空间。
4.5 系统多智能体实现
NOVA由主调度智能体统筹7个子智能体,流水线有向依赖:
初始化→方案设计→代码生成→质量评审→本地测试→离线训练→线上实验
三类故障处理机制
- 临时环境故障:有限重试,不污染梯度记忆;
- 候选结构性失效:写入禁止方向,下一轮规避;
- 超出技能库高风险改动:跳转人工Copilot复核。
5 实验部分
5.1 四大研究问题RQ
RQ1 有效性:同等算力预算下,NOVA生成正向AUC架构比例是否优于基线?
RQ2 消融实验:各核心模块(论文解析、方案设计、多候选、质量校验、架构梯度)分别贡献多少收益?
RQ3 工程案例:NOVA如何修改真实线上生产代码?
RQ4 线上验证:离线最优架构能否提升真实业务GMV、降低预估偏差?
5.2 实验基础配置
任务设置
- L2规模扩展:RankMixer基线,联合调整token数、维度、层数,总参数量浮动±10%;
- L3论文落地:将TokenMixer-Large迁移至线上精排模型,保证特征管线、推理全兼容。
数据集
工业广告全量线上流量样本,单月十亿级用户交互,千维特征场,所有候选从零训练。
统一控制变量
全部方法底层LLM固定为Claude Sonnet 4.6;每任务10次独立重复,单轮最多10迭代,每轮生成K个候选。
核心评估指标
- LPR本地通过率:生成候选中本地测试可运行占比
LPR=Np/Ng\mathrm{LPR}=N_p/N_gLPR=Np/Ng - SFR隐性失效率:本地可运行但离线AUC无提升的候选占比
SFR=(Np−N+)/Np\mathrm{SFR}=(N_p-N_+)/N_pSFR=(Np−N+)/Np - EPR有效通过率:端到正向架构总占比(核心指标)
EPR=LPR×(1−SFR)\mathrm{EPR}=\mathrm{LPR}\times(1-\mathrm{SFR})EPR=LPR×(1−SFR)
5.3 对比基线
- 人工专家基线:历史工程师迭代日志,统一评测协议复现;
- ReAct单智能体:无分层、无语义校验、无架构梯度;
- OpenHands通用代码智能体:仅保证代码可执行;
- Optuna-TPE AutoML:仅支持超参搜索,仅L2任务对比。
5.4 RQ1主实验结果
表5 L2/L3任务基线对比
| 方案 | L2 ScaleUp(LPR/SFR/EPR) | L3论文落地(LPR/SFR/EPR) |
|---|---|---|
| 人工专家 | 95.5% / 48.4% / 49.3% | 40.0% / 22.2% / 31.1% |
| OpenHands | 33.3% / 80.0% / 6.7% | 27.3% / 62.5% / 10.2% |
| ReAct单智能体 | 37.5% / 66.7% / 12.5% | 25.0% / 71.4% / 7.1% |
| Optuna-TPE | 17.2% / 72.7% / 4.7% | --- |
| NOVA完整框架 | 99.0% / 45.5% / 54.5% | 86.7% / 30.8% / 60.0% |
结论
- L2:NOVA本地通过率接近满分,隐性失效略低于人工,有效通过率最高;AutoML无视结构耦合约束效果极差;
- L3论文迁移:通用代码智能体本地通过率极低,大量结构语义隐性失效;NOVA将EPR从31.1%提升至60%,是人工两倍。
5.5 RQ2模块消融实验(L3任务)
表6 组件消融结果
| 消融变体 | LPR | SFR | EPR | 核心结论 |
|---|---|---|---|---|
| 完整NOVA | 86.7 | 30.8 | 60.0 | 基准 |
| 移除论文结构化解析 | 91.7 | 63.6 | 33.3 | 看懂论文结构是落地基础 |
| 移除方案设计模块 | 72.2 | 77.8 | 18.2 | 论文到生产改造桥梁不可或缺 |
| 移除多候选生成 | 66.7 | 61.5 | 25.9 | 单候选容错极低,易卡死错误路线 |
| 移除质量校验 | 70.4 | 69.6 | 21.9 | 无语义校验隐性失效暴增 |
| 移除架构梯度反馈 | 87.5 | 57.1 | 37.5 | 失效无法沉淀,搜索无方向 |
综合:方案设计+架构梯度是两大核心增益来源;多候选、语义校验显著降低隐性失效。
5.6 RQ3生产代码修改案例
案例1 参数轻量化TokenMixer适配
直接照搬论文4层Block参数量过大,NOVA自动优化为2层结构,缩小FFN扩张比例,新增独立Norm残差支路,参数量下降43%且离线效果持平,完美匹配线上时延约束。
案例2 辅助损失梯度修正
初始迁移后任务1收益不足,NOVA多轮迭代调整全局/任务专属辅助损失权重、修正特征读取索引、屏蔽任务3干扰分支;自动识别过度特化风险,收敛至最优平衡方案,体现架构梯度迭代修正能力。
5.7 RQ4 线上A/B验证结果
L3最优TokenMixer架构上线5%流量灰度实验,结果:
- GMV增益:任务1 +1.25%、任务2 +1.70%、任务3 +2.02%;
- pCVR预估偏差分别降低58.8%、66.7%、37.3%;
所有指标统计显著,证明自动生成架构可落地带来真实商业收益。
6 结论与未来工作
6.1 核心结论
NOVA实现带多级隐性失效校验、架构梯度闭环的工业推荐模型自动进化框架,分层管控任务风险;相比人工、通用代码智能体大幅提升有效架构产出率,压缩迭代人力成本,线上真实流量验证自动架构可同时提升GMV、降低预估偏差。
行业关键痛点"可运行但建模失效"通过前置语义校验+失效记忆架构梯度得到系统性解决。
6.2 四大未来拓展方向
- 全链路覆盖:从精排pCVR拓展至召回、粗排、重排全流水线模型自动进化;
- 全生命周期R&D自动化:串联业务分析、特征挖掘、数据实验、线上实验多智能体;
- 自进化技能库:自动沉淀校验规则、修改方案,无需人工维护提示词;
- 资源感知调度:依据校验置信度、早期AUC信号动态分配GPU训练预算,减少无效训练开销。
附录A 框架资源、效率与可复现性
A.1 NOVA各智能体资源开销
表8 各子智能体提示词大小、Token消耗
| 智能体模块 | 提示包大小 | 单次输入Token | 单次输出Token | 单任务总调用 | 单任务总Token |
|---|---|---|---|---|---|
| 初始化智能体 | 45KB | 92.5K | 0.9K | 29.3 | 2.74M |
| 方案设计 | 110KB | 154.5K | 1.1K | 136.1 | 21.17M |
| 代码生成 | 50KB | 89.6K | 0.5K | 83.5 | 7.51M |
| 质量评审 | 40KB | 96.0K | 0.3K | 155.3 | 14.95M |
| 本地测试 | 15KB | 67.9K | 0.4K | 95.7 | 6.54M |
| 离线评估 | 5KB | 71.9K | 0.5K | 32.8 | 2.38M |
| 线上实验 | 10KB | 54.3K | 0.4K | 28.3 | 1.55M |
| 主调度智能体不调用LLM,仅做流程控制。 |
A.2 人工vs NOVA全流程效率对比
训练阶段GPU耗时无优化,节省全部来自人工工时:
- 论文复现:人工28单位工时 → NOVA 0.7(40倍压缩);
- 本地调试:人工6 → 0.3(20倍);
- 迭代复盘规划:人工12 → 0.3(40倍);
- 端到端总墙钟时间82→37(2.2倍加速);
- 人工参与总工时54→4,压缩13.5倍(论文核心工业结论)。
A.3 可复现性开源工件(无生产私有规则,仅开放机制模板)
A.3.1 方案设计智能体提示词骨架
固定结构:角色定义→路径规范→四层任务路由→架构梯度输入定义→四步任务规范→输出JSON协议,完整模板见原文附录。
A.3.2 禁止规则与迭代轨迹示例
失效规则样例:无因果掩码的序列自注意力 → 未来信息泄露,永久过滤
迭代轨迹:t7生成无掩码注意力,语义校验失败写入禁止规则;t8架构梯度规避该方向,生成带三角因果掩码方案,校验通过、离线AUC正向。
A.3.3 三大核心技能库模板
- 论文转代码技能:解析论文张量/算子→生成可落地代码+歧义日志;
- 架构修改规划:读取基线拓扑+约束,生成带风险标签修改方案;
- 多LLM并行代码评审:多模型交叉审查,输出统一通过/驳回决策。