FAMOSE：ReAct智能体驱动的自动化特征工程新框架

2026年2月发布的arXiv论文，首次将ReAct（Reasoning + Acting）智能体范式引入自动化特征工程领域。FAMOSE框架通过LLM自主探索、生成与精炼特征，在分类与回归任务中达到或接近SOTA性能。本文梳理其技术架构、核心创新及与现有AutoFE方法的对比。

一、研究速览

发布时间：2026年2月24日

论文标题：FAMOSE: A ReAct Approach to Automated Feature Discovery

核心框架：ReAct智能体 + 特征工程工具链

研究对象：表格数据的自动化特征工程（AutoFE）

关键创新：首个将ReAct范式应用于AutoFE的系统

性能表现：

分类任务：ROC-AUC提升0.23%（>10K样本场景）
回归任务：RMSE降低2.0%，达到SOTA
鲁棒性：比其他算法更抗错误

代码开源：未明确提及

二、技术背景：特征工程的瓶颈

2.1 传统特征工程的困境

表格数据建模中，特征工程仍是关键瓶颈：

搜索空间指数级增长：原始特征的变换组合爆炸
领域知识依赖：最优特征识别需专家经验
评估成本高昂：每个候选特征需训练验证

2.2 现有AutoFE方法的局限

|---------|---------|---------|--------|

核心空白：如何将LLM的推理能力与系统化的特征评估结合？

三、技术方案：ReAct智能体架构

3.1 ReAct范式回顾

ReAct = Reasoning（推理）+ Acting（行动）

推理：LLM生成思维链，记录中间结论
行动：调用外部工具（搜索、计算、验证）
迭代：根据观察结果调整下一步策略

3.2 FAMOSE架构设计

| 模块 | 功能 | 对应ReAct组件 |

|------|------|--------------|

| **特征探索** | 分析数据分布，识别潜在变换方向 | Thought → 推理 |

| **特征生成** | 调用算子（数学/统计/时序）创建新特征 | Action → 工具调用 |

| **特征评估** | 计算重要性、共线性、稳定性指标 | Observation → 反馈 |

| **特征选择** | 基于评估结果筛选最优子集 | Thought → 决策 |

| **上下文管理** | LLM窗口记录完整发现历史 | Memory → 迭代优化 |

3.3 关键创新

首个Agentic AutoFE：将特征工程建模为智能体与环境的交互过程

上下文累积：ReAct的迭代记录机制使LLM能从错误中学习，逐步优化特征策略

工具集成：内置特征评估工具（而非仅依赖LLM判断），减少幻觉

四、性能解读：提升数字背后的含义

4.1 分类任务：+0.23% ROC-AUC

| 维度 | 解读 |

|------|------|

| **绝对数值** | 0.23%看似微小，但表格数据竞赛中常决定排名 |

| **适用场景** | >10K样本任务，大数据集上特征工程收益更显著 |

| **对比基准** | 接近或达到现有SOTA（如AutoGluon、H2O AutoML） |

| **隐性价值** | 自动化替代人工迭代，节省专家时间 |

4.2 回归任务：-2.0% RMSE，SOTA

| 维度 | 解读 |

|------|------|

| **相对提升** | 2%的误差降低在回归任务中属显著改进 |

| **鲁棒性** | 关键优势------比其他算法更抗错误 |

| **机制解释** | ReAct的迭代验证减少"过拟合特征"入选 |

4.3 鲁棒性来源

错误恢复：某步生成无效特征时，LLM通过Observation识别并调整策略

多样性保持：上下文窗口记录多种尝试路径，避免局部最优

人工介入点：关键决策步骤可解释，便于专家审核

五、行业定位：AutoFE技术谱系

5.1 现有方案全景

|---------|-----------|--------|---------|---------|

| **手工特征工程** | 低 | 高（专家依赖） | 高 | 高（人力） |

| **自动特征工具（Featuretools）** | 中 | 中（预定义算子） | 中 | 中 |

| **神经架构搜索（NAS）** | 高 | 中 | 低 | 极高 |

5.2 差异化定位

与基于搜索的AutoFE对比：FAMOSE的LLM推理能力支持**开放域特征发明**（如"将年龄做对数变换后与收入交互"），而非仅限于预定义算子组合

与纯LLM生成对比：ReAct的**工具集成与评估反馈**机制约束幻觉，保证特征有效性

与NAS对比：无需训练代理模型，**样本效率更高**，适合中小数据集

六、关键机制：为什么ReAct有效？

6.1 上下文窗口的价值

传统LLM提示：一次性生成特征，无迭代优化

ReAct机制：记录完整发现历史（"尝试了A→效果不好→尝试B"）

类比人类专家：

新手：随机尝试特征
专家：记录尝试，分析失败原因，调整策略
FAMOSE：通过ReAct模拟专家的**元认知过程**

6.2 创新性 vs 可靠性的平衡

| 挑战 | FAMOSE解决方案 |

|------|--------------|

| LLM幻觉生成无效特征 | 工具验证环节过滤 |

| 探索空间过大 | 推理步骤引导方向，减少盲目搜索 |

| 评估成本累积 | 早期剪枝低质量特征，减少全量训练 |

七、关键未知与落地挑战

7.1 信息边界（论文未深入）

| 缺失信息 | 影响评估 |

|---------|---------|

| 具体LLM型号（GPT-4？Claude？本地模型？） | 成本与可复现性 |

| 单次特征工程的API调用成本 | 经济性评估 |

| 与现有AutoML平台的集成方式 | 落地门槛 |

| 超大规模数据集（>100万样本）的可扩展性 | 适用边界 |

7.2 落地挑战

| 挑战 | 具体表现 |

|------|---------|

| **成本波动** | LLM API费用随特征数量线性增长，可能超过计算节省 |

| **延迟敏感** | 迭代ReAct流程比批量搜索慢，不适合实时场景 |

| **领域适配** | 特定行业（如金融风控）的合规特征需人工审核 |

| **版本漂移** | LLM更新可能导致特征策略不一致 |

八、总结

可确认：

FAMOSE是首个将ReAct智能体范式应用于AutoFE的系统
分类任务提升0.23% AUC，回归任务降低2.0% RMSE达SOTA
鲁棒性优于现有算法，归因于ReAct的迭代验证机制

待验证：

大规模数据集上的计算成本与延迟
与开源LLM（如Llama）的配合效果
特定垂直领域的合规性与可解释性要求

研究者启示：

ReAct的"推理-行动-观察"循环适合需要迭代优化的结构化任务
LLM在AutoML中的价值不仅是"生成"，更是"策略搜索"
自动化特征工程正从"预定义搜索"向"开放域发明"演进

参考：

论文：https://arxiv.org/abs/2602.17641v1

本文基于arXiv预印本整理，性能提升数据为论文报告结果，实际生产环境成本效益需独立评估。