[ICLR 2026] 一文读懂 AutoGEO：生成式搜索引擎优化（GEO）的自动化解决方案

分享一篇 ICLR 2026 论文《AutoGEO: What Generative Search Engines Like and How to Optimize Web Content Cooperatively》，代码、数据集、模型参数都已开源，请放心食用~

论文主页：https://zhongshsh.github.io/AutoGEO/
论文链接：https://arxiv.org/pdf/2510.11438
论文代码：https://github.com/cxcscmu/AutoGEO
直接试用：https://huggingface.co/spaces/cx-cmu/AutoGEO_Mini
试用 Demo 只有 CPU 加持，推理略慢。不过模型只有 1.7B，可以自行下载本地运行。

接下来正式进入论文内容 👉👉

一、为什么需要 GEO？------ 从传统 SEO 到生成式搜索的变革

如果你做过网站运营，一定熟悉 SEO（Search Engine Optimization, 搜索引擎优化）------ 通过优化关键词、页面结构等，让网站在百度、谷歌的搜索结果中排名靠前。但现在，ChatGPT、Google AI Overview 这类生成式搜索引擎（Generative Engine, GE） 正在改变游戏规则！

生成式搜索引擎不返回网页列表，而是直接整合检索到的文档内容，生成连贯的自然语言回答。这意味着：你的网页内容能不能被 GE "看中"并引用、引用的位置是否靠前，成了新的流量关键------这就是GEO（Generative Engine Optimization，生成式引擎优化） 的核心需求。

但现有的 GEO 方法有个大问题：要么靠人工设计规则（比如堆关键词、加引用），要么用对抗性手段（比如注入干扰指令），既没有系统理解 GE 的真实偏好，还可能导致生成的回答质量下降（比如内容矛盾、缺乏逻辑性）。

有没有一种方法，能自动摸清 GE 的"脾气"，还能高效优化内容、不破坏回答质量？答案就是今天要讲的论文《AutoGEO：自动学习生成式引擎偏好并协同优化网页内容》。

二、AutoGEO 核心思路：先懂 GE，再做优化

AutoGEO 的逻辑特别直观，就像给 GE 做"用户画像"，再针对性优化内容，分为两步：

自动挖掘 GE 的偏好规则：搞清楚 GE 到底喜欢什么样的文档（比如是否需要结构清晰、是否要深度解释）；
基于规则构建 GEO 模型：用这些规则改写文档，既提升曝光率，又不影响 GE 生成回答的质量（协同优化）。

2.1 第一步：让 AI 自己"读"出 GE 的偏好

GE 不会告诉你它喜欢什么，但它的引用行为会"说话"------比如 A 文档被大量引用，B 文档却被忽略，两者的差异就是线索。AutoGEO 用 4 个核心步骤挖出这些线索，形成可执行的规则：

对比分析：对每个查询，找出 GE 引用最多和最少的两篇文档（差异最大的一对）；
解释差异：让大模型（比如 Gemini ）分析"为什么GE 更喜欢 A 文档"（比如 A 结构清晰、覆盖知识点更全）；
提炼规则：把这些解释浓缩成简洁的规则（比如"文档应包含清晰的标题和列表"）；
筛选合并：去掉无效规则，合并重复规则，形成最终的偏好规则集。

举个例子：AutoGEO 发现，Researchy 类查询（学术研究类）的 GE 喜欢"深度解释因果关系"，而电商类查询的 GE 更偏好"步骤化指南和产品参数"------这些 domain-specific 规则，是人工设计很难覆盖的。

2.2 第二步：两种 GEO 策略，满足不同需求

有了规则，AutoGEO 提供了两种落地方式，兼顾"即插即用"和"成本高效"：

（1）AutoGEO API _\text{API} API：不用训练，直接用

把挖掘到的规则嵌入到提示词里，调用大模型 API（比如 Gemini-2.5-Pro）就能改写文档。比如提示词会明确要求："按照以下规则改写文档，提升在 GE 中的曝光率：1. 开头先给出核心结论；2. 用标题和列表优化结构；3. 覆盖所有关键知识点..."

优点：零训练成本，效果拉满（比最强基线提升 50.99%）；

缺点：API 调用成本较高，而且速率受限制。

（2）AutoGEO Mini _\text{Mini} Mini：轻量模型，本地就能跑

如果想降低成本，AutoGEO 用强化学习训练了一个轻量模型（基于 Qwen3-1.7B）：

先用 AutoGEO API _\text{API} API生成高质量改写样本，给轻量模型做"老师"（冷启动）；
用三个维度做奖励信号：曝光率提升（Outcome Reward）、规则遵守度（Rule Reward）、语义一致性（Semantic Reward）；
用 GRPO 算法优化模型，确保改写后内容不跑偏、GE 喜欢、成本低。

优点：成本仅为 AutoGEO API _\text{API} API 的0.0071倍，支持 CPU 离线推理；

缺点：效果略低于 API 版（但仍比所有现有的基线方法好，平均提升 20.99%）。

三、关键实验结果：不止提升曝光，还不拖垮 GE 质量

论文用三个数据集（GEO-Bench、Researchy-GEO、E-commerce）和三个主流大模型（Gemini、GPT-4o-mini、Claude）做了测试，核心结论很实在：

曝光率显著提升 ：AutoGEO API _\text{API} API 在三个数据集上的综合曝光率（Overall）平均提升 35.99%，就算是原本曝光率很低的文档，也能大幅改善；
不破坏回答质量：和对抗性方法不同，AutoGEO 改写后，GE 生成的回答在准确性、清晰度、逻辑性上基本不变，甚至略有提升；
跨 GE、跨领域通用：不管是 Gemini 还是 GPT，不管是学术查询还是电商查询，AutoGEO 都能稳定发挥------因为它学的是每个GE、每个领域的专属规则。

四、谁该用 AutoGEO？怎么用？

网站运营者：想让自己的内容在 ChatGPT、Google AI Overview 等 GE 中被更多引用；
内容创作者：需要批量优化文章，同时保证内容质量；
开发者 ：可以集成 AutoGEO Mini _\text{Mini} Mini 到本地系统，低成本实现 GEO 自动化。
研究者：在搜索引擎范式被颠覆的当下，人们越来越依赖于 GE 来获取信息，这是一个时代的趋势。那么如何提出更先进的 GEO 算法来应对搜索引擎范式的变化？不妨从 AutoGEO 开始探索这个无限可能的领域。

使用流程超简单：

收集目标 GE 的查询和文档引用数据；
用 AutoGEO 挖掘该 GE 的偏好规则；
选择 AutoGEO API _\text{API} API（快速落地）或 AutoGEO Mini _\text{Mini} Mini（低成本量产）改写文档；
持续监控 GE 引用情况，更新规则，迭代优化。

用这篇文章开源的模型参数和规则也是很不错的选择！

论文代码已经开源（论文主页，代码），感兴趣的可以直接上手测试！未来随着生成式搜索越来越普及，GEO会成为内容运营的必备技能，而 AutoGEO 提供了一个开箱即用的解决方案。

🤡本篇内容由 AutoGEO 润色完成 🤡