技术总结|十分钟了解GEO

最近跟朋友聊天,他说他们公司官网的搜索流量掉了差不多三成,老板很着急。查了半天发现原因挺有意思:用户不是不搜了,而是直接去问 ChatGPT 和 Kimi 了,AI 直接把答案给了,官网连被点开的机会都没有。于是他问我:那以后内容还怎么做?最近在业内听到一个词叫 GEO,听说就是干这个的?

正好自己也在琢磨这个事,就顺手整理了一下。

1、从一个场景说起

先看一个很典型的变化。

以前用户想挑降噪耳机,会在百度里搜"1000元降噪耳机推荐",然后点开前几个网页,自己对比、看评测、看评论,最后下单。整个过程可能要花半小时。

现在呢?直接打开豆包或者 Kimi:

"预算 1000 块以内,通勤用的降噪耳机有哪些推荐,帮我列个对比表。"

AI 几秒钟就吐出来一段答案,带对比、带优缺点,甚至还会附上"以上信息来自某某评测"。用户扫一眼,满意就直接去买了,那些被 AI 参考的网页,用户一个也没点。

这里就出现了一个新问题:你的内容,能不能被 AI 在答案里提到?

这就是 GEO 要解决的事情。

2、什么是 GEO

GEO 全称 Generative Engine Optimization,翻译过来叫"生成式引擎优化"。

名字挺学术,但意思很简单:

让你的内容更容易被 AI 问答系统理解、引用、总结和推荐。

这里说的"生成式引擎",就是那些会直接生成答案的 AI 产品,比如:

  • ChatGPT、Perplexity、Claude
  • Google 的 AI Overviews、Bing Copilot
  • 国内的 Kimi、豆包、通义、文心一言、DeepSeek
  • 还有各家公司内部的 AI 知识库问答

它们和传统搜索引擎最大的不一样在于:传统搜索返回的是一堆链接,让你自己挑;生成式引擎直接给你一段话当答案。

所以目标也变了:

  • 以前我们关心:网页排到第几?
  • 现在我们关心:AI 回答的时候,会不会提到我?

3、GEO 和 SEO 到底有啥区别

很多人第一反应:这不就是换了个名字的 SEO 吗?

其实底子确实有重叠,但思路差得挺远。用一张表说明白:

对比项 SEO GEO
对谁优化 百度、Google 这种搜索引擎 ChatGPT、Kimi 这种 AI 问答
用户怎么用 输关键词 说人话提问
出来的结果 一堆链接 一段答案
优化啥 关键词、外链、页面速度、权重 语义清晰、结构化、权威性、可引用
成功指标 排名、点击、流量 被 AI 引用次数、品牌提及率
想做啥 让用户点进来 让 AI 说出我

一句话讲清楚:

SEO 是让搜索引擎找到你并把你排在前面,GEO 是让 AI 在回答问题时愿意把你的内容当参考。

4、GEO 的底层原理:AI 是怎么"挑内容"的

要讲 GEO 为什么有用,得先搞懂一件事:AI 在两个环节会"挑内容",一个是训练前,一个是回答时。 这两个环节都在筛"高质量内容",你的内容能不能被 AI 记住、能不能被 AI 引用,全看能不能过这两道筛子。

4.1 第一道筛子:训练数据清洗

现在的大模型,比如 GPT、Claude、Llama、DeepSeek,训练数据基本都是从互联网上爬的,规模通常是几万亿 token。但是原始爬来的数据,能直接用的可能只有 10%~20%,剩下的都被筛掉了。

筛的过程大概是这样:

scss 复制代码
原始爬取数据 (100TB)
    ↓ 语言过滤(只要中文/英文等目标语言)
    ↓ 去重(URL 去重、文档级去重、段落级去重)
    ↓ 质量过滤(低质量/垃圾内容丢弃)
    ↓ 安全过滤(色情、暴力、隐私信息丢弃)
    ↓ 格式清洗(去除 HTML、广告、导航栏)
高质量训练数据 (10-20TB)

重点在"质量过滤"这一步。 主流做法(比如 Google 的 C4、Meta 的 Llama 数据、RedPajamaFineWeb)大致会用这些规则:

  • 长度过滤:太短(几十个字)或者太长(几十万字纯文本)的丢掉;
  • 重复度过滤:同一段话在文档里反复出现的丢掉,N-gram 重复率高的也丢掉;
  • 困惑度过滤:用一个小模型给每段文字打分,读起来不通顺的(困惑度高)丢掉;
  • 启发式规则:符号过多、全是列表没句子、结尾没标点的丢掉;
  • 分类器过滤:训一个"维基百科风格 vs 网页垃圾"的二分类器,低分的丢掉;
  • 格式信号加权:有清晰标题、段落、列表结构的内容,权重更高。

看到这你应该有感觉了------那些 GEO 推荐的写法(结构清晰、定义明确、不堆关键词、不重复废话),本质上就是在过这些质量过滤器。 这不是玄学,是实打实的工程规则。

反过来看那些"SEO 垃圾文"------标题党、关键词堆砌、同一句话换着说三遍------正好踩中了"重复度高"、"困惑度异常"、"分类器打低分"这些规则,直接被筛掉,连进训练集的机会都没有。

4.2 第二道筛子:RAG 检索时的相关性打分

但是现在的 AI 产品,光靠训练数据还不够。像 Perplexity、豆包、Kimi 这种"AI 搜索",回答问题的时候是实时去网上找内容的,这套流程叫 RAG(Retrieval-Augmented Generation,检索增强生成),大概长这样:

css 复制代码
用户提问
    ↓
改写成检索 query(可能拆成多个子问题)
    ↓
去搜索引擎 / 向量库捞回 Top-K 相关文档(K 通常 10~50)
    ↓
对每段内容做相关性打分(Rerank)
    ↓
取 Top-N(N 通常 3~10)喂给大模型
    ↓
大模型基于这几段内容生成答案

能不能被 AI 在答案里"提到",其实就卡在打分和 Top-N这两步。打分靠什么?主要是三个维度:

  • 语义相关性:你这段内容跟用户的问题,语义向量夹角大不大;
  • 信息密度:同样长度,你比别人多讲了多少有用的事;
  • 可引用性:能不能直接拎出一句话当答案,不需要模型再去理解上下文。

其中"可引用性"是 GEO 最吃香的点。举个例子,用户问"向量数据库是什么",RAG 系统捞回来两段:

A 段:

"在如今这个 AI 时代,随着大模型的发展,我们迎来了全新的数据存储需求。那么什么是向量数据库呢?让我们一起来看看。向量数据库的概念其实非常有意思......"

B 段:

"向量数据库是一类专门用于存储、索引和检索向量数据的数据库,常用于语义搜索、推荐系统和 RAG 应用。"

A 段绕了 50 个字没说到重点,B 段一句话就给了定义。Rerank 模型给 B 段的分会显著高,最终塞进 prompt 的就是 B 段,答案里引用的也是 B 段。A 段的作者可能文章写了 3000 字,但一个字都没进 AI 的答案里。

4.3 为什么"知识积木"这么重要

把上面两个机制串起来看,你会发现一个规律:

AI 不是在读文章,AI 是在抽知识单元。

不管是训练阶段的数据清洗,还是推理阶段的 RAG 检索,AI 处理内容的粒度都是"段落"甚至"句子",不是"整篇文章"。一篇文章里只要有几个段落写得好,这几个段落就有机会被 AI 记住、被 AI 引用,剩下的内容可能直接被丢掉。

这就是为什么 GEO 反复强调:

  • 每段只讲一件事:方便被独立抽取;
  • 先结论后解释:第一句就是可直接引用的知识点;
  • 别用"它"、"这个":代词一多,段落脱离上下文就看不懂,Rerank 分数会掉;
  • 用表格和列表:结构化内容在训练数据里权重高,在 RAG 里也容易命中;
  • 定义、对比、边界:这三种句式是 AI 答案里出现频率最高的,写好了就容易被抽。

说白了,GEO 就是顺着 AI 筛内容的机制去写东西,不是玄学。

5、拿个例子看就懂了

光说概念太抽象,举个具体的。假设你要写一篇关于"向量数据库"的文章。

SEO 写法

标题大概是这样:

向量数据库是什么?原理、应用场景和选型指南

正文里会反复出现"向量数据库"、"向量数据库原理"、"向量数据库选型"这些词,关键词密度拉满,再塞一堆外链,搜索引擎看了挺爽。

GEO 写法

一上来就给定义,不废话:

向量数据库是一类专门用来存储、索引和检索向量数据的数据库,常用于语义搜索、推荐系统、RAG 应用和多模态检索。

然后给一个对比表:

类型 适合什么数据 怎么查 典型场景
关系型数据库 结构化数据 SQL 精确查询 订单、用户、财务
搜索引擎 文本 关键词匹配 站内搜索、日志检索
向量数据库 Embedding 向量 相似度检索 语义搜索、AI 知识库

再顺手回答一个高频问题:

向量数据库适合什么场景? 语义搜索、RAG 知识库、图片音视频相似检索、个性化推荐、大模型长期记忆等。

再说说边界:

如果业务就是主键查询、事务处理或者结构化报表,压根不需要向量数据库,传统关系库更合适。

发现区别了吗?GEO 的内容是一块一块的"知识积木",AI 能直接拎起来用;SEO 的内容是连续的"文章流",关键词多但 AI 抽取起来费劲。

6、GEO 内容到底要怎么写

总结下来就六条,一条一条看。

6.1 先把"是什么"说清楚

别绕圈子,别铺垫半天。开头第一段就把定义给了。

比如写 GEO,第一句就应该是:

GEO 是面向 AI 搜索和 AI 问答系统的内容优化方法,目标是提高内容在 AI 答案里的可见性。

这种句子 AI 看到就能直接复述,不用再帮你总结一遍。

6.2 结构要清楚

AI 模型在抽内容的时候,特别喜欢有层级的东西。所以多用:

  • 标题分级(一级、二级、三级)
  • 列表和表格
  • FAQ
  • 步骤
  • 对比维度

比一大坨文字强太多。

6.3 按问题组织,不是按关键词

传统 SEO 会列一堆关键词,GEO 反过来------列一堆用户真实会问的问题。

比如写 GEO,问题清单应该是:

  • GEO 是什么?
  • 和 SEO 有啥区别?
  • 会不会取代 SEO?
  • 小公司值不值得做?
  • 怎么衡量效果?

然后每个问题底下给一段自带结论的回答,AI 抽起来非常顺手。

6.4 有对比,也要讲边界

AI 特别爱回答"A 和 B 有什么区别"、"什么时候不适合"这类问题。

主动写清楚边界,比吹得天花乱坠有用多了。比如:

GEO 不会完全取代 SEO。SEO 还是传统搜索流量的主要入口,GEO 更适合 AI 问答和答案可见性的场景。未来大概率是两者并存。

这种带边界的内容,AI 更愿意引用,因为它显得"靠谱"。

6.5 权威性要有

AI 在选引用来源的时候,会倾向于可信度高的内容。可信度来自:

  • 作者背景
  • 机构或品牌
  • 数据来源
  • 具体案例
  • 专业术语用得准
  • 内容有在更新

泛泛而谈、没案例没数据的文章,AI 看一眼就划走了。

6.6 别堆关键词,要讲完整

这个是老生常谈了,但是 GEO 尤其忌讳。

反例:

GEO 优化很重要,GEO 可以提升 AI 搜索表现。(啥也没说)

正例:

GEO 通过优化内容结构、语义表达、事实依据和问答覆盖度,让生成式 AI 在回答用户问题时更容易识别主题、提取关键信息,并把它纳入最终答案。

后一种 AI 直接能拿去用。

7、一个简单的实操清单

如果你想把一篇现有文章"改造"成 GEO 友好的,可以按这个清单过一遍:

基础层

  • 开头有没有直接回答主题是什么?
  • 有没有废话和营销话术?
  • 小标题够不够清晰?
  • 有没有总结性结论?

结构层

  • 有没有列表、表格、FAQ?
  • 有没有覆盖用户常问的问题?
  • 有没有步骤化说明?
  • 有没有说"适合什么/不适合什么"?

可信层

  • 有没有真实案例?
  • 有没有数据或来源?
  • 有没有标更新时间?
  • 结论有没有夸大?

AI 友好层

  • 每段是不是只表达一个观点?
  • 代词和"这个、那个"是不是太多了?
  • 品牌和产品名有没有明确写出来?
  • 内容是不是能拆成独立的知识点?

8、一个有意思的类比

帮助理解一下两者的差异:

  • SEO 像是在图书馆里想办法让你的书摆在显眼位置,让读者自己走过来挑;
  • GEO 像是让图书管理员在回答读者问题时,愿意主动把你的书推荐出去。

一个是"争入口",一个是"争答案"。

9、一些还没想明白的问题

GEO 虽然讲起来挺有道理,但是实际做的时候,还有一些问题值得继续琢磨:

(1)怎么量化 GEO 的效果?被 ChatGPT 引用了一次,但它不一定告诉你,这个"答案可见性"怎么测?

(2)不同 AI 产品的偏好不一样,ChatGPT 喜欢的内容,豆包不一定喜欢,要不要针对不同引擎做差异化?

(3)如果内容被 AI 改写后失真了怎么办?原作者能不能保护语义?

(4)企业内部知识库的 GEO 怎么做?这块和公网 SEO/GEO 又是另一套逻辑;

(5)GEO 会不会演变成"给 AI 投喂"的军备竞赛,最后所有内容都长一个样?

这些问题暂时没有标准答案,有想法的朋友欢迎交流。

参考

(1)en.wikipedia.org/wiki/Genera...

(2)princeton-nlp.github.io/GEO/

(3)arxiv.org/abs/2311.09... (GEO 原始论文)

(4)arxiv.org/abs/1910.10... (C4 数据集与 T5,Google 的训练数据清洗范式)

(5)arxiv.org/abs/2306.01... (RefinedWeb,Falcon 的数据清洗流程)

(6)huggingface.co/datasets/Hu... (FineWeb,开源高质量训练数据集及清洗规则)

相关推荐
guo_xiao_xiao_2 小时前
YOLOv11海上多场景船只目标检测数据集-980张-Boat-1
人工智能·yolo·目标检测
周末程序猿2 小时前
技术总结|十分钟了解大模型投毒
人工智能·aigc
漫游的渔夫2 小时前
前端开发者做 Agent:模型说执行就执行?先加 3 道闸门再碰真实业务
前端·人工智能·typescript
joshchen2153 小时前
强化学习基础(赵世钰)第一章
人工智能·深度学习·算法·机器学习·强化学习
拜特说3 小时前
RAG 进化史:从基础检索到智能体驱动
人工智能
weixin_398187753 小时前
YOLOv11改进:全维度动态卷积ODConv与C3k2模块创新
人工智能·yolo
李昊哲小课3 小时前
Hermes Agent Dashboard 二次开发指南
人工智能·智能体·hermesagent
MATLAB代码顾问3 小时前
RAG技术详解:从检索增强生成到知识库问答实战
人工智能
东方佑3 小时前
色块语义Token化器V3:用语义压缩重构图像编码
人工智能·计算机视觉·重构