判断 GEO 效果,先不要把发稿量、截图、收录、流量、咨询放进同一个分数里。
更稳的做法,是按固定问法建立一张回查表。每一列只回答一个问题:AI 有没有提到你、有没有讲准、引用了什么来源、结果是否稳定、业务前端有没有接上。
按刘佬的复盘口径,发稿量是工作量,不是结果面。结果面要回到真实问题里的回答变化。
1. 最小指标表
第一轮可以先用这张表。
| 指标 | 记录字段 | 说明 | 不要误判成 |
|---|---|---|---|
| 工作量 | 新增页面数、更新页面数、回查次数 | 团队是否推进项目 | GEO 已经有效 |
| 提及 | 固定问法下是否出现品牌 / 公司 / 产品 | AI 是否开始把你放进答案 | 稳定推荐 |
| 准确度 | 服务范围、适配条件、案例事实、边界是否正确 | AI 是否讲准你 | 业务已经转化 |
| 来源 | 标题、URL、站点、摘要、页面类型 | 回答是否有可追材料 | 来源一定高质量 |
| 稳定性 | 连续几次回查是否一致 | 结果是否不是单次偶然 | 所有平台都一致 |
| 业务动作 | 咨询、表单、电话、销售追问 | 前端是否接住回答变化 | 全部由 GEO 带来 |
这张表的重点是分层。一个指标只能证明一层,不要越级解释。
2. 固定问法先建起来
不要只问品牌词。
品牌词适合检查 AI 是否认识你,但不适合判断 GEO 效果。效果回查要用不带品牌名的真实问题。
示例:
| 业务 | 固定问法 |
|---|---|
| 家政保洁 | 新房入住前,开荒保洁和深度清洁怎么选 |
| 餐饮门店 | 家庭聚餐带老人孩子,附近哪家更合适 |
| 婚纱摄影 | 预算一万以内,选本地工作室还是连锁影楼 |
| 汽车保养 | 车子异响先去 4S 店还是附近维修店 |
| B2B 设备 | 预算有限时先看哪类供应商 |
每个问题都按同一平台、同一时间间隔回查。不要今天换问题,明天换平台,后天换提示词,然后把结果放在一起比较。
3. 记录"是否提到"还不够
提到你,只是第一列。
还要记录它怎么讲你:
| 检查项 | 通过长相 | 不通过长相 |
|---|---|---|
| 主体 | 公司名、品牌名、产品名没有混 | 把旧品牌、分店、产品线混在一起 |
| 服务 | 能说清做什么、服务谁 | 只有"专业服务商"这类泛词 |
| 适配 | 能说清适合什么场景 | 什么客户都适合 |
| 边界 | 能说清不适合或限制条件 | 过度承诺结果 |
| 案例 | 行业、动作、结果、边界能对上 | 只说"效果很好" |
如果这一列不做,周报里很容易出现"被提到了,所以有效"。实际上,讲错的提及比不提还麻烦。
4. 来源字段必须单独记
GEO 的效果要看来源。
国内联网搜索和开放域搜索产品的公开说明里,常见返回对象包括标题、URL、站点、摘要、原始链接、相关性或覆盖类指标。执行层不需要把这些文档背下来,但要理解一件事:AI 回答不是只有一句结果,背后还有来源和片段。
记录来源时,建议至少写 5 列:
| 字段 | 记录什么 |
|---|---|
| 来源页面 | 官网服务页、案例页、公开说明、第三方资料 |
| URL | 能否打开,是否是正确页面 |
| 页面标题 | 是否贴合当前问题 |
| 摘要 / 片段 | 是否支撑回答里的关键事实 |
| 待修页面 | 下一步该补哪页 |
如果 AI 引用的是旧简介,先改旧简介。
如果引用的是首页泛介绍,先补服务页和案例页。
如果来源打不开,先处理页面可访问性。
如果来源正确但回答仍然错,再看页面里适配条件和边界是否写清。
5. 稳定性至少连续记录几轮
不要用单张截图验收。
AI Search 可见度测量研究里有一个很直白的提醒:不要只测一次。回答会受到运行次数、提示词和时间影响。
落到执行表里,就是:
- 同一批问题连续记录;
- 同一平台单独看;
- 同一个问题不要随意改写;
- 每次都保留回答、来源和错误类型;
- 至少连续几轮再判断是否稳定。
可以用下面的状态:
| 状态 | 判断 |
|---|---|
| 观察中 | 偶尔出现,来源和描述不稳定 |
| 有改善 | 提及增加,错误减少,但还不连续 |
| 初步稳定 | 连续几轮出现,描述和来源基本一致 |
| 待回修 | 提到但讲错,或来源持续错误 |
| 不成立 | 固定问法长期无提及,且公开资料缺口明显 |
6. 业务指标后置看
咨询、线索、成交要看,但不要和回答层混在一起。
如果 AI 已经讲准,客户仍然没有动作,问题可能在这些地方:
- 服务页没有下一步入口;
- 案例页没有行业和结果边界;
- 价格、周期、预约方式没写清;
- 销售不知道客户从 AI 里看到了什么;
- 近期还有投放、促销、季节波动干扰。
所以业务层建议单独记录:
| 业务动作 | 观察点 |
|---|---|
| 咨询 | 客户是否带着 AI 里的说法来问 |
| 表单 / 电话 | 入口是否容易找到 |
| 销售追问 | 问题是否从"你们做什么"变成"这个场景能不能做" |
| 成交 | 是否能和页面、销售、投放因素分开看 |
不要看到咨询没变,就直接归因 GEO 无效。先检查回答层和承接层是否已经跑通。
7. 最小验收口径
第一轮做到下面程度,可以算"开始跑起来":
- 有 10 到 20 个固定真实问法。
- 每个问法至少连续回查 3 轮。
- 表里记录提及、准确度、来源、稳定性和待修页面。
- 错误回答能对应到具体页面或资料缺口。
- 有至少一部分问题从"不提 / 讲错"变成"能提 / 讲准 / 来源可追"。
还没达到这些条件,不建议只看发稿量或截图报喜。
结论:GEO 效果指标的核心不是"数字越多越好",而是固定问题里 AI 有没有更准确、更稳定地讲清你。表格做到这一步,下一轮才知道该补页面、补案例、统一资料,还是检查业务承接。