SEO-滥用元机器人、规范或 hreflang 标签

🧱 一、滥用 Meta Robots 标签

❌ 常见问题:

问题 描述
设置了 noindex 不该屏蔽的页面 比如产品页、分类页被意外 noindex,导致不被收录
设置 nofollow 导致内链失效 所有链接都被 nofollow,影响爬虫抓取路径
<meta> 标签和 HTTP header 中冲突 比如 meta 设为 index,但 HTTP header 设为 noindex

✅ 改善建议:

  • 核心页面使用:<meta name="robots" content="index, follow">

  • 仅对 隐私页、后台页、重复内容页 使用 noindex, nofollow

  • 使用 GSC 检查"已排除的页面"原因,确认是否因 noindex


🧱 二、滥用 Canonical 标签(rel=canonical)

❌ 常见问题:

问题 描述
所有页面都指向主页 导致所有页面内容都不被索引(Google 以为是重复页)
指向错误的 URL(比如 HTTP 版本) 会造成错误页面收录
动态参数页未正确规范 如分页、筛选页 canonical 到非匹配内容页

✅ 改善建议:

  • 每个页面都应规范到自己或等价的原始版本,如:

    <link rel="canonical" href="https://example.com/product/123" />

  • 使用绝对路径,确保协议(https)和域名一致

  • 不要全站统一写 <link rel="canonical" href="https://example.com/">


🧱 三、滥用 hreflang 标签(多语言/地区)

❌ 常见问题:

问题 描述
hreflang 设置国家语言代码不对 比如写成 en 而非 en-us,或漏了地区
自引用缺失 页面未包含指向自己的 hreflang 标签
hreflang 与 canonical 指向不同页面 会让 Google 不知道信哪一个
页面语言不对应 hreflang 指的是西班牙语,页面内容却是英语

✅ 改善建议:

  • 每个页面都应包含 自我引用 + 所有语言版本,如:

    <link rel="alternate" hreflang="en-us" href="https://example.com/us/page" /> <link rel="alternate" hreflang="es-pe" href="https://example.com/pe/page" /> <link rel="alternate" hreflang="x-default" href="https://example.com/" />

  • hreflang 和 canonical 应该保持一致(指向自己或同内容的页面)

  • 用 Google 的 hreflang 检查工具 检查是否互相指向


🔍 快速排查方法

工具 用法
Google Search Console 查看抓取/索引状态、noindex/canonical/hreflang 错误
Screaming Frog SEO Spider 批量检查 meta robots、canonical、hreflang 设置是否正确
Ahrefs / SEMrush 查看重复页面、索引异常页面
Site:example.com 搜索 检查哪些页面已被 Google 收录(可能被 canonical 指错)

✅ 总结:改进要点

标签 正确用法 改善关键
meta robots 只屏蔽非核心页面 核心页面必须 index, follow
rel=canonical 每页只指向等价唯一页面 避免全站统一、避免参数误指
hreflang 含自引用、语言正确、页面匹配 与 canonical 保持一致

元机器人

<meta name="robots" content="指令1, 指令2">

放在 <head> 中。


🧾 常见的 content 指令解释:

指令 含义
index ✅ 允许搜索引擎收录此页面(默认)
noindex ❌ 不让搜索引擎收录此页面(页面不会出现在搜索结果中)
follow ✅ 允许搜索引擎继续抓取页面上的链接
nofollow ❌ 不让搜索引擎抓取页面上的链接
noarchive 不显示缓存快照(Google 搜索结果的"缓存")
nosnippet 不显示摘要片段(meta 描述、结构化数据)
max-snippet:0 限制摘要片段字数
max-image-preview:none 禁止图像预览

✅ 示例:

1. 允许索引和跟踪链接(默认,无需设置)

<meta name="robots" content="index, follow">

2. 不收录,但允许抓取链接

<meta name="robots" content="noindex, follow">

👉 常用于:登陆页、重复内容页、支付成功页等

3. 不收录,也不跟踪链接

<meta name="robots" content="noindex, nofollow">

👉 常用于:后台、测试页面、用户隐私页面


🚫 注意事项:

  1. 不写 robots 标签,默认就是 index, follow

  2. 一旦设置了 noindex,页面就不会被收录,无论链接多好。

  3. 若 robots.txt 中屏蔽了页面,meta robots 不会生效(因为根本访问不到页面)。


🔍 检查工具:

  • 浏览器 → 右键查看网页源代码 → 搜索 meta name="robots"

  • Google Search Console → URL 检查工具 → 查看"页面可索引性"