搜索引擎索引权威指南:抓取、收录与排名的基础

有没有想过网站是如何在搜索引擎上列出的,以及 Google、Bing 和其他公司如何在几秒钟内为我们提供大量信息?

这种闪电般快速性能的秘诀在于搜索索引。它可以与所有页面的庞大且完美排序的目录存档进行比较。进入索引意味着搜索引擎已经看到您的页面、评估并记住了它。因此,它可以在搜索结果中显示此页面。如果没有这个阶段,您网站的 SEO 工作就毫无意义。如果您网站的页面无法被索引,它们也无法在搜索结果中排名并增加流量。

让我们从头开始深入研究索引的过程以了解:

  • 什么是搜索引擎索引以及如何索引您的网站
  • 搜索引擎如何从数十亿个网站(包括您的网站)收集和存储信息
  • 为什么索引对 SEO 很重要
  • 如何管理此过程以确保搜索引擎更快地为您的网站编入索引
  • 如何限制网站索引
  • 关于使用影响索引的各种技术,您需要了解的内容
  • 如何检查您网站的索引

什么是搜索引擎索引?

搜索引擎索引是搜索引擎分析和存储网站页面以构建其索引(内容数据库)的过程。这允许搜索引擎在 SERP 中显示页面。

要参加 SERP 第一名的争夺,您的网站必须经过一个选择过程:

步骤 1. 网络蜘蛛(或机器人)扫描网站的所有已知 URL。这称为爬行。

步骤 2.机器人从网页收集和存储数据,这称为索引。

步骤 3.最后,网站及其页面可以在游戏中竞争,试图对特定查询进行排名。

简而言之,如果您希望用户在 Google 或 Bing 上找到您的网站,则需要将其编入索引:有关页面的信息应添加到搜索引擎数据库中。

请记住, 索引和爬网是两个独立的过程。抓取是指发现内容,索引是指存储所述内容。如果您的网页已被抓取,这并不意味着它已被编入索引。

现在,让我们看看搜索索引背后的方法。

搜索引擎索引如何运作?

搜索引擎会扫描您的网站以确定其目的并辨别其页面上的内容类型。如果搜索引擎喜欢它所看到的内容,它可能会在搜索索引中存储页面的副本。搜索引擎存储每个页面的 URL 和内容信息。

网络爬虫索引页面及其内容,包括文本、内部链接、图像、音频和视频文件。如果爬虫认为内容有价值且具有竞争力,搜索引擎会将该页面添加到索引中。然后,它将在"游戏"中争夺相关用户搜索查询的搜索结果中的位置。

在编入索引期间,Google 会确定搜索中显示的网页是副本还是原始网页(规范网页)。它通过将类似的页面组织成组来开始此评估。然后,它将规范状态分配给最具代表性的规范状态。其余的被视为替代版本并用于其他情况,包括移动搜索结果或特定查询。谷歌还记录了有关规范页面的详细信息,例如语言、位置和用户友好性。此信息有助于 Google 决定在搜索结果中显示哪些网页。

请记住: Google 仅在包含优质内容的网页中加入索引。使用低质量或垃圾域名进行关键字堆砌或链接构建等不正当活动的页面将被标记或忽略。谷歌算法更新,尤其是核心更新,会影响 SEO 中的索引。如果 Google 发现网站的重要部分对搜索结果没有价值,它可能会决定不花时间抓取整个网站并为其编入索引。

什么是搜索引擎索引?

搜索引擎索引是一个庞大的数据库,包含有关搜索引擎抓取、分析和存储(随着时间的推移)的所有页面的信息。该索引包含有关每个页面的简要信息和摘要。当您输入搜索查询时,搜索引擎会快速扫描其已保存内容列表,以提取最相关的网页以显示在 SERP 中。这就像图书馆员按字母顺序、主题和确切标题在目录中查找书籍。

如果没有索引目录,搜索引擎就无法立即显示有用的页面来响应您的查询。

什么是倒挂指数?

倒排索引是一种帮助您尽可能高效地存储和搜索文本数据的系统。

在传统索引中,数据按文档组织,每一页都列出了它包含的术语。倒排索引会颠倒这种情况,将每个术语与包含它的文档列表相关联。

这种倒置结构允许搜索引擎通过查找每个术语并检索相应的文档列表来快速找到给定搜索查询的相关文档。

这种高效的数据结构使搜索引擎能够几乎即时返回查询结果,甚至跨数十亿个页面。

为什么索引对 SEO 很重要?

答案很简单。如果搜索引擎不为页面编制索引,它就不会出现在搜索结果中。因此,该页面排名和从搜索中获得自然流量的机会为零。如果没有正确(或任何)索引,即使是其他优化良好的页面也将在搜索中保持不可见。

简而言之,在任何 SEO 工作对自然搜索性能产生影响之前,索引是至关重要的第一步。

让搜索引擎更快地为您的网站编入索引

展示您的网站(或其中的新页面)是吸引搜索引擎注意力的必经之路。吸引搜索引擎注意力的一些流行且有效的方法包括向 Google 和 Bing 提交站点地图或单个 URL、内部链接、获取反向链接以及参与社交媒体。

让我们更详细地探讨这些方法:

XML 站点地图

为了确保我们在同一页面上,让我们首先刷新我们的记忆。XML 站点地图是爬虫需要注意的网站上所有页面(XML 文件)的列表。它用作机器人的导航指南。站点地图确实可以帮助您的网站以更高效的抓取速度更快地建立索引。

站点地图充当搜索引擎爬虫的路线图。他们可以将爬虫引导至网站中其他被忽略的区域。站点地图可帮助您指定哪些页面是 SEO 中索引的最高优先级。它们还通知搜索引擎要索引的新内容和更新内容。对于大型网站,站点地图可确保在抓取过程中不会遗漏任何页面。

准备好站点地图后,转到您的 Google Search Console 并:

打开站点地图报告 ▶️ 单击添加新站点地图 ▶️ 输入您的站点地图 URL(通常位于 yourwebsite.com/sitemap.xml ▶️) 点击提交按钮。

您还可以在必应网站管理员工具中提交站点地图。打开站点地图部分,单击提交站点地图按钮,输入您的站点地图 URL,然后按提交。

我们描述了如何添加包含大量网站链接的站点地图。但是,如果您需要添加一个或多个链接进行索引,则可以使用其他 GCS 选项。使用网址检查工具,您可以请求抓取单个网址。

转到您的 Google Search Console 仪表板,单击 URL 检查部分,然后在行中输入所需的页面地址:

如果某个页面是最近创建的或遇到技术问题,则可能不会将其编入索引。发生这种情况时,您将收到一条消息,指示问题,您可以请求为 URL 编制索引。只需按下按钮即可开始索引过程:

所有具有新内容或更新内容的 URL 都可以通过 GSC 请求在搜索引擎中建立索引。

Google 的索引 API

借助 Indexing API,您可以通知 Google 需要抓取的新网址。

据谷歌称,这种方法是使用站点地图的绝佳替代方案。通过利用 Indexing API,Googlebot 可以及时抓取您的页面,而无需等待站点地图更新或 ping Google 。但是,Google 仍然建议提交站点地图以覆盖您的整个网站。

要使用 Indexing API,请为您的客户端和服务帐号创建一个项目,在 Search Console 中验证所有权,然后获取访问令牌。本文档提供了有关如何执行此作的分步指南。

设置完成后,您可以使用相关 URL 发送请求以通知 Google 新页面,然后耐心等待,直到您网站的页面和内容被抓取。

注意:索引 API 对于经常托管短期页面(例如招聘信息或直播视频)的网站特别有用。通过启用推送单个更新,索引 API 可确保内容在搜索结果中保持新鲜和最新。

在必应网站站长工具中提交 URL

此网站索引工具类似于 Google 控制台的 URL 检查工具。它允许您每天提交多达 10,000 个 URL,以便立即抓取和索引。

单击"提交 URL",每行添加一个 URL,然后推送"提交"。

系统会立即评估 URL 以进行搜索索引。如果它们符合质量标准,它们也会出现在必应搜索结果中。这对于快速索引重要内容非常有用。

Bing 的 IndexNow

Bing 的 IndexNow 是一种 ping 协议,可让您立即通知搜索引擎有关新内容更改或更新的信息。您最多可以发送 10,000 个 URL 来绕过 Bing 的爬虫。

IndexNow 集成到 Wix、Duda 和 xenForo 中。如果您使用的是其他 CMS,则必须安装插件。此外,如果列出的任何系统都不支持该文件,则必须在网站的根目录安装 API 密钥文件。然后,还必须通过在新行上指定每个 URL 来将相应的 URL 提交到必应。

在此处查找所有说明。

这将允许搜索引擎更快地抓取和索引(或重新索引)这些特定页面,从而加快这些新更改在搜索结果中的出现。

所有提交的 URL 数据将显示在必应网站管理员工具的 IndexNow 部分中。

内部链接

在整个网站架构中实施深思熟虑的内部链接策略,为爬虫发现和索引您的页面提供了清晰的路径。

当搜索引擎爬虫登陆您的网站时,内部链接会充当引导爬虫发现新页面的路线。结构良好的内部链接(即网站结构)系统使爬虫更容易找到和抓取您网站上的所有页面。

如果没有来自核心页面的内部链接,搜索抓取工具可能很难找到距离首页几次点击或没有指向它们的链接的页面并将其编入索引。

优化网站的内部链接结构时,请考虑以下事项:

  • 确认页面上的所有链接都为用户带来价值并正常工作。
  • 为它们指向的页面提供描述性和相关的锚文本。
  • 仔细检查页面内容中是否有 404 链接,并使用正确的链接更新它们。

外部链接

反向链接是搜索引擎确定页面重要性不可或缺的一部分。他们向谷歌发出信号,表明该资源很有用,值得在 SERP 中名列前茅。

以下是获得高质量反向链接的一些方法:

  • 来宾发帖
  • 创建新闻稿
  • 撰写推荐信
  • 利用本文中其他流行的反向链接获取策略

社交信号

搜索引擎旨在提供符合用户搜索意图的高质量内容。谷歌通过评估社交信号(包括点赞、分享和社交媒体帖子浏览量)来实现这一目标。

这些信号告知搜索引擎内容是否满足用户的需求以及相关性和权威性。如果用户主动分享您的页面、喜欢它并推荐它以供阅读,搜索机器人将不会经过您的内容。这凸显了活跃在社交媒体上的重要性。此外,谷歌表示,社交信号不是直接的排名因素,但可以间接帮助搜索引擎优化。

社交信号包括 Facebook、Twitter(X)、Pinterest、LinkedIn、YouTube 等上的所有活动。使用 Facebook,您可以为您的重要链接创建帖子。在 YouTube 上,您可以添加视频描述的链接。您还可以使用 LinkedIn 来提高您的网站和公司的可信度。了解如何使用您所定位的每个平台有助于您调整方法以最大限度地提高网站的有效性。

根据经验,您在网站上创建的社交嗡嗡声越多,它被索引的速度就越快。

您如何检查网站的索引?

您已提交网站页面以供索引。您如何知道索引成功并且必要的页面已经排名?让我们看看一些可以用来检查这一点的方法。

在 GSC 中分析索引报告

Google Search Console 允许您监控哪些网站页面被索引,哪些未被索引,以及原因。我们将向您展示如何检查这一点。

首先单击"索引"部分,然后转到"页面"报告。

在已编入索引的选项卡上,您将找到有关网站上所有已编入索引的网页的信息。点击查看有关已编入索引网页的数据按钮。

您将在站点地图中看到所有已提交的页面,并在"所有已提交的页面"行下看到已编入索引的页面。

向下滚动以查看所有索引页面的列表。从这里,您甚至可以找到 Google 上次抓取该页面的时间。

接下来,从下拉菜单中选择"仅未提交的页面"选项。您会在站点地图中看到未提交的已编入索引的网页。您可能希望将它们添加到您的站点地图中,因为 Google 认为它们是高质量的页面。

现在,让我们进入下一阶段。

"未编制索引"选项卡显示由于各种原因(例如索引错误)而无法编制索引的页面。

在网页未编入索引的原因表格中,您可以找到有关每个问题的具体详细信息,并尝试解决它。

仔细浏览所有这些页面,因为您可能会找到可以修复的 URL。这将确保 Google 将它们编入索引,从而提高排名。使用 Google 网站排名检查器查看您的努力是否奏效以及您的排名是否有所提高。

向下滚动到显示已编入索引的页面的选项卡,但有些问题可能是您故意的。单击表格中的警告行以查看有关问题的详细信息,然后尝试使用此新信息进行修复。这将帮助您获得更好的排名。

也可以为视频获取相同类型的索引数据。只需转到"索引"部分中的"视频页面"报告即可。

使用"site:"搜索运算符

检查网站索引的另一种流行方法是通过 site: 命令。此 Google 搜索运算符显示网站的页面列表。但是,不能保证 Google 会提供完整列表。

大多数 SEO 专家使用它,因为它是检查网站或页面索引的最简单方法。这在谷歌 2024 年 3 月的核心更新之后特别有用,因为许多包含 AI 内容的网站都被取消了索引。

在 Google 搜索栏中输入此命令并输入网站的域名。

您会看到当前显示在 Google SERP 中的网站页面。但是,返回的 URL 列表并不总是广泛的。较大的网站不应期望在结果中看到其所有网址。

您还可以验证单个网址的索引状态。只需在搜索引擎中输入site:yourpage.com即可。

如果网址未显示在网站:查询中,您可以使用网址检查工具查看网址是否已编入索引。

使用 SE Ranking 的工具

使用 SE Ranking,您可以运行网站 SEO 审核并查找有关索引的信息。

转到"概述"并滚动到"页面可索引性"块。

在这里,您将看到已编入索引和未编入索引的页面的数量和百分比比率。此仪表板还显示了不允许搜索引擎索引网站页面的问题。

通过单击绿线,您将看到索引页面的列表及其参数:问题、总流量、状态代码、被robots.txt阻止、引用页面、x-robots-tag、标题、描述等。

您还可以使用 SE Ranking 的索引状态检查器检查页面索引。只需选择搜索引擎并输入 URL 列表。

解决任何索引问题后,您可以使用排名检查器来监控网站的性能并跟踪改进情况。

不同技术如何影响网站索引

现在我们已经对 Google 和 Bing 如何索引网站、如何提交页面进行索引以及如何检查它们是否出现在 SERP 中感到困惑,让我们继续讨论一个同样重要的问题:Web 开发技术如何影响网站内容索引。

Flash 内容

Flash 曾经被用来制作游戏和成熟的网站,但 Flash 已不再活跃。在其 20 年的发展过程中,Flash 存在许多缺点,包括高 CPU 负载、Flash 播放器错误和索引问题。

2019 年,谷歌停止对 Flash 内容进行索引,发表了关于一个时代结束的声明。

毫不奇怪,搜索引擎建议不要在网站上使用 Flash。但是,如果您的网站是使用此技术设计的,请创建网站的文本版本。这对于尚未安装 Flash(或安装过时的 Flash 程序)的用户和移动设备用户(这些设备不显示 Flash 内容)非常有用。

JavaScript

在 JavaScript 开始主导 Web 开发之前,搜索引擎只抓取 HTML 等基于文本的内容。随着 JS 越来越受欢迎,搜索引擎提高了索引此类内容的能力。

然而,JavaScript 渲染是一个资源密集型过程。搜索引擎在网页上处理 JavaScript 的方式可能会有延迟。在渲染完成之前,搜索引擎可能难以访问客户端加载的所有 JS 内容。要揭示 JavaScript 中的内容(通常看起来像是指向 JS 文件的单个链接),机器人需要先渲染它。只有完成这一步,搜索引擎才能看到HTML标签中的所有内容并快速扫描。

谷歌在索引 JavaScript 渲染的内容方面速度越来越快。60% 的 JavaScript 内容在 HTML 索引后 24 小时内被索引。但是,这仍然留下剩余的 40% 的 JS 内容,这可能需要更长的时间。

请注意,注入 JavaScript 的页面部分可能包含内部链接。如果搜索引擎无法呈现 JavaScript,它就无法点击链接。这意味着搜索引擎无法将这些页面编入索引,除非它们链接到其他页面或包含在站点地图中。

如果你有一个 JavaScript 密集型网站,请尝试重构 JavaScript 调用,以便首先加载内容,然后看看这样做是否可以改进 Web 索引。阅读我们的综合指南,了解有关改进 JS 网站索引的更多提示。

AJAX

AJAX 通过与服务器交换少量数据来使页面能够串行更新。使用 AJAX 的网站的标志性功能之一是内容由单个连续脚本加载,而不是将其划分为具有唯一 URL 的单独页面。因此,网站页面的 URL 中通常带有主题标签 (#)。

像这样的页面历来没有被搜索引擎索引。爬虫不会扫描 https://mywebsite.com/#example URL,而是转到 https://mywebsite.com/,而不是使用 # 扫描 URL。因此,爬虫无法扫描网站的所有内容。

从 2019 年起,带有 AJAX 的网站已由 Google 直接呈现、抓取和索引。这意味着机器人可以扫描和处理 #!URL,模仿用户行为。现在,网站管理员不再需要创建每个页面的 HTML 版本,但您仍然应该检查您的robots.txt是否允许 AJAX 脚本扫描。如果不允许它们,只需打开它们进行搜索索引即可。

SPA

单页应用程序 (SPA) 是一种相对较新的趋势,它将 JavaScript 整合到网站中。与传统网站通过在需要时从服务器请求 HTML、CSS 和 JS 来加载 HTML、CSS 和 JS 不同,SPA 只需要一次初始加载。由于它们不会与服务器交互超过该点,因此所有进一步的处理都留给浏览器。然而,虽然 SPA 网站加载速度更快,但其背后的技术可能会损害您的 SEO。

扫描 SPA 时,爬网程序无法识别内容是否正在动态加载。然后搜索引擎会将其视为尚未填充的空白页面。

SPA 也不遵循 404 错误页和其他非 200 服务器状态代码背后的传统逻辑。在浏览器呈现内容时,服务器会向每个请求返回一个 200 HTTP 状态代码。因此,搜索引擎无法判断某些页面是否(或无效)用于索引。

要了解如何优化单页应用程序,请阅读我们关于 SPA 的博客文章。

框架

JavaScript 框架用于促进动态网站交互。默认情况下,使用 React、Angular、Vue 和其他 JavaScript 框架构建的网站都设置为客户端渲染。这通常会导致框架充满以下 SEO 挑战:

  • 爬虫无法看到页面上的内容。搜索引擎在索引需要您单击才能加载的内容时遇到问题。
  • 速度是一个主要障碍。Google 会抓取未缓存的网页。第一次加载可能很麻烦且有问题。
  • 客户端代码增加了最终 DOM 的复杂性。 它需要来自搜索引擎爬虫和客户端设备的更多 CPU 资源。

如何限制网站索引

您可能不希望某些页面被搜索引擎索引。没有必要让所有页面都排名并出现在搜索结果中。

哪些内容最常受到限制?

  • 内部和服务文件:那些只能由站点管理员或网站管理员看到的文件,例如,在注册期间指定的用户数据的文件夹:/wp-login.php;/wp-register.php。
  • 不适合在搜索结果中显示或用户第一次认识该资源的页面:感谢页面、注册表等。
  • 包含个人信息的页面:访问者在订购和注册时留下的联系信息,以及支付卡号;
    特定类型的文件,例如 pdf 文档。
    重复内容:例如,您正在为其进行 A/B 测试的页面。

因此,您可以阻止对用户没有价值且不影响网站排名的信息,以及机密数据被索引。

你可以用它解决两个问题:

降低某些网页被抓取的可能性,包括编入索引和显示在搜索结果中。

节省抓取预算 - 机器人可以抓取的每个站点的 URL 数量有限。

让我们看看如何限制网站内容。

Robots meta tag

Meta robots 是添加搜索机器人命令的标签。它们会影响页面的索引及其元素在搜索结果中的显示。该标签放置在 Web 文档的<head>中,以在机器人开始抓取页面之前指示它。

Meta robots 是一种更可靠的索引管理方式,这与 robots.txt 不同,后者仅作为爬虫的建议。借助 Meta robots,您可以直接在页面代码中为机器人指定命令(指令)。它应该添加到所有不应索引的页面中。

X-Robots-Tag

由于并非所有页面都有 HTML 格式和<head>部分(例如 PDF 文档),因此无法使用 robots 元标记阻止某些内容编入索引。这时 X-Robots Tag 就派上用场了。

X-Robots-Tag 用作给定 URL 的 HTTP 标头响应的元素。当指示抓取工具不要为网页编制索引时,带有 X-Robots-Tag 的 HTTP 响应将如下所示:

这是您需要使用 noindex 规则的地方,类似于机器人元标记。请参阅此 Google 指南了解更多信息。

服务器端

您还可以限制网站内容服务器端的索引。为此,请在您网站的根目录中找到 .htaccess 文件并添加必要的代码来限制特定搜索引擎的访问。

此规则允许您阻止可能构成潜在威胁或仅因过多请求使服务器过载的不需要的用户代理。

设置网站访问密码

防止网站索引的另一种方法是通过 .htaccess 文件设置网站访问密码。设置密码并将代码添加到 .htaccess 文件中。

密码必须由网站所有者设置,因此您需要通过添加用户名来识别自己的身份。这意味着您需要在密码文件中包含该用户。

这将导致机器人将无法再抓取网站并为其编制索引。

您还可以使用移除工具阻止您网站的网址出现在 Google 搜索结果中。但是,它只会暂时从 Google 搜索结果中删除页面(六个月),不会影响它们在其他搜索引擎上的存在。

要使用此工具清理不必要的内容,请转到 Google Search Console,▶️转到删除工具▶️,单击新请求按钮▶️并提交页面。

结论

虽然抓取和索引您的网站至关重要,但您的页面可能需要很长时间才能出现在 SERP 中。了解搜索引擎索引的来龙去脉可以帮助您避免可能损害网站 SEO 的有害错误。

通过优化内部链接并仅创建高质量、有用的内容来正确设置站点地图。这将防止搜索引擎忽略您的网站。

现在,让我们快速回顾一下我们涵盖的搜索引擎索引方面:

  • 通过创建站点地图、使用 GSC 和必应网站管理员工具中的功能以及利用内部和外部链接来通知搜索引擎新网站或页面。
  • 索引使用 Ajax、JavaScript、SPA 和框架的网站的细节。
  • 借助 Robots meta tag、X-Robots-Tag、删除工具和访问密码限制站点索引。

请注意,虽然高索引率并不等于高搜索引擎排名,但它是进一步网站优化的基础。在采取进一步措施之前,请检查网页的索引状态以验证其可索引性。

相关推荐
不剪发的Tony老师2 小时前
SQLite 3.51.0发布,新功能解读
数据库·sqlite
努力学习的小廉2 小时前
初识MYSQL —— 复合查询
android·数据库·mysql
NPE~3 小时前
[手写系列]Go手写db — — 第七版(实现Disk存储引擎、Docker化支持)
数据库·后端·docker·golang·教程·手写数据库
workflower3 小时前
FDD与其他方法的相似和区别
数据库·算法·需求分析·个人开发
WeiQ_6 小时前
解决phpstudy 8.x软件中php8.2.9没有redis扩展的问题
数据库·redis·缓存
DashVector11 小时前
向量检索服务 DashVector产品计费
数据库·数据仓库·人工智能·算法·向量检索
KYGALYX11 小时前
在Linux中备份msyql数据库和表的详细操作
linux·运维·数据库
檀越剑指大厂12 小时前
金仓KReplay:定义数据库平滑迁移新标准
数据库