解决根本问题:确保网站被搜索引擎收录与索引的完整指南

你有没有想过网站是如何被搜索引擎列出的,谷歌、必应等公司又是如何在几秒钟内为我们提供大量信息?

这种闪电般的高速性能的秘诀在于搜索索引。它可以比作一个庞大且完美有序的目录档案,涵盖所有页面。进入索引意味着搜索引擎已经看过你的页面,评估过并记住了它。因此,它可以在搜索结果中显示该页面。没有这个阶段,网站SEO工作毫无意义。如果你的网站页面无法被收录,它们也无法在搜索结果中排名并带来流量。

让我们从零开始深入索引的过程,以了解:

  • 什么是搜索引擎索引以及如何索引你的网站
  • 搜索引擎如何从数十亿个网站(包括你的网站)收集和存储信息
  • 为什么索引对SEO很重要
  • 如何管理这一流程,确保搜索引擎更快地索引你的网站
  • 如何限制网站索引
  • 你需要了解使用影响索引的各种技术
  • 如何检查你网站的索引

什么是搜索引擎索引?

搜索引擎索引是搜索引擎分析并存储网站页面以建立其索引(内容数据库)的过程。这使得搜索引擎能够在搜索结果页中显示这些页面。

要参加SERP(搜索结果页)第一名的竞赛,您的网站必须经过筛选流程:

  • 第一步。 网络蜘蛛(或机器人)会扫描网站所有已知的网址。这叫做爬行。
  • 第二步。机器人从网页收集和存储数据,这被称为索引。
  • 第三步。最后,网站及其页面可以在游戏中竞争,争取针对特定查询的排名。

简而言之,如果你想让用户在谷歌或必应上找到你的网站,就需要将其收录:页面信息应被添加到搜索引擎数据库中。

请记住,索引和爬取是两个独立的过程。爬取指的是发现内容,索引则是存储这些内容。如果你的页面被抓取过,这并不意味着它被收录了。

现在,让我们看看搜索索引背后的方法论。

搜索引擎索引是如何运作的?

搜索引擎会扫描你的网站,以确定其目的并判断页面内容的类型。如果搜索引擎喜欢它看到的内容,它可能会在搜索索引中存储页面副本。搜索引擎存储每个页面的网址和内容信息。

网页爬虫索引页面及其内容,包括文本、内部链接、图片、音频和视频文件。如果爬虫认为内容有价值且具有竞争力,搜索引擎会将该页面添加到索引中。然后,玩家就要在搜索结果中争夺相关用户搜索查询的位置。

在索引过程中,谷歌会判断搜索中显示的页面是复制品还是原件(规范页面)。它从将相似页面分组开始评估。然后将最具代表性的版本赋予规范地位。其余的则被视为替代版本,用于其他场合,包括移动搜索结果或特定查询。谷歌还会注意关于官方页面的细节,比如语言、位置和用户友好性。这些信息帮助谷歌决定在搜索结果中展示哪些页面。

请记住: 谷歌只会在包含高质量内容的页面上添加索引。涉及关键词堆砌或使用低质量或垃圾域名的链接建设等可疑活动的页面将被标记或忽视。谷歌算法更新,尤其是核心更新,会影响SEO中的索引。如果谷歌不认为某个网站的部分内容对搜索结果有价值,它可能会决定不投入时间进行爬取和索引整个网站。

什么是搜索引擎索引?

搜索引擎索引是一个庞大的数据库,包含搜索引擎爬取、分析并随时间存储的所有页面信息。索引包含每页的简要信息和摘要。当你输入搜索查询时,搜索引擎会迅速扫描已保存内容列表,找出最相关的网页,用于搜索结果页(SERPs)。这就像图书管理员按字母顺序、主题和确切书名在目录中寻找书籍。

没有索引目录,搜索引擎无法即时为你的查询提供有用的页面。

什么是倒挂指数?

倒挂索引是一种帮助你尽可能高效地存储和搜索文本数据的系统。

在传统索引中,数据按文档组织,每页列出所包含的术语。倒挂索引则相反,将每个术语与包含该项的文档列表关联。

这种倒置结构使搜索引擎能够通过查找每个词语并检索相应的文档列表,快速找到与特定搜索查询相关的文档。

这种高效的数据结构使搜索引擎能够几乎即时返回查询结果,即使是跨越数十亿页面。

为什么索引对SEO很重要?

答案很简单。如果搜索引擎不索引页面,它就不会出现在搜索结果中。因此,这个页面几乎没有排名和通过搜索获得自然流量的机会。如果没有适当(或没有)索引,即使是本来优化良好的页面,在搜索中也会保持隐形。

简而言之,被收录是任何SEO努力影响自然搜索表现的关键第一步。

让搜索引擎更快地索引你的网站

展示你的网站(或其内的新页面)是吸引搜索引擎注意的万无一失的方法。一些流行且有效的吸引搜索引擎关注的方法包括提交网站地图或单个URL到Google和Bing、内部链接、获取反向链接以及在社交媒体上互动。

让我们更详细地探讨这些方法:

XML 站点地图

为了确保我们达成共识,我们先回顾一下。XML 网站地图是爬虫需要注意的网站上所有页面(XML 文件)的列表。它作为机器人的导航指南。网站地图确实能让你的网站更快被收录,爬取速度也更高效。

网站地图作为搜索引擎爬虫的路线图。它们可以将爬虫引导到网站中被忽视的区域。Sitemaps 帮助你指定哪些页面在 SEO 索引中优先级最高。他们还会通知搜索引擎新的和更新内容以进行索引。对于大型网站,网站地图确保爬取过程中不会遗漏页面。

一旦你准备好网站地图,进入谷歌搜索控制台,然后:

打开Sitemaps报告▶️,点击添加新网站地图▶️,输入您的sitemap网址(通常位于 yourwebsite.com/sitemap.xml),▶️点击提交按钮。

你也可以在必应网站管理员工具中提交网站地图。打开Sitemap部分,点击提交sitemap按钮,输入你的sitemap网址,然后点击提交。

谷歌搜索控制台中的URL检查工具

我介绍了如何添加包含大量网站链接的网站地图。但如果你需要添加一个或多个链接进行索引,可以使用其他GCS选项。使用URL检查工具,你可以请求对单个URL进行爬取。

进入你的谷歌搜索控制台仪表盘,点击URL检查部分,在以下一行输入所需的页面地址:

如果页面是最近创建的或遇到技术问题,可能不会被索引。当这种情况发生时,你会收到一条提示问题的消息,你可以请求索引该网址。只需按下按钮即可开始索引流程:

通过GSC可以请求所有包含新内容或更新内容的URL进行索引。

谷歌的索引API

通过索引API,你可以通知谷歌需要抓取的新URL。

据谷歌称,这种方法是使用网站地图的极佳替代方案。通过利用索引API,Googlebot可以迅速爬取您的页面,无需等待网站地图更新或发送Google信号。不过,谷歌仍然建议提交覆盖整个网站的网站地图。

要使用索引API,请为你的客户和服务账户创建一个项目,在Search Console中验证所有权,并获得访问令牌。本文档提供了逐步作指南。

设置好后,你可以发送带有相关网址的请求,通知谷歌新页面,然后耐心等待网站页面和内容被抓取。

注意:索引API对于经常托管短命页面的网站尤其有用,比如职位发布或直播视频。通过支持推送单个更新,索引API确保内容在搜索结果中保持新鲜和最新。

在必应网站管理员工具中提交网址

该网站索引工具类似于谷歌控制台的URL检查工具。它允许你提交最多10,000个每日网址,以便立即爬取和索引。

点击提交URL,每行添加一个URL,然后按下提交按钮。

这些URL会立即被评估用于搜索索引。如果符合质量标准,URL也会出现在必应的搜索结果中。这对于快速收录重要内容非常有利。

必应的IndexNow

必应的IndexNow是一种ping协议,允许你即时通知搜索引擎新的内容变更或更新。你可以发送最多10,000个URL来绕过必应的爬虫。

IndexNow 集成于 Wix、Duda 和 xenForo。如果你用的是其他内容管理系统,必须安装插件。此外,如果API密钥文件不被上述任何系统支持,您必须在网站根安装该文件。然后,你还必须在新行中指定对应的URL。

所有作说明在这里。

这将使搜索引擎更快地爬取和索引(或重新索引)这些特定页面,从而加快搜索结果中新变化的出现。

所有提交的URL数据都会显示在必应网站管理员工具的IndexNow部分。

内部链接

在网站架构中实施深思熟虑的内部链接策略,为爬虫发现和索引你的页面提供了清晰的路径。

当搜索引擎爬虫访问您的网站时,内部链接作为引导爬虫发现新页面的路径。结构良好的内部链接(即网站结构)系统使爬虫更容易找到并抓取你网站上的所有页面。

如果没有核心页面的内部链接,搜索爬虫可能会难以找到和索引距离首页几次点击或没有链接的页面。

优化网站内部链接结构时,请考虑以下几点:

  • 确认你页面上的所有链接都能为用户带来价值并且正常运行。
  • 为它们所指向的页面提供描述性和相关的锚文本。
  • 请仔细检查页面内容,寻找404链接,并更新为正确的链接。

外部链接

反向链接是搜索引擎判断页面重要性的重要组成部分。它们向谷歌传递该资源有用且值得排名前列的信号。

以下是获取高质量反向链接的一些方法:

  • 客座发帖
  • 制作新闻稿
  • 撰写推荐信
  • 利用本文中其他流行的反向链接获取策略

社会信号

搜索引擎旨在提供符合用户搜索意图的高质量内容。谷歌通过评估社交信号,包括点赞、分享和社交媒体帖子浏览量来实现这一点。

这些信号告诉搜索引擎内容是否符合用户需求,是否相关且具有权威性。如果用户积极分享你的页面、点赞并推荐阅读,搜索机器人不会直接跳过你的内容。这凸显了活跃于社交媒体的重要性。此外,谷歌表示社交信号不是直接排名因素,但可以间接帮助SEO。

社交信号包括Facebook、Twitter、Pinterest、LinkedIn、YouTube等所有活动。通过Facebook,你可以为重要链接创建帖子。在YouTube上,你可以添加视频描述链接。你还可以利用LinkedIn提升网站和公司的信誉。了解如何使用你所目标的每个平台,有助于你调整策略,最大化网站的效果。

一般来说,你在网站上制造的社交热度越多,网站被索引的速度就越快。

你如何检查网站的索引?

你已经提交了网站页面进行索引。你怎么知道索引成功了,必要的页面已经被排名了?让我们看看你可以用来检查的方法。

分析GSC中的索引报告

谷歌搜索控制台允许你监控哪些网站页面被索引,哪些没有,以及原因。我们会教你怎么检查这个。

首先点击索引部分,进入页面报告。

在"已索引"标签页中,您可以找到网站上所有已被索引页面的信息。点击"查看已索引页面数据"按钮。

你会在网站地图和索引页面的"所有提交页面"一行下看到所有提交的页面。

向下滚动查看所有已索引页面的列表。从这里,你甚至可以查到谷歌上次爬取该页面的时间。

接下来,从下拉菜单中选择"仅提交页面"选项。你会看到未提交的索引页面出现在网站地图中。你可能想把它们添加到你的网站地图,因为谷歌认为它们是高质量的页面。

现在,让我们进入下一阶段。

"未被索引"标签显示因各种原因(如索引错误)无法被索引的页面。

在"为什么页面没有索引"表中,你可以找到每个问题的具体细节并尝试修复。

仔细查看所有这些页面,因为你可能会找到可以修复的网址。这将确保谷歌对这些网站进行索引,从而提升排名。使用谷歌网站排名检查器,看看你的努力是否有效,排名是否有所提升。

向下滚动到显示已索引页面的标签页,但有些问题可能是你故意为之。点击表格中的警告行查看问题详情,然后尝试用这些新信息修复。这将帮助你更好地排名。

同样类型的索引数据也可以用于视频。只需在索引部分的视频页面报告中查看即可。

使用"site:"搜索作符

另一种流行的网站索引检查方式是通过"command"网站。这个谷歌搜索操作员会显示网站的页面列表。不过,谷歌并不能保证会提供完整的列表。

大多数SEO专家使用它,因为这是检查网站或页面索引的最便捷方式。这在谷歌2024年3月核心更新后尤为有用,因为许多包含AI内容的网站被取消索引。

在谷歌搜索栏输入此命令,输入该网站的域名。

你会看到网站页面目前在谷歌的搜索结果中被展示。然而,返回的URL列表并不总是很广泛。大型网站不应期望在结果中看到所有网址。

你还可以核实单个URL的索引状态。只需在搜索引擎中输入site:yourpage.com。

如果 site: query 中没有显示该 URL,你可以使用 URL 检查工具查看该 URL 是否被索引。

使用SE Ranking的工具

利用SE Ranking,你可以进行网站SEO审计,获取有关索引的信息。

进入概览,滚动到页面索引块。

在这里,你会看到已索引页面和未索引页面的数量和百分比比例。该仪表盘还显示了无法让搜索引擎索引网站页面的问题。

点击绿色线,你会看到被索引页面及其参数列表:问题、总流量、状态代码、被robots.txt屏蔽、引用页面、x-robots-tag、标题、描述等。

你也可以用SE Ranking的索引状态检查器检查页面索引。只需选择搜索引擎并输入URL列表即可。

一旦解决了索引问题,你可以使用排名检查器监控网站表现并跟踪改进情况。

不同技术如何影响网站索引

既然我们已经弄清楚了谷歌和必应如何索引网站、如何提交页面进行索引,以及如何检查它们是否出现在搜索结果页中,接下来让我们关注一个同样重要的问题:网页开发技术如何影响网站内容索引。

Flash内容

Flash曾经用于制作游戏和完整的网站,但现在已经不再活跃。在其20年的开发过程中,Flash存在许多不足,包括高CPU负载、Flash播放器错误和索引问题。

2019年,谷歌停止索引Flash内容,宣告一个时代的终结。

不出所料,搜索引擎建议不要在网站上使用 Flash。但如果你的网站采用了这项技术设计,就创建一个文本版本。这对未安装Flash(或安装过时Flash程序)和移动设备用户(这些设备不显示Flash内容)非常有用。

JavaScript

在JavaScript开始主导网页开发之前,搜索引擎只爬取基于文本的内容,比如HTML。随着JS的普及,搜索引擎提升了索引此类内容的能力。

然而,JavaScript渲染是一个资源密集的过程。搜索引擎在网页上处理JavaScript时可能会有延迟。在渲染完成之前,搜索引擎可能会难以访问客户端加载的所有 JS 内容。要揭示JavaScript中的内容,通常看起来像是指向JS文件的单个链接,机器人需要先渲染它。只有经过这一步,搜索引擎才能快速浏览HTML标签中的所有内容。

谷歌在索引JavaScript渲染内容方面的速度越来越快。60%的JavaScript内容在HTML索引后24小时内被索引。不过,剩下的40%的JS内容可能会花更长时间。

请注意,注入JavaScript的页面部分可能包含内部链接。如果搜索引擎无法渲染JavaScript,它就无法跟踪链接。这意味着除非这些页面被链接到其他页面或包含在网站地图中,否则搜索引擎无法索引这些页面。

如果你的网站JavaScript很多,可以尝试重组JavaScript调用,让内容先加载,然后看看这样做是否能改善网页索引。阅读我们的全面指南,获取更多提升JS网站索引的建议。

AJAX

AJAX 通过与服务器交换少量数据,使页面能够串行更新。使用AJAX网站的一个标志性特征是内容由单一连续脚本加载,而不会将其分割成带有唯一URL的独立页面。因此,网站页面的URL中常带有标签(#)。

这类页面历来未被搜索引擎索引。爬虫不会扫描 https://mywebsite.com/#example 的URL,而是直接进入 https://mywebsite.com/,而不是扫描带有#的URL。因此,爬虫无法扫描网站的所有内容。

自2019年起,使用AJAX的网站由谷歌直接渲染、爬取和索引。这意味着机器人可以扫描并处理#!网址,模仿用户行为。现在,网站管理员不再需要为每个页面创建HTML版本,但你仍应确认你的robots.txt是否支持AJAX脚本扫描。如果不允许,就打开它们进行搜索索引。

SPA

单页应用程序(SPA)是一个相对较新的趋势,将JavaScript融入网站。与传统网站通过请求服务器加载HTML、CSS和JS不同,SPA只需一次初始加载。由于他们不再与服务器交互,所有后续处理都交给浏览器。然而,虽然SPA网站加载更快,但其背后的技术可能会损害你的SEO。

在扫描SPA时,爬虫未能识别内容正在动态加载。搜索引擎会将其视为尚未填充的空白页面。

SPA也不遵循404错误页面和其他非200服务器状态码背后的传统逻辑。浏览器渲染内容时,服务器会对每个请求返回一个 200 HTTP 状态码。因此,搜索引擎无法判断某些页面是否适合被索引。

想了解如何优化单页应用,请阅读我们关于SPA的博客文章。

框架

JavaScript 框架用于促进动态网站交互。用React、Angular、Vue及其他JavaScript框架构建的网站默认都设置为客户端渲染。这常常导致框架中充满以下SEO挑战:

爬虫看不到页面上的内容。搜索引擎很难索引需要点击加载的内容。

速度是一大障碍。谷歌会抓取未缓存的页面。第一次装载可能很麻烦且有问题。

客户端代码会增加最终DOM的复杂性。 这需要更多来自搜索引擎爬虫和客户端设备的CPU资源。

如何限制网站索引

可能有些页面你不希望搜索引擎索引。并非所有页面都必须排名并出现在搜索结果中。

哪些内容最常被限制?

  • 内部和服务文件:仅网站管理员或网站管理员能看到的,例如注册时指定的用户数据文件夹:/wp-login.php;/wp-register.php。
  • 不适合在搜索结果中显示或用户初次接触该资源的页面:感谢页、注册表等。
  • 包含个人信息的页面:访客在订购和注册时留下的联系方式,以及支付卡号;
    特定类型的文件,比如PDF文档。
  • 重复内容:例如,你正在做A/B测试的页面。

因此,你可以屏蔽对用户无价值且不影响网站排名的信息,以及机密数据被索引。

你可以用它解决两个问题:

  1. 减少某些页面被抓取的可能性,包括索引和出现在搜索结果中。
  2. 节省爬取预算------机器人可爬取的每个网站URL数量有限。

让我们看看如何限制网站内容。

Meta robots Tag

Meta robots 是一个添加搜索机器人命令的标签。它们影响页面的索引及其元素在搜索结果中的显示。标签放置在网页文档的<head>中,以便在机器人开始爬行页面前进行指令。

Meta Robot 是管理索引更可靠的方式,而 robots.txt 只是作为爬虫的推荐。借助元机器人,你可以直接在页面代码中为机器人指定命令(指令)。它应该添加到所有不该被索引的页面上。

X-Robots-Tag

由于并非所有页面都有HTML格式和<head>部分(例如PDF文档),有些内容无法通过机器人的元标签被阻挡索引。这时X-Robots标签就派上用场了。

X-Robots-Tag 作为给定 URL HTTP 头部响应的一个元素使用。当指示爬虫不要索引页面时,你的 HTTP 响应带有 X-Robots-Tag 的响应会是这样的:

服务器端

你也可以限制服务器端对网站内容的索引。为此,在你网站根目录中找到.htaccess文件,添加限制特定搜索引擎访问的必要代码。

该规则允许您屏蔽可能构成潜在威胁或过载请求的不受欢迎的用户代理。

设置网站访问密码

另一种防止网站索引的方法是通过 .htaccess 文件设置网站访问密码。设置密码,并将代码添加到 .htaccess 文件中。

密码必须由网站所有者设置,因此你需要添加用户名来识别身份。这意味着你需要在密码文件中包含用户。

这样机器人将无法再爬取网站并索引网站。

谷歌搜索控制台中的移除工具

你还可以使用移除工具阻止你网站的URL出现在谷歌搜索结果中。然而,它仅会暂时从谷歌搜索结果中移除页面(持续六个月),不会影响它们在其他搜索引擎上的存在。

要用该工具清理不必要的内容,请前往谷歌搜索控制台,▶️点击删除工具▶️,点击"新请求"按钮▶️并提交页面。

结论

虽然让你的网站被抓取和收录很重要,但你的页面出现在搜索结果页上可能需要很长时间。了解搜索引擎索引的方方面面,可以帮助你避免那些可能损害网站SEO的有害错误。

通过优化内部链接,正确设置你的网站地图,只创建高质量且有用的内容。这样可以防止搜索引擎忽略你的网站。

现在,让我们快速回顾一下我们之前讨论的搜索引擎索引方面:

  • 通过创建网站地图、使用 GSC 和 Bing 网站管理员工具的功能,以及利用内部和外部链接,通知搜索引擎新网站或页面。
  • 关于使用Ajax、JavaScript、SPA和框架的网站索引的具体细节。
  • 利用 robots meta tag、X-Robots-Tag、移除工具和访问密码限制网站索引。

请注意,虽然高索引率并不等同于高搜索引擎排名,但这是进一步优化网站的基础。在采取进一步行动前,请检查页面的索引状态,以验证其可索引性。

相关推荐
科技小花1 小时前
数据治理平台架构演进观察:AI原生设计如何重构企业数据管理范式
数据库·重构·架构·数据治理·ai-native·ai原生
一江寒逸1 小时前
零基础从入门到精通MySQL(中篇):进阶篇——吃透多表查询、事务核心与高级特性,搞定复杂业务SQL
数据库·sql·mysql
D4c-lovetrain1 小时前
linux个人心得22 (mysql)
数据库·mysql
阿里小阿希2 小时前
CentOS7 PostgreSQL 9.2 升级到 15 完整教程
数据库·postgresql
荒川之神2 小时前
Oracle 数据仓库雪花模型设计(完整实战方案)
数据库·数据仓库·oracle
做个文艺程序员2 小时前
MySQL安全加固十大硬核操作
数据库·mysql·安全
不吃香菜学java2 小时前
Redis简单应用
数据库·spring boot·tomcat·maven
一个天蝎座 白勺 程序猿2 小时前
Apache IoTDB(15):IoTDB查询写回(INTO子句)深度解析——从语法到实战的ETL全链路指南
数据库·apache·etl·iotdb
不知名的老吴2 小时前
Redis的延迟瓶颈:TCP栈开销无法避免
数据库·redis·缓存
YOU OU2 小时前
三大范式和E-R图
数据库