互联网不再由 URL 为核心入口

本篇依然来自于我们的 《前端周刊》 项目!

由团队成员 田八 翻译,欢迎大家 进群 持续追踪全球最新前端资讯!!

原文地址:jonoalderson

您网站一半的流量并非来自真实用户。

搜索引擎、爬虫、机器人及各类代理程序对您网站的访问量,很可能已远超真实用户。但它们的"浏览"方式与人类不同,人类通过 URL 加载页面后,会整体感知其设计、内容、信息传达与核心意图;而机器则将 URL 视为一个待拆封的信封:拆解、剥离、挖掘其中含义。

数十年来,SEO 的核心逻辑始终围绕"URL即一切"展开,我们优化了容器,因为谷歌的索引与排名以 URL 为基本单位,人类也需要这种结构化体系来导航信息。但现在主导大多数内容发现的系统已经超越了这种模式。它们不再关注 URL 本身,而是聚焦 URL 内的声明内容,以及这些内容如何与它们已知的其他一切相互关联。

这一转变彻底改变了优化的运作方式。

要理解其中的利害关系,我们首先需要审视一直以来的思维模式------以及它为何不再适用于当下真实的互联网环境。

我们优化过的互联网 vs 我们当下真实的互联网

自从我们开展 SEO 工作以来,我们就一直以一种 URL 为核心的世界观运作。

谷歌早期的系统对 URL 进行索引和排名。PageRank 沿着 URL 之间的链接流动。分析工具统计每个 URL 的访问量。关键词研究映射到 URL 上。内容策略实际上是以站点地图的形式绘制的。URL 不仅仅是一个地址------它是网络的基本单位。

这个模型塑造了一切:

  • 我们考虑"优化此页面"来对该关键字排名靠前。
  • 我们根据 URL 是否出现在搜索结果中来判断成功。
  • 就连我们的语言------ "这个页面要排名"、"那个页面需要外链" ------也不断强化着"URL 才是核心"的假设。

但如今机器所感知的互联网不再局限于 URL 的形态。

多年来,谷歌一直在将页面拆分成多个部分。段落排名可以让它在文档深处找到隐藏的段落。精选摘要则可以直接从上下文中提炼出单个内容。知识图谱根本不是"对页面进行排名"------它直接从全网提取事实与关联关系。

即使 LLM 驱动的代理仍然会通过 URL 请求页面,但它们的处理方式与人类不同。它们会去除脚本、样式和干扰信息,并将内容分解成块,以提取含义和断言。对于这些系统来说,页面只是一个 源文件------它们将原材料转化为可推理的内容。

现在重要的系统并不将 URL 视为不可分割的对象。

对他们来说,一个 URL 对应的页面只是一个 容器 ------一个需要提取、评估和连接断言的源头。这意味着我们"页面优先、URL 优先"的思维模式不再适合我们正在优化的环境。

机器关心的是断言,而不是页面

现代系统不再将你的网站视为一系列文档的集合。相反,它们会将其拆解为一个个断言------即关于现实世界的独立陈述,这些断言可以被提取、解读,并整合进它们的模型之中。

这些断言通常以三元组的形式表示:

  • 主语 → 谓语 → 宾语
  • 产品 X → 价格 → 99 美元
  • 作者 Y → 撰写 → 本文

搜索引擎和知识图谱将这些三元组作为 符号化事实 进行处理。它们会被显式地存储,与其他节点相连,并用于回答问题或丰富搜索功能。

大语言模型(LLMs)和智能体(agents)的运作方式有所不同。

它们不会将断言存储为独立的事实 ------ 而是将它们编码到高维向量空间中。语义被压缩,模式被泛化,检索变得概率化。这些断言并不是以记录的形式存在,而是作为模型所学到的表示的一部分而存在。

在这两种情况下,重要的单位不是页面,而是页面内部的断言

重要的是这些陈述是否清晰、可提取且可连接。这是机器关注的层面,也是 SEO 需要转移重点的地方:从优化文档转向优化品牌声明的清晰度和连接性。

信任呈图状结构

断言并非独立存在。单一的声明,无论结构多么严谨,都无法自动获得信任。 机器会结合它们所了解的所有其他信息来评估它,它们会观察这个断言是如何 关联的:它来自何处、有什么依据支撑它,以及它与模型中其他信号的关系。

这就是 图的重要性 所在。

像谷歌这样的搜索引擎使用显式的关联关系:比如网页 URL 之间的链接、佐证架构,以及来自可信节点的引用。知识图谱实际上是通过连接对信任进行编码------由多个可靠来源支持的事实会被赋予更高的权重,而相互矛盾或孤立的断言则会被降权或忽略。

大语言模型(LLMs)和智能体(agents)以一种更隐蔽的方式做着类似的事情。

它们依赖的是训练数据中模式出现的 统计密度 。那些在高质量语境中持续出现的断言,在模型内部的表示中会变得更强;异常值(那些不符合上下文逻辑、或没有充分依据的异常断言)则影响力较弱,甚至可能被忽略。

这种基于图结构的评估机制,能够有效防止"断言垃圾"产生作用。

但目前,许多机器学习系统仍然比较稚嫩。大语言模型和新兴的智能体还缺乏像 Google 那样积累了数十年的反垃圾技术基础设施------它们还没有类似"链接图"这样的机制,来调节信息的质量信号。

为了弥补这一缺陷,许多此类模型高度依赖搜索引擎自身的结果,将其作为信任的代理。当 ChatGPTPerplexity 或其他 AI 助手给出答案时,它们通常是从 BingGoogle 的搜索结果页(SERPs)中提取信息,因而也继承了这些搜索引擎的质量过滤机制(以及偏见)。这意味着,搜索引擎的防御机制仍然在塑造大语言模型对网络信息的认知------但这也意味着,如果这些搜索结果本身已被污染,那么这种污染也会随之蔓延。

随着时间的推移,当大语言模型(LLMs)逐步发展出自己的关系加权与噪声过滤机制时,决定信息是否可信的将不再是信息的数量,而是它的连贯性与连通性。 对于品牌而言,挑战在于打一场持久战:构建能够经得起这些系统成熟考验的断言。

对于机器而言,权威源于 连贯性和连通性 。断言的力量并非源于数量,而是源于其在更广泛的网络上得到 强化和证实 的程度。正是在这一层面,机器决定该相信什么------也是你铸就竞争优势的地方。

更重要的是,这个信息网络并不仅限于您自己发布的内容。机器正在从所有来源中学习------包括竞争对手的网站、第三方聚合平台、市场平台、YouTubeReddit,甚至是抓取来的产品信息流。只要有关于您产品、定价或定位的某个说法存在于 某个地方,它就会成为模型的一部分。

这意味着,你的品牌断言策略不仅仅关乎网站的结构和标记,还关乎 如何管理你的品牌在网络上的描述、引用和理解。如果你的竞争对手的品牌断言更强势、更清晰或更一致,或者你在网络完全缺席,那么无论你的页面多么精美,这张知识图谱都可能对你不利。

更糟糕的是,您必须意识到,网络中的某些部分可能正在 主动对您构成威胁。竞争对手、联盟伙伴(或推广方)以及恶意行为者,他们不仅在与您竞争------他们还在试图污染那些从网络中学习的模型。

这种 充满敌意的信息环境 ------包括被污染的搜索结果页(SERPs)、人为制造的虚假声明,以及被用作攻击武器的矛盾信息------可能会扭曲您的品牌叙事,淹没您的核心信号,削弱您的权威性。您需要积极捍卫您的信息断言,抵御实时被操纵的网络攻击。

在一个图结构化的网络环境中,您所做的不仅仅是发布断言。您是在一个每个节点和边都可能被污染、被操纵或被武器化的环境中,捍卫这些断言。

谷歌的旧的理念已经不够用了

几十年来,谷歌 始终建议营销人员要"以人为中心进行创作"。

在搜索引擎主要负责将查询与文档进行匹配的年代,这确实是一条明智的建议。人类是最终受众,而优化内容以满足他们的需求,与 Google 的排名方式完美契合。

但网络不再是以人为本了。

如今,机器介于你和你的受众之间,负责协调信息发现、过滤信息,并代表用户做出决策。它们不仅仅是被动地索引信息,主动理解信息并决定哪些内容更重要。

关键的转变:

  • 用户体验最终是由人来评判的------设计给人的感觉如何,故事是否有说服力,页面能否在情感上引起共鸣。
  • 机器评判的是意义的结构性------您所提出的一个个独立断言,它们表达得是否清晰,以及它们在模型中与其他信息源的关联程度如何。

这并不意味着要放弃以人为本的内容。它意味着要认识到, Google 的那套核心理念并不完整

你需要既 为人类写作,也为机器设计------明确您的断言,构建关系,并以同时支持符号系统符号系统(如搜索引擎),又能适配学习模型(如大语言模型)的方式进行内容发布。

未来蓬勃发展的品牌,不会仅仅是那些内容做得好的品牌;而是那些能够将自己的核心意义,以机器可信任、可复用、可放大的方式编码进内容中的品牌。

断言优先的未来是结构性的

如果机器关心断言,那么你如何表达这些断言,就成了一项战略选择。

Google 为我们提供了一个观察这一点的窗口:通过 schema.org 的结构化标记,它可以生成丰富的搜索结果、产品展示和活动功能。但结构化数据只有在 Google 已经为其构建了相应功能支持的地方才有效。除此之外,它的作用就非常有限。你不能简单地"给所有内容都加上标记",就指望出现奇迹。_

但这并不意味着结构不重要------远非如此。

机器是从模式中学习的------无论这些模式是否被正式定义在 schema.org 中。大语言模型(LLMs)和智能代理并不会直接使用 schema.org,但它们仍然会从你的内容中提取并编码它们所发现的模式。在 HTML 层面、文案表达以及页面布局上保持清晰、可预测的结构,能为它们提供更可靠的信号,帮助它们更好地理解和处理信息。

这就是为什么语义化 HTML 仍然重要。不是因为模型会像 W3C 标准定义的那样"语义化地"解析标签,而是因为语义化标记能够强制带来 清晰性、层次感与一致性

  • 一个带有清晰标题的 <section>标签,能够形成一种易于被学习与识别的模式。
  • 一致的措辞(如"价格:$99")比埋没在设计中的大段文字更能强化意义。
  • 层级化标记反映了各元素之间的关系,从而使这些关系更易于被编码。

因此,尽管 schema.org 可能只是一个功能导向的狭义工具,但从 更广义的结构来看(HTML、语言和布局中的模式)才是你让信息意义清晰可辨的方式

在机器调解发现的世界里,这种可读性将决定你的断言是否被学习、信任和浮现。

停止优化页面,开始优化信息图谱

这就是为什么我们根据 URL 优化页面的旧 SEO 策略不再有效。

机器不会根据单篇文档来评判你;而是围绕你品牌构建的 意义网络。你的任务不是让页面排名靠前,而是让你的断言清晰、一致、条理清晰,让机器无法忽视。

所有这些都指向一个简单但令人不安的事实:旧的 SEO 策略(根据 URL 优化页面)已经不够了。

页面依然必不可少。URL 依然重要。人类仍然需要点击某些内容。但现在几乎每一次发现之旅都由机器来协调,它们不会在页面层面评判你。它们评判的是你所发布的断言网络,以及它与它们所知的一切之间的联系。

在这样的环境中,权威性并非是通过关键词和链接随意散布页面上就能获得的 。它是从你的断言 如何融入这张信息关联网络 之中而产生的:

  • 它们在任何地方出现都是一致的吗?
  • 它们是否受到可信节点的支持?
  • 它们是否与其他概念和来源清晰相连?
  • 它们是否足够清晰,可以被编码和重复使用?

这才是真正的战场。

Google、大语言模型和智能代理并非对单个文档进行评分,而是在构建世界模型,并判断该模型中哪些节点值得信任。你的任务是确保代表你自身的节点------你的产品、品牌和专业能力------ 足够强大、关联紧密且逻辑连贯

这就是断言优先策略。

重点不在于创建更多页面,而在于 构建一个机器可以信赖的声明网络 。那些蓬勃发展的品牌将不再纠结于每个页面的排名,而是开始 关注其含义如何在机器网络上被学习、强化和呈现

如何优化信息图谱

如果你所竞争的网络环境不再是围绕 URL 展开的,那么你的策略也必须随之进化。

当搜索引擎主要对文档进行排名时,优化单个页面就足够了。但在图结构化的网络中,关键在于 你的断言 如何在整个生态系统中被学习、强化以及相互关联。

那么这在实践中究竟是什么样的呢?这并不是要放弃内容创作,也不是要把所有内容都改写成 JSON 格式。而是 要让你的观点清晰、一致且不容忽视 ------无论机器在何处接触到它们。

以下是实现这一目标的一些策略:

  • 避免断言垃圾信息:不要在网络上充斥自相矛盾或低质量的断言。如今的幼稚模型或许还能吸收一些这样的信息,但随着系统的成熟,这种策略可能会适得其反。
  • 将每个页面设计为一组可提取的断言:对关键事实(价格、功能、作者、日期)使用清晰、重复的模式,而不是将它们埋没在散文中。
  • 通过多个可靠来源强化声明 :确保您的产品、定价和品牌属性在各个方面都一致:市场、聚合器、合作伙伴、维基百科、YouTube 描述和新闻稿。
  • 构建内容结构不仅方便人类学习,更利于机器学习 :使用语义化的 HTML 来展现层级和关系。添加冗余上下文("这是一家 SEO 咨询公司......"),以便机器通过多种方式获取关键信息。
  • 发布机器友好的端点 :提供 API、清晰的数据源和结构化导出(JSONXML),清晰地展示您的数据。这为机器提供了一个不依赖于抓取的数据源。
  • 监控和管理恶意语料库:追踪竞争对手和不良行为者对您的描述。利用对可信资产的强有力且确凿的声明来反驳虚假信息。
  • 利用第三方验证:鼓励在权威网站上引用、评论和提及。机器更看重来自不同节点的佐证,而非自我主张。

换句话说,优化图谱并非为了博弈算法,而是为了确保你所说的话------以及关于你的评论------能够形成一个清晰、互联的网络,让机器能够信任它,无论现在还是将来,它们都会变得更加智能。

URL 之后的网络

URL 是构建互联网的基础。它塑造了我们设计网站的方式、我们对搜索引擎优化的思考方式,以及我们对信息发现的认知。但基础并非永恒不变------它们会被覆盖、抽象化,最终被取代。

我们已经站在不同的层面了。

机器已不再像我们一样浏览网络。它们穿梭于图结构中,编码模式并构建模型。URL对应的页面依然存在,但它只是覆盖在更深层事物之上的表层------一个存在于文档之外的断言网络。

这是我们目前正在优化的网站:

  • 这不是一个页面的集合,而是意义结构。
  • 这不是一个链接的结构,而是一个关系的结构。
  • 这不是一个提供文档的搜索引擎,而是一套决定人类能看到什么的系统。

所以真正的挑战来了,别再琢磨如何让页面获得排名了,想想如何在正在取代这个页面的模型中生存下去。

因为这些模型已经在塑造网络的形态,也在决定你的品牌在其中是否重要。

相关推荐
CAE虚拟与现实5 分钟前
GitHub Desktop 和 Git 命令行工具(CLI)各有优势
git·github·github desktop
coding随想7 分钟前
最后的挽留:深入浅出HTML5 beforeunload事件
前端
点云SLAM11 分钟前
PyTorch中 nn.Linear详解和实战示例
人工智能·pytorch·python·深度学习·cnn·transformer·mlp
亚里士多德芙19 分钟前
记录:离线包实现桥接
前端
RePeaT25 分钟前
代码双仓库备份指南:三种简单高效的方法
git·github
去伪存真31 分钟前
用的好好的vue.config.js代理,突然报308, 怎么回事?🤔
前端
耳东哇33 分钟前
在使用spring ai进行llm处理的rag的时候,选择milvus还是neo4j呢?
人工智能·neo4j·milvus
过往入尘土37 分钟前
深入浅出 PyTorch:从下载安装到核心知识点全解析
人工智能·pytorch·python
youcans_1 小时前
【AGI使用教程】GPT-OSS 本地部署(2)
人工智能·gpt·大语言模型·模型部署·webui
搞个锤子哟1 小时前
el-select使用filter-method实现自定义过滤
前端