人工智能时代，如何让你的网站更好被大模型收录，获得新的自然流量并成为互联网的信息来源

背景

我们在使用大模型时候，用AI检索时，一定会看到一个内容源，那这个是怎么来的的？？

其实，现在大型语言模型越来越离不开网站信息啦，但尴尬的是，上下文窗口太小，大多数网站根本没法完整处理。把那些带着导航、广告还有 JavaScript 的复杂 HTML 页面，转成 LLM 能友好读取的纯文本，那难度，简直了，还不咋精确。

网站得同时伺候好人类读者和大模型，不过大模型更偏爱简洁、专业，还集中在一个好访问位置的信息。像开发环境这种场景，大模型急需快速获取编程文档和 API，这时候这种信息就超重要啦！

解决建议

咱们强烈建议在网站上搞一个 /llms.txt markdown 文件，专门给 LLM 提供适配内容。这文件会给出简要背景信息、指导，还有详细 markdown 文件的链接。

llms.txt markdown 那可是人类和 LLM 都爱读，格式还特精确，能用固定处理方法，比如解析器和正则表达式这些经典编程技术来操作。另外，网站上要是有对 LLM 可能有用信息的页面，最好也提供干净的 markdown 版本，URL 和原始页面一样，就在文件名后面加个.md 。（没文件名的 URL，就加个 index.html.md ）

FastHTML 项目就照着这俩建议来写文档的。像这就是 FastHTML 文档的 llms.txt 。还有常规 HTML 文档页面示例，URL 一模一样，就扩展名换成了.md 。

这个提案可没规定怎么处理 llms.txt 文件，毕竟得看具体应用场景。比如说 FastHTML 项目，就选了个适合在 Claude 等 LLM 里用的基于 XML 的结构，把 llms.txt 自动扩展成俩包含链接 URL 内容的 markdown 文件。这俩文件分别是：llms-ctx.txt ，不包含可选 URL；llms-ctx-full.txt ，包含可选 URL 。它们是用 llms_txt2ctx 命令行应用程序生成的，FastHTML 文档里还有咋用它们的用户指南呢。

llms.txt 文件可太万能了，用处多多。开发人员能靠它找软件文档，企业能用它概述自家结构，甚至利益相关者能用来拆解复杂法律条款。个人网站用它能回答关于简历的问题，电商网站能解释产品和政策，学校和大学能快速分享课程信息和资源。

注意啦，现在所有 nbdev 项目默认都会创建所有页面的.md 版本。用 nbdev 的 Answer.AI 和 fast.ai 软件项目，都已经用这功能重新生成文档了。想看例子，去瞅瞅 fastcore 文档模块的 markdown 版本就行。

请注意，所有nbdev项目现在默认创建所有页面的 .md 版本。所有使用 nbdev 的 Answer.AI 和 fast.ai 软件项目都已使用此功能重新生成其文档。有关示例，请参阅fastcore 文档模块的markdown 版本。

llms.txt格式

目前，语言模型最吃得开、最好懂的格式就是 Markdown 。把关键 Markdown 文件位置一亮，这就是超棒的第一步。再给点基本结构，语言模型找起所需信息来源就轻松多了。

llms.txt 文件有点特别，它用 Markdown 构造信息，没选 XML 那种经典结构化格式。为啥呢？因为咱估计好多文件都是语言模型和代理来读。虽说如此，llms.txt 里的信息也是遵循特定格式的，能用标准编程工具读取。

llms.txt 文件规范适用于网站根路径（或者可选子路径）里的 /llms.txt 文件。符合规范的文件，按特定顺序包含下面这些 markdown 部分：

H1 ，得包含项目或站点名称，这可是必填项哦！

带项目简短摘要的块引用，得有理解文件其余部分必备的关键信息。

零个或多个除标题外的任意类型 markdown 部分，比如段落、列表啥的，讲讲项目详细信息，还有咋解读提供的文件。

零个或多个由 H2 标头隔开的 markdown 部分，弄个 "文件列表"，里面是能获取更多详细信息的 URL 。

每个 "文件列表" 都是个 markdown 列表，得有必填的 markdown 超链接name ，然后还能选填关于该文件的注释。

以下是一个模拟示例：

Title

Optional description goes here

Optional details go here

Section name

Link title: Optional link details

Optional

Link title

请注意，"可选"部分具有特殊含义------如果包含该部分，则如果需要较短的上下文，则可以跳过此处提供的 URL。将其用于通常可以跳过的次要信息。

跟现有标准啥关系

llms.txt 旨在与当前的 Web 标准共存。虽然站点地图列出了搜索引擎的所有页面，但llms.txt为 LLM 提供了精心策划的概述。它可以通过提供允许内容的上下文来补充 robots.txt。该文件还可以引用网站上使用的结构化数据标记，帮助 LLM 了解如何在上下文中解释这些信息。

对文件路径进行标准化的方法遵循/robots.txt和/sitemap.xml. robots.txt 的方法，但llms.txt用途不同 - robots.txt 通常用于让自动化工具确定对网站的哪些访问被认为是可接受的，例如搜索索引机器人。另一方面，llms.txt当用户明确请求有关某个主题的信息时，信息通常会按需使用，例如在项目中包含编码库的文档时，或者向具有搜索功能的聊天机器人询问信息时。我们的预期是，llms.txt主要用于推理，即在用户寻求帮助时，而不是用于训练。但是，如果llms.txt使用变得广泛，未来的训练运行也许也可以利用llms.txt文件中的信息。

sitemap.xml 是网站上所有可索引、可读信息的列表。它不能替代以下内容，llms.txt因为它：

通常不会列出 LLM 可读版本的页面
不包含外部网站的 URL，尽管它们可能有助于理解信息
通常会涵盖总量太大而无法在 LLM 上下文窗口中容纳的文档，并且会包含大量对于理解站点不必要的信息。

来一个例子

下面是一个例子llms.txt，在本例中是用于 FastHTML 项目的文件的精简版本（另请参阅完整版本：

FastHTML

FastHTML is a python library which brings together Starlette, Uvicorn, HTMX, and fastcore's FT "FastTags" into a library for creating server-rendered hypermedia applications.

Important notes:

Although parts of its API are inspired by FastAPI, it is not compatible with FastAPI syntax and is not targeted at creating API services
FastHTML is compatible with JS-native web components and any vanilla JS library, but not with React, Vue, or Svelte.

Docs

FastHTML quick start: A brief overview of many FastHTML features
HTMX reference: Brief description of all HTMX attributes, CSS classes, headers, events, extensions, js lib methods, and config options

Examples

Todo list application: Detailed walk-thru of a complete CRUD app in FastHTML showing idiomatic use of FastHTML and HTMX patterns.

Optional

Starlette full documentation: A subset of the Starlette documentation useful for FastHTML development.

要创建有效的llms.txt文件，请考虑以下准则：使用简洁明了的语言。链接到资源时，请包含简短、信息丰富的描述。避免使用模棱两可的术语或无法解释的术语。运行一个将您的llms.txt文件扩展为 LLM 上下文文件的工具，并测试多个语言模型，看看它们是否可以回答有关您的内容的问题。

未来计划抢先看

llms.txt 规范可是向社区敞开大门的哦。GitHub 存储库托管着这个非正式概述，既能版本控制，还能公开讨论。社区 discord 频道能用来分享实施经验，讨论最佳实践，大家一起把这事儿玩得更溜！

人工智能时代，如何让你的网站更好被大模型收录，获得新的自然流量并成为互联网的信息来源

背景

解决建议

llms.txt格式

Title

Section name

Optional

跟现有标准啥关系

来一个例子

FastHTML

Docs

Examples

Optional

目录

未来计划抢先看