人工智能时代,如何让你的网站更好被大模型收录,获得新的自然流量并成为互联网的信息来源

背景

我们在使用大模型时候,用AI检索时,一定会看到一个内容源,那这个是怎么来的的??

其实,现在大型语言模型越来越离不开网站信息啦,但尴尬的是,上下文窗口太小,大多数网站根本没法完整处理。把那些带着导航、广告还有 JavaScript 的复杂 HTML 页面,转成 LLM 能友好读取的纯文本,那难度,简直了,还不咋精确。​

网站得同时伺候好人类读者和大模型,不过大模型更偏爱简洁、专业,还集中在一个好访问位置的信息。像开发环境这种场景,大模型急需快速获取编程文档和 API,这时候这种信息就超重要啦!

解决建议

咱们强烈建议在网站上搞一个 /llms.txt markdown 文件,专门给 LLM 提供适配内容。这文件会给出简要背景信息、指导,还有详细 markdown 文件的链接。

llms.txt markdown 那可是人类和 LLM 都爱读,格式还特精确,能用固定处理方法,比如解析器和正则表达式这些经典编程技术来操作。​ 另外,网站上要是有对 LLM 可能有用信息的页面,最好也提供干净的 markdown 版本,URL 和原始页面一样,就在文件名后面加个.md 。(没文件名的 URL,就加个 index.html.md

FastHTML 项目就照着这俩建议来写文档的。像这就是 FastHTML 文档的 llms.txt 。还有常规 HTML 文档页面示例,URL 一模一样,就扩展名换成了.md

这个提案可没规定怎么处理 llms.txt 文件,毕竟得看具体应用场景。比如说 FastHTML 项目,就选了个适合在 Claude 等 LLM 里用的基于 XML 的结构,把 llms.txt 自动扩展成俩包含链接 URL 内容的 markdown 文件。这俩文件分别是:llms-ctx.txt ,不包含可选 URL;llms-ctx-full.txt ,包含可选 URL 。它们是用 llms_txt2ctx 命令行应用程序生成的,FastHTML 文档里还有咋用它们的用户指南呢。

llms.txt 文件可太万能了,用处多多。开发人员能靠它找软件文档,企业能用它概述自家结构,甚至利益相关者能用来拆解复杂法律条款。个人网站用它能回答关于简历的问题,电商网站能解释产品和政策,学校和大学能快速分享课程信息和资源。

注意啦,现在所有 nbdev 项目默认都会创建所有页面的.md 版本。用 nbdev 的 Answer.AIfast.ai 软件项目,都已经用这功能重新生成文档了。想看例子,去瞅瞅 fastcore 文档模块的 markdown 版本就行。

请注意,所有nbdev项目现在默认创建所有页面的 .md 版本。所有使用 nbdev 的 Answer.AIfast.ai 软件项目都已使用此功能重新生成其文档。有关示例,请参阅fastcore 文档模块的markdown 版本。

llms.txt格式

目前,语言模型最吃得开、最好懂的格式就是 Markdown 。把关键 Markdown 文件位置一亮,这就是超棒的第一步。再给点基本结构,语言模型找起所需信息来源就轻松多了。

llms.txt 文件有点特别,它用 Markdown 构造信息,没选 XML 那种经典结构化格式。为啥呢?因为咱估计好多文件都是语言模型和代理来读。虽说如此,llms.txt 里的信息也是遵循特定格式的,能用标准编程工具读取。

llms.txt 文件规范适用于网站根路径(或者可选子路径)里的 /llms.txt 文件。符合规范的文件,按特定顺序包含下面这些 markdown 部分:

  • H1 ,得包含项目或站点名称,这可是必填项哦!
  • 带项目简短摘要的块引用,得有理解文件其余部分必备的关键信息。
  • 零个或多个除标题外的任意类型 markdown 部分,比如段落、列表啥的,讲讲项目详细信息,还有咋解读提供的文件。
  • 零个或多个由 H2 标头隔开的 markdown 部分,弄个 "文件列表",里面是能获取更多详细信息的 URL 。
  • 每个 "文件列表" 都是个 markdown 列表,得有必填的 markdown 超链接name ,然后还能选填关于该文件的注释。

以下是一个模拟示例:

Title

Optional description goes here

Optional details go here

Section name

Optional

请注意,"可选"部分具有特殊含义------如果包含该部分,则如果需要较短的上下文,则可以跳过此处提供的 URL。将其用于通常可以跳过的次要信息。

跟现有标准啥关系

llms.txt 旨在与当前的 Web 标准共存。虽然站点地图列出了搜索引擎的所有页面,但llms.txt为 LLM 提供了精心策划的概述。它可以通过提供允许内容的上下文来补充 robots.txt。该文件还可以引用网站上使用的结构化数据标记,帮助 LLM 了解如何在上下文中解释这些信息。

对文件路径进行标准化的方法遵循/robots.txt和/sitemap.xml. robots.txt 的方法,但llms.txt用途不同 - robots.txt 通常用于让自动化工具确定对网站的哪些访问被认为是可接受的,例如搜索索引机器人。另一方面,llms.txt当用户明确请求有关某个主题的信息时,信息通常会按需使用,例如在项目中包含编码库的文档时,或者向具有搜索功能的聊天机器人询问信息时。我们的预期是,llms.txt主要用于推理,即在用户寻求帮助时,而不是用于训练。但是,如果llms.txt使用变得广泛,未来的训练运行也许也可以利用llms.txt文件中的信息。

sitemap.xml 是网站上所有可索引、可读信息的列表。它不能替代以下内容,llms.txt因为它:

  • 通常不会列出 LLM 可读版本的页面
  • 不包含外部网站的 URL,尽管它们可能有助于理解信息
  • 通常会涵盖总量太大而无法在 LLM 上下文窗口中容纳的文档,并且会包含大量对于理解站点不必要的信息。

来一个例子

下面是一个例子llms.txt,在本例中是用于 FastHTML 项目的文件的精简版本(另请参阅完整版本:

FastHTML

FastHTML is a python library which brings together Starlette, Uvicorn, HTMX, and fastcore's FT "FastTags" into a library for creating server-rendered hypermedia applications.

Important notes:

  • Although parts of its API are inspired by FastAPI, it is not compatible with FastAPI syntax and is not targeted at creating API services
  • FastHTML is compatible with JS-native web components and any vanilla JS library, but not with React, Vue, or Svelte.

Docs

  • FastHTML quick start: A brief overview of many FastHTML features
  • HTMX reference: Brief description of all HTMX attributes, CSS classes, headers, events, extensions, js lib methods, and config options

Examples

  • Todo list application: Detailed walk-thru of a complete CRUD app in FastHTML showing idiomatic use of FastHTML and HTMX patterns.

Optional

要创建有效的llms.txt文件,请考虑以下准则:使用简洁明了的语言。链接到资源时,请包含简短、信息丰富的描述。避免使用模棱两可的术语或无法解释的术语。运行一个将您的llms.txt文件扩展为 LLM 上下文文件的工具,并测试多个语言模型,看看它们是否可以回答有关您的内容的问题。

目录

llms.txt以下列出了网络上可用的一些文件目录:

未来计划抢先看

llms.txt 规范可是向社区敞开大门的哦。GitHub 存储库托管着这个非正式概述,既能版本控制,还能公开讨论。社区 discord 频道能用来分享实施经验,讨论最佳实践,大家一起把这事儿玩得更溜!

相关推荐
技术流Garen2 分钟前
MCU与SFU:实时音视频通信架构的对比
架构·实时音视频
三三木木七12 分钟前
BERT、T5、GPTs,Llama
人工智能·深度学习·bert
problc1 小时前
Manus AI 全球首款通用型 Agent,中国制造
大数据·人工智能·制造
xiangzhihong81 小时前
GitHub神秘组织3小时极速复刻Manus
人工智能·深度学习·机器学习
博云技术社区1 小时前
DeepSeek×博云AIOS:突破算力桎梏,开启AI普惠新纪元
人工智能·博云·deepseek
ZHOU_WUYI1 小时前
Process-based Self-Rewarding Language Models 论文简介
人工智能·深度学习
优维科技EasyOps2 小时前
优维眼中的Manus:AI工程化思维重构Agent的运维端启示
运维·人工智能·重构
碣石潇湘无限路2 小时前
【奇点时刻】通义千问开源QwQ-32B技术洞察报告(扫盲帖)
人工智能·开源
西猫雷婶2 小时前
神经网络|(十五)|霍普菲尔德神经网络-Storkey 训练
人工智能·深度学习·神经网络
张申傲2 小时前
DeepSeek + ReAct 实现 Agent
人工智能·ai·chatgpt·aigc·deepseek