人工智能时代,如何让你的网站更好被大模型收录,获得新的自然流量并成为互联网的信息来源

背景

我们在使用大模型时候,用AI检索时,一定会看到一个内容源,那这个是怎么来的的??

其实,现在大型语言模型越来越离不开网站信息啦,但尴尬的是,上下文窗口太小,大多数网站根本没法完整处理。把那些带着导航、广告还有 JavaScript 的复杂 HTML 页面,转成 LLM 能友好读取的纯文本,那难度,简直了,还不咋精确。​

网站得同时伺候好人类读者和大模型,不过大模型更偏爱简洁、专业,还集中在一个好访问位置的信息。像开发环境这种场景,大模型急需快速获取编程文档和 API,这时候这种信息就超重要啦!

解决建议

咱们强烈建议在网站上搞一个 /llms.txt markdown 文件,专门给 LLM 提供适配内容。这文件会给出简要背景信息、指导,还有详细 markdown 文件的链接。

llms.txt markdown 那可是人类和 LLM 都爱读,格式还特精确,能用固定处理方法,比如解析器和正则表达式这些经典编程技术来操作。​ 另外,网站上要是有对 LLM 可能有用信息的页面,最好也提供干净的 markdown 版本,URL 和原始页面一样,就在文件名后面加个.md 。(没文件名的 URL,就加个 index.html.md

FastHTML 项目就照着这俩建议来写文档的。像这就是 FastHTML 文档的 llms.txt 。还有常规 HTML 文档页面示例,URL 一模一样,就扩展名换成了.md

这个提案可没规定怎么处理 llms.txt 文件,毕竟得看具体应用场景。比如说 FastHTML 项目,就选了个适合在 Claude 等 LLM 里用的基于 XML 的结构,把 llms.txt 自动扩展成俩包含链接 URL 内容的 markdown 文件。这俩文件分别是:llms-ctx.txt ,不包含可选 URL;llms-ctx-full.txt ,包含可选 URL 。它们是用 llms_txt2ctx 命令行应用程序生成的,FastHTML 文档里还有咋用它们的用户指南呢。

llms.txt 文件可太万能了,用处多多。开发人员能靠它找软件文档,企业能用它概述自家结构,甚至利益相关者能用来拆解复杂法律条款。个人网站用它能回答关于简历的问题,电商网站能解释产品和政策,学校和大学能快速分享课程信息和资源。

注意啦,现在所有 nbdev 项目默认都会创建所有页面的.md 版本。用 nbdev 的 Answer.AIfast.ai 软件项目,都已经用这功能重新生成文档了。想看例子,去瞅瞅 fastcore 文档模块的 markdown 版本就行。

请注意,所有nbdev项目现在默认创建所有页面的 .md 版本。所有使用 nbdev 的 Answer.AIfast.ai 软件项目都已使用此功能重新生成其文档。有关示例,请参阅fastcore 文档模块的markdown 版本。

llms.txt格式

目前,语言模型最吃得开、最好懂的格式就是 Markdown 。把关键 Markdown 文件位置一亮,这就是超棒的第一步。再给点基本结构,语言模型找起所需信息来源就轻松多了。

llms.txt 文件有点特别,它用 Markdown 构造信息,没选 XML 那种经典结构化格式。为啥呢?因为咱估计好多文件都是语言模型和代理来读。虽说如此,llms.txt 里的信息也是遵循特定格式的,能用标准编程工具读取。

llms.txt 文件规范适用于网站根路径(或者可选子路径)里的 /llms.txt 文件。符合规范的文件,按特定顺序包含下面这些 markdown 部分:

  • H1 ,得包含项目或站点名称,这可是必填项哦!
  • 带项目简短摘要的块引用,得有理解文件其余部分必备的关键信息。
  • 零个或多个除标题外的任意类型 markdown 部分,比如段落、列表啥的,讲讲项目详细信息,还有咋解读提供的文件。
  • 零个或多个由 H2 标头隔开的 markdown 部分,弄个 "文件列表",里面是能获取更多详细信息的 URL 。
  • 每个 "文件列表" 都是个 markdown 列表,得有必填的 markdown 超链接name ,然后还能选填关于该文件的注释。

以下是一个模拟示例:

Title

Optional description goes here

Optional details go here

Section name

Optional

请注意,"可选"部分具有特殊含义------如果包含该部分,则如果需要较短的上下文,则可以跳过此处提供的 URL。将其用于通常可以跳过的次要信息。

跟现有标准啥关系

llms.txt 旨在与当前的 Web 标准共存。虽然站点地图列出了搜索引擎的所有页面,但llms.txt为 LLM 提供了精心策划的概述。它可以通过提供允许内容的上下文来补充 robots.txt。该文件还可以引用网站上使用的结构化数据标记,帮助 LLM 了解如何在上下文中解释这些信息。

对文件路径进行标准化的方法遵循/robots.txt和/sitemap.xml. robots.txt 的方法,但llms.txt用途不同 - robots.txt 通常用于让自动化工具确定对网站的哪些访问被认为是可接受的,例如搜索索引机器人。另一方面,llms.txt当用户明确请求有关某个主题的信息时,信息通常会按需使用,例如在项目中包含编码库的文档时,或者向具有搜索功能的聊天机器人询问信息时。我们的预期是,llms.txt主要用于推理,即在用户寻求帮助时,而不是用于训练。但是,如果llms.txt使用变得广泛,未来的训练运行也许也可以利用llms.txt文件中的信息。

sitemap.xml 是网站上所有可索引、可读信息的列表。它不能替代以下内容,llms.txt因为它:

  • 通常不会列出 LLM 可读版本的页面
  • 不包含外部网站的 URL,尽管它们可能有助于理解信息
  • 通常会涵盖总量太大而无法在 LLM 上下文窗口中容纳的文档,并且会包含大量对于理解站点不必要的信息。

来一个例子

下面是一个例子llms.txt,在本例中是用于 FastHTML 项目的文件的精简版本(另请参阅完整版本:

FastHTML

FastHTML is a python library which brings together Starlette, Uvicorn, HTMX, and fastcore's FT "FastTags" into a library for creating server-rendered hypermedia applications.

Important notes:

  • Although parts of its API are inspired by FastAPI, it is not compatible with FastAPI syntax and is not targeted at creating API services
  • FastHTML is compatible with JS-native web components and any vanilla JS library, but not with React, Vue, or Svelte.

Docs

  • FastHTML quick start: A brief overview of many FastHTML features
  • HTMX reference: Brief description of all HTMX attributes, CSS classes, headers, events, extensions, js lib methods, and config options

Examples

  • Todo list application: Detailed walk-thru of a complete CRUD app in FastHTML showing idiomatic use of FastHTML and HTMX patterns.

Optional

要创建有效的llms.txt文件,请考虑以下准则:使用简洁明了的语言。链接到资源时,请包含简短、信息丰富的描述。避免使用模棱两可的术语或无法解释的术语。运行一个将您的llms.txt文件扩展为 LLM 上下文文件的工具,并测试多个语言模型,看看它们是否可以回答有关您的内容的问题。

目录

llms.txt以下列出了网络上可用的一些文件目录:

未来计划抢先看

llms.txt 规范可是向社区敞开大门的哦。GitHub 存储库托管着这个非正式概述,既能版本控制,还能公开讨论。社区 discord 频道能用来分享实施经验,讨论最佳实践,大家一起把这事儿玩得更溜!

相关推荐
梦想画家7 分钟前
Apache Druid 架构深度解析:构建高性能分布式数据存储系统
架构·druid·数据工程
PWRJOY8 分钟前
嵌入式常见 CPU 架构
架构
jndingxin22 分钟前
OPenCV CUDA模块目标检测----- HOG 特征提取和目标检测类cv::cuda::HOG
人工智能·opencv·目标检测
37手游后端团队35 分钟前
8分钟带你看懂什么是MCP
人工智能·后端·面试
清醒的兰39 分钟前
OpenCV 图像像素的逻辑操作
人工智能·opencv·计算机视觉
shengjk11 小时前
MCP协议三种传输机制全解析
人工智能
算法小菜鸟成长心得1 小时前
时序预测模型测试总结
人工智能
奔跑吧邓邓子1 小时前
DeepSeek 赋能智能零售,解锁动态定价新范式
人工智能·动态定价·智能零售·deepseek
鼓掌MVP1 小时前
边缘计算应用实践心得
人工智能·边缘计算
zdy12635746881 小时前
python43天
python·深度学习·机器学习