使用Python给自己网站生成llms.txt

本文提供了一个通过CLI和Python API来解析文件并从中创建llms.txt。输入文件应遵循以下格式:

markdown 复制代码
# FastHTML

> FastHTML is a python library which...

When writing FastHTML apps remember to:

- Thing to remember

## Docs

- [Surreal](https://host/README.md): Tiny jQuery alternative with Locality of Behavior
- [FastHTML quick start](https://host/quickstart.html.md): An overview of FastHTML features

## Examples

- [Todo app](https://host/adv_app.py)

## Optional

- [Starlette docs](https://host/starlette-sml.md): A subset of the Starlette docs

安装

复制代码
pip install llms-txt

如何使用

CLI

安装后,llms_txt2ctx在您的终端中可用。

要获取CLI的帮助:

复制代码
llms_txt2ctx -h

要将llms.txt文件到XML上下文并保存到llms.md:

复制代码
llms_txt2ctx llms.txt > llms.md

通过--optional True添加输入文件的 "选项" 部分。

Python模块

javascript 复制代码
from llms_txt import *
ini 复制代码
samp = Path('llms-sample.txt').read_text()

使用parse_llms_file使用llms.txt文件的部分创建数据结构 (还可以添加optional=True如果需要):

scss 复制代码
parsed = parse_llms_file(samp)
list(parsed)
css 复制代码
['title', 'summary', 'info', 'sections']
复制代码
parsed.title,parsed.summary
vbnet 复制代码
('FastHTML',
 'FastHTML is a python library which brings together Starlette, Uvicorn, HTMX, and fastcore's `FT` "FastTags" into a library for creating server-rendered hypermedia applications.')
scss 复制代码
list(parsed.sections)
css 复制代码
['Docs', 'Examples', 'Optional']
css 复制代码
parsed.sections.Optional[0]
rust 复制代码
{ 'desc': 'A subset of the Starlette documentation useful for FastHTML '
          'development.',
  'title': 'Starlette full documentation',
  'url': 'https://gist.githubusercontent.com/jph00/809e4a4808d4510be0e3dc9565e9cbd3/raw/9b717589ca44cedc8aaf00b2b8cacef922964c0f/starlette-sml.md'}

使用create_ctx创建一个包含XML部分的LLM上下文文件,适用于Claude等系统 (这是CLI在幕后调用的)。

ini 复制代码
ctx = create_ctx(samp)
scss 复制代码
print(ctx[:300])
vbnet 复制代码
<project title="FastHTML" summary='FastHTML is a python library which brings together Starlette, Uvicorn, HTMX, and fastcore&#39;s `FT` "FastTags" into a library for creating server-rendered hypermedia applications.'>
Remember:

- Use `serve()` for running uvicorn (`if __name__ == "__main__"` is not

测试和部署

显示解析有多简单llms.txt文件,这里是一个完整的解析器,在 <20行代码中,没有依赖关系:

python 复制代码
from pathlib import Path
import re,itertools

def chunked(it, chunk_sz):
    it = iter(it)
    return iter(lambda: list(itertools.islice(it, chunk_sz)), [])

def parse_llms_txt(txt):
    "Parse llms.txt file contents in `txt` to a `dict`"
    def _p(links):
        link_pat = '-\s*[(?P<title>[^]]+)]((?P<url>[^)]+))(?::\s*(?P<desc>.*))?'
        return [re.search(link_pat, l).groupdict()
                for l in re.split(r'\n+', links.strip()) if l.strip()]

    start,*rest = re.split(fr'^##\s*(.*?$)', txt, flags=re.MULTILINE)
    sects = {k: _p(v) for k,v in dict(chunked(rest, 2)).items()}
    pat = '^#\s*(?P<title>.+?$)\n+(?:^>\s*(?P<summary>.+?$)$)?\n+(?P<info>.*)'
    d = re.search(pat, start.strip(), (re.MULTILINE|re.DOTALL)).groupdict()
    d['sections'] = sects
    return d

我们提供了一个测试套件tests/test-parse.py并确认此实现通过了所有测试。

相关推荐
高兴达10 分钟前
Spring boot入门工程
java·spring boot·后端
麻雀无能为力42 分钟前
CAU数据挖掘 支持向量机
人工智能·支持向量机·数据挖掘·中国农业大学计算机
智能汽车人1 小时前
Robot---能打羽毛球的机器人
人工智能·机器人·强化学习
埃菲尔铁塔_CV算法1 小时前
基于 TOF 图像高频信息恢复 RGB 图像的原理、应用与实现
人工智能·深度学习·数码相机·算法·目标检测·计算机视觉
ζั͡山 ั͡有扶苏 ั͡✾1 小时前
AI辅助编程工具对比分析:Cursor、Copilot及其他主流选择
人工智能·copilot·cursor
东临碣石821 小时前
【AI论文】数学推理能否提升大型语言模型(LLM)的通用能力?——探究大型语言模型推理能力的可迁移性
人工智能·语言模型·自然语言处理
未来智慧谷2 小时前
微软医疗AI诊断系统发布 多智能体协作实现疑难病例分析
人工智能·microsoft·医疗ai
野生技术架构师2 小时前
简述MCP的原理-AI时代的USB接口
人工智能·microsoft
Allen_LVyingbo2 小时前
Python常用医疗AI库以及案例解析(2025年版、上)
开发语言·人工智能·python·学习·健康医疗
鹏程十八少2 小时前
7.Android 设计模式 享元模式 在商业项目中的落地
架构