这个开源神器终结了AI数据整合的噩梦！一键聚合网页、代码、论文到剪贴板！

在用大语言模型（如 GPT、Claude、DeepSeek 等）提问网页、GitHub 仓库、论文或视频时，手动整合内容既耗时又低效。

但是 AI 模型特别倚重高质量上下文，以便从多源数据中提取有用信息。

基于这个过程既繁琐且低效，GitHub 上出现了一款开源的高效数据聚合工具：OneFileLLM。

它能自动从网页、GitHub 仓库、ArXiv 论文、YouTube 视频等来源提取内容，整合为单一文本文件并复制到剪贴板，极大提升 LLM（大语言模型）处理效率。

本质上一个一个命令行数据聚合工具，支持从多种来源提取内容，并将其整合为单一文本文件，自动复制到剪贴板以供 LLM 使用。

该工具基于 Python 开发，依赖轻量，支持 PDF、Jupyter Notebook 等格式。

OneFileLLM 的安装和使用简单，以下是详细步骤，助你快速上手：

1、克隆仓库

bash 复制代码

git clone https://github.com/jimmc414/onefilellm.git
cd onefilellm

2、安装依赖

复制代码

pip install -U -r requirements.txt

3、使用方法

基本使用方法：Python脚本 + 源（文件或目标URL）

bash 复制代码

python onefilellm.py <source>

比如：将github仓库内容整合为 output.txt 并复制到剪贴板。

bash 复制代码

python onefilellm.py https://github.com/jimmc414/onefilellm

单一执行 python onefilellm.py 会弹出以下窗口，然后接着输入目标URL也可以。

网页爬取使用方法：

lua 复制代码

python onefilellm.py https://llm.datasette.io --depth 2

自定义文件类型，需修改Python文件中的 allowed_extensions 参数：

ini 复制代码

allowed_extensions = ['.py', '.txt', '.md', '.ipynb']

OneFileLLM 可以实现自动抓取 & 整理网页、代码、论文、视频内容到一个统一文本文件中，并复制到剪贴板，让 LLM 问答更高效！

它是连接"数据来源 ➜ AI 问答"的理想桥梁，尤其适合 Claude、ChatGPT、DeepSeek、Moonshot 等模型用户作为高效预处理工具使用！

如果你需要为 AI 模型快速准备上下文，或想从复杂来源提取信息，不妨试试 OneFileLLM。