这个开源神器终结了AI数据整合的噩梦!一键聚合网页、代码、论文到剪贴板!

在用大语言模型(如 GPT、Claude、DeepSeek 等)提问网页、GitHub 仓库、论文或视频时,手动整合内容既耗时又低效。

但是 AI 模型特别倚重高质量上下文,以便从多源数据中提取有用信息。

基于这个过程既繁琐且低效,GitHub 上出现了一款开源的高效数据聚合工具:OneFileLLM

它能自动从网页、GitHub 仓库、ArXiv 论文、YouTube 视频等来源提取内容,整合为单一文本文件并复制到剪贴板,极大提升 LLM(大语言模型)处理效率。

本质上一个一个命令行数据聚合工具,支持从多种来源提取内容,并将其整合为单一文本文件,自动复制到剪贴板以供 LLM 使用。

该工具基于 Python 开发,依赖轻量,支持 PDF、Jupyter Notebook 等格式。

主要功能

  • 多源数据支持:覆盖 GitHub 仓库、ArXiv 论文、YouTube 视频和网页内容等。

  • 多种文件格式处理:支持 PDF、Jupyter Notebook(.ipynb)、Markdown、Python 脚本等多种格式。

  • 内置网页爬取:支持爬取网页及其链接内容,最大深度可配置(默认 2 层)。

  • Sci-Hub 集成:通过 DOI 或 PMID 自动下载 Sci-Hub 论文,转换为文本。

  • 文本预处理与优化:提供标记计数,确保输出适合 LLM 上下文窗口,并支持 XML 封装,内容更规范。

  • 一键输出至剪贴板:整合内容为单一文本文件,自动复制到剪贴板。

快速使用

OneFileLLM 的安装和使用简单,以下是详细步骤,助你快速上手:

1、克隆仓库

bash 复制代码
git clone https://github.com/jimmc414/onefilellm.git
cd onefilellm

2、安装依赖

复制代码
pip install -U -r requirements.txt

3、使用方法

基本使用方法:Python脚本 + 源(文件或目标URL)

bash 复制代码
python onefilellm.py <source>

比如:将github仓库内容整合为 output.txt 并复制到剪贴板。

bash 复制代码
python onefilellm.py https://github.com/jimmc414/onefilellm

单一执行 python onefilellm.py 会弹出以下窗口,然后接着输入目标URL也可以。

网页爬取使用方法:

lua 复制代码
python onefilellm.py https://llm.datasette.io --depth 2

自定义文件类型,需修改Python文件中的 allowed_extensions 参数:

ini 复制代码
allowed_extensions = ['.py', '.txt', '.md', '.ipynb']

写在最后

OneFileLLM 可以实现自动抓取 & 整理网页、代码、论文、视频内容到一个统一文本文件中,并复制到剪贴板,让 LLM 问答更高效!

它是连接"数据来源 ➜ AI 问答"的理想桥梁,尤其适合 Claude、ChatGPT、DeepSeek、Moonshot 等模型用户作为高效预处理工具使用!

如果你需要为 AI 模型快速准备上下文,或想从复杂来源提取信息,不妨试试 OneFileLLM。

GitHub 项目地址:github.com/jimmc414/on...

相关推荐
Macbethad几秒前
基于世界模型的自动驾驶控制算法
人工智能·机器学习·自动驾驶
带电的小王几秒前
【AI大模型技术】4.预训练语言模型(PLMs,Pre-trained Langue Models);5.Transformers Tutorial
人工智能·语言模型·自然语言处理
搬砖者(视觉算法工程师)8 分钟前
自动驾驶技术前沿:传感器技术
人工智能·自动驾驶
算法与编程之美37 分钟前
探究pytorch中多个卷积层和全连接层的输出方法
人工智能·pytorch·深度学习·神经网络·cnn
CoderJia程序员甲40 分钟前
GitHub 热榜项目 - 日榜(2025-11-12)
ai·开源·大模型·github·ai教程
Master_oid1 小时前
机器学习21:可解释机器学习(Explainable Machine Learning)(上)
人工智能·机器学习
郝开1 小时前
Spring Boot 2.7.18(最终 2.x 系列版本)3 - 枚举规范定义:定义基础枚举接口;定义枚举工具类;示例枚举
spring boot·后端·python·枚举·enum
MobotStone1 小时前
边际成本趋近于零:如何让AI智能体"说得清、讲得明"
人工智能·架构
新智元1 小时前
李飞飞「世界模型」正式开放,人人可用! Pro 版首月仅 7 元
人工智能·openai
新智元1 小时前
GPT-5.1 凌晨突袭,奥特曼听劝!全网呼唤的人味回来了
人工智能