ArchiveBox：开源自托管网页存档工具

文章目录

ArchiveBox：开源自托管网页存档工具

ArchiveBox：开源自托管网页存档工具

ArchiveBox 在 GitHub 上已经拿到 27463 Star 了。

这个开源项目用于网页存档，用户可以自行部署，保存互联网上的内容，输出格式包括HTML、PNG、PDF、TXT、JSON、WARC、SQLite等，支持长期可读。ArchiveBox提供CLI、REST API和webhooks，用户可以与其他服务搭建集成。

ArchiveBox支持多种输入方式，用户可以单次提交URL，也可以设置定时导入，内容来源包括书签、浏览历史、社交媒体动态、RSS订阅、Pocket等链接收藏服务，还有对应的浏览器扩展。

收到URL后，ArchiveBox会生成多份冗余格式的快照，同时提取页面内的内容。针对普通网页，保存原始HTML文件、单文件HTML、页面截图、PDF、WARC文件、文章文本、网站图标等内容。针对社交媒体、新闻类页面，提取正文内容、评论、标题、作者、图片等信息。针对YouTube、SoundCloud等音视频平台，下载MP3、MP4文件、字幕、元数据、缩略图。针对GitHub、GitLab等代码托管平台链接，克隆源码仓库、保存README文件与相关图片。

用户可以通过Docker部署ArchiveBox的Web应用管理快照，也可以用pip安装后通过CLI、Python API、SQLite API访问同一份存档数据。所有访问方式功能一致，支持标签添加、定时爬取、日志查看等操作。

ArchiveBox依赖Chrome、wget、yt-dlp等标准工具，数据存储使用普通文件与文件夹结构，没有专有格式，用户无需运行ArchiveBox也能直接读取存档内容。

安装方式包括Docker Compose、独立Docker容器、pip、apt、brew等。推荐使用Docker Compose部署，步骤为创建存档目录，下载docker-compose.yml文件，执行初始化命令即可完成安装。安装完成后，用户可以通过浏览器扩展、CLI命令、自托管Web界面、Python API、直接访问文件系统等方式使用ArchiveBox。

ArchiveBox适用于多类场景。记者可以用它在调研过程中爬取页面，保存引用来源，用于事实核查。律师可以用它收集保存证据，检测页面变更，进行标签分类与审阅。研究人员可以用它分析社交媒体趋势，获取大语言模型训练数据，搭建爬取流程。普通用户可以用它保存书签，保留个人作品集内容，进行个人数字遗产存档。政府机构可以用它快照公共服务站点，满足记录保存合规要求。

项目开源地址：https://github.com/ArchiveBox/ArchiveBox

m/ArchiveBox/ArchiveBox