文章目录
ArchiveBox:开源自托管网页存档工具
ArchiveBox 在 GitHub 上已经拿到 27463 Star 了。
这个开源项目用于网页存档,用户可以自行部署,保存互联网上的内容,输出格式包括HTML、PNG、PDF、TXT、JSON、WARC、SQLite等,支持长期可读。ArchiveBox提供CLI、REST API和webhooks,用户可以与其他服务搭建集成。

ArchiveBox支持多种输入方式,用户可以单次提交URL,也可以设置定时导入,内容来源包括书签、浏览历史、社交媒体动态、RSS订阅、Pocket等链接收藏服务,还有对应的浏览器扩展。
收到URL后,ArchiveBox会生成多份冗余格式的快照,同时提取页面内的内容。针对普通网页,保存原始HTML文件、单文件HTML、页面截图、PDF、WARC文件、文章文本、网站图标等内容。针对社交媒体、新闻类页面,提取正文内容、评论、标题、作者、图片等信息。针对YouTube、SoundCloud等音视频平台,下载MP3、MP4文件、字幕、元数据、缩略图。针对GitHub、GitLab等代码托管平台链接,克隆源码仓库、保存README文件与相关图片。
用户可以通过Docker部署ArchiveBox的Web应用管理快照,也可以用pip安装后通过CLI、Python API、SQLite API访问同一份存档数据。所有访问方式功能一致,支持标签添加、定时爬取、日志查看等操作。

ArchiveBox依赖Chrome、wget、yt-dlp等标准工具,数据存储使用普通文件与文件夹结构,没有专有格式,用户无需运行ArchiveBox也能直接读取存档内容。
安装方式包括Docker Compose、独立Docker容器、pip、apt、brew等。推荐使用Docker Compose部署,步骤为创建存档目录,下载docker-compose.yml文件,执行初始化命令即可完成安装。安装完成后,用户可以通过浏览器扩展、CLI命令、自托管Web界面、Python API、直接访问文件系统等方式使用ArchiveBox。
ArchiveBox适用于多类场景。记者可以用它在调研过程中爬取页面,保存引用来源,用于事实核查。律师可以用它收集保存证据,检测页面变更,进行标签分类与审阅。研究人员可以用它分析社交媒体趋势,获取大语言模型训练数据,搭建爬取流程。普通用户可以用它保存书签,保留个人作品集内容,进行个人数字遗产存档。政府机构可以用它快照公共服务站点,满足记录保存合规要求。
项目开源地址:https://github.com/ArchiveBox/ArchiveBox
m/ArchiveBox/ArchiveBox