ArchiveBox:开源自托管网页存档工具

文章目录

ArchiveBox:开源自托管网页存档工具

ArchiveBox 在 GitHub 上已经拿到 27463 Star 了。

这个开源项目用于网页存档,用户可以自行部署,保存互联网上的内容,输出格式包括HTML、PNG、PDF、TXT、JSON、WARC、SQLite等,支持长期可读。ArchiveBox提供CLI、REST API和webhooks,用户可以与其他服务搭建集成。

ArchiveBox支持多种输入方式,用户可以单次提交URL,也可以设置定时导入,内容来源包括书签、浏览历史、社交媒体动态、RSS订阅、Pocket等链接收藏服务,还有对应的浏览器扩展。

收到URL后,ArchiveBox会生成多份冗余格式的快照,同时提取页面内的内容。针对普通网页,保存原始HTML文件、单文件HTML、页面截图、PDF、WARC文件、文章文本、网站图标等内容。针对社交媒体、新闻类页面,提取正文内容、评论、标题、作者、图片等信息。针对YouTube、SoundCloud等音视频平台,下载MP3、MP4文件、字幕、元数据、缩略图。针对GitHub、GitLab等代码托管平台链接,克隆源码仓库、保存README文件与相关图片。

用户可以通过Docker部署ArchiveBox的Web应用管理快照,也可以用pip安装后通过CLI、Python API、SQLite API访问同一份存档数据。所有访问方式功能一致,支持标签添加、定时爬取、日志查看等操作。

ArchiveBox依赖Chrome、wget、yt-dlp等标准工具,数据存储使用普通文件与文件夹结构,没有专有格式,用户无需运行ArchiveBox也能直接读取存档内容。

安装方式包括Docker Compose、独立Docker容器、pip、apt、brew等。推荐使用Docker Compose部署,步骤为创建存档目录,下载docker-compose.yml文件,执行初始化命令即可完成安装。安装完成后,用户可以通过浏览器扩展、CLI命令、自托管Web界面、Python API、直接访问文件系统等方式使用ArchiveBox。

ArchiveBox适用于多类场景。记者可以用它在调研过程中爬取页面,保存引用来源,用于事实核查。律师可以用它收集保存证据,检测页面变更,进行标签分类与审阅。研究人员可以用它分析社交媒体趋势,获取大语言模型训练数据,搭建爬取流程。普通用户可以用它保存书签,保留个人作品集内容,进行个人数字遗产存档。政府机构可以用它快照公共服务站点,满足记录保存合规要求。

项目开源地址:https://github.com/ArchiveBox/ArchiveBox

m/ArchiveBox/ArchiveBox

相关推荐
2601_959479638 小时前
ZFX山海证券:以全流程透明把出金体验做实
其他
techfluent9 小时前
EltonChouTwitterMediaHarvest:Twitter 媒体资源批量采集工具
其他·媒体·twitter
INosdfgs9 小时前
nICEnnnnnnnLeeBilibiliDown:B站视频下载工具
其他·音视频
alphageek810 小时前
FFmpeg:开源多媒体处理工具集合
其他·ffmpeg·开源
淡漠的蓝精灵10 小时前
Pulsar 入门:云原生分布式消息流平台
分布式·其他·云原生
fluxengine10 小时前
新浪微博相册批量下载工具
其他·新浪微博
pixelpilot111 小时前
yewtube 终端运行的YouTube播放与下载工具
其他
alphageek812 小时前
imputnetcobalt,无广告的开源媒体下载工具
其他·媒体
matrixcode112 小时前
MajjcomBiliDownloader:开源B站视频下载工具
其他