ArchiveBox:开源自托管网页存档工具

文章目录

ArchiveBox:开源自托管网页存档工具

ArchiveBox 在 GitHub 上已经拿到 27463 Star 了。

这个开源项目用于网页存档,用户可以自行部署,保存互联网上的内容,输出格式包括HTML、PNG、PDF、TXT、JSON、WARC、SQLite等,支持长期可读。ArchiveBox提供CLI、REST API和webhooks,用户可以与其他服务搭建集成。

ArchiveBox支持多种输入方式,用户可以单次提交URL,也可以设置定时导入,内容来源包括书签、浏览历史、社交媒体动态、RSS订阅、Pocket等链接收藏服务,还有对应的浏览器扩展。

收到URL后,ArchiveBox会生成多份冗余格式的快照,同时提取页面内的内容。针对普通网页,保存原始HTML文件、单文件HTML、页面截图、PDF、WARC文件、文章文本、网站图标等内容。针对社交媒体、新闻类页面,提取正文内容、评论、标题、作者、图片等信息。针对YouTube、SoundCloud等音视频平台,下载MP3、MP4文件、字幕、元数据、缩略图。针对GitHub、GitLab等代码托管平台链接,克隆源码仓库、保存README文件与相关图片。

用户可以通过Docker部署ArchiveBox的Web应用管理快照,也可以用pip安装后通过CLI、Python API、SQLite API访问同一份存档数据。所有访问方式功能一致,支持标签添加、定时爬取、日志查看等操作。

ArchiveBox依赖Chrome、wget、yt-dlp等标准工具,数据存储使用普通文件与文件夹结构,没有专有格式,用户无需运行ArchiveBox也能直接读取存档内容。

安装方式包括Docker Compose、独立Docker容器、pip、apt、brew等。推荐使用Docker Compose部署,步骤为创建存档目录,下载docker-compose.yml文件,执行初始化命令即可完成安装。安装完成后,用户可以通过浏览器扩展、CLI命令、自托管Web界面、Python API、直接访问文件系统等方式使用ArchiveBox。

ArchiveBox适用于多类场景。记者可以用它在调研过程中爬取页面,保存引用来源,用于事实核查。律师可以用它收集保存证据,检测页面变更,进行标签分类与审阅。研究人员可以用它分析社交媒体趋势,获取大语言模型训练数据,搭建爬取流程。普通用户可以用它保存书签,保留个人作品集内容,进行个人数字遗产存档。政府机构可以用它快照公共服务站点,满足记录保存合规要求。

项目开源地址:https://github.com/ArchiveBox/ArchiveBox

m/ArchiveBox/ArchiveBox

相关推荐
laowangpython20 小时前
Photoshop 2025 下载安装全攻略
其他·ui·photoshop
深圳帝王星科技1 天前
SE8405 100V 2A异步降压DC-DC恒压芯片,内置MOS管
其他
shunjinnuantong1 天前
304不锈钢焊接风管的验收标准:全项检测要点
其他
.千余1 天前
【C++】模板进阶全解:非类型参数|全特化|偏特化|分离编译完全指南
开发语言·c++·笔记·学习·其他
2601_959480151 天前
Moneta Markets亿汇:服务体系的方法复盘
其他
小崔聊喷画1 天前
喷绘技术白皮书:从山东单立柱到宽幅喷绘的应用解析与未来趋势
其他
小崔聊喷画2 天前
车贴打印技术白皮书:从山东UV到可转移物料的全面应用指南
其他
北京海得康2 天前
朗斯弗(曲氟尿苷替匹嘧啶片)医保政策与用药指南【海得康】
其他
老陈头聊SEO2 天前
长尾关键词优化策略助力SEO效果提升的关键要素
其他·搜索引擎·seo优化
天静好心情2 天前
行至半山,心向晴空
其他