技术栈
互联网搜索引擎
Your_Sun
12 小时前
python
·
西南交通大学
·
互联网搜索引擎
西南交大 互联网搜索引擎 项目一 搜索引擎文本预处理
项目地址:https://github.com/Ni-Sun/Spider通过下载引擎(Web Crawler/Spider)自动下载至少500个英文文档/网页,以及500个中文文档/网页,越多越好,并保留原始的文档/网页备份(如:News_1_Org.txt)