网络爬虫的定义

网络爬虫,即Web Spider,是一个很形象的名字。

把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。

网络蜘蛛是通过网页的链接地址来寻找网页的。

从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,

然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

这样看来,网络爬虫就是一个爬行程序,一个抓取网页的程序。

网络爬虫的基本操作是抓取网页。

那么如何才能随心所欲地获得自己想要的页面?

我们先从URL开始。

相关推荐
北漂程序员学习30 分钟前
如何避免被目标网站识别为爬虫?
爬虫·python·scrapy·flask·scipy
曼岛_1 小时前
[密码学基础]商用密码应用安全性评估(密评):网络安全新风口,高薪紧缺人才必备技能
网络·web安全·密码学·密拼工程师
是周一吗2 小时前
爬虫入门学习
爬虫·学习
日月星辰Ace3 小时前
OSI 网络七层模型
网络协议·http·https
dme.3 小时前
python爬虫复习
开发语言·爬虫·python
Jackilina_Stone3 小时前
【网工第6版】第5章 网络互联①
网络·软考·考试·网络互联·网工
侦探已死4883 小时前
Python 网络编程:TCP 与 UDP 协议详解及实战代码
网络·python·udp·学习笔记·tcp
学网络的APang3 小时前
APang网联科技项目报告(服务器域管理篇)
运维·服务器·网络·科技
颇有几分姿色3 小时前
深入理解路由器、IP地址及网络配置
java·网络·计算机网络