Python_爬虫2_爬虫引发的问题

目录

爬虫引发的问题

网络爬虫的尺寸

网络爬虫引发的问题

网络爬虫的限制

Robots协议

Robots协议的遵守方式

Robots的使用

对Robots协议的理解


爬虫引发的问题

网络爬虫的尺寸

  • 爬取网页,玩转网页:

小规模,数据量小,爬取速度不敏感。Requests库

  • 爬取网站,爬取系列网站:

中规模,数据规模较大,爬取速度敏感。Scrapy库

  • 爬取全网:

大规模,搜索引擎,爬取速度关键。定制开发

网络爬虫引发的问题

骚扰问题、法律风险、隐私泄露

网络爬虫的限制

  • 来源审查:判断User-Agent进行限制
    • 检查来访HTTP协议头的User-Agent域,之相应浏览器或友好爬虫的访问。
  • 发布公告:Robots协议
    • 告知所有爬虫网站的爬取策略,要求爬虫遵守。

Robots协议

Robots Exclusion Standard 网络爬虫排除标准

作用:网站告知网络爬虫哪些页面可以抓取,哪些不行。

形式:在网站根目录下的robots.txt文件。

案例:京东的Robots协议

http://www.jd.com/robots.txt

html 复制代码
# 对于任何的网络爬虫来源,遵守如下协议
User-agent: * 
# Disallow 表示不允许访问
Disallow: /?* 			
Disallow: /pop/*.html 
Disallow: /pinpai/*.html?* 
# 以下四个网络爬虫不允许爬取任何资源
User-agent: EtaoSpider 		
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /

基本协议语法:

html 复制代码
# 注释
* 代表所有
./代表根目录
User-agent: *		# 代表的是那些爬虫
Disallow: /			# 代表不允许爬虫访问的目录

其他网站的一些Robots协议(但并不是所有网站都有robots协议):


Robots协议的遵守方式

Robots的使用

网络爬虫:自动或人工识别robots.txt,再进行内容爬取。

约束性:Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险。

对Robots协议的理解

  • 爬取网页,玩转网页:

访问量很小:可以遵守

访问量较大:建议遵守

  • 爬取网站,爬取系列网站:

非商业且偶尔:建议遵守

商业利益:必须遵守

  • 爬取全网:

必须遵守

相关推荐
CP-DD5 分钟前
C/C++ 通用代码模板
c语言·开发语言·c++
188_djh7 分钟前
# 使用python写一个PDF文件转换成word 文件
python·pdf·word·python-docx·pypdf2·python3.9·pdf_to_word.py
李少兄10 分钟前
【Java基础】Java集合遍历方式
java·开发语言·windows
King.62415 分钟前
SQL2API 核心理念:如何重构数据服务交付范式
大数据·开发语言·数据库·人工智能·sql·lua
@正在学习驰骋的小马16 分钟前
一、小白如何用Pygame制作一款跑酷类游戏(成品展示+添加背景图和道路移动效果)
python·游戏·pygame
薯条不要番茄酱22 分钟前
【JavaEE初阶】多线程重点知识以及常考的面试题-多线程进阶(二)
java·开发语言·java-ee
User_芊芊君子33 分钟前
Java与C在典型场景下的性能对比深度剖析
java·c语言·开发语言
KENYCHEN奉孝42 分钟前
一个基于Django的写字楼管理系统实现方案
数据库·python·django·sqlite
alpha xu1 小时前
LLM中的N-Gram、TF-IDF和Word embedding
人工智能·python·语言模型·自然语言处理·sklearn·word2vec
珹洺2 小时前
JSP技术入门指南【一】利用IDEA从零开始搭建你的第一个JSP系统
java·开发语言·前端·html·intellij-idea·jsp