Python爬虫--伪装成浏览器

把爬虫伪装成浏览器

1. 技术原理

我们不讲很官方的属于,

简单的讲就是,一些论坛啊,博客啊

为防止别人爬他们的文章,

通常会判断是不是浏览器访问,如果不是那就屏蔽。


2. 实战

由于 urlopen() 对于一些HTTP的高级功能不支持,

所以,我们如果要修改报头,也就是添加 header

可以使用 urllib.request.build_opener() 进行,

当然,也可以使用 urllib.request.Request() 下的 add_header() 实现浏览器的模拟。

build_opener 的作用:

要爬取的各种各样的网页,它们有一部填写需要验证码,有的需要 cookie,还有更多许多高级的功能,

它们会阻碍你爬,而我对于openurl单纯地理解就是打开网页,

它可以是一个字符串或者是一个 request 对象。而 build_opener 就是多了 handler ,处理问题更专业,更个性化。

代码:

复制代码
import urllib.request

url = "http://blog.csdn.net"

headers = (

	"User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36"

	)

opener = urllib.request.build_opener()

opener.addheaders = [headers]  # 添加 headers 头

data = opener.open(url).read()

print(data)

urllib 有些方面还是没 request 好。

相关推荐
2301_803875611 小时前
PHP 中处理会话数组时的类型错误解析与修复指南
jvm·数据库·python
m0_743623921 小时前
c++如何批量修改文件后缀名_std--filesystem--replace_extension【实战】
jvm·数据库·python
2401_873479401 小时前
如何利用IP查询定位识别电商刷单?4个关键指标+工具配置方案
开发语言·tcp/ip·php
我爱cope2 小时前
【从0开始学设计模式-10| 装饰模式】
java·开发语言·设计模式
2501_914245932 小时前
CSS如何处理CSS变量作用域冲突_利用特定类名重写变量值
jvm·数据库·python
菜鸟学Python2 小时前
Python生态在悄悄改变:FastAPI全面反超,Django和Flask还行吗?
开发语言·python·django·flask·fastapi
<-->2 小时前
Megatron(全称 Megatron-LM,由 NVIDIA 开发)和 DeepSpeed(由 Microsoft 开发)
人工智能·pytorch·python·深度学习·transformer
测试19983 小时前
2026最新软件测试面试八股文【附文档】
自动化测试·软件测试·python·测试工具·面试·职场和发展·测试用例
浪浪小洋3 小时前
c++ qt课设定制
开发语言·c++
charlie1145141913 小时前
嵌入式C++工程实践第16篇:第四次重构 —— LED模板,从通用GPIO到专用抽象
c语言·开发语言·c++·驱动开发·嵌入式硬件·重构