Python爬虫 - 技术栈

爬虫

1.什么是爬虫
2.基础入门之简单的页面设计
3.urllib基本使用，一个类型六个方法
4.urllib下载
[5. 请求对象的定制](#5. 请求对象的定制)
6.get请求的quote方法
[7. get请求urlencode方法](#7. get请求urlencode方法)
8.urllib_post请求百度翻译
9.百度翻译详细版
10.urllib_ajax的get请求豆瓣电影的第一页
11.get请求豆瓣电影的前十页
12.ajax_post请求肯德基官网
13.异常
14.微博的cookie登录
15.handler处理器的基本使用
16.urllib代理
17.代理池
18.xpath的基本使用
19.解析_百度一下
20.站长素材
21.jsonpath
22.用jsonpath解析淘票票
23.BeautifulSoup
24.bs4获取星巴克数据
25.Selenium
26.selenium元素定位
27.举例Selenium邓紫棋
[28.Selenium 其他操作](#28.Selenium 其他操作)
29.selenium-phantomjs
30.selenium-handless
31.request基本使用
request中的get请求
32.request中的post请求
33.request_代理
34.request免验证登录古诗词网
35.scrapy基本使用
36.58同城实例
37.汽车之家
38.当当网
39.电影天堂
40.crawlspider

1.什么是爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。

2.基础入门之简单的页面设计

这一部分主要是为了展示怎样在爬虫中寻找网页中信息，在这些代码中展示的是一个列表，

html 复制代码

<!DOCTYPE html>
<html lang="en">
    <head>
        <meta charset="UTF-8">
        <title>Title</title>
    </head>
    <body>
    <!--   table  表格
           tr     行
           td     列
     -->
        <table width = "200px" height = "200px" border = "1px">
            <tr>
                <td>
                    姓名
                </td>
                <td>
                    年龄
                </td>
                <td>
                    性别
                </td>
            </tr>

            <tr>
                <td>
                    张三
                </td>
                <td>
                    18
                </td>
                <td>
                    男
                </td>
            </tr>
        </table>
<!--   ul  li (无序列表) 爬虫使用很多-->
      <ul>
          <li>铁锅炖大鹅</li>
          <li>小鸡炖蘑菇</li>
          <li>锅包肉</li>
      </ul>
<!--    ol  li (有序列表) 更少一点-->
    <ol>
        <li>穿衣服</li>
        <li>下床</li>
        <li>洗漱</li>
    </ol>
<!--    超链接-->
    <a href="http://www.atguigu.com/">尚硅谷</a>
    </body>
</html>

3.urllib基本使用，一个类型六个方法

首先引用urllib，其中url代表我们想访问的网站网址，接下来我们要模拟一个浏览器向服务器发送请求，

使用

python 复制代码

responce = urllib.request.urlopen(url)

来向服务器发送请求，用urllib来接收，从而我们就接收到了来自网站的源码，之后我们使用read()方法来读取，但是read()返回的是字节形式的二进制数据，我们无法读取，这时我们就可以解码，把二进制数据解码为字符串，使用decode('UTF-8'),这样我们就可以读取了。

** 一个类型六个方法 **

一个类型指的是我们上面提到的responce，也就是从服务器返回的数据，是HTTPResponce类型的。

六个方法：

python 复制代码

 content = responce.read(5) # 读取五个字节
# read读取时是按照字节去读取的，括号中是5说明读取5个字节
content = responce.readline()
# 读取一行
content = responce.readlines()
# 读取所有行，一行一行读，直到读完
print(responce.getcode())
# 一个小知识 ，返回状态码，如果是200，说明没问题
print(responce.geturl())
# 获取网站的地址，url指向的网站
print(responce.getheaders())
# 获取headers，也就是模拟的浏览器的信息

python 复制代码

# 基本使用
# 使用urllib获取百度首页的源码
import urllib.request
# （1）定义一个url   就是要访问的地址
url = 'http://www.baidu.com'
# （2）模拟浏览器向服务器发送请求,responce就是响应
responce = urllib.request.urlopen(url)
# （3）获取响应中的原码
# read 方法，返回的是字节形式的二进制数据
# 要将二进制数据转换成字符串
# 二进制 -> 字符串  解码  decode('编码的格式')
# content = responce.read().decode('UTF-8')
# 一个类型和六个方法
# responce 是HTTPResponce类型
print(type(responce))
# 按照一个字节一个字节去读
# content = responce.read(5) # 读取五个字节
# print(content)
# （4）打印数据
# print(content)
# 读取一行
# content = responce.readline()
# 一行一行地读直到读完
# content = responce.readlines()
# print(content)
# 返回状态码  如果是200，证明我们没有错
# print(responce.getcode())
# 返回url地址
print(responce.geturl())
# 获取的一些状态信息
print(responce.getheaders())
# 一个类型HTTPresponce
# 六个方法read readline readlines getcode geturl getheaders

4.urllib下载

下载需要使用

python 复制代码

urllib.request.urlretrieve(url = url,filename = 'filename')

其中url代表一个下载的网页，filename代表文件的名字，其中文件名字后要加文件格式，例如jpg,mp4等

python 复制代码

# 下载
import urllib.request
# 下载一个网页
# url_page = 'http://www.baidu.com'
# url代表下载的路径，filename代表文件的名字
# 在python中，可以变量的名字，也可以直接写值
# urllib.request.urlretrieve(url_page,'baidu.html')
# 下载图片
url_img = 'https://img2.baidu.com/it/u=260402465,3171771956&fm=253&fmt=auto&app=138&f=JPEG?w=500&h=889'
urllib.request.urlretrieve(url = url_img,filename='you.jpg')
# 下载视频
url_video = 'https://vdept3.bdstatic.com/mda-mhej5kskcde2e1e3/cae_h264_nowatermark/1629034712771677277/mda-mhej5kskcde2e1e3.mp4?v_from_s=hkapp-haokan-hbe&auth_key=1721966751-0-0-d761b7436e0f490614a8f1832a35f960&bcevod_channel=searchbox_feed&pd=1&cr=0&cd=0&pt=3&logid=0351188068&vid=3964562110483450965&klogid=0351188068&abtest='
urllib.request.urlretrieve(url_video,'ban.mp4')

5. 请求对象的定制

有些网站中的开头为https://，说明在其中加入了ssl，这也是一种反爬虫的手段。

html 复制代码

https://www.baidu.com/s?tn=15007414_15_dg&ie=utf-8&wd=邓紫棋

分析这个网址，其中有协议https://，有主机www.baidu.com，有路径s , 参数wd

python 复制代码

#  http/https   www.baidu.com  80/443       s     wd = 邓紫棋      #
#    协议            主机        端口号       路径     参数           锚点
# http  端口号 80
# https 443
# mysql 3306
# oracle 1521
# redis 6379
# mongodb 27017

我们需要构建一个请求对象来访问

在这里我们可以获得User-Agent的信息,来假借这一信息来向服务器发送信息，又因为urlopen中不能存放字典，所以我们可以通过
request = urllib.request.Request(url = url1,headers=headers)来接收headers和url，并且由于参数顺序问题我们只能通过关键字传参的方式

python 复制代码

import urllib.request

url1 = 'https://www.baidu.com'

# url的组成
# https 中加入了 ssl
# https://www.baidu.com/s?tn=15007414_15_dg&ie=utf-8&wd=邓紫棋
#  http/https   www.baidu.com  80/443       s     wd = 邓紫棋      #
#    协议            主机        端口号       路径     参数           锚点
# http  端口号 80
# https 443
# mysql 3306
# oracle 1521
# redis 6379
# mongodb 27017

headers = {
'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'
}

# 请求对象的定制
# 因为urlopen中不能储存字典，所以headers不能传递出去
# 因为参数顺序问题，不能直接写url和headers
request = urllib.request.Request(url = url1,headers=headers)
responce = urllib.request.urlopen(request)
content = responce.read().decode('utf-8')
print(content)
# 第一个反爬 ： UA

6.get请求的quote方法

当我们访问https://www.baidu.com/s?tn=15007414_15_dg&ie=utf-8&wd=%E9%82%93%E7%B4%AB%E6%A3%8B这个网站时，我们看不懂后面的这些乱码，所以我们改为

html 复制代码

https://www.baidu.com/s?wd=邓紫棋

可是这时却报错，因为浏览器不认识中文，这时我们就应该把'邓紫棋'换成unicode编码的形式，使用：

python 复制代码

name = urllib.parse.quote('邓紫棋')

这样我们就可以获取到邓紫棋三个字的unicode编码了。然后把之前的url和name结合起来就可以获取网址了。

python 复制代码

# https://www.baidu.com/s?tn=15007414_15_dg&ie=utf-8&wd=%E9%82%93%E7%B4%AB%E6%A3%8B
import urllib.request
import urllib.parse
# 需求 获取https://www.baidu.com/s?wd=邓紫棋  的网页源码
url = ' https://www.baidu.com/s?wd='

# 请求对象的定制，是为了解决反爬的第一种手段
headers = {
    'User-Agent' : 'Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 127.0.0.0Safari / 537.36'
}
# 将邓紫棋三个字变成unicode编码的格式
# 我们依赖urllib.parse

name = urllib.parse.quote('邓紫棋')
url = url + name
# 请求对象的定制

request = urllib.request.Request(url = url,headers=headers)

# 模拟浏览器向服务器发送请求
responce = urllib.request.urlopen(request)

# 获取相应的内容
content = responce.read().decode('UTF-8')


print(content)

7. get请求urlencode方法

上面的实例中只有'邓紫棋'一个中文，当我们有多个中文检索词时，还用quote就比较麻烦了，这是我们有一个更好的方法：

python 复制代码

data = {
    'wd' : '周杰伦',
    'sex': '男',
    'location':'中国台湾'
}
new_data = urllib.parse.urlencode(data)

这样我们就可以把这些元素都融合在一起了，这时我们就可以获取到想要的带有中文检索字的网址了，然后再定制请求对象想服务器发送请求就可以了。

python 复制代码

# urlencode应用场景：多个参数的时候

# import urllib.parse
# https://www.baidu.com/s?wd=周杰伦&sex=男

# data = {
#    'wd' : '周杰伦',
#    'sex':'男'
# }
# a = urllib.parse.urlencode(data)
# print(a)

import urllib.request
import urllib.parse
base_url = 'https://www.baidu.com/s?'
data = {
    'wd' : '周杰伦',
    'sex': '男',
    'location':'中国台湾'
}
new_data = urllib.parse.urlencode(data)
print(new_data)
# 路径
url = base_url + new_data

headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'
}
# 请求对象的定制
request = urllib.request.Request(url = url,headers=headers)
# 模拟浏览器向服务器发送请求
responce = urllib.request.urlopen(request)

# 获取网页源码的数据
content = responce.read().decode('UTF-8')
print(content)

8.urllib_post请求百度翻译

我们在对百度翻译进行爬虫时，需要先找到网址'https://fanyi.baidu.com/sug'

然后我们可以在图中发现Request Method是POST，我们需要知道post的请求参数必须要进行编码，我们在图中得知一个字典类型的数据，这就是我们要在网站中查找的内容，我们用data来接收它，然后用urlencode编码一下：

python 复制代码

data = urllib.parse.urlencode(data)

但是这样得到的是字符串，我们传入的是字节码，所以说post传入的参数需要编码，data = urllib.parse.urlencode(data).encode('UTF-8')，而且post传入的参数不会拼接到url后面，而是放到请求对象定制的参数中，

python 复制代码

request = urllib.request.Request(url = url,data = data,headers=headers)

之后模拟浏览器向服务器发送请求，得到的数据我们看不懂，所以我们要对其进行改变，把字符串变成json数据，

python 复制代码

import json
obj = json.loads(content)
print(obj)

python 复制代码

# post请求
import urllib.parse
import urllib.request
url = 'https://fanyi.baidu.com/sug'

headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'
}

data = {
    'kw':'spider'
}

# post的请求参数必须要进行编码
# data = urllib.parse.urlencode(data)   <- 这样是字符串，而传入的是字节码
data = urllib.parse.urlencode(data).encode('UTF-8')
# post请求的参数不会拼接在url后面，而是需要放到请求对象定制的参数中
# post请求的参数必须要进行编码
request = urllib.request.Request(url = url,data = data,headers=headers)

# print(request)

# 模拟浏览器向服务器发送请求
responce = urllib.request.urlopen(request)

# 获取相应的数据
content = responce.read().decode('UTF-8')

print(content)
# post请求方式的参数 必须编码 data = urllib.parse.urlencode(data).encode('UTF-8')
# 编码之后必须调用encode方法
# 参数放在请求对象定制的方法中

# 字符串变成json数据
import json
obj = json.loads(content)
print(obj)

9.百度翻译详细版

由于反爬手段的提升我找不到之前的v2文件，所以这一段没有爬取成功...

python 复制代码

import urllib.request
import  urllib.parse
url = 'https://fanyi.baidu.com/v2transapi?from=en&to=zh'

headers = {

    # 'cookie'最重要，但是我找不到

    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'
}

data = {
    'from' : 'en',
    'to' : 'zh',
    'query' : 'love',
    'transtype':'realtime',
    'simple_means_flag':'3',
    'sign':'198772.518981',
    'token':'5483bfa652979b41f9c90d91f3de875d',
    'domain':'common'
}
# post请求的参数必须编码
data = urllib.parse.urlencode(data).encode('utf-8')
# 请求对象的定制
request = urllib.request.Request(url = url,data=data,headers=headers)

# 模拟浏览器向服务器发送请求
responce = urllib.request.urlopen(request)

# 获取相应的数据
content = responce.read().decode('utf-8')
import json
obj = json.loads(content)
print(obj)

10.urllib_ajax的get请求豆瓣电影的第一页

我们在检查中发现类型是get

网址为：https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=0&limit=20

之后我们构建请求对象，模拟浏览器向服务器传递信息，接收到content后，我们想把它下载到本地，可以使用open方法，open方法默认情况下是使用gbk编码，如果我们想保存汉字，那么需要我们在open格式中指定编码格式为'UTF-8'

python 复制代码

with open('douban1.json','w',encoding = 'utf-8') as fp:
    fp.write(content)

11.get请求豆瓣电影的前十页

如果我们想下载多页数据时，一次一次输入网址会很麻烦，我们登录网站发现这些网址都是有规律的，通过分析可知start = (page-1) * 20，这样我们就想到可以使用for循环来为我们下载，首先在程序入口处输入起始页和终止页，然后通过for循环，找到每一页，每一页中都有自己的请求对象，

python 复制代码

def create_request(page):
    base_url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action='
    data = {
        'start' : (page-1)*20,
        'limit' : '20'
    }
    data = urllib.parse.urlencode(data)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'
    }
    url = base_url + data
    request = urllib.request.Request(url = url,headers=headers)
    return request

其他的就和访问一页的数据是相同的，在最后下载时：

python 复制代码

def down_load(page,content):
    with open ('douban'+str(page)+'.json','w',encoding = 'utf-8') as fp:
        fp.write(content)

有一个小坑，就是page必须要强制类型转换为str才能和文件名结合起来。

python 复制代码

# https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=0&limit=20

# https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=20&limit=20

# https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=40&limit=20

# https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=60&limit=20

# page   1  2  3  4
# start  0  20 40 60
# start = (page-1) * 20

# 下载豆瓣电影前十页的数据
# （1）请求对象定制

# (2)获取相应的数据

# (3)下载数据
import urllib.request
import urllib.parse
def create_request(page):
    base_url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action='
    data = {
        'start' : (page-1)*20,
        'limit' : '20'
    }
    data = urllib.parse.urlencode(data)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'
    }
    url = base_url + data
    request = urllib.request.Request(url = url,headers=headers)
    return request

def get_content(request):
    responce = urllib.request.urlopen(request)
    content = responce.read().decode('utf-8')
    return content
def down_load(page,content):
    with open ('douban'+str(page)+'.json','w',encoding = 'utf-8') as fp:
        fp.write(content)


# 程序入口：
if __name__ == '__main__':
    start_page = int(input('请输入起始的页码'))
    end_page = int(input('请输入结束的页码'))
    for page in range(start_page,end_page+1):
# 每一页都有自己请求的定制
        request =  create_request(page)
# 获取响应的数据
        content = get_content(request)
# 下载
        down_load(page,content)

12.ajax_post请求肯德基官网

当我们想在肯德基官网获取餐厅信息时，我们可以使用ajax_post方法，首先我们在官网中获取一些信息：

我们在不同页面中发现这些网址只有page是不同的，那么我们还是可以利用一个for循环，分别记录每一页，然后构建针对不同page的请求对象来模拟访问就可以了。

python 复制代码

# 2页
# https://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname
# post请求
# cname: 北京
# pid:
# pageIndex: 2
# pageSize: 10
# 1页
# https://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname
# cname: 北京
# pid:
# pageIndex: 1
# pageSize: 10

import  urllib.request
import  urllib.parse
def create_request(page):
    base_url = 'https://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname'
    data = {
         'cname': '北京',
         'pid':'',
         'pageIndex': page,
         'pageSize': '10'
    }
    data = urllib.parse.urlencode(data).encode('utf-8')
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'
    }
    request = urllib.request.Request(url = base_url,data=data,headers=headers)
    return request

def get_content(request):
    responce = urllib.request.urlopen(request)
    content = responce.read().decode('utf-8')
    return content


def download(page,content):
    with open('kfc_'+ str(page) +'.json','w',encoding = 'utf-8') as fp:
        fp.write(content)



if __name__ == '__main__':
    start_page = int(input('输入起始页码'))
    end_page = int(input('输入结束页码'))

    for page in range(start_page,end_page+1):
# 请求对象的定制
        request = create_request(page)
# 获取网页源码
        content = get_content(request)
# 下载
        download(page,content)

13.异常

当我们有时访问失败时，可以使用try_except来确保程序稳定运行，而且我们也可以通过try_except来分析出是哪一种错误，例如有HTTPError，URLError等

python 复制代码

# URLError / HTTPError
import  urllib.request
import  urllib.error
url = 'https://blog.csdn.net/sulixu/article/details/1198189491'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'
}

try:
    request  = urllib.request.Request(url = url,headers=headers)

    responce = urllib.request.urlopen(request)

    content = responce.read().decode('utf-8')

    print(content)
except urllib.error.HTTPError:
    print('系统正在升级...')
except urllib.error.URLError:
    print('系统正在升级...')

14.微博的cookie登录

在访问微博时，我们是需要登录的，如果想要跳过登录，我们可以借助UA和cookie值进入，有时还会需要referer，它是判断你的访问是从哪一个网站来的，如果不是它规定的网站，就会报错，不会给你返回值，此外还要判断个人信息页面是否是utf-8类型，否则也会出错。

python 复制代码

# 适用场景；数据采集时，需要绕过登录，然后进入到某个页面
import urllib.request
# 个人信息页面是utf-8,但是还是报了错，因为并没有进入到个人信息页面，而是跳转到了登录页面
# 那么登录页面不是utf-8
url = 'https://weibo.cn/78529754/info'
# 访问不成功是因为请求头信息不够
headers = {
# refer 判断当前路径是不是由上一个路径进来的，一般情况下做图片防盗链
    'referer':'https://weibo.cn/',
    'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/5.36',
# cookie中携带有你的登录信息，如果登陆之后有cookie
     'cookie' : '_T_WM=d2f35cbdfece6f640ede045818da88d5; SCF=Alr8vNiruaP9jRc7fqN_u9cTZn_1GmCjtpbbrJMiFLUWPKB-jG35pMkTSbEq70HhKEFgJCW78xgnIpPa7lHcw2o.; SUB=_2A25LoMf-DeRhGeFG7lAY9yvIzzqIHXVo3EU2rDV6PUJbktANLRHYkW1NeUVJpU0UhBUoxjmFEWVW38OwxCHmgCDg; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WF2wIbYV-gP9mnBVAM.0zdv5NHD95QN1h-E1KMfShBcWs4DqcjGwJfodJ9Rdntt; SSOLoginState=17220708; ALF=1724662958'
}
# 请求对象的定制
request = urllib.request.Request(url = url,headers=headers)
# 模拟浏览器向服务器发送请求
responce = urllib.request.urlopen(request)
# 获取相应的数据
content = responce.read().decode('utf-8')
# 将数据保存到本地
with open ('weibo.html','w',encoding='utf-8')as fp:
    fp.write(content)

15.handler处理器的基本使用

在上述例子中，cookie值都是不变的，但是当cookie随着我们的访问一直变化我们应该怎么办呢？这是我们就可以使用handler，下面我们使用访问百度来举例子：

我们需要三个方法：

python 复制代码

handler   build_opener   open

和之前不同的是，我们构建完请求对象后，我们不能用urlopen来模拟浏览器访问服务器，而是通过：

python 复制代码

# handler  build_opener  open
# 获取handler对象
handler = urllib.request.HTTPHandler()

# 获取opener对象
opener = urllib.request.build_opener(handler)

# 调用open方法
responce = opener.open(request)

来获取responce。

python 复制代码

# 动态cookie和代理不能简单使用请求对象的定制
# 使用handler来访问百度，获取网页源码
import urllib.request

url = 'https://www.baidu.com'

headlers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'
}

request = urllib.request.Request(url = url,headers = headers)

# handler  build_opener  open
# 获取handler对象
handler = urllib.request.HTTPHandler()

# 获取opener对象
opener = urllib.request.build_opener(handler)

# 调用open方法
responce = opener.open(request)

content = responce.read().decode('utf-8')

print(content)

16.urllib代理

当我们不想让服务器知道我们的ip地址，或者在访问一些国外网站需要国外ip是时，可以使用代理服务器，我们不再用responce = urllib.request.urlopen(request),而是通过一个代理ip来模拟浏览器，而且要注意proxies是一个字典类型的，要注意格式，使用：

python 复制代码

proxies = {
    'http':'118.24.219.151:16817'
}
handler = urllib.request.ProxyHandler(proxies=proxies)

opener = urllib.request.build_opener(handler)

responce = opener.open(request)

来获取responce。

python 复制代码

# 代理服务器
# 访问国外站点，访问一些单位或团体内部资源，提高访问速度，隐藏真实ip
import urllib.request

url = 'http://www.baidu.com/s?wd=ip'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'
}
# 请求对象
request = urllib.request.Request(url = url,headers=headers)
# 模拟浏览器：
# responce = urllib.request.urlopen(request)
proxies = {
    'http':'118.24.219.151:16817'
}
handler = urllib.request.ProxyHandler(proxies=proxies)

opener = urllib.request.build_opener(handler)

responce = opener.open(request)
# 获取相应信息
content = responce.read().decode('utf-8')

# 保存
with open('daili.html','w',encoding='utf-8') as fp:
    fp.write(content)

17.代理池

当我们使用代理ip访问时，访问次数多了也会被封，所以我们可以使用多个ip分别随机访问，这样就不会被检测到了，我们需要引入import random，然后将proxies随机一下，这样就可以每次使用不同的ip了，然后就像代理ip一样输入就好了。

python 复制代码

# 代理池
import urllib.request
proxies_pool = [
    {'http':'118.24.219.151:16811111'},
    {'http':'118.24.219.151:16822222'},
    {'http':'118.24.219.151:16833333'},
    {'http':'118.24.219.151:16844444'}
]
import random

proxies = random.choice(proxies_pool)

url = 'http://www.baidu.com/s?wd=ip'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'
}

request = urllib.request.Request(url = url,headers=headers)

handler = urllib.request.ProxyHandler(proxies = proxies)

opener = urllib.request.build_opener(handler)

responce = opener.open(request)

content = responce.read().decode('utf-8')

with open('daili.html','w',encoding='utf-8') as fp:
    fp.write(content)

18.xpath的基本使用

xpath可以用来获取网页源码中的部分数据，这样我们就可以在其中添加条件，来获取我们需要的特定的数据，下面是一个html文件我们在其中查找特定的元素

html 复制代码

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8"/>
    <title>Title</title>
</head>
<body>
    <ul>
        <li id = "l1" class = "c1">北京</li>
        <li id = "l2">上海</li>
        <li id = "c1">武汉</li>
        <li id = "c2">深圳</li>
    </ul>

    <ul>
        <li>河北</li>
        <li>东北</li>
    </ul>
</body>
</html>

首先我们要先调用from lxml import etree，然后我们用xpath来解析本地文件，tree = etree.parse('XPATH.html') 然后就可以个根据不同的需求获取不同的信息。

python 复制代码

# 获取网页源码部分数据的一种方式
from lxml import etree
# xpath解析
# (1)本地文件   etree.parse
# (2)服务器响应文件 responce.read().decode('utf-8')    *****  etree.HTML()
# xpath解析本地文件
tree = etree.parse('XPATH.html')
# 1.路径查询：
#   //：查找所有子孙节点，不考虑层级关系
#   / : 查找子节点
# tree.xpath('xpath路径')
# lilist = tree.xpath('//body//ul')
# 判断列表的长度
# print(len(lilist))

# 2.谓词查询
#   //div[@id]
#   //div[@id = "maincontent"]
# test()获取标签的内容
lilist = tree.xpath('//ul/li[@id]')
print(lilist)
# 找到标签为l1的标签
li_list = tree.xpath('//ul/l1[@id = "l1"]')
print(len(li_list))

# 查找到id为l1标签的class属性值
# 3.属性查询：//@class
li = tree.xpath('//ul/li[@id = "l1"]/@class')
print(li)

# 4.模糊查询
# //div[contains(@id,"he")] id包含he
# //div[starts-with(@id,"he")]  id以he开头
li__list = tree.xpath('//ul/li[contains(@id,"l")]')
print(li__list)
# 查询id的值以l开头的li标签
liilist = tree.xpath('//ul/li[starts-with(@id,"l")]')
print(liilist)
# 查询id为l1并且class为c1的
li_list = tree.xpath('//ul/li[@id = "l1" and @class = "c1"]')
print(li_list)

19.解析_百度一下

当我们想象获取"百度一下"这四个字时，用到了xpath工具

python 复制代码

import urllib.request

url = 'https://www.baidu.com'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'
}

request = urllib.request.Request(url = url,headers=headers)

responce = urllib.request.urlopen(request)

content = responce.read().decode('utf-8')

# 获取我们想要的
from lxml import etree
# 解析服务器相应的文件
tree = etree.HTML(content)

result = tree.xpath('//input[@id = "su"]/@value')[0]

print(result)

20.站长素材

当我们在站长素材这个网站上下载图片时，首先我们要找到图片的网址，我们发现第一页和其他页不同，第一页是没有page的，所以我们用if-else语句来分别提取出第一页和其他页，然后模拟浏览器向服务器发送请求，并且根据获得的源码在其中找到图片名字和网址所在的子孙类，下载就可以了。

python 复制代码

import urllib.request
from lxml import etree
# 需求：前十页图片，第一页和其他页的数据不同
# https://sc.chinaz.com/tupian/weimeiyijingtupian.html
# https://sc.chinaz.com/tupian/weimeiyijingtupian_2.html

# 请求对象的定制
def create_request(page):
    if(page == 1):
        url = 'https://sc.chinaz.com/tupian/weimeiyijingtupian.html'
    else:
        url = 'https://sc.chinaz.com/tupian/weimeiyijingtupian_' + str(page) +'.html'
    headers = {
        'User-Agent': 'Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 127.0.0.0Safari / 537.36'
    }
    request = urllib.request.Request(url = url,headers=headers)
    return request
# 获取网页源码
def get_content(request):
    responce = urllib.request.urlopen(request)
    content = responce.read().decode('utf-8')
    return content
# 下载
def down_load(content):
# 下载图片
# urllib.request.urlretrieve('图片地址','文件名字')
    tree = etree.HTML(content)
    namelist = tree.xpath('//div[@class = "container"]//img//@alt')
# 一般图片网站都会懒加载
    srclist = tree.xpath('//div[@class = "container"]//img//@data-original')

    for i in range(len(namelist)):
        name = namelist[i]
        src = srclist[i]
        url = 'https:'+src
        urllib.request.urlretrieve(url = url,filename = './lovlmg/'+name+'.jpg')
if __name__ == '__main__':
    start_page = int(input('请输入起始页码'))
    end_page = int(input('请输入结束页码'))
    for page in range(start_page,end_page+1):
# 请求对象的定制
        request = create_request(page)
# 获取网页源码
        content = get_content(request)
# 下载
        down_load(content)

21.jsonpath

下面是一个json文件，我们使用jsonpath来查找我们想要的元素。在此之前我们都要提前下载jsonpath，在json库中就可以下载

json 复制代码

{ "store": {
    "book": [
      { "category": "reference",
        "author": "Nigel Rees",
        "title": "Sayings of the Century",
        "price": 8.95
      },
      { "category": "fiction",
        "author": "Evelyn Waugh",
        "title": "Sword of Honour",
        "price": 12.99
      },
      { "category": "fiction",
        "author": "Herman Melville",
        "title": "Moby Dick",
        "isbn": "0-553-21311-3",
        "price": 8.99
      },
      { "category": "fiction",
        "author": "J. R. R. Tolkien",
        "title": "The Lord of the Rings",
        "isbn": "0-395-19395-8",
        "price": 22.99
      }
    ],
    "bicycle": {
      "color": "red",
      "price": 19.95
    }
  }
}

python 复制代码

import json
import jsonpath

obj = json.load(open('解析jsonpath.json','r',encoding = 'utf-8'))
# print(obj)
# 书店所有书的作者

author_list = jsonpath.jsonpath(obj,'$.store.book[*].author')

# print(author_list)

# 所有的作者
author_list = jsonpath.jsonpath(obj,'$..author')
# print(author_list)

# store下面的所有元素
tag_list = jsonpath.jsonpath(obj,'$.store.*')
# print(tag_list)

# store里所有的钱
price_list = jsonpath.jsonpath(obj,'$.store..price')
print(price_list)

# 第三个书
book = jsonpath.jsonpath(obj,'$..book[2]')
print(book)

# 最后一本书
book = jsonpath.jsonpath(obj,'$..book[(@.length-1)]')
print(book)

# 前面的两本书
book_list = jsonpath.jsonpath(obj,'$..book[0,1]')
print(book_list)
# 条件过滤需要在()前面加一个?号
# 过滤出所有含有isbn的书
book_list = jsonpath.jsonpath(obj,'$..book[?(@.isbn)]')
print(book_list)
# 哪本书超过了十块钱
book_list = jsonpath.jsonpath(obj,'$..book[?(@.price>10)]')
print(book_list)

22.用jsonpath解析淘票票

这一节我们要在淘票票网站中获取城市信息，首先我们找到网站和城市的json文件，在其中我们要进行切割来获取我们想要的部分。

python 复制代码

import urllib.request

url = 'https://dianying.taobao.com/cityAction.json?activityId&_ksTS=1722168119996_108&jsoncallback=jsonp109&action=cityAction&n_s=new&event_submit_doGetAllRegion=true'

headers = {
'accept':'text/javascript, application/javascript, application/ecmascript, application/x-ecmascript, */*; q=0.01',
'accept-language':'zh-CN,zh;q=0.9',
'bx-v':'2.5.14',
'cookie':
't=164d761e0b05d3b06cdd6bf1f9b678a7; cookie2=18db62f7815a4ae14ef8d13a956326d3; v=0; _tb_token_=fbe3708e067b3; cna=u/MsH/Vh8XoCAXzuRuYVHkpC; xlly_s=1; isg=BJCQTO2mwrV1Gp6xP-s5jLwjYd7iWXSjvRF2bIpgH-u-xTFvMmnmM167nY0lECx7',
'priority':
'u=1, i',
'referer':
'https://dianying.taobao.com/',
'sec-ch-ua':
'"Not)A;Brand";v="99", "Google Chrome";v="127", "Chromium";v="127"',
'sec-ch-ua-mobile':
'?0',
'sec-ch-ua-platform':
'"Windows"',
'sec-fetch-dest':
'empty',
'sec-fetch-mode':
'cors',
'sec-fetch-site':
'same-origin',
'user-agent':
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36',
'x-requested-with':
'XMLHttpRequest'
}

request = urllib.request.Request(url = url ,headers=headers)

responce = urllib.request.urlopen(request)

content = responce.read().decode('utf-8')
# 切割
content = content.split('(')[1].split(')')[0]

with open('淘票票.json','w',encoding='utf-8') as fp:
    fp.write(content)
import json
import jsonpath

obj = json.load(open('淘票票.json','r',encoding='utf-8'))

city_list = jsonpath.jsonpath(obj,'$..regionName')
print(city_list)

23.BeautifulSoup

BeautifulSoup是一种解析HTML和XML的第三方库，可以查找文件中的特定标签的元素。

比如以下的HTML文件：

html 复制代码

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Title</title>
</head>
<body>
<div>
    <ul>
        <li id = "l1">张三</li>
        <li id = "l2">李四</li>
        <li>王五</li>
        <a href="" id = "" class = "a1">哈哈哈</a>
        <span>嘿嘿嘿嘿</span>
    </ul>
</div>
    <a href="" title = "a2">百度</a>
<div id = "d1">
    <span>
        哈哈哦好啊
    </span>
</div>
    <p id = "p1" class = "p1" >呵呵呵</p>
</body>
</html>

python，复制代码

from bs4 import BeautifulSoup

# 通过解析本地文件来讲解bs4的基础语法
# 默认打开文件格式是gbk
soup = BeautifulSoup(open('BeautifulSoup.html',encoding='utf-8'),'lxml')

# print(soup)

# bs4基本语法
# (1)根据标签名字来查找节点
# 找到的是第一个符合条件的数据
# print(soup.a)
# print(soup.a.attrs) # 获取标签的属性和属性值

# bs4的一些函数
# (1) find 返回的是第一个符合条件的数据
# print(soup.find('a'))
# 使用title标签来找到相应的对象
# print(soup.find('a',title = "a2"))
# 可以加一个_来代表html中的class，因为class是python中的类
# print(soup,find('a',class_ = "a1"))
# (2) find_all 返回的是一个列表并且返回了所有的a标签
# print(soup.find_all('a'))
# 如果想获取多个标签的数据，那么需要在find_all的参数中添加的是列表的数据
# print(soup.find_all(['a','span']))
# limit作用是查找前几个数据
# print(soup.find_all('li',limit = 2))

# (3) select（推荐）
# select方法返回的是一个列表，并且会返回多个数据
print(soup.select('a'))
# 可以通过 . 代表class，我们把这种操作叫做类选择器
print(soup.select('.a1'))

# id
# id = l1 ,用 # 代替
print(soup.select('#l1'))

# 属性选择器
# 查找到li标签中有id的标签

print(soup.select('li[id]'))

# 找到id为l2的标签
print(soup.select('li[id = "l2"]'))

# 层级选择器
# 后代选择器
# 找到div下面的li
print(soup.select('div li'))
# 子代选择器
# 某标签的第一级子标签
# 注意：很多的计算机编程语言中如果不加空格不会输出内容，但是在bs4中不会报错
print(soup.select('div > ul > li'))

# 找到a标签和li标签的所有对象
print(soup.select('a,li'))

# 节点信息
# 获取节点内容
obj = soup.select('#d1')[0]
# 如果标签对象中只有内容，但是如果标签对象中除了内容还有标签，那么string中获取不到数据，而get_text()是可以获取的
print(obj.string)
print(obj.get_text())

# 节点的属性
# 通过id来获取p标签
obj = soup.select('#p1')[0]
# name 是标签的名字
print(obj.name)
# 将属性值作为一个字典返回
print(obj.attrs)

# 获取节点的属性
opj = soup.select('#p1')[0]
print(obj.attrs.get('class'))
print(obj.get('class'))
print(obj['class'])

24.bs4获取星巴克数据

当我们想获取星巴克中咖啡种类的数据时，首先我们找到官网，然后获取到返回数据，使用name_list = soup.select('ul[grid padded-3 product] strong')来获取咖啡名

python 复制代码

import urllib.request

url = 'https://www.starbucks.com.cn/menu/'

headers = {

}

responce = urllib.request.Request(url = url)

content = responce.read().decode('utf-8')

from bs4 import BeautifulSoup

soup = BeautifulSoup(content,'lxml')
# //ul[@class = "grid padded-3 product"]//strong/text()
name_list = soup.select('ul[grid padded-3 product] strong')

for name in name_list:
    print(name.string)

25.Selenium

Selenium是一个

python 复制代码

from selenium import webdriver

# Chrome浏览器
driver = webdriver.Chrome()

driver.get('https://www.jd.com')

# 获取网页源码
content = driver.page_source

print(content)

26.selenium元素定位

（1）id 可以唯一定位到一个元素（全局唯一）
find_element(By.ID, "id名")

（2）name 要确保是全局唯一的
find_element(By.NAME, "name名")

（3）class name 相当于样式容易重复
find_element(By.CLASS_NAME, "class名)"

（4）link text 有时候不是一个输入框也不是一个按钮，而是一个文字链接，例如百度搜索界面左上角的新闻，可能重复。
find_element(By.LINK_TEXT, "link_text名称")

（5）partial link text 部分链接定位，链接的部分名称，会有重复的可能。
find_element(By.PARTIAL_LINK_TEXT, "名称")

（6）tag name 标签（很多），类似<div模块,<a，<link,<span,<input,非常容易重复。
find_element(By.TAG_NAME, "input") find_element(By.TAG_NAME, "名称") find_element(By.TAG_NAME, "标签")

（7）xpath 全局唯一

获取xpath：右击鼠标-检查，定位到元素，在弹出的elements选中的地方鼠标右击-copy-copyxpath

xpath格式注意事项：双引号之间有双引号的时候，把里面的双引号改成单引号。

//* 省略了前面的路径
find_element(By.XPATH, "名称")

（8）css selector 元素样式

获取css selector：右击鼠标-检查，定位到元素，在弹出的elements选中的地方鼠标右击-copy-copyselector
find_element(By.CSS_SELECTOR, "名称")

python 复制代码

from selenium import webdriver
from selenium.webdriver.common.by import By
driver = webdriver.Chrome()

# id定位
# <input id="toolbar-search-input" autocomplete="off" type="text" value="" placeholder="C++难在哪里？">
driver.find_element(By.ID,"toolbar-search-input")
# driver.find_element_by_id

# name 定位
# <meta name="keywords" content="CSDN博客,CSDN学院,CSDN论坛,CSDN直播">
driver.find_element(By.NAME,"keywords")
# driver.find_element_by_name

# class 定位
# <div class="toolbar-search-container">
driver.find_element(By.CLASS_NAME,"toolbar-search-container")

27.举例Selenium邓紫棋

python 复制代码

from selenium import webdriver #获得浏览器驱动
import time
from selenium.webdriver.common.by import By

#获得谷歌浏览器驱动，注意一定要大写浏览器名称
driver=webdriver.Chrome()

#输入要打开的网址
url="https://www.baidu.com/"
driver.get(url)
time.sleep(3)
#用id来定位百度搜索框,定位一个是element，定位多个是elements
#kw和su都是名字，框中输入名字，点击百度一下
#driver.find_elements_by_id("kw").send_keys("邓紫棋")写法已经被弃用
driver.find_element(By.ID, "kw").send_keys("邓紫棋")
time.sleep(3)
driver.find_element(By.ID, "su").click()

#太快看不到添加sleep
time.sleep(3)

# 滑到底部
js_buttom = 'document.documentElement.scrollTop=100000'
driver.execute_script(js_buttom)
time.sleep(2)

# 获取下一页的按钮
next = driver.find_element(By.XPATH,"//a[@class='n']")

# 点击下一页
next.click()
time.sleep(2)

# 回到上一页
driver.back()
time.sleep(3)

#quit在关闭的同时还能进行清理，close只是关闭
driver.quit()

28.Selenium 其他操作

元素定位好之后进行

（1）click 点击对象

python 复制代码

click()
#点击百度一下
driver.find_element(By.ID, "su").click()

（2）send_keys 在对象上模拟按键输入

python 复制代码

send_keys(" 要输入的内容")
#搜索框中输入邓紫棋
driver.find_element(By.ID, "kw").send_keys("邓紫棋")

（3）clear 清除对象的内容

python 复制代码

clear()
#清除搜索框中的内容
driver.find_element(By.ID, "kw").clear()

（4）submit 提交表单

如果出现type="submit"的情况submit 可以替换click操作，效果一样。

python 复制代码

.submit()
#点击百度一下
driver.find_element(By.ID, "su").submit()

（5）text 用于获取元素的文本信息

python 复制代码

.text
#获取百度界面上的信息（之后用print打印出来）
text=driver.find_element(By.ID, "s-top-left").text

浏览器的操作

（1）浏览器最大化

python 复制代码

maximize_window()
driver.maximize_window()

（1）设置浏览器宽、高

python 复制代码

set_window_size(宽,高)
driver.set_window_size(600,600)

（1）操作浏览器的前进、后退

python 复制代码

#后退
back()
driver.back()
#前进
forward()
driver.forward()

（4）控制浏览器滚动条

用js语言，数值为0滚动条往顶端拉，数值越大滚动条往下端拉。

python 复制代码

js1="var q=documentElement.Scro1lTop=数值"
#滚动条往顶端拉
js1="var q=documentElement.Scro1lTop=0"
#滚动条往下拉
js1="var q=documentElement.Scro1lTop=10000"
#执行操作
driver.execute_script(js1)

6.键盘事件

以一些常用键举例

（1）enter键

python 复制代码

from selenium.webdriver import Keys
send_keys(Keys.ENTER)

以禅道的登录为例

python 复制代码

from selenium import webdriver
import time
from selenium.webdriver.common.by import By
#导入键盘包
from selenium.webdriver import Keys

driver = webdriver.Chrome()
time.sleep(3)
url = "复制禅道登录界面的地址"
driver.get(url)
#浏览器最大化
driver.maximize_window()

#输入自己的用户名和密码，输完密码后在密码框中点击enter键登录
driver.find_element(By.ID, "account").send_keys("用户名")
driver.find_element(By.NAME, "password").send_keys("密码")
driver.find_element(By.NAME, "password").send_keys(Keys.ENTER)
time.sleep(6)
driver.quit()

（2）Tab键

python 复制代码

切换焦点
from selenium.webdriver import Keys
send_keys(Keys.TAB)

python 复制代码

from selenium import webdriver
import time

from selenium.webdriver import Keys
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()
time.sleep(3)
url = "输入自己的禅道登录的地址"
driver.get(url)
driver.maximize_window()
#把光标从登录框切换到密码框
driver.find_element(By.ID, "account").send_keys("admin")
driver.find_element(By.ID, "account").send_keys(Keys.TAB)
time.sleep(6)
driver.quit()

（3）键盘组合用法

python 复制代码

#ctrl+a 全选输入框内容
send_keys(Keys.CONTROL,'a')
#ctrl+x 剪切输入框内容
send_keys(Keys.CONTROL,'x')

7.鼠标事件

模拟鼠标

（1）常用鼠标事件

python 复制代码

from selenium.webdriver import Keys, ActionChains
#右击
.context_click() 
#双击
double_click()
#拖动
drag_and_drop() 
#移动,把鼠标移动到相应位置
move_to_element()

（2）举例

python 复制代码

#导包
from selenium.webdriver import Keys, ActionChains
#假设已经处于禅道登录界面，输入用户名
su=driver.find_element(By.ID, "account").send_keys("admin")
#ActionChains首先要知道要操作的是哪个浏览器
#右击登录输入框
#perform执行
ActionChains(driver).context_click(su).perform()

29.selenium-phantomjs

由于phantomjs已经被很多公司淘汰不再使用，所以这里不做赘述

python 复制代码

from selenium import webdriver
from selenium.webdriver.common.by import By
driver = webdriver.Phantomjs()

driver.get('http://www.baidu.com')

print(driver.page_source.encode("utf-8"))

driver.quit()

# 已经弃用

30.selenium-handless

Chrome Headless是一个无界面的浏览器环境，它是Google Chrome浏览器在59版本之后新增的一种运行模式。与传统的浏览器不同，Chrome Headless可以在后台执行网页操作，而无需显示可见的用户界面。

Chrome Headless提供了一种方便的方式来进行自动化测试、网络爬虫和数据抓取等任务。它通过模拟用户在浏览器中的行为，实现了对网页的自动化操作和交互。在执行过程中，Chrome Headless可以访问和操纵网页的DOM结构、执行JavaScript代码、提交表单、点击按钮等。

由于没有可见的界面，Chrome Headless相比传统浏览器具有一些优势。首先，它更轻量级，节省了系统资源，并且执行速度更快。其次，它稳定性高，不受弹窗、广告或其他干扰因素的影响。此外，Chrome Headless还提供了丰富的调试工具和API，方便开发者进行调试和监控。

使用Selenium框架结合Chrome Headless可以实现自动化测试和网页爬虫等应用场景。开发人员可以利用Selenium的API来编写脚本，控制Chrome Headless执行各种操作，并获取网页内容和处理结果。

python 复制代码

# from selenium import webdriver
# from selenium.webdriver.chrome.options import Options

# chrome_options = Options()
# chrome_options.add_argument('--headless')
# chrome_options.add_argument('--disable-gpu')

# path = r'C:\Program Files\Google\Chrome\Application\chrome.exe'
# chrome_options.binary_location = path

# browser = webdriver.Chrome(options = chrome_options)

# url = 'https://www.baidu.com'

# browser.get(url)

# 封装
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
def share_browser():
     chrome_options = Options()
     chrome_options.add_argument('--headless')
     chrome_options.add_argument('--disable-gpu')
# path是Google浏览器的位置
     path = r'C:\Program Files\Google\Chrome\Application\chrome.exe'
     chrome_options.binary_location = path

     browser = webdriver.Chrome(options = chrome_options)
     return browser
browser = share_browser()
url = 'https://www.baidu.com'

31.request基本使用

request类似于urllib，但是request是python中独有的库，能用更简短的代码写出和urllib同样的效果，request中有一个类型和六个属性，和urllib是相似的

python 复制代码

import requests

url = 'https://www.baidu.com'

responce = requests.get(url = url)

# 一个类型和六个属性
# responce类型
print(type(responce))

# 设置编码格式
responce.encoding = 'utf-8'
# 以字符串的形式返回了网页源码
print(responce.text)

# 返回一个url地址
print(responce.url)
# 返回的是二进制的数据
print(responce.content)
# 返回相应的状态码
print(responce.status_code)
# 返回的是响应头
print(responce.headers)

request中的get请求

首先分析一下urllib和request的区别，然后我们在request中只需要

python 复制代码

responce = requests.get(url = url,params=data,headers=headers)

content = responce.text

这两行代码就可以搞定，还是很便捷的。再传入时，在get中有一个param参数，是可以传入输入参数的。

python 复制代码

# urllib
# （1）一个类型和六个方法
# （2）get请求
# （3）post请求，百度翻译
# （4）ajax 的 post请求
# （5）ajax 的 post请求
# （6）cookie登录 微博
# （7）代理

# request
# （1）一个类型和六个属性
# （2）get请求
# （3）post请求
# （4）代理
# （5）cookie验证码

import requests
# 问号也可以不加
url = 'https://www.baidu.com/s?'

headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'
}

data = {
    'wd' : '北京'
}
# url叫做请求资源路径，params叫做参数，kwargs是字典
responce = requests.get(url = url,params=data,headers=headers)

content = responce.text
print(content)

# 参数无需urlencode编码
# 参数需要params传递
# 不需要请求对象定制

32.request中的post请求

在request中post请求中，我们还是据百度翻译的例子，这次post请求中的data也是传入的参数，由于content返回的是字符串类型，我们通过json编码为字典，这样我们就可以看懂了。

python 复制代码

import requests

url = 'https://fanyi.baidu.com/sug'

headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36',
'cookie' :
'BAIDUID_BFESS=7AD549AF735289E0C107221311EA1BE0:FG=1; BIDUPSID=7AD549AF735289E0C107221311EA1BE0; PSTM=1722243178; ZFY=:Aw39gqGc9br6vsj:BXTHad0qWcTvm9FKwjHVw648DZCg:C; BA_HECTOR=01040k8ga405052l0405a12l9ostdu1jajvkn1u; BDRCVFR[V3EOV_cRy1C]=mk3SLVN4HKm; H_PS_PSSID=60453_60470_60492_60500_60519_60552_60566_60554; delPer=0; PSINO=1; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; ab_sr=1.0.1_NTU5NjJiZTkxMGQ4YWM4YzkzODU2YzIwMGE1MmIxNTg3MDc5ODIxZGI2YWY4NDY1YmZlOWY2ZmNjNjc2MjdmZTdmMTRkMjdkZjJkZGM3MjBhZDI5MWM0NzMzODVkYjkwYzZiNTcxNDk3YjZjZjQ3NmYyNDE1OWNkYzU3NzBjODg5NWNjYWM3YzY3ZTcyMGQxMTgzY2QwMTI5ZDRmZTZiZQ==; RT="z=1&dm=baidu.com&si=24cae920-18e9-4b5b-8bb3-c1f662e67412&ss=lz9u6d1w&sl=1&tt=l0&bcn=https%3A%2F%2Ffclog.baidu.com%2Flog%2Fweirwood%3Ftype%3Dperf&ld=1d0"'
}

data = {
    'kw' : 'eye'

}
# url请求地址，data请求参数，kwargs字典
responce = requests.post(url = url,headers=headers,data=data)

content = responce.text

import json

obj = json.loads(content)

print(obj)

33.request_代理

这个也就是多个ip传入防止被查封，只要把proxy代理ip传入就可以了

python 复制代码

import requests

url = 'https://www.baidu.com/s?'

headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'
}

data = {
    'wd' : 'ip'
}

proxy = {
    'https' : '121.230.210.31:3256'
}
responce = requests.get(url = url,params=data,headers=headers,proxies=proxy)

content = responce.text

with open('daili2.html','w',encoding = 'utf-8') as fp:
    fp.write(content)

34.request免验证登录古诗词网

在这其中我们也不知道那些数据是有用的，所以我们先观察：

在这些数据中由两个我们没有找到的# __VIEWSTATE: vmkHKKt/kQxZnU3DdbFiulx/YaTER7m22csaKd4SZSS8an8DiKnioUZXZti28v5Kj7ouFNngtqLop5buxudkBNq5I+0NvucbIfDZjyUxRs5l5Iv7EY/tkDhCR0Ez21N/6JCIXHwPhAy055YerBP/kY98yi8= __VIEWSTATEGENERATOR: C93BE1AE，这时我们在源码中找到：

这里显示这两个Hidden的数据，说明这两个我们是无法查看的，之后我们用request获取网页源码，并用bs4来获取这两个数据，之后我们又在登录页面找到了验证码的相关图片，我们把它下载下来，通过session的工具来表示我们这两次登录（我们下一次还要登陆），是相同的，然后利用ddddocr 来读取图片中的信息，

python 复制代码

import ddddocr                       # 导入 ddddocr
ocr = ddddocr.DdddOcr(show_ad=False)      # 实例化
with open('code.jpg', 'rb') as f:     # 打开图片
    img_bytes = f.read()             # 读取图片
res = ocr.classification(img_bytes)  # 识别

这样我们就可以获取到所有的信息了，之后通过data传入后我们就可以登录进页面了。

python 复制代码

# 古诗词网
# 通过登录然后进入到主页面
# 通过找登录接口发现登录的时候需要的参数很多
# __VIEWSTATE: vmkHKKt/kQxZnU3DdbFiulx/YaTER7m22csaKd4SZSS8an8DiKnioUZXZti28v5Kj7ouFNngtqLop5buxudkBNq5I+0NvucbIfDZjyUxRs5l5Iv7EY/tkDhCR0Ez21N/6JCIXHwPhAy055YerBP/kY98yi8=
# __VIEWSTATEGENERATOR: C93BE1AE
# from: http://www.gushiwen.cn/user/collect.aspx
# email: 19933725376
# pwd: jijiji
# code: ZVMZ
# denglu: 登录

# 我们观察到__VIEWSTATE,__VIEWSTATEGENERATOR，不认识
# code是一个变化的量
# 难点（1）：__VIEWSTATE,__VIEWSTATEGENERATOR
# 通过源码可以知道我们找到了这两个值，所以只要我们获取源码，再解析就可以了
# 难点（2）：验证码
import requests

# 登录页面
url = 'https://www.gushiwen.cn/user/login.aspx?from=http://www.gushiwen.cn/user/collect.aspx'
headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'
}
# 获取页面源码
responce = requests.get(url = url,headers=headers)

content = responce.text

# 解析页面源码，然后获取__VIEWSTATE,__VIEWSTATEGENERATOR
from bs4 import BeautifulSoup

soup = BeautifulSoup(content,'lxml')

# 获取__VIEWSTATE
viewstate = soup.select("#__VIEWSTATE")[0].attrs.get('value')
# 获取__VIEWSTATEGENERATOR
viewstategenerator = soup.select('#__VIEWSTATEGENERATOR')[0].attrs.get('value')
# 获取验证码图片
code = soup.select('#imgCode')[0].attrs.get('src')
code_url = 'https://so.gushiwen.cn' + code


# session()方法 使请求对象变成一个对象
session = requests.session()
responce_code = session.get(code_url)
# 注意此时要使用二进制数据
content_code = responce_code.content
# wb的模式就是将二进制数据写入文件
with open('code.jpg','wb')as fp:
    fp.write(content_code)
# 把图片下载到本地之后，观察验证码
import ddddocr                       # 导入 ddddocr
ocr = ddddocr.DdddOcr(show_ad=False)      # 实例化
with open('code.jpg', 'rb') as f:     # 打开图片
    img_bytes = f.read()             # 读取图片
res = ocr.classification(img_bytes)  # 识别
# 点击登录
url_post =  'https://www.gushiwen.cn/user/login.aspx?from=http://www.gushiwen.cn/user/collect.aspx'

data_post = {
'__VIEWSTATE': viewstate,
'__VIEWSTATEGENERATOR':viewstategenerator,
'from': 'http://www.gushiwen.cn/user/collect.aspx',
'email': '19933725376',
'pwd': 'Ylp197419',
'code': res,
'denglu': '登录'
}

responce_post = session.post(url = url,headers=headers,data=data_post)
content_post = responce_post.text

with open('gushiwen.html','w',encoding = 'utf-8') as fp:
    fp.write(content_post)

35.scrapy基本使用

scrapy项目的建立

1.创建爬虫的项目 scrapy startproject 项目的名字

注意：项目的名字不允许使用数字开头也不能包含中文

2.创建爬虫文件：

要在spider文件夹中去创建爬虫文件

cd 项目的名字\项目的名字\spiders

cd scrapy_baidu_001\scrapy_baidu_001\spiders

复制代码

            创建爬虫文件
            scrapy genspider 爬虫文件的名字 要爬取的网页
            eg : scrapy genspider baidu www.baidu.com
            一般不需要添加https://
            因为文件中自动添加https://

3.运行爬虫代码

scrapy crawl 爬虫的名字

eg: scrapy crawl baidu

python 复制代码

import scrapy


class BaiduSpider(scrapy.Spider):
# 爬虫的名字  用于使用爬虫的时候使用的值
    name = "baidu"
# 允许访问的域名
    allowed_domains = ["www.baidu.com"]
# 起始的url地址 指的是第一次访问的域名 也就是在allowed_domains的前面加了https://
    start_urls = ["https://www.baidu.com"]

# 运行start_urls之后执行的方法，方法中的responce就是返回的对象
# 相当于responce = urllib.request.urlopen()
# 也相当于responce = requests.get()
    def parse(self, response):
        print("苍茫的天涯是我的爱")

36.58同城实例

1.scrapy项目的结构

项目名字

spiders文件夹（存储的是爬出文件）

init

自定义的爬虫文件

init

items 定义数据结构的地方，爬取的内容都包含哪些

middlewares 中间件代理

pipelines 管道用来处理下载的数据

settings 配置文件一般robot协议，ua定义等

2.responce的属性和方法

responce.text 获取相应的字符串

responce.body 获取的是二进制数据

responce.xpath(' 这里写xpath路径 ') 直接用xpath方法来解析responce中的内容

responce.extract() 提取seletor对象的data属性值

responce.extract_first() 提取列表的第一个数据

python 复制代码

import scrapy


class TcSpider(scrapy.Spider):
    name = "tc"
    allowed_domains = ["cangzhou.58.com"]
    start_urls = ["https://cangzhou.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91"]

    def parse(self, response):
        content = response.text
        print("====================")
        print(content)

37.汽车之家

python 复制代码

import scrapy


class CarSpider(scrapy.Spider):
    name = "car"
    allowed_domains = ["car.autohome.com.cn"]
# 后面是html时，后面不能加/
    start_urls = ["https://car.autohome.com.cn/price/brand-15.html"]

    def parse(self, response):
        name_list = response.xpath('//div[@class = "main-title"]/a/text()')
        price_list = response.xpath('//div[@class = "main-lever"]//span/span/text()')
        for i in range(len(name_list)):
            name = name_list[i]
            price = price_list[i]
            print(name,price)

python 复制代码

BOT_NAME = "scrapy_carhome_003"

SPIDER_MODULES = ["scrapy_carhome_003.spiders"]
NEWSPIDER_MODULE = "scrapy_carhome_003.spiders"

38.当当网

当当网爬取书名，图片和价格

python 复制代码

import scrapy
from scrapy_dangdang_004.items import ScrapyDangdang004Item

class DangSpider(scrapy.Spider):
    name = "dang"
    allowed_domains = ["category.dangdang.com"]
    start_urls = ["https://category.dangdang.com/cp01.01.02.00.00.00.html"]

    base_url = 'https://category.dangdang.com/pg'
    page = 1

    def parse(self, response):
# pipeline 下载数据
# item 定义数据结构
# src = '//ul[@id="component_59"]/li//img/@data-original'
# alt = '//ul[@id="component_59"]/li//img/@alt'
# price = '//ul[@id="component_59"]/li//p[@class = "price"]/span[1]/text()'
        li_list = response.xpath('//ul[@id="component_59"]/li')
        for li in li_list:
            # 第一张图片和其他的不一样
            src = li.xpath('.//img/@data-original').extract_first()
            if src:
                src = src
            else:
                src = li.xpath('.//img/@src').extract_first()
            name = li.xpath('.//img/@alt').extract_first()
            price = li.xpath('.//p[@class = "price"]/span[1]/text()').extract_first()

            book = ScrapyDangdang004Item(src = src,name = name ,price=price)
            # yield就是返回一个值,有一个book就交给pipelines
            yield book

#       每一页的爬取的业务逻辑都是一样的，所以我们只需要将执行的那个页面的请求再次调用parse方法就可以了
        if self.page < 100:
            self.page = self.page + 1

            url = self.base_url + str(self.page) + '-cp01.01.02.00.00.00.html'
        # 怎么去调用parse方法
        # scrapy.Request就是scrapy的get请求
            # url就是请求地址，callback就是你要执行的那个函数，parse不允许加圆括号
            yield scrapy.Request(url = url,callback=self.parse)

items:

python 复制代码

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


class ScrapyDangdang004Item(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 通俗的说就是你要下载的数据都有什么
    # 图片
    src = scrapy.Field()
    # 名字
    name = scrapy.Field()
    # 价格
    price = scrapy.Field()

pipelines:

python 复制代码

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter

# 如果想使用管道的话，就必须在settings中开启管道
class ScrapyDangdang004Pipeline:
    # 在爬虫文件执行之前就执行
    def open_spider(self,spider):
        self.fp = open('book.json','w',encoding='utf-8')

    # items 就是yield 后面的 book 对象
    def process_item(self, item, spider):
#  with open('book.json','a',encoding='utf-8') as fp:
# write方法必须要写一个字符串，而不能是其他的对象
# w模式会每一个对象都打开一次文件，之后覆盖之前的数据
# fp.write(str(item))
        self.fp.write(str(item))
        return item
    # 在爬虫文件结束之后执行的方法
    def close_spider(self,spider):
        self.fp.close()
import urllib.request
# 多条管道同时下载
# 定义管道类
# 在settings中开启管道
# "scrapy_dangdang_004.pipelines.DangDangDownload":301
class DangDangDownload:
    def process_item(self, item, spider):
        url = 'https:'+ item.get('src')
        filename = './books/' + item.get('name')
        urllib.request.urlretrieve(url = url,filename=filename)
        return item

settings:

python 复制代码

BOT_NAME = "scrapy_dangdang_004"

SPIDER_MODULES = ["scrapy_dangdang_004.spiders"]
NEWSPIDER_MODULE = "scrapy_dangdang_004.spiders"



ITEM_PIPELINES = {
    # 管道可以有很多个，管道是有优先级的，优先级是1到1000，值越小优先级越高
    "scrapy_dangdang_004.pipelines.ScrapyDangdang004Pipeline": 300,
    "scrapy_dangdang_004.pipelines.DangDangDownload":301
}

39.电影天堂

python 复制代码

import scrapy
from scrapy_movie_099.items import ScrapyMovie099Pipeline

class MvSpider(scrapy.Spider):
    name = "mv"
    allowed_domains = ["www.dytt8.net"]
    start_urls = ["https://www.dytt8.net/html/gndy/china/index.html"]

    def parse(self, response):
        a_list = response.xpath('//div[@class="co_content8"]//td[2]//a[2]')

        for a in a_list:
            name = a.xpath('./text()').extract_first()
            href = a.xpath('./@href').extract_first()
            # 第二页的地址
            url = 'https://www.dytt8.net' + href
            yield scrapy.Request(url = url,callback=self.parse_second,meta = {'name' : name})

    def parse_second(self,responce):
        # 注意：如果拿不到数据，一定要检查xpath语法是否正确
        src = responce.xpath('//div[@id = "Zoom"]//img/@src').extract_first()
        name = responce.meta['name']

        movie = ScrapyMovie099Pipeline(src = src,name=name)
        yield movie

piplines:

python 复制代码

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter


class ScrapyMovie099Pipeline:
    def open_spider(self,spider):
        self.fp = open('movie.json','w',encoding='utf-8')
    def process_item(self, item, spider):
        self.fp.write(str(item))
        return item
    def close_spider(self,spider):
        self.fp.close()

40.crawlspider

CrawlSpider

Spider是爬虫文件中爬虫类的父类，CrawlSpider是它的子类。多被用作于专业实现全站数据爬取，将一个页面下所有页码对应的数据进行爬取。

创建项目

创建scrapy工程： scrapy startproject ProjectName

进入工程：cd ProjectName

创建crawlspider项目：scrapy genspider -t crawl SpiderName www.xxx.com

回顾创建普通爬虫项目：scrapy genspider SpiderName www.xxx.com

crawlspider默认生成的内容

python 复制代码

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class FutureSpider(CrawlSpider):
    name = 'future'
    allowed_domains = ['www.xxx.com/']
    start_urls = ['https://www.xxx.com/']

    rules = (
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        i = {}
        #i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract()
        #i['name'] = response.xpath('//div[@id="name"]').extract()
        #i['description'] = response.xpath('//div[@id="description"]').extract()
        return i

crawlspider中没有parse函数

LinkExtractors 链接提取器

链接提取器：根据指定规则（参数：allow = '正则' 提取链接的规则）在页面中进行链接（URL）的提取。每个LinkExtractors有唯一的公共方法extract_links()，它接收一个Response对象，并返回一个scrapy.link.Link对象｡链接提取器，要实例化一次和extract_links方法会根据不同的响应调用多次提取链接｡

常用参数

以下都包含str or list

allow：allow = 're'，满足括号中正则的值会被提取，如果为空（allow = r''）则会全部匹配，提取所有

deny：URL必须匹配才能被排除（即，未提取）的单个正则表达式（或正则表达式列表）。它优先于allow参数。如果未给出（或为空），则不会排除任何链接。

allow_domains：该domains（URL范围）会被提取的，如 $'www.baidu.com','www.sogou.com'$

deny_domains：该domains（URL范围）不会被提取的

strict_xpaths：是一个XPath（或XPath的列表），和allow共同过滤URL，只有xpath满足的范围内的URL会被提取

rules(Rule 规则解析器)

接收链接提取器提取到的所有链接，对其发送请求，并根据指定规则（callback）解析数据。rules中可以有1个或多个Rule对象，每个Rule定制特定操作，如有重复，则按序使用。

常用参数

rules是一个元组或列表，包含Rule参数

LinkExtractor：链接提取器，通过正则或xpath进行页面URL匹配

callback：通过LinkExtractor提取的URL返回的响应数据的回调函数，没有则表示不会对响应数据进行回调函数的处理

follow：LinkExtractor提取的URL对应的响应数据是否还会继续被rules中的规则进行提取

That's all.