【爬虫基础】自动化工具 Selenium 的使用

目录

前言

[Selenium 的基本使用](#Selenium 的基本使用)

[(1)使用 Selenium 打开网页](#(1)使用 Selenium 打开网页)

[(2)使用 Selenium 模拟登录](#(2)使用 Selenium 模拟登录)

[(3)使用 Selenium 模拟翻页](#(3)使用 Selenium 模拟翻页)

[Selenium 的进阶使用](#Selenium 的进阶使用)

[(1)使用 Chrome 开发者模式](#(1)使用 Chrome 开发者模式)

(2)添加代理

(3)使用无头浏览器

总结


前言

Selenium 是一个开源的自动化测试工具,支持各种浏览器,并且可以模拟用户对浏览器的各种操作。在爬虫开发中,Selenium 可以用来模拟人类用户的点击、输入等行为,从而实现自动化爬取网页的目的。

Selenium 的基本使用

在使用 Selenium 之前,需要先安装 Selenium 库和对应的浏览器驱动。Selenium 可以支持多种浏览器,每种浏览器需要下载对应的浏览器驱动。安装方法可以参考官方文档:https://www.selenium.dev/documentation/en/getting_started_with_webdriver/browsers/

(1)使用 Selenium 打开网页

下面是使用 Selenium 打开百度首页的代码:

python 复制代码
from selenium import webdriver

# 打开浏览器
browser = webdriver.Chrome()

# 打开百度首页
url = 'https://www.baidu.com/'
browser.get(url)

# 关闭浏览器
browser.quit()

其中,webdriver.Chrome() 表示使用 Chrome 浏览器,如果要使用其他浏览器,则需要更改这里的代码。browser.get(url) 表示打开网页。最后使用 browser.quit() 关闭浏览器。

(2)使用 Selenium 模拟登录

下面是使用 Selenium 模拟登录知乎的代码:

python 复制代码
from selenium import webdriver

username = 'your_username'
password = 'your_password'

# 打开浏览器
browser = webdriver.Chrome()

# 打开知乎登录页面
url = 'https://www.zhihu.com/signin'
browser.get(url)

# 输入用户名和密码
input_name = browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[1]/div[2]/div/form/div[1]/div[2]/div[1]/input')
input_name.send_keys(username)
input_password = browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[1]/div[2]/div/form/div[1]/div[2]/div[2]/input')
input_password.send_keys(password)

# 点击登录按钮
btn_submit = browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[1]/div[2]/div/form/button')
btn_submit.click()

# 关闭浏览器
browser.quit()

其中,find_element_by_xpath() 方法可以根据 XPath 获取元素,send_keys() 方法可以输入文本,click() 方法可以模拟点击。这里只是一个简单的示例,实际网站可能需要更复杂的操作。

(3)使用 Selenium 模拟翻页

下面是使用 Selenium 模拟翻页豆瓣电影 TOP250 的代码:

python 复制代码
from selenium import webdriver

# 打开浏览器
browser = webdriver.Chrome()

# 打开豆瓣电影 TOP250
url = 'https://movie.douban.com/top250'
browser.get(url)

# 获取下一页按钮
btn_next = browser.find_element_by_xpath('//*[@id="content"]/div/div[1]/div[2]/a[3]')

# 翻页
while True:
    # 获取所有电影信息
    movies = browser.find_elements_by_xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]')

    # 输出电影名称
    for movie in movies:
        print(movie.text)

    # 判断是否到达最后一页
    if btn_next.get_attribute('class') == 'next':
        btn_next.click()
    else:
        break

# 关闭浏览器
browser.quit()

其中,find_elements_by_xpath() 方法可以获取多个元素,get_attribute() 方法可以获取元素的属性。这里使用了一个 while 循环来不断翻页,直到到达最后一页为止。

Selenium 的进阶使用

除了基本使用外,Selenium 还有一些进阶的用法,例如使用 Chrome 开发者模式、添加代理、使用无头浏览器等。

(1)使用 Chrome 开发者模式

Chrome 开发者模式可以让开发者更方便地进行调试和测试,其中就包括了 Selenium 的自动化测试。使用 Chrome 开发者模式可以更直接地获取元素的 XPath 或 CSS Selector 等信息,以便 Selenium 使用。

使用方式如下:

python 复制代码
from selenium import webdriver

# 打开 Chrome 开发者模式
options = webdriver.ChromeOptions()
options.add_experimental_option('debuggerAddress', '127.0.0.1:9222')
browser = webdriver.Chrome(options=options)

# 获取页面元素
# ...

# 关闭浏览器
browser.quit()

其中,'debuggerAddress': '127.0.0.1:9222' 表示使用 Chrome 开发者模式,9222 是 Chrome 调试的端口号。使用 Chrome 开发者模式后,浏览器会自动打开并进入调试模式,此时可以直接在浏览器中操作获取元素的 XPath 或 CSS Selector 等信息。

(2)添加代理

在爬虫开发中可能需要使用代理来爬取一些需要登录或者限制 IP 的网站。Selenium 可以方便地使用代理,只需要在 ChromeOptions 中设置即可。

使用方式如下:

python 复制代码
from selenium import webdriver

proxy = '127.0.0.1:8080'

# 设置代理
options = webdriver.ChromeOptions()
options.add_argument('--proxy-server=http://' + proxy)
browser = webdriver.Chrome(options=options)

# 获取页面元素
# ...

# 关闭浏览器
browser.quit()

其中,'--proxy-server=http://' + proxy 表示设置代理服务器的地址和端口号,此处的 proxy 可以是一个 IP 地址或者域名。

(3)使用无头浏览器

在爬虫开发中,有时候不需要真正地打开浏览器,只需要获取网页源码即可。这时候可以使用无头浏览器,它可以在后台执行并获取网页源码,不会弹出浏览器窗口。

使用方式如下:

python 复制代码
from selenium import webdriver

# 使用无头浏览器
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
browser = webdriver.Chrome(options=options)

# 获取页面源码
url = 'https://www.baidu.com/'
browser.get(url)
page_source = browser.page_source

# 关闭浏览器
browser.quit()

其中,'--headless' 表示使用无头浏览器,'--disable-gpu' 表示禁用 GPU 加速。使用无头浏览器后,需要使用 browser.page_source 属性获取页面源码。

总结

以上就是 Selenium 的基本使用和进阶用法,Selenium 可以方便地模拟用户行为,实现自动化爬取网页的目的。当然,使用 Selenium 也有一些缺点,例如速度较慢、需要占用较多的系统资源等,使用时需要注意。

相关推荐
南玖yy2 小时前
Python网络爬虫:从入门到实践
爬虫·python
Blossom.1184 小时前
边缘计算:工业自动化的智能新引擎
人工智能·5g·自动化·边缘计算·database·兼容性·5g通讯
niuniu_6664 小时前
Selenium 性能测试指南
selenium·测试工具·单元测试·测试·安全性测试
莓事哒4 小时前
selenium和pytessarct提取古诗文网的验证码(python爬虫)
爬虫·python·selenium·测试工具·pycharm
q567315235 小时前
使用puppeteer库编写的爬虫程序
爬虫·python·网络协议·http
eqwaak05 小时前
量子计算与AI音乐——解锁无限可能的音色宇宙
人工智能·爬虫·python·自动化·量子计算
suimeng66 小时前
基本元素定位(findElement方法)
java·selenium
mywpython7 小时前
mac 最新的chrome版本配置selenium的方式
chrome·python·selenium·macos
软件测试曦曦7 小时前
如何使用Python自动化测试工具Selenium进行网页自动化?
自动化测试·软件测试·python·功能测试·测试工具·程序人生·自动化
莓事哒8 小时前
使用pytesseract和Cookie登录古诗文网~(python爬虫)
爬虫·python·pycharm·cookie·pytessarct