【爬虫基础】自动化工具 Selenium 的使用

目录

前言

[Selenium 的基本使用](#Selenium 的基本使用)

[(1)使用 Selenium 打开网页](#(1)使用 Selenium 打开网页)

[(2)使用 Selenium 模拟登录](#(2)使用 Selenium 模拟登录)

[(3)使用 Selenium 模拟翻页](#(3)使用 Selenium 模拟翻页)

[Selenium 的进阶使用](#Selenium 的进阶使用)

[(1)使用 Chrome 开发者模式](#(1)使用 Chrome 开发者模式)

(2)添加代理

(3)使用无头浏览器

总结


前言

Selenium 是一个开源的自动化测试工具,支持各种浏览器,并且可以模拟用户对浏览器的各种操作。在爬虫开发中,Selenium 可以用来模拟人类用户的点击、输入等行为,从而实现自动化爬取网页的目的。

Selenium 的基本使用

在使用 Selenium 之前,需要先安装 Selenium 库和对应的浏览器驱动。Selenium 可以支持多种浏览器,每种浏览器需要下载对应的浏览器驱动。安装方法可以参考官方文档:https://www.selenium.dev/documentation/en/getting_started_with_webdriver/browsers/

(1)使用 Selenium 打开网页

下面是使用 Selenium 打开百度首页的代码:

python 复制代码
from selenium import webdriver

# 打开浏览器
browser = webdriver.Chrome()

# 打开百度首页
url = 'https://www.baidu.com/'
browser.get(url)

# 关闭浏览器
browser.quit()

其中,webdriver.Chrome() 表示使用 Chrome 浏览器,如果要使用其他浏览器,则需要更改这里的代码。browser.get(url) 表示打开网页。最后使用 browser.quit() 关闭浏览器。

(2)使用 Selenium 模拟登录

下面是使用 Selenium 模拟登录知乎的代码:

python 复制代码
from selenium import webdriver

username = 'your_username'
password = 'your_password'

# 打开浏览器
browser = webdriver.Chrome()

# 打开知乎登录页面
url = 'https://www.zhihu.com/signin'
browser.get(url)

# 输入用户名和密码
input_name = browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[1]/div[2]/div/form/div[1]/div[2]/div[1]/input')
input_name.send_keys(username)
input_password = browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[1]/div[2]/div/form/div[1]/div[2]/div[2]/input')
input_password.send_keys(password)

# 点击登录按钮
btn_submit = browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[1]/div[2]/div/form/button')
btn_submit.click()

# 关闭浏览器
browser.quit()

其中,find_element_by_xpath() 方法可以根据 XPath 获取元素,send_keys() 方法可以输入文本,click() 方法可以模拟点击。这里只是一个简单的示例,实际网站可能需要更复杂的操作。

(3)使用 Selenium 模拟翻页

下面是使用 Selenium 模拟翻页豆瓣电影 TOP250 的代码:

python 复制代码
from selenium import webdriver

# 打开浏览器
browser = webdriver.Chrome()

# 打开豆瓣电影 TOP250
url = 'https://movie.douban.com/top250'
browser.get(url)

# 获取下一页按钮
btn_next = browser.find_element_by_xpath('//*[@id="content"]/div/div[1]/div[2]/a[3]')

# 翻页
while True:
    # 获取所有电影信息
    movies = browser.find_elements_by_xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]')

    # 输出电影名称
    for movie in movies:
        print(movie.text)

    # 判断是否到达最后一页
    if btn_next.get_attribute('class') == 'next':
        btn_next.click()
    else:
        break

# 关闭浏览器
browser.quit()

其中,find_elements_by_xpath() 方法可以获取多个元素,get_attribute() 方法可以获取元素的属性。这里使用了一个 while 循环来不断翻页,直到到达最后一页为止。

Selenium 的进阶使用

除了基本使用外,Selenium 还有一些进阶的用法,例如使用 Chrome 开发者模式、添加代理、使用无头浏览器等。

(1)使用 Chrome 开发者模式

Chrome 开发者模式可以让开发者更方便地进行调试和测试,其中就包括了 Selenium 的自动化测试。使用 Chrome 开发者模式可以更直接地获取元素的 XPath 或 CSS Selector 等信息,以便 Selenium 使用。

使用方式如下:

python 复制代码
from selenium import webdriver

# 打开 Chrome 开发者模式
options = webdriver.ChromeOptions()
options.add_experimental_option('debuggerAddress', '127.0.0.1:9222')
browser = webdriver.Chrome(options=options)

# 获取页面元素
# ...

# 关闭浏览器
browser.quit()

其中,'debuggerAddress': '127.0.0.1:9222' 表示使用 Chrome 开发者模式,9222 是 Chrome 调试的端口号。使用 Chrome 开发者模式后,浏览器会自动打开并进入调试模式,此时可以直接在浏览器中操作获取元素的 XPath 或 CSS Selector 等信息。

(2)添加代理

在爬虫开发中可能需要使用代理来爬取一些需要登录或者限制 IP 的网站。Selenium 可以方便地使用代理,只需要在 ChromeOptions 中设置即可。

使用方式如下:

python 复制代码
from selenium import webdriver

proxy = '127.0.0.1:8080'

# 设置代理
options = webdriver.ChromeOptions()
options.add_argument('--proxy-server=http://' + proxy)
browser = webdriver.Chrome(options=options)

# 获取页面元素
# ...

# 关闭浏览器
browser.quit()

其中,'--proxy-server=http://' + proxy 表示设置代理服务器的地址和端口号,此处的 proxy 可以是一个 IP 地址或者域名。

(3)使用无头浏览器

在爬虫开发中,有时候不需要真正地打开浏览器,只需要获取网页源码即可。这时候可以使用无头浏览器,它可以在后台执行并获取网页源码,不会弹出浏览器窗口。

使用方式如下:

python 复制代码
from selenium import webdriver

# 使用无头浏览器
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
browser = webdriver.Chrome(options=options)

# 获取页面源码
url = 'https://www.baidu.com/'
browser.get(url)
page_source = browser.page_source

# 关闭浏览器
browser.quit()

其中,'--headless' 表示使用无头浏览器,'--disable-gpu' 表示禁用 GPU 加速。使用无头浏览器后,需要使用 browser.page_source 属性获取页面源码。

总结

以上就是 Selenium 的基本使用和进阶用法,Selenium 可以方便地模拟用户行为,实现自动化爬取网页的目的。当然,使用 Selenium 也有一些缺点,例如速度较慢、需要占用较多的系统资源等,使用时需要注意。

相关推荐
_一路向北_9 小时前
爬虫框架:Feapder使用心得
爬虫·python
2501_9419820511 小时前
RPA 的跨平台部署与统一自动化策略
运维·自动化·rpa
b***251111 小时前
电池自动分选机:精密分选保障新能源产业质量核心
运维·自动化·制造
御控工业物联网12 小时前
二次供水设备及一体化泵站物联网解决方案:构建智慧水务的“神经中枢”
物联网·自动化·plc·智慧水务·远程操控plc
测试人社区—841613 小时前
Postman API测试指南
人工智能·git·测试工具·自动化·bug·postman
北京盟通科技官方账号13 小时前
Ixxat Mobilizer系列:助力汽车组件的高效下线测试
网络协议·机器人·自动化·汽车·制造
秋刀鱼 ..13 小时前
第五届大数据经济与数字化管理国际学术会议(BDEDM 2026)
大数据·运维·人工智能·python·机器人·自动化
北京耐用通信14 小时前
为安全加码,为效率提速:耐达讯自动化Ethernet/IP转DeviceNet电力自动化连接的可靠选择
人工智能·物联网·网络协议·自动化·信息与通信
开发加微信:hedian11614 小时前
聚量创作平台技术实践指南:AIGC创作者如何构建自动化工作流
运维·自动化·aigc
emfuture15 小时前
畅聊一下,工业物联网(IIoT)中设备互操作性难题的系统化解决方案
物联网·自动化·制造·iot