Selenium:Web自动化框架

Selenium自动化入门

1、Selenium概述

Selenium(Web Browser Automation)的初衷是Web应用自动化测试。Selenium广泛应用于爬虫,爬虫需要让浏览器自动运行网址来获取我们需要的内容

Selenium不是单个软件,它是由一系列的工具组成

2、Selenium环境搭建

1)安装:

shell 复制代码
pip install selenium

2)下载浏览器驱动(WebDriver)

WebDriver主要用于驱动浏览器运行

Chrome浏览器的WebDriver(chromedriver.exe)下载安装配置:

  • 查看Chrome浏览器版本

    设置 -> 关于Chrome -> 版本

  • 下载对应版本对应操作系统的驱动

    http://npm.taobao.org/mirrors/chromedriver/

  • 安装目录

    解压即可。将解压的chromedriver.exe放在Chrome浏览器安装目录下的Application目录中或Python解释器的安装目录下(与python.exe同级)

  • 配置系统环境变量path

    添加chromedriver.exe绝对路径

3、Selenium基本操作

Selenium基本操作包括打开/关闭浏览器、前进/后退、刷新

python 复制代码
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

# 声明浏览器对象
driver = webdriver.Chrome()
# 设置浏览器窗口大小
driver.set_window_size(800, 600)
# 最大化浏览器窗口
driver.maximize_window()

# 浏览器操作
# 等待加载:隐式等待(单位s)
driver.implicitly_wait(10)

# 访问页面
# 打开百度
driver.get("https://www.baidu.com")

# 打开CSDN首页
time.sleep(1)          # 暂停1秒
driver.get("https://www.csdn.net/")

time.sleep(1)          # 暂停1秒钟
driver.back()          # 回退:返回上个页面

time.sleep(1)          # 暂停1秒钟
driver.forward()       # 前进:进入下个页面

time.sleep(1)          # 暂停1秒钟
driver.refresh()       # 页面刷新

driver.quit()          # 关闭浏览器

4、网页元素定位

Selenium提供了8种HTML网页元素定位方式,可以返回单个(element)或返回全部(elements)

python 复制代码
'''
id选择器:find_element_by_id()、find_elements_by_id()
class选择器(不支持复合class值):find_element_by_class_name()、find_elements_by_class_name()
标签名定位:find_element_by_tag_name()、find_elements_by_tag_name()
CSS选择器:find_element_by_css_selector()、find_elements_by_css_selector()
name定位:find_element_by_name()、find_elements_by_name()
XPath定位:find_element_by_xpath()、find_elements_by_xpath()
链接文本定位:find_element_by_link_text()、find_elements_by_link_text()
部分链接文本定位:find_element_by_partial_link_text()、find_elements_by_partial_link_text()
'''
python 复制代码
# 打开简书
driver.get("https://www.jianshu.com")
# id选择器
# 在ID检索搜索框输入文本
# send_keys():向目标元素输入数据
element = driver.find_element_by_id("q").send_keys("xxx")
# class选择器
# 点击搜索按钮
# click():点击操作
driver.find_element_by_class_name("search-btn").click()

# 清空搜索框关键词
element.clear()

# 在搜索框输入关键词,并模拟键盘的Enter操作
element.send_keys("xxx", Keys.ENTER)

# Selenium退出
# driver.close():不会清除临时文件夹中的WebDriver临时文件(退出当前标签页)
# driver.quit():删除临时文件夹(关闭浏览器)
driver.close()

5、操作Cookie

python 复制代码
print(driver.get_cookies())              # 获取Cookie
driver.add_cookie({'user': 'cookie'})    # 添加Cookie
print(driver.get_cookie('cookie'))       # 获取设置的Cookie
driver.delete_cookie('cookie')           # 删除设置的Cookie
driver.delete_all_cookies()              # 清空所有Cookie

6、标签页管理

可以在浏览器中切换标签页或增加一个新标签页或删除一个标签页

python 复制代码
# 新增一个标签页
driver.execute_script('window.open()')
# 打印标签页
print(driver.window_handles)

# 切换至标签页1(当前标签页为0)
driver.switch_to.window(driver.window_handles[1])
# 在当前标签页访问知乎
driver.get("https://www.zhihu.com")

# 退出当前标签页
driver.close()
相关推荐
CodeCraft Studio5 分钟前
PDF处理控件Aspose.PDF教程:以编程方式将 PDF 导出为 JPG
java·python·pdf·.net
于归pro17 分钟前
Python环境管理工具深度指南:pip、Poetry、uv、Conda
python·pip·uv
拾零吖38 分钟前
Python基础
python
大模型铲屎官1 小时前
【Python-Day 16】代码复用基石:详解 Python 函数的定义与调用
开发语言·人工智能·pytorch·python·深度学习·大模型·函数
从零开始学习人工智能1 小时前
深入解析异步编程:Java NIO、Python `async/await` 与 C# `async/await` 的对比
java·python·nio
love530love1 小时前
【笔记】PyCharm 中创建Poetry解释器
运维·人工智能·windows·笔记·python·pycharm·conda
Lilith的AI学习日记2 小时前
【AI面试秘籍】| 第17期:MoE并行策略面试全攻略:从理论到调参的降维打击指南
人工智能·python·面试·职场和发展·llama
搏博2 小时前
无人机集成毫米波雷达与双目视觉的融合感知系统深度解析
python·深度学习·学习·机器学习·动态规划·无人机
兔兔爱学习兔兔爱学习3 小时前
什么是 Agent 的 Message
人工智能·python
兔兔爱学习兔兔爱学习3 小时前
Memory模块是agent的一个关键组件
人工智能·python