Selenium:Web自动化框架

Selenium自动化入门

1、Selenium概述

Selenium(Web Browser Automation)的初衷是Web应用自动化测试。Selenium广泛应用于爬虫,爬虫需要让浏览器自动运行网址来获取我们需要的内容

Selenium不是单个软件,它是由一系列的工具组成

2、Selenium环境搭建

1)安装:

shell 复制代码
pip install selenium

2)下载浏览器驱动(WebDriver)

WebDriver主要用于驱动浏览器运行

Chrome浏览器的WebDriver(chromedriver.exe)下载安装配置:

  • 查看Chrome浏览器版本

    设置 -> 关于Chrome -> 版本

  • 下载对应版本对应操作系统的驱动

    http://npm.taobao.org/mirrors/chromedriver/

  • 安装目录

    解压即可。将解压的chromedriver.exe放在Chrome浏览器安装目录下的Application目录中或Python解释器的安装目录下(与python.exe同级)

  • 配置系统环境变量path

    添加chromedriver.exe绝对路径

3、Selenium基本操作

Selenium基本操作包括打开/关闭浏览器、前进/后退、刷新

python 复制代码
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

# 声明浏览器对象
driver = webdriver.Chrome()
# 设置浏览器窗口大小
driver.set_window_size(800, 600)
# 最大化浏览器窗口
driver.maximize_window()

# 浏览器操作
# 等待加载:隐式等待(单位s)
driver.implicitly_wait(10)

# 访问页面
# 打开百度
driver.get("https://www.baidu.com")

# 打开CSDN首页
time.sleep(1)          # 暂停1秒
driver.get("https://www.csdn.net/")

time.sleep(1)          # 暂停1秒钟
driver.back()          # 回退:返回上个页面

time.sleep(1)          # 暂停1秒钟
driver.forward()       # 前进:进入下个页面

time.sleep(1)          # 暂停1秒钟
driver.refresh()       # 页面刷新

driver.quit()          # 关闭浏览器

4、网页元素定位

Selenium提供了8种HTML网页元素定位方式,可以返回单个(element)或返回全部(elements)

python 复制代码
'''
id选择器:find_element_by_id()、find_elements_by_id()
class选择器(不支持复合class值):find_element_by_class_name()、find_elements_by_class_name()
标签名定位:find_element_by_tag_name()、find_elements_by_tag_name()
CSS选择器:find_element_by_css_selector()、find_elements_by_css_selector()
name定位:find_element_by_name()、find_elements_by_name()
XPath定位:find_element_by_xpath()、find_elements_by_xpath()
链接文本定位:find_element_by_link_text()、find_elements_by_link_text()
部分链接文本定位:find_element_by_partial_link_text()、find_elements_by_partial_link_text()
'''
python 复制代码
# 打开简书
driver.get("https://www.jianshu.com")
# id选择器
# 在ID检索搜索框输入文本
# send_keys():向目标元素输入数据
element = driver.find_element_by_id("q").send_keys("xxx")
# class选择器
# 点击搜索按钮
# click():点击操作
driver.find_element_by_class_name("search-btn").click()

# 清空搜索框关键词
element.clear()

# 在搜索框输入关键词,并模拟键盘的Enter操作
element.send_keys("xxx", Keys.ENTER)

# Selenium退出
# driver.close():不会清除临时文件夹中的WebDriver临时文件(退出当前标签页)
# driver.quit():删除临时文件夹(关闭浏览器)
driver.close()

5、操作Cookie

python 复制代码
print(driver.get_cookies())              # 获取Cookie
driver.add_cookie({'user': 'cookie'})    # 添加Cookie
print(driver.get_cookie('cookie'))       # 获取设置的Cookie
driver.delete_cookie('cookie')           # 删除设置的Cookie
driver.delete_all_cookies()              # 清空所有Cookie

6、标签页管理

可以在浏览器中切换标签页或增加一个新标签页或删除一个标签页

python 复制代码
# 新增一个标签页
driver.execute_script('window.open()')
# 打印标签页
print(driver.window_handles)

# 切换至标签页1(当前标签页为0)
driver.switch_to.window(driver.window_handles[1])
# 在当前标签页访问知乎
driver.get("https://www.zhihu.com")

# 退出当前标签页
driver.close()
相关推荐
FreakStudio2 小时前
一文速通 Python 并行计算:13 Python 异步编程-基本概念与事件循环和回调机制
python·pycharm·协程·多进程·并行计算·异步编程
豌豆花下猫4 小时前
让 Python 代码飙升330倍:从入门到精通的四种性能优化实践
后端·python·ai
夏末蝉未鸣014 小时前
python transformers库笔记(BertForTokenClassification类)
python·自然语言处理·transformer
扫地僧9855 小时前
用于构建多模态情绪识别与推理(MERR)数据集的自动化工具
自动化·多模态·情绪识别
先做个垃圾出来………5 小时前
自动化一次通过率
运维·自动化
weixin_418813876 小时前
Python-可视化学习笔记
笔记·python·学习
Danceful_YJ6 小时前
4.权重衰减(weight decay)
python·深度学习·机器学习
Zonda要好好学习7 小时前
Python入门Day5
python
电商数据girl8 小时前
有哪些常用的自动化工具可以帮助处理电商API接口返回的异常数据?【知识分享】
大数据·分布式·爬虫·python·系统架构
CoooLuckly8 小时前
numpy数据分析知识总结
python·numpy