Selenium:Web自动化框架

Selenium自动化入门

1、Selenium概述

Selenium(Web Browser Automation)的初衷是Web应用自动化测试。Selenium广泛应用于爬虫,爬虫需要让浏览器自动运行网址来获取我们需要的内容

Selenium不是单个软件,它是由一系列的工具组成

2、Selenium环境搭建

1)安装:

shell 复制代码
pip install selenium

2)下载浏览器驱动(WebDriver)

WebDriver主要用于驱动浏览器运行

Chrome浏览器的WebDriver(chromedriver.exe)下载安装配置:

  • 查看Chrome浏览器版本

    设置 -> 关于Chrome -> 版本

  • 下载对应版本对应操作系统的驱动

    http://npm.taobao.org/mirrors/chromedriver/

  • 安装目录

    解压即可。将解压的chromedriver.exe放在Chrome浏览器安装目录下的Application目录中或Python解释器的安装目录下(与python.exe同级)

  • 配置系统环境变量path

    添加chromedriver.exe绝对路径

3、Selenium基本操作

Selenium基本操作包括打开/关闭浏览器、前进/后退、刷新

python 复制代码
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

# 声明浏览器对象
driver = webdriver.Chrome()
# 设置浏览器窗口大小
driver.set_window_size(800, 600)
# 最大化浏览器窗口
driver.maximize_window()

# 浏览器操作
# 等待加载:隐式等待(单位s)
driver.implicitly_wait(10)

# 访问页面
# 打开百度
driver.get("https://www.baidu.com")

# 打开CSDN首页
time.sleep(1)          # 暂停1秒
driver.get("https://www.csdn.net/")

time.sleep(1)          # 暂停1秒钟
driver.back()          # 回退:返回上个页面

time.sleep(1)          # 暂停1秒钟
driver.forward()       # 前进:进入下个页面

time.sleep(1)          # 暂停1秒钟
driver.refresh()       # 页面刷新

driver.quit()          # 关闭浏览器

4、网页元素定位

Selenium提供了8种HTML网页元素定位方式,可以返回单个(element)或返回全部(elements)

python 复制代码
'''
id选择器:find_element_by_id()、find_elements_by_id()
class选择器(不支持复合class值):find_element_by_class_name()、find_elements_by_class_name()
标签名定位:find_element_by_tag_name()、find_elements_by_tag_name()
CSS选择器:find_element_by_css_selector()、find_elements_by_css_selector()
name定位:find_element_by_name()、find_elements_by_name()
XPath定位:find_element_by_xpath()、find_elements_by_xpath()
链接文本定位:find_element_by_link_text()、find_elements_by_link_text()
部分链接文本定位:find_element_by_partial_link_text()、find_elements_by_partial_link_text()
'''
python 复制代码
# 打开简书
driver.get("https://www.jianshu.com")
# id选择器
# 在ID检索搜索框输入文本
# send_keys():向目标元素输入数据
element = driver.find_element_by_id("q").send_keys("xxx")
# class选择器
# 点击搜索按钮
# click():点击操作
driver.find_element_by_class_name("search-btn").click()

# 清空搜索框关键词
element.clear()

# 在搜索框输入关键词,并模拟键盘的Enter操作
element.send_keys("xxx", Keys.ENTER)

# Selenium退出
# driver.close():不会清除临时文件夹中的WebDriver临时文件(退出当前标签页)
# driver.quit():删除临时文件夹(关闭浏览器)
driver.close()

5、操作Cookie

python 复制代码
print(driver.get_cookies())              # 获取Cookie
driver.add_cookie({'user': 'cookie'})    # 添加Cookie
print(driver.get_cookie('cookie'))       # 获取设置的Cookie
driver.delete_cookie('cookie')           # 删除设置的Cookie
driver.delete_all_cookies()              # 清空所有Cookie

6、标签页管理

可以在浏览器中切换标签页或增加一个新标签页或删除一个标签页

python 复制代码
# 新增一个标签页
driver.execute_script('window.open()')
# 打印标签页
print(driver.window_handles)

# 切换至标签页1(当前标签页为0)
driver.switch_to.window(driver.window_handles[1])
# 在当前标签页访问知乎
driver.get("https://www.zhihu.com")

# 退出当前标签页
driver.close()
相关推荐
on_pluto_3 分钟前
LLaMA: Open and Efficient Foundation Language Models 论文阅读
python·机器学习
小二·5 分钟前
mac下解压jar包
ide·python·pycharm
XXX-X-XXJ6 分钟前
二:RAG 的 “语义密码”:向量、嵌入模型与 Milvus 向量数据库实操
人工智能·git·后端·python·django·milvus
AI小云1 小时前
【Python与AI基础】Python编程基础:模块和包
人工智能·python
努力努力再努力wz1 小时前
【C++进阶系列】:万字详解智能指针(附模拟实现的源码)
java·linux·c语言·开发语言·数据结构·c++·python
小蕾Java2 小时前
Python详细安装教程(附PyCharm使用)
开发语言·python·pycharm
weixin_307779132 小时前
AWS云上ClickHouse数据仓库部署方案详解
开发语言·clickhouse·自动化·云计算·aws
weixin_307779132 小时前
使用AWS IAM和Python自动化权限策略分析与导出
开发语言·python·自动化·云计算·aws
惜月_treasure2 小时前
从零构建私域知识库问答机器人:Python 全栈实战(附完整源码)
开发语言·python·机器人
要站在顶端2 小时前
Jenkins 使用容器运行自动化任务详细文档
docker·自动化·jenkins