从零开始学 Selenium：浏览器驱动、元素定位与实战技巧

- - 一、Selenium简介
  - - [1. 什么是Selenium？](#1. 什么是Selenium？)
    - [2. Selenium的组成](#2. Selenium的组成)
    - [3. 应用场景](#3. 应用场景)
  - 二、环境搭建
  - - [1. 安装Python](#1. 安装Python)
    - [2. 安装Selenium](#2. 安装Selenium)
    - [3. 浏览器驱动配置](#3. 浏览器驱动配置)
    - [4. 验证环境](#4. 验证环境)
  - 三、基础操作
  - - [1. 启动浏览器与访问网页](#1. 启动浏览器与访问网页)
    - [2. 元素定位（核心！）](#2. 元素定位（核心！）)
    - [3. 操作元素](#3. 操作元素)
  - 四、等待机制
  - - [1. 隐式等待](#1. 隐式等待)
    - [2. 显式等待](#2. 显式等待)
    - [3. 强制等待](#3. 强制等待)
  - 五、浏览器操作
  - - [1. 窗口操作](#1. 窗口操作)
    - [2. 导航操作](#2. 导航操作)
    - [3. 处理iframe](#3. 处理iframe)
  - 六、弹窗处理
  - 七、文件操作
  - - [1. 文件上传](#1. 文件上传)
    - [2. 文件下载](#2. 文件下载)
  - 八、键盘与鼠标操作
  - - [1. 键盘操作](#1. 键盘操作)
    - [2. 鼠标操作](#2. 鼠标操作)
  - 九、测试框架集成
  - - [1. 与unittest结合](#1. 与unittest结合)
    - [2. 生成测试报告](#2. 生成测试报告)
  - 十、高级技巧与最佳实践
  - 十一、常见问题与解决方案

以下是一份详细的Selenium全教程，涵盖从基础到进阶的核心知识点，基于Selenium 4版本（当前主流版本），适合新手入门及进阶学习。

一、Selenium简介

1. 什么是Selenium？

Selenium是一个用于Web应用程序自动化测试的工具集，支持多浏览器（Chrome、Firefox、Edge等）、多语言（Python、Java、C#等），核心功能是模拟人类操作浏览器（点击、输入、跳转等）。

2. Selenium的组成

Selenium WebDriver：核心组件，通过代码驱动浏览器，支持跨语言（本文以Python为例）。
Selenium IDE：浏览器插件，用于录制/回放操作（适合快速生成简单脚本）。
Selenium Grid：用于分布式测试，可在多台机器/浏览器上同时执行用例。

3. 应用场景

自动化测试（功能测试、回归测试）。
网页数据爬取（模拟登录、动态内容获取）。
自动化操作（如批量填写表单、定时任务）。

二、环境搭建

1. 安装Python

Selenium需依赖Python环境，下载地址：Python官网，安装时勾选"Add Python to PATH"。

2. 安装Selenium

打开命令行，执行：

bash 复制代码

pip install selenium  # 安装最新版Selenium 4

3. 浏览器驱动配置

WebDriver需要通过"浏览器驱动"与浏览器通信，不同浏览器需对应驱动：

浏览器	驱动名称	下载地址
Chrome	ChromeDriver	ChromeDriver官网
Firefox	GeckoDriver	GeckoDriver官网
Edge	EdgeDriver	EdgeDriver官网

配置步骤：

下载与浏览器版本匹配的驱动（如Chrome 114需对应ChromeDriver 114.x）。
将驱动文件（如chromedriver.exe）放在任意目录，建议放在Python安装目录或添加到系统环境变量PATH。

4. 验证环境

运行以下代码，若能打开Chrome并访问百度，则配置成功：

python 复制代码

from selenium import webdriver

# 启动Chrome浏览器
driver = webdriver.Chrome()
# 访问百度
driver.get("https://www.baidu.com")
# 停留3秒后关闭
import time
time.sleep(3)
driver.quit()

三、基础操作

1. 启动浏览器与访问网页

python 复制代码

from selenium import webdriver

# 启动浏览器（Chrome/Firefox/Edge）
driver = webdriver.Chrome()  # Chrome
# driver = webdriver.Firefox()  # Firefox
# driver = webdriver.Edge()  # Edge

# 访问网页
driver.get("https://www.baidu.com")

# 获取当前页面标题和URL
print("标题：", driver.title)  # 输出：百度一下，你就知道
print("URL：", driver.current_url)  # 输出：https://www.baidu.com/

# 关闭浏览器（quit()关闭所有窗口，close()关闭当前窗口）
driver.quit()

2. 元素定位（核心！）

Selenium提供8种元素定位方式，需结合网页HTML结构使用。推荐使用By类（Selenium 4推荐写法）。

步骤：

打开网页，按F12打开开发者工具，通过"元素选择器"定位元素。
复制元素属性（如ID、XPath等）。

定位方式	说明	示例代码
ID	通过元素id属性定位（唯一）	`driver.find_element(By.ID, "kw")`
Name	通过元素name属性定位	`driver.find_element(By.NAME, "wd")`
Class Name	通过元素class属性定位	`driver.find_element(By.CLASS_NAME, "s_ipt")`
Tag Name	通过标签名定位（如`<input>`）	`driver.find_element(By.TAG_NAME, "input")`
Link Text	通过链接文本定位（精确匹配）	`driver.find_element(By.LINK_TEXT, "新闻")`
Partial Link Text	通过链接文本模糊匹配	`driver.find_element(By.PARTIAL_LINK_TEXT, "新")`
XPath	基于XML路径定位（万能）	`driver.find_element(By.XPATH, '//input[@id="kw"]')`
CSS Selector	基于CSS选择器定位	`driver.find_element(By.CSS_SELECTOR, "#kw")`

示例：定位百度搜索框并输入内容

python 复制代码

from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()
driver.get("https://www.baidu.com")

# 定位搜索框（id为"kw"）
search_box = driver.find_element(By.ID, "kw")
# 输入文本
search_box.send_keys("Selenium教程")
# 定位搜索按钮（id为"su"）并点击
search_btn = driver.find_element(By.ID, "su")
search_btn.click()

time.sleep(3)
driver.quit()

XPath进阶 ：

XPath是最灵活的定位方式，支持复杂场景：

绝对路径：/html/body/div[1]/div[1]/div[5]/div/div/form/span[1]/input（不推荐，易变）。
相对路径：//input[@name="wd" and @class="s_ipt"]（通过多属性定位）。
文本定位：//a[text()="新闻"]（精确匹配文本）。
包含文本：//a[contains(text(), "新")]（模糊匹配）。

3. 操作元素

方法	说明
`send_keys("文本")`	输入文本
`click()`	点击元素
`clear()`	清空输入框内容
`get_attribute("属性名")`	获取元素属性（如value、href）
`text`	获取元素文本内容
`is_displayed()`	判断元素是否可见

示例：

python 复制代码

# 获取搜索框的value属性（输入的内容）
print(search_box.get_attribute("value"))  # 输出：Selenium教程

# 获取百度logo的文本（实际为空，logo通常无文本）
logo = driver.find_element(By.CLASS_NAME, "index-logo-src")
print(logo.text)  # 输出：空字符串

# 判断搜索按钮是否可见
print(search_btn.is_displayed())  # 输出：True

四、等待机制

网页加载存在延迟（如JS渲染、网络延迟），直接操作元素可能导致"元素未找到"错误，需设置等待。

1. 隐式等待

全局等待，设置一次后对所有元素生效，等待元素加载完成（最多等待指定时间）。

python 复制代码

driver.implicitly_wait(10)  # 等待10秒（单位：秒）

2. 显式等待

针对特定元素的等待，更灵活，需结合WebDriverWait和expected_conditions（预期条件）。

python 复制代码

from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 等待搜索结果加载（最多10秒，每0.5秒检查一次）
# 条件：id为"content_left"的元素可见
result = WebDriverWait(driver, 10, 0.5).until(
    EC.visibility_of_element_located((By.ID, "content_left"))
)
print("搜索结果已加载")

常用预期条件：

visibility_of_element_located：元素可见。
element_to_be_clickable：元素可点击。
text_to_be_present_in_element：元素包含指定文本。

3. 强制等待

直接暂停程序，不推荐（硬编码等待时间，效率低）：

python 复制代码

import time
time.sleep(3)  # 强制等待3秒

五、浏览器操作

1. 窗口操作

python 复制代码

# 设置窗口大小（最大化/指定尺寸）
driver.maximize_window()  # 最大化
driver.set_window_size(1200, 800)  # 宽1200，高800

# 获取窗口句柄（唯一标识）
current_window = driver.current_window_handle  # 当前窗口
all_windows = driver.window_handles  # 所有窗口

# 切换窗口（如点击链接打开新窗口后切换）
driver.find_element(By.LINK_TEXT, "新闻").click()  # 打开新窗口
for window in all_windows:
    if window != current_window:
        driver.switch_to.window(window)  # 切换到新窗口

2. 导航操作

python 复制代码

driver.get("https://www.baidu.com")
driver.get("https://www.bing.com")  # 访问必应
driver.back()  # 后退到百度
driver.forward()  # 前进到必应
driver.refresh()  # 刷新页面

3. 处理iframe

iframe是嵌套在网页中的子页面（如登录框、广告），需先切换到iframe才能操作内部元素。

python 复制代码

# 切换到iframe（通过id、name、索引或WebElement）
driver.switch_to.frame("iframe_id")  # 通过id
# driver.switch_to.frame(0)  # 通过索引（第1个iframe）

# 操作iframe内的元素（如输入用户名）
driver.find_element(By.ID, "username").send_keys("test")

# 切回主文档（必须！否则无法操作主页面元素）
driver.switch_to.default_content()

六、弹窗处理

网页弹窗（Alert、Confirm、Prompt）需通过switch_to.alert处理：

弹窗类型	说明	操作方法
Alert	只有"确定"按钮	`alert.accept()`（确认）
Confirm	有"确定"和"取消"按钮	`alert.accept()`（确认）/ `alert.dismiss()`（取消）
Prompt	可输入文本的弹窗	`alert.send_keys("文本")` + `alert.accept()`

示例：

python 复制代码

# 触发弹窗（假设点击按钮后弹出Confirm）
driver.find_element(By.ID, "show_confirm").click()

# 切换到弹窗
alert = driver.switch_to.alert
print("弹窗文本：", alert.text)  # 获取弹窗文本

# 取消弹窗
alert.dismiss()

七、文件操作

1. 文件上传

通过定位<input type="file">元素，使用send_keys传入文件路径（无需点击上传按钮）：

python 复制代码

# 定位上传按钮（必须是input标签）
upload_btn = driver.find_element(By.ID, "upload")
# 传入文件绝对路径
upload_btn.send_keys("C:/test.txt")

2. 文件下载

需配置浏览器默认下载路径（以Chrome为例）：

python 复制代码

from selenium.webdriver.chrome.options import Options

# 配置Chrome下载路径
chrome_options = Options()
prefs = {
    "download.default_directory": "C:/downloads",  # 下载路径
    "download.prompt_for_download": False  # 不弹出下载提示
}
chrome_options.add_experimental_option("prefs", prefs)

# 启动配置后的Chrome
driver = webdriver.Chrome(options=chrome_options)
# 点击下载链接
driver.find_element(By.LINK_TEXT, "下载文件").click()

八、键盘与鼠标操作

需使用ActionChains类模拟键盘和鼠标动作。

1. 键盘操作

python 复制代码

from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.keys import Keys

# 定位搜索框
search_box = driver.find_element(By.ID, "kw")
search_box.send_keys("Selenium")

# 全选（Ctrl+A）→ 复制（Ctrl+C）→ 清空 → 粘贴（Ctrl+V）
ActionChains(driver).key_down(Keys.CONTROL).send_keys("a").key_up(Keys.CONTROL).perform()
ActionChains(driver).key_down(Keys.CONTROL).send_keys("c").key_up(Keys.CONTROL).perform()
search_box.clear()
ActionChains(driver).key_down(Keys.CONTROL).send_keys("v").key_up(Keys.CONTROL).perform()

2. 鼠标操作

python 复制代码

# 定位元素
element = driver.find_element(By.ID, "xxx")

# 右键点击
ActionChains(driver).context_click(element).perform()

# 双击
ActionChains(driver).double_click(element).perform()

# 拖拽（从元素A拖到元素B）
source = driver.find_element(By.ID, "source")
target = driver.find_element(By.ID, "target")
ActionChains(driver).drag_and_drop(source, target).perform()

九、测试框架集成

Selenium常与Python测试框架（如unittest、pytest）结合，实现用例管理和报告生成。

1. 与unittest结合

python 复制代码

import unittest
from selenium import webdriver
from selenium.webdriver.common.by import By

class TestBaidu(unittest.TestCase):
    def setUp(self):
        # 前置操作：启动浏览器
        self.driver = webdriver.Chrome()
        self.driver.get("https://www.baidu.com")

    def test_search(self):
        # 测试用例：搜索
        self.driver.find_element(By.ID, "kw").send_keys("unittest")
        self.driver.find_element(By.ID, "su").click()
        # 断言：页面标题包含"unittest"
        self.assertIn("unittest", self.driver.title)

    def tearDown(self):
        # 后置操作：关闭浏览器
        self.driver.quit()

if __name__ == "__main__":
    unittest.main()

2. 生成测试报告

使用HTMLTestRunner生成HTML报告：

bash 复制代码

pip install html-testRunner

python 复制代码

import HtmlTestRunner

# 运行用例并生成报告
if __name__ == "__main__":
    unittest.main(testRunner=HtmlTestRunner.HTMLTestRunner(
        output="report",  # 报告目录
        report_name="百度搜索测试报告"
    ))

十、高级技巧与最佳实践

封装公共方法：将常用操作（如打开网页、定位元素）封装为工具类，减少重复代码。

python 复制代码

class BrowserUtils:
    def __init__(self, driver):
        self.driver = driver
    
    def open_url(self, url):
        self.driver.get(url)
    
    def find_element(self, by, value):
        return self.driver.find_element(by, value)

处理动态元素 ：动态ID（如包含时间戳）可通过XPath模糊匹配：//div[contains(@id, "dynamic_")]。
避免硬编码 ：将URL、账号密码等配置存入config.ini，通过configparser读取。

Selenium Grid：分布式执行用例，需启动Hub和Node：

bash 复制代码

# 启动Hub（端口4444）
java -jar selenium-server-4.xx.xx.jar hub
# 启动Node（连接Hub）
java -jar selenium-server-4.xx.xx.jar node --hub http://localhost:4444/grid/register

十一、常见问题与解决方案

问题	可能原因	解决方案
元素定位不到	元素在iframe内；未加载完成；动态ID	切换iframe；增加等待；使用模糊定位
浏览器自动关闭	代码执行完毕；驱动与浏览器版本不匹配	检查代码是否有`quit()`；更新驱动版本
弹窗切换失败	弹窗未加载；非Alert类型弹窗	增加等待；通过元素定位处理非Alert弹窗

通过以上内容，可系统掌握Selenium的核心用法。实际使用中需结合具体场景灵活调整，多练习元素定位和等待机制是关键！