python(爬虫selenium)

Selenium 是一款用于模拟浏览器行为的自动化测试工具,也是爬虫领域中处理动态渲染页面(如 JS 加载、Ajax 请求、登录验证等)的核心工具。

一、导入库

python 复制代码
from selenium import webdriver
 from selenium.webdriver.edge.options import Options
 from selenium.webdriver.common.by import By
import time
 #
 edge_options =Options()
 edge_options.binary_location=r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"
# ##edge浏览器的地址
 driver = webdriver.Edge(options=edge_options)

1.导入相关库的函数

from selenium import webdriver

from selenium.webdriver.edge.options import Options

from selenium.webdriver.common.by import By

2.导入edge浏览器的内核

edge_options.binary_location=r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"

二、核心操作浏览器与页面控制

1.基础操作

|---------|-----------------------------------------|-------------------------|
| 打开页面 | driver.get("https://www.example.com") | 访问目标 URL |
| 刷新页面 | driver.refresh() | 刷新当前页面 |
| 前进 / 后退 | driver.forward() / driver.back() | 模拟浏览器前进 / 后退 |
| 窗口大小 | driver.set_window_size(1920, 1080) | 设置窗口尺寸 |
| 全屏 | driver.maximize_window() | 窗口最大化 |
| 关闭窗口 | driver.close() | 关闭当前标签页 |
| 退出浏览器 | driver.quit() | 关闭所有标签页并退出驱动(必写,否则进程残留) |

2.页面元素定位

定位元素是 Selenium 操作的基础,优先使用唯一标识(id/name),其次用 XPath/CSS 选择器,避免用索引(易变)。

|-------------------|----------------------------------------------|--------------------------------------------------------|-----------------|
| ID | find_element(By.ID, "id值") | driver.find_element(By.ID, "username") | 元素有唯一 ID |
| Name | find_element(By.NAME, "name值") | driver.find_element(By.NAME, "password") | 元素有 name 属性 |
| Class Name | find_element(By.CLASS_NAME, "类名") | driver.find_element(By.CLASS_NAME, "btn-submit") | 类名唯一 |
| Tag Name | find_element(By.TAG_NAME, "标签名") | driver.find_element(By.TAG_NAME, "input") | 标签唯一(如单个 input) |
| Link Text | find_element(By.LINK_TEXT, "链接文本") | driver.find_element(By.LINK_TEXT, "登录") | 精准匹配超链接文本 |
| Partial Link Text | find_element(By.PARTIAL_LINK_TEXT, "部分文本") | driver.find_element(By.PARTIAL_LINK_TEXT, "登") | 模糊匹配超链接 |
| XPath | find_element(By.XPATH, "XPath表达式") | driver.find_element(By.XPATH, '//*[@id="username"]') | 复杂定位(万能) |
| CSS Selector | find_element(By.CSS_SELECTOR, "CSS表达式") | driver.find_element(By.CSS_SELECTOR, "#username") | 高效定位(推荐) |

3.元素交互

python 复制代码
# 1. 点击元素(按钮/链接/复选框)
btn_elem = driver.find_element(By.CLASS_NAME, "submit-btn")
btn_elem.click()

# 2. 获取元素属性/文本
elem = driver.find_element(By.XPATH, '//div[@class="content"]')
print(elem.text)  # 获取元素可见文本
print(elem.get_attribute("href"))  # 获取href属性
print(elem.get_attribute("innerHTML"))  # 获取内部HTML

# 3. 输入文本(先清空再输入)
input_elem = driver.find_element(By.ID, "username")
input_elem.clear()  # 清空输入框
input_elem.send_keys("test123")  # 输入内容

执行Javascript 代码,可以将页面滚动到底部。

driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')

4.等待渲染

可以通过time函数用sleep方法等待

相关推荐
傻啦嘿哟41 分钟前
如何在 Python 中使用 colorama 库来给输出添加颜色
开发语言·python
forEverPlume1 小时前
mysql如何实现高可用集群架构_基于MHA环境搭建与部署
jvm·数据库·python
方安乐6 小时前
python之向量、向量和、向量点积
开发语言·python·numpy
zh1570237 小时前
JavaScript中WorkerThreads解决服务端计算瓶颈
jvm·数据库·python
蜡台8 小时前
Python包管理工具pip完全指南-----2
linux·windows·python
Mr.朱鹏8 小时前
【Python 进阶 | 第四篇】Psycopg3 + Flask 实现 PostgreSQL CRUD 全流程:从连接池到RESTful接口
python·postgresql·flask·virtualenv·fastapi·pip·tornado
2401_871492858 小时前
Vue.js监听器watch利用回调函数处理级联下拉框数据联动
jvm·数据库·python
FreakStudio9 小时前
亲测可用!可本地部署的 MicroPython 开源仿真器
python·单片机·嵌入式·面向对象·并行计算·电子diy·电子计算机
SilentSamsara9 小时前
Python 环境搭建完整指南:从下载安装到运行第一个程序
开发语言·python
zhoutongsheng10 小时前
C#怎么实现Swagger文档 C#如何在ASP.NET Core中集成Swagger自动生成API文档【框架】
jvm·数据库·python