Python实现自动化网页操作

1 准备

推荐使用Chrome浏览器

1.1 安装selenium程序包

激活虚拟环境,打开新的Terminal,输入以下代码:

复制代码
python -m pip install selenium

如下图所示,表示安装成功,版本为4.7.2

安装成功

关闭虚拟环境,打开新的Terminal

1.2 引入函数模块

复制代码
#引入time模块,实现延时
import time
#引入selenium库中的webdriver模块,实现对网页的操作
from selenium import webdriver
#引入By Class,辅助元素定位
from selenium.webdriver.common.by import By
#引入ActionChains Class,辅助鼠标移动
from selenium.webdriver.common.action_chains import ActionChains

2 实现

2.1 打开网页

复制代码
#打开谷歌浏览器
driver = webdriver.Chrome()
#打开网页
driver.get('URL') #将URL替换为需要操作的网址

2.2 元素定位

要想实现对网页的控制,需要首先定位网页上的元素,一般为搜索框、选项、按钮等。

selenium 4.0以上的版本更新了元素定位方式,要用到find_element函数,用法举例如下:

复制代码
el = driver.find_element(By.NAME, "*")

首先要获取元素的信息:

打开网页后,按F12,打开元素审查窗口

点击窗口中红框标出的图标,即可在页面上选择需要定位的元素,查看其代码。

一般需要定位的元素代码都以input开头,下图为搜索框的代码,从代码中可以提取定位元素所需要的信息:

根据下列信息均可以定位元素,但要保证根据该信息可以唯一定位到该元素:

如果根据其他信息无法唯一定位该元素,可以采取XPath定位,XPath的获取方式比较特殊,需要右键单击该代码行,在下拉列表中选择Copy full XPath,如下图所示:

2.3 元素控制

定位到元素后,可以进行下列操作,实现对元素的控制:

以输入文字为例,代码如下(*为需要输入的文字):

复制代码
el.send_keys('*')

如果打开网页时,需要控制的元素不在可视范围内,需要滑动鼠标定位,则要借助于ActionChains,否则可能会报错:找不到该元素。

复制代码
ActionChains(driver).move_to_element(el).click().perform()
el.click()

上述示例为点击操作,其中第二行最好加上,确保点到该元素

另外一种找不到元素的原因可能是网页还没有加载完毕,此时就可以借助于延时功能:

复制代码
time.sleep(1)

2.4 弹出框的处理

如果点击按钮后,不是打开一个新的页面,而是弹出了一个窗口,需要在新的窗口中操作,则需要通过如下代码转到新的frame下,否则可能会报错:找不到该元素。

复制代码
driver.switch_to.frame(0)

随后继续按2.2定位元素即可。

相关推荐
望获linux31 分钟前
【Linux基础知识系列】第六十四篇 - 了解Linux的硬件架构
linux·运维·服务器·开发语言·数据库·操作系统·嵌入式软件
空中湖31 分钟前
PyTorch武侠演义 第一卷:初入江湖 第7章:矿洞中的计算禁制
人工智能·pytorch·python
Emma歌小白1 小时前
**大数据量(几千万行)划分价格区间(价格段)
python
马哥python说1 小时前
【效率软件】抖音转换工具:主页链接和抖音号一键批量互转
爬虫·python
江山如画,佳人北望1 小时前
pytorch常用函数
人工智能·pytorch·python
这里有鱼汤1 小时前
首个开源金融平台,一站式数据终端 + AI 代理,量化研究者的利器,速来白嫖
后端·python
这里有鱼汤2 小时前
Python量化实战:如何用Python实现查找相似K线,附源码,建议收藏
后端·python
学术小八2 小时前
第六届物联网、人工智能与机械自动化国际学术会议 (IoTAIMA 2025)
运维·人工智能·自动化
1candobetter2 小时前
JAVA后端开发——用 Spring Boot 实现定时任务
java·开发语言·spring boot
小阿鑫2 小时前
使用 Kiro AI IDE 3小时实现全栈应用Admin系统
前端·后端·python·admin·kiro·next admin·fastapi admin