编程小白的自学笔记十一(python爬虫入门三Selenium的使用+实例详解)

系列文章目录

编程小白的自学笔记十(python爬虫入门二+实例代码详解

编程小白的自学笔记九(python爬虫入门+代码详解)

编程小白的自学笔记八(python中的多线程)

编程小白的自学笔记七(python中类的继承)


目录

系列文章目录

文章目录

前言

一、Selenium是什么

二、安装Selenium

三、第一个例子(打开百度浏览器)

四、第二个例子(在百度搜索框内输入内容)

总结


前言

作为一个编程小白,目前按照书籍已经学完爬虫部分,但是书上的爬虫过于基础,难以实战,于是我又跟在"以山河作礼。"大佬的专栏后面学,今天学习到了Selenium的使用,记录一下。


**一、**Selenium是什么

官方回答是:Selenium 是最广泛使用的开源 Web UI(用户界面)自动化测试套件之一。 Selenium 测试脚本可以使用任何支持的编程语言进行编码,并且可以直接在大多数现代 Web 浏览器中运行。
我个人理解这东西可以模拟一些人的操作,具体有哪些,我们一步一步看(我也是边学边记)。

二、安装Selenium

pip install selenium,就是这么简单,不说了。大佬的文章里都会说下一个浏览器的驱动,然后操作驱动,我们先试试不用驱动行不行。

三、第一个例子(打开百度浏览器)

我们先看示例代码:

复制代码
from selenium import webdriver

drive = webdriver.Chrome()
drive.set_window_size(1100, 850)
drive.get('https://www.baidu.com/')
复制代码
输出结果是错误的,提示:"The version of chrome cannot be detected. Trying with latest driver version",这个错误就表示使用的驱动程序与安装的Chrome版本不兼容,看来必须下驱动了,但是我在另一台电脑上运行这段代码是可以的,于是我仔仔细细找了一遍,发现电脑里的谷歌浏览器运行文件名竟然是chrone.exe,抱着试一试的态度,我将其改成chrome.exe,运行果然成功了。

下面详细分析一下代码:

"from selenium import webdriver"的意思是:webdriver是selenium库中提供的一个类,它代表了一个浏览器实例,可以被用来控制浏览器进行各种操作。通过使用from selenium import webdriver,我们可以直接使用webdriver类来创建一个Chrome浏览器实例,并通过该实例来控制浏览器进行各种操作。

后面的三个代码就很好理解了,创建实例,设置窗口大小,输入打开的网页地址。

四、第二个例子(在百度搜索框内输入内容)

selenium提供了两个方法来获取元素位置。

find_element获取满足条件的第一个元素

find_elements获取满足条件的所有元素

这两个方法可以通过ID或者name来确定元素的位置,我们都来试试。
首先我们先了解一下网页,在检查模式下,我们可以看到输入框的html代码为:

<input id="kw" name="wd" class="s_ipt" value="" maxlength="255" autocomplete="off">
我们分析这段网页代码,它的ID属性是"kw",那么我们尝试编写一段代码,在输入框输入"加油",代码如下:

复制代码
from selenium import webdriver
from selenium.webdriver.common.by import By


drive = webdriver.Chrome()
drive.set_window_size(1100, 850)
drive.get('https://www.baidu.com/')
drive.find_element(By.ID, 'kw').send_keys('加油')

成功运行,结果如下图:

我们再试试name属性,代码如下:

复制代码
from selenium import webdriver
from selenium.webdriver.common.by import By
drive = webdriver.Chrome()
drive.set_window_size(1100, 850)
drive.get('https://www.baidu.com/')
drive.find_element(By.NAME, 'wd').send_keys('躺平')

也是成功运行的:

照例,我们来分析代码

"from selenium.webdriver.common.by import By"的意思是Selenium库的webdriver.common.by模块中导入了By类。

"drive.find_element(By.NAME, 'wd').send_keys('躺平')"就是通过NAME定位,输入"躺平"。

同样定位的方法还有很多,例如:

drive.find_element(By.CLASS_NAME, 's_ipt').send_keys('躺平')


总结

Selenium是一个支持各大浏览器的自动化测试工具,包括 Chrome,Safari,Firefox ,ie等。它可以直接运行在浏览器中,就如同真正的客户在使用一样。Selenium可以用于爬虫,解决一些复杂爬虫的问题。使用Selenium可以获取动态的网页数据,一些动态的数据在网页的源代码中并没有显示,这时候可以考虑用Selenium获取。
以下是selenium常用的一些方法 :

  • `driver.get(url)`:打开一个网页。

  • `driver.find_element_by_*()`:通过各种方式查找元素。

  • `driver.find_elements_by_*()`:通过各种方式查找元素,返回的是一个列表。

  • `driver.execute_script(*args)`:执行JavaScript代码。

  • `driver.switch_to.window(*args)`:切换到指定窗口。

  • `driver.switch_to.frame(*args)`:切换到指定frame。

  • `driver.back()`:返回上一个页面。

  • `driver.forward()`:前进到下一个页面。

  • `driver.refresh()`:刷新当前页面。

相关推荐
Allen_LVyingbo9 分钟前
数智读书笔记系列035《未来医疗:医疗4.0引领第四次医疗产业变革》
人工智能·经验分享·笔记·健康医疗
zzc92114 分钟前
时频图数据集更正程序,去除坐标轴白边及调整对应的标签值
人工智能·深度学习·数据集·标签·时频图·更正·白边
isNotNullX15 分钟前
什么是数据分析?常见方法全解析
大数据·数据库·数据仓库·人工智能·数据分析
烛阴16 分钟前
一文搞懂 Python 闭包:让你的代码瞬间“高级”起来!
前端·python
岑梓铭17 分钟前
考研408《计算机组成原理》复习笔记,第三章(3)——多模块存储器
笔记·考研·408·计算机组成原理
riveting24 分钟前
明远智睿H618:开启多场景智慧生活新时代
人工智能·嵌入式硬件·智能硬件·lga封装·3506
JosieBook26 分钟前
【Java编程动手学】Java中的数组与集合
java·开发语言·python
菜菜why30 分钟前
MSPM0G3507学习笔记(一) 重置版:适配逐飞库的ti板环境配置
笔记·学习·电赛·嵌入式软件·mspm0
夜阑卧听风吹雨,铁马冰河入梦来38 分钟前
Spring AI 阿里巴巴学习
人工智能·学习·spring
c7691 小时前
【文献笔记】Automatic Chain of Thought Prompting in Large Language Models
人工智能·笔记·语言模型·论文笔记