爬虫 selenium语法 (八)

目录

一、为什么使用selenium

二、selenium语法------元素定位

[1.根据 id 找到对象](#1.根据 id 找到对象)

2.根据标签属性的属性值找到对象

3.根据Xpath语句获取对象

4.根据标签名获取对象

5.使用bs语法获取对象

6.通过链接文本获取对象

三、selenium语法------访问元素信息

1.获取属性的属性值

2.获取标签名

3.获取元素文本

[四、selenium 交互](#四、selenium 交互)

五、无界面操作

参考


1.什么是selenium?

  • selenium是一个用于web应用程序测试的工具。
  • selenium测试直接运行在浏览器中,就像真正的用户一样。
  • 支持通过各种driver(FirefoxDriver,IternetExplorerDriver,OperaDriver,ChromeDriver)驱动真实浏览器完成测试。
  • selenium也是支持无界面浏览器操作的。

2.为什么使用selenium?

模拟浏览器功能,自动执行网页中的js代码,实现动态加载。

3.如何安装selenium?

安装selenium及谷歌驱动

4.selenium的使用步骤?

  • 导入:from selenium import webdriver
  • 创建谷歌浏览器操作对象:

path = 谷歌浏览器驱动文件路径

browser = webdriver.Chrome(path)

  • 访问网址

url = 要访问的网址

browser.get(url)
selenium 的元素定位

元素定位:自动化要做的就是模拟鼠标和键盘来操作这些元素,如点击、输入等等。操作这些元素前首先要找到它们,webdriver提供很多定位元素的方法。

方法

(1)find_element(By.ID, 'id 名')

eg:button = browser.find_element(By.ID, 'su')

(2)find_element(By.NAME, 'name 名')

eg:name = browser.find(By.NAME,'wd')

(3)find_elements(By.XPATH, 'Xpath语法')

eg:xpath = browser.find_elements(By.XPATH, "//input[@id-"su"]")

(4)find_elements(By.TAG_NAME,' Tag name ')

eg:names = browser.find_elements (By.TAG_NAME, "input")

(5)find_elements(By.CSS_SELECTLOR, ' bs4语法 ')

eg:my_input = browser.find_elements(By.CSS_SELECTLOR, "#kw")[0]

(6)find_elements(By.LINK_TEXT, ' 链接文本')

eg:browser.find_elements(By.LINK_TEXT,"新闻")
访问元素信息

获取元素属性

.get_attribute('class')

获取元素文本

.text

获取id

.id

获取标签名

.tag_name
selenium 交互

(1)点击:click()

(2)输入:send_keys()

(3)后退操作:browser.back()

(4)前进操作:browser.forward()

(5)模拟js滚动:

js = 'document.documentElement.scrollTop=100000'

browser.execute_script(js) 执行js 代码

(6)获取网页代码:page_source

(7)退出:browser.quit()

一、为什么使用selenium

python 复制代码
import urllib

url = 'http://www.jd.com'

response = urllib.request.urlopen(url)

content = response.read().decode()
print(content)

我们模拟浏览器获取网页内容,然后搜索获取的内容,是否有 "J_seckill" 这个元素

可以看到,显示没有该元素。

原因是验证你的浏览器不是真实的浏览器,所以没有返回数据。

但是!!! 用selenium就可以解决这个问题。

python 复制代码
# (1)导入
from selenium import webdriver
# from selenium.webdriver.common.by import BY

# (2)创建浏览器操作对象
browser = webdriver.Chrome()

# (3)访问网站
url = 'https://www.jd.com'
browser.get(url)

# (4)获取源码
# page_source获取网页源码
content = browser.page_source
print(content)

二、selenium语法------元素定位

1.根据 id 找到对象

python 复制代码
# 根据 id 找到对象
button = browser.find_element(By.ID, 'su')
print(button)

2.根据标签属性的属性值找到对象

python 复制代码
# 根据标签属性的属性值找到对象
button = browser.find_element(By.NAME,'wd')
print(button)

3.根据Xpath语句获取对象

python 复制代码
# 根据Xpath语句获取对象
# element表示只找一个元素,elements表示找到所有元素并返回列表
button = browser.find_element(By.XPATH,'//input[@id="su"]')
print(button)

4.根据标签名获取对象

python 复制代码
# 根据标签名获取对象
button = browser.find_elements(By.TAG_NAME,'input')
print(button)

5.使用bs语法获取对象

python 复制代码
# 使用bs语法获取对象
button = browser.find_elements(By.CSS_SELECTOR,'#su')
print(button)

6.通过链接文本获取对象

python 复制代码
# 通过链接文本获取对象
button = browser.find_elements(By.LINK_TEXT,'新闻')
print(button)

完整代码:

python 复制代码
from selenium import webdriver
from selenium.webdriver.common.by import By

# 创建浏览器对象
browser = webdriver.Chrome()

# 访问网站
url = 'https://www.baidu.com'
browser.get(url)

# 元素定位
# # 根据 id 找到对象
# button = browser.find_element(By.ID, 'su')
# print(button)

# # 根据标签属性的属性值找到对象
# button = browser.find_element(By.NAME,'wd')
# print(button)

# # 根据Xpath语句获取对象
# button = browser.find_element(By.XPATH,'//input[@id="su"]')
# print(button)

# # 根据标签名获取对象
# button = browser.find_elements(By.TAG_NAME,'input')


# # 使用bs语法获取对象
# button = browser.find_elements(By.CSS_SELECTOR,'#su')

# 通过链接文本获取对象
button = browser.find_elements(By.LINK_TEXT,'新闻')
print(button)

三、selenium语法------访问元素信息

1.获取属性的属性值

python 复制代码
# 获取属性值
input = browser.find_element(By.ID, 'su')
print(input.get_attribute('class'))

2.获取标签名

python 复制代码
print(input.tag_name)

3.获取元素文本

python 复制代码
input = browser.find_element(By.LINK_TEXT,'新闻')
print(input.text)

四、selenium 交互

使用selenium完成以下操作

在百度输入框中输入"周杰伦",点击"百度一下",滑到最底部,点击"下一页",然后后退一步,再前进一步,最后关闭浏览器。

python 复制代码
from selenium import  webdriver
from selenium.webdriver.common.by import By
import time

# 创建浏览器对象
browser = webdriver.Chrome()

url = 'https://www.baidu.com'
browser.get(url)

time.sleep(2)

# 获取文本框的对象
input = browser.find_element(By.ID,'kw')

# 在文本框中输入'周杰伦'
input.send_keys('周杰伦')

time.sleep(2)

# 获取百度一下的按钮
button = browser.find_element(By.ID,'su')
# 点击百度一下
button.click()

time.sleep(2)

# 滑到底部
js_bottom = 'document.documentElement.scrollTop=100000'
browser.execute_script(js_bottom)

time.sleep(2)

# 获取下一页的按钮
next = browser.find_element(By.XPATH,'//a[contains(text(),"下一页")]')

# 点击下一页
next.click()

time.sleep(2)

# 回到上一页
browser.back()

time.sleep(2)

# 回到刚才的位置
browser.forward()

time.sleep(2)

# 退出
browser.quit()

五、无界面操作

直接打开浏览器会使操作效率变慢,Chrome headless可以进行无界面操作,极大提高的了工作效率。

python 复制代码
from selenium import webdriver

def headless_browser():
    # 创建浏览器对象之前,创建options功能对象
    options = webdriver.ChromeOptions()
    # 添加无界面功能参数
    options.add_argument("--headless")
    # 构造浏览器对象,打开浏览器
    browser = webdriver.Chrome(options=options)
    return browser

url = 'https://ww.baidu.com'
browser = headless_browser()
browser.get(url)

# 屏幕快照
browser.save_screenshot('_082_baidu.png')

参考

尚硅谷Python爬虫教程小白零基础速通(含python基础+爬虫案例)

相关推荐
娃哈哈_16 分钟前
基于Testng + Playwright的H5自动化巡检工具
测试开发·测试工具·自动化·html5·可用性测试·testng·playwright
安冬的码畜日常5 小时前
【玩转 Postman 接口测试与开发2_006】第六章:Postman 测试脚本的创建(中):脚本的位置与执行顺序、AI助手及私有模块的使用
测试工具·postman·测试脚本·postbot·package library
全栈开发圈8 小时前
新书速览|Java网络爬虫精解与实践
java·开发语言·爬虫
小白学大数据8 小时前
JavaScript重定向对网络爬虫的影响及处理
开发语言·javascript·数据库·爬虫
上海_彭彭8 小时前
【提效工具开发】Python功能模块执行和 SQL 执行 需求整理
开发语言·python·sql·测试工具·element
ac-er88889 小时前
PHP网络爬虫常见的反爬策略
开发语言·爬虫·php
测试19989 小时前
2024软件测试面试热点问题
自动化测试·软件测试·python·测试工具·面试·职场和发展·压力测试
代码欢乐豆11 小时前
数据采集之selenium模拟登录
python·selenium·测试工具
聪明的墨菲特i12 小时前
Python爬虫学习
爬虫·python·学习
oliveira-time13 小时前
爬虫学习6
爬虫