爬虫 selenium语法 (八)

目录

一、为什么使用selenium

二、selenium语法------元素定位

[1.根据 id 找到对象](#1.根据 id 找到对象)

2.根据标签属性的属性值找到对象

3.根据Xpath语句获取对象

4.根据标签名获取对象

5.使用bs语法获取对象

6.通过链接文本获取对象

三、selenium语法------访问元素信息

1.获取属性的属性值

2.获取标签名

3.获取元素文本

[四、selenium 交互](#四、selenium 交互)

五、无界面操作

参考


1.什么是selenium?

  • selenium是一个用于web应用程序测试的工具。
  • selenium测试直接运行在浏览器中,就像真正的用户一样。
  • 支持通过各种driver(FirefoxDriver,IternetExplorerDriver,OperaDriver,ChromeDriver)驱动真实浏览器完成测试。
  • selenium也是支持无界面浏览器操作的。

2.为什么使用selenium?

模拟浏览器功能,自动执行网页中的js代码,实现动态加载。

3.如何安装selenium?

安装selenium及谷歌驱动

4.selenium的使用步骤?

  • 导入:from selenium import webdriver
  • 创建谷歌浏览器操作对象:

path = 谷歌浏览器驱动文件路径

browser = webdriver.Chrome(path)

  • 访问网址

url = 要访问的网址

browser.get(url)
selenium 的元素定位

元素定位:自动化要做的就是模拟鼠标和键盘来操作这些元素,如点击、输入等等。操作这些元素前首先要找到它们,webdriver提供很多定位元素的方法。

方法

(1)find_element(By.ID, 'id 名')

eg:button = browser.find_element(By.ID, 'su')

(2)find_element(By.NAME, 'name 名')

eg:name = browser.find(By.NAME,'wd')

(3)find_elements(By.XPATH, 'Xpath语法')

eg:xpath = browser.find_elements(By.XPATH, "//input[@id-"su"]")

(4)find_elements(By.TAG_NAME,' Tag name ')

eg:names = browser.find_elements (By.TAG_NAME, "input")

(5)find_elements(By.CSS_SELECTLOR, ' bs4语法 ')

eg:my_input = browser.find_elements(By.CSS_SELECTLOR, "#kw")[0]

(6)find_elements(By.LINK_TEXT, ' 链接文本')

eg:browser.find_elements(By.LINK_TEXT,"新闻")
访问元素信息

获取元素属性

.get_attribute('class')

获取元素文本

.text

获取id

.id

获取标签名

.tag_name
selenium 交互

(1)点击:click()

(2)输入:send_keys()

(3)后退操作:browser.back()

(4)前进操作:browser.forward()

(5)模拟js滚动:

js = 'document.documentElement.scrollTop=100000'

browser.execute_script(js) 执行js 代码

(6)获取网页代码:page_source

(7)退出:browser.quit()

一、为什么使用selenium

python 复制代码
import urllib

url = 'http://www.jd.com'

response = urllib.request.urlopen(url)

content = response.read().decode()
print(content)

我们模拟浏览器获取网页内容,然后搜索获取的内容,是否有 "J_seckill" 这个元素

可以看到,显示没有该元素。

原因是验证你的浏览器不是真实的浏览器,所以没有返回数据。

但是!!! 用selenium就可以解决这个问题。

python 复制代码
# (1)导入
from selenium import webdriver
# from selenium.webdriver.common.by import BY

# (2)创建浏览器操作对象
browser = webdriver.Chrome()

# (3)访问网站
url = 'https://www.jd.com'
browser.get(url)

# (4)获取源码
# page_source获取网页源码
content = browser.page_source
print(content)

二、selenium语法------元素定位

1.根据 id 找到对象

python 复制代码
# 根据 id 找到对象
button = browser.find_element(By.ID, 'su')
print(button)

2.根据标签属性的属性值找到对象

python 复制代码
# 根据标签属性的属性值找到对象
button = browser.find_element(By.NAME,'wd')
print(button)

3.根据Xpath语句获取对象

python 复制代码
# 根据Xpath语句获取对象
# element表示只找一个元素,elements表示找到所有元素并返回列表
button = browser.find_element(By.XPATH,'//input[@id="su"]')
print(button)

4.根据标签名获取对象

python 复制代码
# 根据标签名获取对象
button = browser.find_elements(By.TAG_NAME,'input')
print(button)

5.使用bs语法获取对象

python 复制代码
# 使用bs语法获取对象
button = browser.find_elements(By.CSS_SELECTOR,'#su')
print(button)

6.通过链接文本获取对象

python 复制代码
# 通过链接文本获取对象
button = browser.find_elements(By.LINK_TEXT,'新闻')
print(button)

完整代码:

python 复制代码
from selenium import webdriver
from selenium.webdriver.common.by import By

# 创建浏览器对象
browser = webdriver.Chrome()

# 访问网站
url = 'https://www.baidu.com'
browser.get(url)

# 元素定位
# # 根据 id 找到对象
# button = browser.find_element(By.ID, 'su')
# print(button)

# # 根据标签属性的属性值找到对象
# button = browser.find_element(By.NAME,'wd')
# print(button)

# # 根据Xpath语句获取对象
# button = browser.find_element(By.XPATH,'//input[@id="su"]')
# print(button)

# # 根据标签名获取对象
# button = browser.find_elements(By.TAG_NAME,'input')


# # 使用bs语法获取对象
# button = browser.find_elements(By.CSS_SELECTOR,'#su')

# 通过链接文本获取对象
button = browser.find_elements(By.LINK_TEXT,'新闻')
print(button)

三、selenium语法------访问元素信息

1.获取属性的属性值

python 复制代码
# 获取属性值
input = browser.find_element(By.ID, 'su')
print(input.get_attribute('class'))

2.获取标签名

python 复制代码
print(input.tag_name)

3.获取元素文本

python 复制代码
input = browser.find_element(By.LINK_TEXT,'新闻')
print(input.text)

四、selenium 交互

使用selenium完成以下操作

在百度输入框中输入"周杰伦",点击"百度一下",滑到最底部,点击"下一页",然后后退一步,再前进一步,最后关闭浏览器。

python 复制代码
from selenium import  webdriver
from selenium.webdriver.common.by import By
import time

# 创建浏览器对象
browser = webdriver.Chrome()

url = 'https://www.baidu.com'
browser.get(url)

time.sleep(2)

# 获取文本框的对象
input = browser.find_element(By.ID,'kw')

# 在文本框中输入'周杰伦'
input.send_keys('周杰伦')

time.sleep(2)

# 获取百度一下的按钮
button = browser.find_element(By.ID,'su')
# 点击百度一下
button.click()

time.sleep(2)

# 滑到底部
js_bottom = 'document.documentElement.scrollTop=100000'
browser.execute_script(js_bottom)

time.sleep(2)

# 获取下一页的按钮
next = browser.find_element(By.XPATH,'//a[contains(text(),"下一页")]')

# 点击下一页
next.click()

time.sleep(2)

# 回到上一页
browser.back()

time.sleep(2)

# 回到刚才的位置
browser.forward()

time.sleep(2)

# 退出
browser.quit()

五、无界面操作

直接打开浏览器会使操作效率变慢,Chrome headless可以进行无界面操作,极大提高的了工作效率。

python 复制代码
from selenium import webdriver

def headless_browser():
    # 创建浏览器对象之前,创建options功能对象
    options = webdriver.ChromeOptions()
    # 添加无界面功能参数
    options.add_argument("--headless")
    # 构造浏览器对象,打开浏览器
    browser = webdriver.Chrome(options=options)
    return browser

url = 'https://ww.baidu.com'
browser = headless_browser()
browser.get(url)

# 屏幕快照
browser.save_screenshot('_082_baidu.png')

参考

尚硅谷Python爬虫教程小白零基础速通(含python基础+爬虫案例)

相关推荐
深蓝电商API6 小时前
爬虫界的 “核武器”:Splash + Scrapy 动态渲染终极方案
爬虫·scrapy·splash
测试界的海飞丝8 小时前
10道软件测试面试题及其答案:
服务器·测试工具·职场和发展
REDcker9 小时前
tcpdump 网络数据包分析工具完整教程
网络·测试工具·tcpdump
Z***G47912 小时前
网络爬虫学习:借助DeepSeek完善爬虫软件,实现模拟鼠标右键点击,将链接另存为本地文件
爬虫·学习·计算机外设
烤汉堡14 小时前
Python入门到实战:post请求+cookie+代理
爬虫·python
e***193514 小时前
爬虫学习 01 Web Scraper的使用
前端·爬虫·学习
程序员念姐20 小时前
软件测试系统流程和常见面试题
测试工具·面试
Hacker_Oldv20 小时前
Python技能进阶:探索Selenium库,实现网页自动化测试与爬虫
自动化测试·软件测试·爬虫·python·selenium·职场和发展
l***77521 天前
开源的不需要写代码的爬虫maxun
爬虫·开源
西游音月1 天前
(5)pytest+Selenium自动化测试-元素定位之XPath定位
selenium·测试工具·pytest