【自用】Python爬虫学习(七):selenium网页自动化操作

Python爬虫学习(七)


selenium介绍

selenium是一个广泛使用的开源自动化测试框架,主要用于Web应用程序的功能测试。它支持多种浏览器(如Chrome、Firefox、 Safari等)和操作系统(Windows、Mac、Linux),并允许用户通过编写代码自动执行浏览器中的操作。

Selenium可以很好地处理动态加载的Web内容,包括AJAX和JavaScript生成的元素,覆盖面更广。

selenium基础用法

python 复制代码
import time
from lxml import etree
from selenium import webdriver

# 新发地网址
url = 'http://www.xinfadi.com.cn/index.html'

# 实例化一个浏览器对象
bro = webdriver.Edge()

# 让浏览器发起一个指定url对应请求
bro.get(url)

# page_source获取浏览器当前页面的页面源码数据
# (包含所见的所有数据,无论是服务器渲染还是客户端渲染都一样)
page_text = bro.page_source
# print(page_text)

tree = etree.HTML(page_text)
tr_list = tree.xpath('//tbody[@id="ulTableBody"]/tr')
# print(tr_list[1])
for tr in tr_list:
    prodName = tr.xpath('./td[1]/text()')
    lowprice = tr.xpath('./td[2]/text()')
    avgprice = tr.xpath('./td[3]/text()')
    highprice = tr.xpath('./td[4]/text()')
    date = tr.xpath('./td[8]/text()')
    print(prodName, lowprice, avgprice, highprice, date)

time.sleep(5)
bro.quit()

运行结果:

selenium其他自动化操作

python 复制代码
import time
from selenium import webdriver

url = 'https://www.taobao.com/'

# 实例化一个浏览器对象
bro = webdriver.Edge()

# 让浏览器发起一个指定url对应请求
bro.get(url)

# 标签定位,定位到页面中的搜索框
search_input = bro.find_element(by='id', value='q')
# 标签交互,在搜索框中输入文本
search_input.send_keys('iphone')

# 执行一组js程序,右侧滑动一个页面的高度
bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
time.sleep(5)

# 点击搜索按钮
search_button = bro.find_element(by='css selector', value='.btn-search')
search_button.click()

# 重新打开一个网页
bro.get('https://www.baidu.com/')
# 回退
bro.back()
time.sleep(3)
# 前进
bro.forward()

time.sleep(5)
bro.quit()

selenium动作链与iframe的处理

bash 复制代码
"""
-selenium处理iframe
    -如果定位的标签存在于iframe标签之中,则必须使用switch_to.frame(id)
    -动作链(拖动) :from selenium.webdriver import ActionChains
        -实例化一个动作链对象:action =ActionChains(bro)
        -click_and_hold(div):长按且点击操作
        -move_by_offset(x,y)
        -perform()让动作链立即执行
        -action.release()释放动作链对象
"""
python 复制代码
import time
from selenium import webdriver
from selenium.webdriver import ActionChains

url = 'https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'

# 调用Chrome浏览器打开网页
bro = webdriver.Chrome()
bro.get(url)

# 如果定位的标签是存在于iframe标签之中的则必须通过如下操作再进行标签定位
bro.switch_to.frame('iframeResult')  # iframeResult为iframe标签的id

div = bro.find_element(by='id', value='draggable')

# 动作链
action = ActionChains(bro)
# 点击长按指定的标签
action.click_and_hold(div)

for i in range(5):
    action.move_by_offset(50, 0).perform()
    time.sleep(1)
# 释放动作链
action.release().perform()
print("程序运行完毕!")
time.sleep(3)
bro.quit()

selenium无可视化界面与反检测实现

python 复制代码
from time import sleep
from selenium import webdriver
# 实现无可视化界面
from selenium.webdriver.chrome.options import Options

# 实现无可视化界面的操作,让selenium规避被检测
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
# 实现规避检测
chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])

# 无可视化界面
bro = webdriver.Chrome(options=chrome_options)
bro.get('https://www.baidu.com')
print(bro.page_source)
sleep(2)
bro.quit()
相关推荐
麦麦大数据1 小时前
MacOS 安装Python 3.13【同时保留旧版本】
开发语言·python·macos·python安装
梦想画家5 小时前
基于PyTorch的时间序列异常检测管道构建指南
人工智能·pytorch·python
PythonFun6 小时前
OCR图片识别翻译工具功能及源码
python·ocr·机器翻译
虫师c7 小时前
Python浪漫弹窗程序:Tkinter实现动态祝福窗口教程
python·tkinter·动画效果·gui编程·弹窗效果
容器( ु⁎ᴗ_ᴗ⁎)ु.。oO7 小时前
Magentic-ui 学习
学习
_李小白7 小时前
【OPENGL ES 3.0 学习笔记】延伸阅读:VAO与VBO
笔记·学习·elasticsearch
灯火不休时8 小时前
95%准确率!CNN交通标志识别系统开源
人工智能·python·深度学习·神经网络·cnn·tensorflow
deephub8 小时前
FastMCP 入门:用 Python 快速搭建 MCP 服务器接入 LLM
服务器·人工智能·python·大语言模型·mcp
南宫乘风8 小时前
基于 Flask + APScheduler + MySQL 的自动报表系统设计
python·mysql·flask
微露清风9 小时前
系统性学习C++-第九讲-list类
c++·学习·list