基于Selenium的自动化Web数据采集实践

文章目录

    • [1. 环境配置与浏览器启动](#1. 环境配置与浏览器启动)
    • [2. 文件上传操作](#2. 文件上传操作)
    • [3. 搜索框交互](#3. 搜索框交互)
    • [4. 图片批量下载](#4. 图片批量下载)
    • [5. 分页数据抓取](#5. 分页数据抓取)
    • [6. 商品信息抓取](#6. 商品信息抓取)

1. 环境配置与浏览器启动

首先需要配置 Selenium 环境并启动浏览器。以下是使用 Microsoft Edge 浏览器的基本设置:

python 复制代码
import os.path
import time
import requests
from selenium import webdriver
from selenium.webdriver.edge.options import Options
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By

edge_options = Options()
edge_options.binary_location = r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"
driver = webdriver.Edge(options=edge_options)

2. 文件上传操作

Selenium 可以模拟用户上传文件的操作。以下代码展示了如何通过文件输入框上传本地图片:

python 复制代码
driver.get("https://graph.baidu.com/pcpage/index?tpl_from=pc")

input_element = driver.find_element(by=By.NAME, value="file")
input_element.send_keys(r"D:\Code\PythonTest\Picture1\1.jpg")

time.sleep(5)
element = driver.find_element(by=By.CLASS_NAME, value="graph-guess-word")
print(element.text)

分析

  • send_keys() 方法用来向文件输入框传递本地文件路径

3. 搜索框交互

自动化搜索是常见的 Web 交互场景。以下示例展示了如何在 B 站搜索内容:

python 复制代码
driver.get('http://www.bilibili.com')
driver.find_element(by=By.TAG_NAME,value="input").send_keys("python"+ Keys.RETURN)
time.sleep(5)

分析

  • 使用 By.TAG_NAME 定位器找到第一个 <input> 元素
  • send_keys() 方法不仅发送文本,还可以发送特殊按键
  • Keys.RETURN 模拟回车键,提交搜索表单

4. 图片批量下载

自动化下载网页图片是数据抓取的常见需求。以下代码展示了如何从百度图片批量下载图片:

python 复制代码
if not os.path.exists("./Picture2"):
    os.mkdir("./Picture2")

driver.get('https://image.baidu.com/search/index?tn=baiduimage&ie=utf-8&word=迪丽热巴')

driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

time.sleep(8)

img_list = driver.find_elements(By.XPATH, value="//img[@class='img_7rRSL']")

i = 1
for img in img_list:
    img_url = img.get_attribute("src")
    img_data = requests.get(img_url)
    with open(f"./Picture2/{i}.png",'wb') as f:
        f.write(img_data.content)
    i += 1

分析

  • driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")使用 JavaScript 执行器滚动页面到底部

  • document.body.scrollHeight 获取文档总高度,确保滚动到底部

5. 分页数据抓取

处理分页内容是 Web 抓取中的常见操作。以下代码展示了如何抓取苏宁易购的商品评价:

python 复制代码
driver.get("https://review.suning.com/cluster_cmmdty_review/cluster-38249278-000000012389328846-0000000000-1-good.htm?originalCmmdtyType=general&safp=d488778a.10004.loverRight.166")

hp_file = open('好评1.txt', 'w', encoding="utf-8")

def get_py_content(file):
    pj_elements_content = driver.find_elements(by=By.CLASS_NAME, value="body-content")
    for element in pj_elements_content:
        file.write(element.text + "\n")

get_py_content(hp_file)

next_elements = driver.find_elements(by=By.XPATH, value='//*[@class="next rv-maidian "]')
print(next_elements)

while next_elements != []:
    next_elements = next_elements[0]
    time.sleep(1)
    next_elements.click()
    get_py_content(hp_file)
    next_elements = driver.find_elements(by=By.XPATH, value='//*[@class="next rv-maidian "]')

hp_file.close()

关键方法分析

  • 使用 XPath 定位器精确查找下一页按钮://*[@class="next rv-maidian "]
  • find_elements()(复数)返回元素列表,即使没有找到元素也不会抛出异常
  • next_elements[0].click() 点击第一个符合条件的元素
  • 循环条件 next_elements != [] 检查是否还有下一页

6. 商品信息抓取

综合示例-抓取苏宁易购上医用口罩的商品信息:

python 复制代码
edge_options = Options()
edge_options.binary_location = r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"
driver = webdriver.Edge(options=edge_options)
driver.get("http://www.suning.com")

element = driver.find_element(by=By.ID, value="searchKeywords")
element.send_keys("医用口罩"+ Keys.RETURN)
time.sleep(10)

driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")
time.sleep(10)
price_elements = driver.find_elements(by=By.CLASS_NAME, value='def-price')
title_elements = driver.find_elements(by=By.CLASS_NAME,value='title-selling-point')
evaluate_elements = driver.find_elements(by=By.CLASS_NAME,value='info-evaluate')
store_elements = driver.find_elements(by=By.CLASS_NAME ,value='store-stock')

a = time.strftime('%Y-%m-%d')
f = open(a + '医用口罩.txt', 'w', encoding='utf-8')
for i in range(len(price_elements)):
    f.write(price_elements[i].text + '\t')
    f.write(title_elements[i].text + '\t')
    f.write(evaluate_elements[i].text + '\t')
    f.write(store_elements[i].text + '\n')
f.close()
相关推荐
Agent产品评测局42 分钟前
企业数据处理自动化落地,抓取分析全流程实现方案 —— 2026企业级智能体选型与技术路径深度解析
运维·人工智能·ai·自动化
牛奶咖啡131 小时前
DevOps自动化运维实践_ansible-playbook的应用
自动化·云计算·ansible·devops·playbook·playbook的常见使用示例·playbook变量主机命令
Gofarlic_OMS1 小时前
装备制造企业Fluent许可证成本分点典型案例
java·大数据·开发语言·人工智能·自动化·制造
北京耐用通信2 小时前
无缝衔接·高效传输——耐达讯自动化CC-Link IE转Modbus TCP核心解决方案
网络·人工智能·物联网·网络协议·自动化·信息与通信
Agent产品评测局2 小时前
互联网行业自动化平台选型,运营全流程提效指南:2026企业级智能体架构与实战全解析
运维·人工智能·ai·chatgpt·架构·自动化
ZC跨境爬虫2 小时前
Scrapy工作空间搭建与目录结构解析:从初始化到基础配置全流程
前端·爬虫·python·scrapy·自动化
三思守心3 小时前
从 0 到 1 搭建自动化内容工厂:深度测评楼兰AI及其在全平台发帖中的表现
运维·服务器·自动化
ZKNOW甄知科技4 小时前
数智同行:甄知科技2026年Q1季度回顾
运维·服务器·人工智能·科技·程序人生·安全·自动化
跨境麦香鱼4 小时前
Playwright vs Puppeteer:2026自动化任务与爬虫工具如何选?
运维·爬虫·自动化
北京耐用通信4 小时前
不换设备、不重写程序:耐达讯自动化网关如何实现CC-Link IE转Modbus TCP的高效互通?
人工智能·科技·物联网·网络协议·自动化·信息与通信