初始爬虫10

1. selenium执行js

因为selenium缺少下拉页面的操作,需要js触发式请求:driver.execute_scripts(js)

cpp 复制代码
# -*- coding: utf-8 -*-
from selenium import webdriver
import time
from selenium.webdriver.common.by import By

url = 'https://jn.lianjia.com/'

driver = webdriver.Chrome()

driver.get(url)
# 滚动条的拖动
js = 'scrollTo(0,500)'
# 执行js
driver.execute_script(js)

el_button = driver.find_element(By.XPATH, '/html/body/div[6]/div/div[1]/p/a')
# 使用 JavaScript 点击该按钮,防止被其他元素挡住
driver.execute_script("arguments[0].click();", el_button)

time.sleep(5)
driver.quit()

2.selenium页面等待(元素加载完)

2.1强制等待

常用的方法:time.sleep()

2.2隐式等待

最常用的方法,一般使用这个:

● 隐式等待针对的是元素定位,隐式等待设置了一个时间,在一段时间内判断元素是否定位成功,如果完成了,就进行下一步

● 在设置的时间内没有定位成功,则会报超时加载

python 复制代码
# -*- coding: utf-8 -*-
from selenium import webdriver
from selenium.webdriver.common.by import By

url = 'http://www.baidu.com'

driver = webdriver.Chrome()
# 设置位置之后的所有元素定位操作都有最大等待时间10秒,在10秒内会定期进行元素定位,超过设置时间之后将会报错
driver.implicitly_wait(10)

driver.get(url)
el = driver.find_element(By.XPATH,'//*[@id="lg"]/map/area')
print(el)

2.3显示等待

爬虫中不用,一般用于软件测试中,如果学爬虫路线可以只是简单了解一下

python 复制代码
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By

# 创建 Chrome 浏览器驱动实例
driver = webdriver.Chrome()

# 打开百度首页
driver.get('https://www.baidu.com')

# 显式等待,等待 '好123' 链接出现
wait = WebDriverWait(driver, 20, 0.5)
wait.until(EC.presence_of_element_located((By.LINK_TEXT, '好123')))

# 使用新的方式查找元素
element = driver.find_element(By.LINK_TEXT, '好123')

# 打印 href 属性
print(element.get_attribute('href'))

# 关闭浏览器
driver.quit()

3.手动实现页面等待

通用解决页面等待的问题:

原理:

  1. 利用强制等待和显式等待的思路来手动实现

  2. 不停的判断或有次数限制的判断某一个标签对象是否加载完毕(是否存在)
    一个简单的淘宝翻页处理:

python 复制代码
import time

from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()

driver.get('https://www.taobao.com')
time.sleep(2)

# i = 0
# while True:
for i in range(10):
    i += 1
    try:
        time.sleep(3)
        element = driver.find_element(By.XPATH, '//div[@class="shop-inner"]/h3[' + str(i) + ']/a')
        print(element.get_attribute('href'))
        break
    except:
        js = 'window.scrollTo(0, {})'.format(i * 500)  # js语句
        driver.execute_script(js)  # 执行js的方法
        # driver.quit()

4.配置对象

使用selenium开启无界面模式,使用代理ip,更换user-agent。

4.1无界面模式

python 复制代码
# -*- coding: utf-8 -*-
from selenium import webdriver
url = 'https://www.baidu.com'

# 创建配置对象
opt = webdriver.ChromeOptions()

# 添加配置参数,设置浏览器为无头模式
opt.add_argument('--headless')
opt.add_argument('--disable-gpu')

# 创建浏览器对象的时候添加配置对象
driver = webdriver.Chrome(options=opt)

driver.get(url)

driver.save_screenshot('baidu_到此一游1.png')

4.2代理ip和user-agent

cpp 复制代码
from selenium import webdriver
url = 'https://www.baidu.com'

# 创建配置对象
opt = webdriver.ChromeOptions()

# 添加配置参数,更换ip代理,必须重新启动浏览器
# opt.add_argument('--proxy-server=http://47.119.164.33:8081')

# 更换user-agent
opt.add_argument('--user-agent=Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; Maxthon; .NET CLR 1.1.4322)')

# 创建浏览器对象的时候添加配置对象
driver = webdriver.Chrome(options=opt)
相关推荐
搂着猫睡的小鱼鱼9 小时前
Ozon 商品页数据解析与提取 API
爬虫·php
深蓝电商API10 小时前
住宅代理与数据中心代理在爬虫中的选择
爬虫·python
csdn_aspnet12 小时前
Libvio.link爬虫技术深度解析:反爬机制破解与高效数据抓取
爬虫·反爬·libvio
0思必得014 小时前
[Web自动化] Selenium处理滚动条
前端·爬虫·python·selenium·自动化
vx_biyesheji000115 小时前
豆瓣电影推荐系统 | Python Django 协同过滤 Echarts可视化 深度学习 大数据 毕业设计源码
大数据·爬虫·python·深度学习·django·毕业设计·echarts
深蓝电商API16 小时前
爬虫IP封禁后的自动切换与检测机制
爬虫·python
喵手17 小时前
Python爬虫实战:公共自行车站点智能采集系统 - 从零构建生产级爬虫的完整实战(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·采集公共自行车站点·公共自行车站点智能采集系统·采集公共自行车站点导出csv
喵手17 小时前
Python爬虫实战:地图 POI + 行政区反查实战 - 商圈热力数据准备完整方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·地区poi·行政区反查·商圈热力数据采集
芷栀夏18 小时前
从 CANN 开源项目看现代爬虫架构的演进:轻量、智能与统一
人工智能·爬虫·架构·开源·cann
喵手1 天前
Python爬虫实战:HTTP缓存系统深度实战 — ETag、Last-Modified与requests-cache完全指南(附SQLite持久化存储)!
爬虫·python·爬虫实战·http缓存·etag·零基础python爬虫教学·requests-cache