Python爬虫进阶:Selenium模拟真人操作(解决反爬+动态网页)

一、前言

很多人学会 requests 爬虫后,会遇到一个问题:

👉 页面数据抓不到!

原因很简单:

  • 网站使用了 JavaScript动态加载
  • 或者使用了 反爬机制

这时候,普通爬虫就失效了。

👉 解决方案:使用 Selenium 模拟浏览器操作


二、什么是 Selenium?

Selenium 是一个可以控制浏览器行为的工具,比如:

  • 打开网页
  • 点击按钮
  • 输入内容
  • 滚动页面

👉 本质就是:让代码像人一样操作浏览器


三、安装环境

bash 复制代码
pip install selenium

下载浏览器驱动(以 Chrome 为例):

  • ChromeDriver

四、基础示例(打开网页)

python 复制代码
from selenium import webdriver

driver = webdriver.Chrome()
driver.get("https://example.com")

print(driver.title)

五、模拟用户操作(核心)

1️⃣ 输入内容

python 复制代码
from selenium.webdriver.common.by import By

input_box = driver.find_element(By.ID, "search")
input_box.send_keys("Python爬虫")

2️⃣ 点击按钮

python 复制代码
button = driver.find_element(By.ID, "btn")
button.click()

3️⃣ 等待页面加载(重点)

python 复制代码
import time

time.sleep(2)

👉 或更推荐:

python 复制代码
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.ID, "result"))
)

六、模拟"真人行为"(防封关键)

⭐ 随机延迟

python 复制代码
import random
import time

time.sleep(random.uniform(1, 3))

⭐ 模拟滚动页面

python 复制代码
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

⭐ 模拟慢速输入

python 复制代码
import time

for c in "python":
    input_box.send_keys(c)
    time.sleep(0.2)

👉 这一步非常关键,很多网站会检测输入速度!


七、完整实战示例(推荐收藏)

python 复制代码
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import random

driver = webdriver.Chrome()

driver.get("https://example.com")

# 模拟输入
input_box = driver.find_element(By.ID, "search")
for c in "Python":
    input_box.send_keys(c)
    time.sleep(random.uniform(0.1, 0.3))

# 点击搜索
driver.find_element(By.ID, "btn").click()

# 等待加载
time.sleep(random.uniform(2, 4))

# 滚动页面
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

print(driver.page_source)

driver.quit()

八、防封核心技巧总结(重点)

技术 作用
Selenium 绕过JS限制
随机延迟 ⭐ 防止频率异常
慢速输入 ⭐ 模拟真人
滚动页面 模拟浏览行为
显式等待 防止加载失败

九、常见问题

❓ 为什么 Selenium 很慢?

👉 因为它是真实浏览器(不是接口请求)


❓ 为什么还是被封?

👉 可能缺少:

  • 代理IP
  • 浏览器指纹伪装

十、进阶方向(爆款内容)

如果你想继续提升,可以写这些:

  • 🔥 Selenium + 代理IP池
  • 🔥 无头浏览器(Headless)
  • 🔥 破解登录(Cookie复用)
  • 🔥 自动化抢票 / 抢商品

十一、总结

👉 requests 解决不了的:
用 Selenium 基本都能解决

✔ 动态网页

✔ JS加载

✔ 登录操作


相关推荐
Li emily2 小时前
解决了加密货币api多币种订阅时的数据乱序问题
人工智能·python·api·fastapi
2301_781571423 小时前
Golang格式化输出占位符都有什么_Golang fmt占位符教程【通俗】
jvm·数据库·python
asdzx673 小时前
使用 Python 为 PDF 添加页码 (详细教程)
python·pdf·页码
AI技术控3 小时前
《Transformers are Inherently Succinct》论文解读:从“能表达什么”到“多紧凑地表达”
人工智能·python·深度学习·机器学习·自然语言处理
金融大 k5 小时前
Python 全球指数监控面板:TickDB + REST + WebSocket 完整方案
python·websocket
啊哈哈121385 小时前
系统设计复盘:为什么 Agent 的 ReAct 循环必须内嵌确定性保护层——以 FitMind 健康助手的路由与步骤控制为例
人工智能·python·react
一颗牙牙7 小时前
安装mmcv
开发语言·python·深度学习
大数据魔法师7 小时前
Streamlit(二)- Streamlit 架构与运行机制
python·web
m0_470857647 小时前
PHP怎么实现工厂模式_Factory模式编写指南【指南】
jvm·数据库·python
大数据魔法师7 小时前
Streamlit(三)- Streamlit 多页面应用开发
python·web