Python爬虫进阶:Selenium模拟真人操作(解决反爬+动态网页)

一、前言

很多人学会 requests 爬虫后,会遇到一个问题:

👉 页面数据抓不到!

原因很简单:

  • 网站使用了 JavaScript动态加载
  • 或者使用了 反爬机制

这时候,普通爬虫就失效了。

👉 解决方案:使用 Selenium 模拟浏览器操作


二、什么是 Selenium?

Selenium 是一个可以控制浏览器行为的工具,比如:

  • 打开网页
  • 点击按钮
  • 输入内容
  • 滚动页面

👉 本质就是:让代码像人一样操作浏览器


三、安装环境

bash 复制代码
pip install selenium

下载浏览器驱动(以 Chrome 为例):

  • ChromeDriver

四、基础示例(打开网页)

python 复制代码
from selenium import webdriver

driver = webdriver.Chrome()
driver.get("https://example.com")

print(driver.title)

五、模拟用户操作(核心)

1️⃣ 输入内容

python 复制代码
from selenium.webdriver.common.by import By

input_box = driver.find_element(By.ID, "search")
input_box.send_keys("Python爬虫")

2️⃣ 点击按钮

python 复制代码
button = driver.find_element(By.ID, "btn")
button.click()

3️⃣ 等待页面加载(重点)

python 复制代码
import time

time.sleep(2)

👉 或更推荐:

python 复制代码
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.ID, "result"))
)

六、模拟"真人行为"(防封关键)

⭐ 随机延迟

python 复制代码
import random
import time

time.sleep(random.uniform(1, 3))

⭐ 模拟滚动页面

python 复制代码
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

⭐ 模拟慢速输入

python 复制代码
import time

for c in "python":
    input_box.send_keys(c)
    time.sleep(0.2)

👉 这一步非常关键,很多网站会检测输入速度!


七、完整实战示例(推荐收藏)

python 复制代码
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import random

driver = webdriver.Chrome()

driver.get("https://example.com")

# 模拟输入
input_box = driver.find_element(By.ID, "search")
for c in "Python":
    input_box.send_keys(c)
    time.sleep(random.uniform(0.1, 0.3))

# 点击搜索
driver.find_element(By.ID, "btn").click()

# 等待加载
time.sleep(random.uniform(2, 4))

# 滚动页面
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

print(driver.page_source)

driver.quit()

八、防封核心技巧总结(重点)

技术 作用
Selenium 绕过JS限制
随机延迟 ⭐ 防止频率异常
慢速输入 ⭐ 模拟真人
滚动页面 模拟浏览行为
显式等待 防止加载失败

九、常见问题

❓ 为什么 Selenium 很慢?

👉 因为它是真实浏览器(不是接口请求)


❓ 为什么还是被封?

👉 可能缺少:

  • 代理IP
  • 浏览器指纹伪装

十、进阶方向(爆款内容)

如果你想继续提升,可以写这些:

  • 🔥 Selenium + 代理IP池
  • 🔥 无头浏览器(Headless)
  • 🔥 破解登录(Cookie复用)
  • 🔥 自动化抢票 / 抢商品

十一、总结

👉 requests 解决不了的:
用 Selenium 基本都能解决

✔ 动态网页

✔ JS加载

✔ 登录操作


相关推荐
世辰辰辰5 小时前
批量修改图片/文本名子
开发语言·python·批量修改文件名
myenjoy_17 小时前
MQTT 与 Sparkplug B——从车间到云端的最后一公里
网络·python
颜酱8 小时前
LangChain 输出解析器:把模型回复变成你要的数据
python·langchain
2401_873479408 小时前
企业安全运营中,如何用IP离线库提前发现失陷主机?三步实现风险画像
网络·数据库·python·tcp/ip·ip
weixin_523185329 小时前
Java基础知识总结(四):引用数据类型与参数传递机制
java·开发语言·python
码农飞哥9 小时前
我把RAG召回率从60%提到90%,就改了这两件事
python·知识库·向量检索·rag·效果提示
宸津-代码粉碎机9 小时前
Spring AI企业级实战|从RAG优化到Agent多工具调度
java·大数据·人工智能·后端·python·spring
yuhuofei20219 小时前
【Python入门】Python中的字典dict
python
Jinkxs10 小时前
Python基础 - 文件的写入操作 write与writelines方法
android·服务器·python
初学Python的小明10 小时前
Python格式化输出、运算符、分支&循环
python