python爬虫源码:selenium+browsermobproxy实现浏览器请求抓取

前言

如上篇博客所述:为了抓取所有,通过浏览器F12可以看到的资源(静态资源和接口调用),我使用了selenium+browsermobproxy的方案来处理。

这是两个模块的安装方案,没有看过的朋友可以去了解一下:

python爬虫:selenium+browsermobproxy实现浏览器请求抓取(模块安装详解)-CSDN博客

下面是我编写的一些python代码,可以帮助你尽快入门:

代码

python 复制代码
# encoding=utf-8

from browsermobproxy import Server
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
import time
import json

# 启动BrowserMob Proxy
server = Server(r"E:\其他源码\browsermob-proxy-2.1.4-bin\browsermob-proxy-2.1.4\bin\browsermob-proxy.bat")  # 替换为BrowserMob Proxy的路径
server.start()

# 使用网络代理,如果你需要的话
# proxy = server.create_proxy({"httpProxy":"127.0.0.1:7890"})
proxy = server.create_proxy()

# 设置Chrome WebDriver
chrome_service = Service(r"E:\其他源码\chromedriver-win64\chromedriver.exe")  # 替换为WebDriver的路径

chrome_options = Options()
chrome_options.add_argument("--proxy-server={0}".format(proxy.proxy))

# 解决 您的连接不是私密连接问题
chrome_options.add_argument('--ignore-certificate-errors')
chrome_options.add_argument('--ignore-urlfetcher-cert-requests')

driver = webdriver.Chrome(service=chrome_service, options=chrome_options)


# 设置代理捕获HAR数据
proxy.new_har("comic_order", options={'captureHeaders': True, 'captureContent': True})
# 访问链接A(需要触发POST请求的页面)
driver.get(f"https://xxxxxxxxxxxxxx")  # 替换为实际的初始页面URL

# 可能需要等待页面加载
time.sleep(15)  # 可以根据需要调整等待时间

# 处理可能的弹出窗口操作,手动或自动化操作,取决于您的具体网站逻辑
# 例如,假设点击某个按钮会弹出窗口
# driver.find_element(By.ID, "your_button_id").click()  # 根据具体情况选择元素并点击

# 你可能只需要每次抓取众多响应中的某个接口数据
target_url = 'http://xxxxxxxxxxx'

# 获取并分析HAR数据
har_data = proxy.har
for entry in har_data['log']['entries']:
    req = entry['request']
    url = req['url']
    if url == target_url and entry['response']:
        try:
            # 获取接口数据
            result = json.loads(entry['response']['content']['text'])  # 解析为JSON格式
            print("解析后的JSON内容:", result)

            # 加入 接下来需要对数据进行处理的操作
            print('do something?')

        except json.JSONDecodeError as e:
            print("解析JSON失败:", e)
        except Exception as e:
            print(e)

        break

# 关闭浏览器和代理服务器
driver.quit()
server.stop()
相关推荐
Cherry的跨界思维12 小时前
25、AI时代的数字生存战:爬虫与反爬虫的数据争夺全面解析
人工智能·爬虫·机器学习·python爬虫·python办公自动化·python反爬虫
测试人社区-千羽12 小时前
智能化测试:AI驱动的测试覆盖率提升方法论与实战路径
运维·人工智能·测试工具·程序人生·自动化·测试覆盖率
我可以将你更新哟16 小时前
【爬虫】使用协程(asyncio)爬取旁边桌面图片并存入数据
爬虫
我可以将你更新哟17 小时前
【爬虫】爬取斗罗大陆漫画,面向对象封装(存入数据库)
数据库·爬虫·python
Wpa.wk18 小时前
接口测试-Postman接口测试小练习-初级
经验分享·测试工具·接口测试·postman
潘达斯奈基~19 小时前
spark性能优化6:内存管理
大数据·测试工具·性能优化·spark
可可南木1 天前
ICT测试日志 --5--日志记录的格式 下
功能测试·测试工具·pcb工艺
合兴软件@1 天前
芯片适配快讯:合兴软件ISDT成功适配瑞萨RH850全系列MCU
测试工具·车载系统·时序数据库·嵌入式实时数据库
傻啦嘿哟1 天前
Docker部署Scrapy集群:爬虫容器化实战指南
爬虫·scrapy·docker
小白学大数据1 天前
利用 Selenium 与 BeautifulSoup 构建链家动态爬虫
开发语言·爬虫·selenium·beautifulsoup