DrissionPage 介绍
视频教程
DrissionPage 是一个基于 Python 的网页自动化工具,既能控制浏览器,也能收发数据包,还能把两者合而为一。它兼顾了浏览器自动化的便利性和 requests
的高效率,功能强大,内置无数人性化设计和便捷功能,语法简洁而优雅,代码量少,对新手友好。
主要特性
-
强大的自研内核:
-
无 webdriver 特征,无需为不同版本的浏览器下载不同的驱动。
-
运行速度更快,可以跨 iframe 查找元素,无需切入切出。
-
可以同时操作浏览器中的多个标签页,即使标签页为非激活状态,无需切换。
-
可以直接读取浏览器缓存来保存图片,无需用 GUI 点击另存。
-
可以对整个网页截图,包括视口外的部分(90以上版本浏览器支持)。
-
可处理非
open
状态的 shadow-root。
-
-
亮点功能:
-
极简的语法规则,集成大量常用功能,代码更优雅。
-
定位元素更加容易,功能更强大稳定。
-
无处不在的等待和自动重试功能,使不稳定的网络变得易于控制,程序更稳定,编写更省心。
-
提供强大的下载工具,操作浏览器时也能享受快捷可靠的下载功能。
-
允许反复使用已经打开的浏览器,无需每次运行从头启动浏览器,调试超方便。
-
使用 ini 文件保存常用配置,自动调用,提供便捷的设置,远离繁杂的配置项。
-
内置 lxml 作为解析引擎,解析速度成几个数量级提升。
-
使用 POM 模式封装,可直接用于测试,便于扩展。
-
高度集成的便利功能,从每个细节中体现。
-
使用示例
安装
首先,通过 pip 安装 DrissionPage 库:
sh复制
pip install drissionpage
基本使用
- 初始化浏览器:
Python复制
from drission_page import DrissionPage
# 初始化 DrissionPage
drission = DrissionPage(browser='chrome')
# 打开一个网页
drission.get('https://example.com')
- 元素定位与操作:
Python复制
# 查找元素并输入文本
input_element = drission.ele('id', 'username')
input_element.send_keys('my_username')
# 点击按钮
button = drission.ele('css selector', '.submit-button')
button.click()
- 截图功能:
Python复制
# 截取网页截图
drission.screenshot('screenshot.png')
- 数据提取:
Python复制
# 获取元素的文本内容
element_text = drission.ele('.headline').text
print(element_text)
# 获取链接的 href 属性
link = drission.ele('.link')
href = link.get_attribute('href')
print(href)
- 与其他库的集成:
Python复制
from bs4 import BeautifulSoup
# 获取页面源码
html_content = drission.content
# 使用 BeautifulSoup 解析
soup = BeautifulSoup(html_content, 'html.parser')
title = soup.title.text
print(title)
高级功能
- 登录状态的维持与数据爬取:
Python复制
# 登录网站
drission.get('https://www.example.com/login')
username = drission.ele('id', 'username')
password = drission.ele('id', 'password')
username.send_keys('your_username')
password.send_keys('your_password')
drission.ele('css selector', '.login-button').click()
# 等待页面跳转
drission.wait_for_page_loaded()
# 访问商品页面
drission.get('https://www.example.com/products')
# 提取商品信息
products = drission.ele('css selector', '.product-list').ele_list('css selector', '.product-item')
for product in products:
name = product.ele('css selector', '.product-name').text
price = product.ele('css selector', '.product-price').text
print(f'Product Name: {name}, Price: {price}')
# 关闭浏览器
drission.quit()
- 异常处理与日志记录:
Python复制
import logging
# 设置日志级别和格式
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
try:
# 尝试执行可能出错的操作
drission.get('https://exampleforum.com/nonexistent_page')
except Exception as e:
# 捕获异常,并记录相关信息
logging.error(f"Failed to access the page: {e}")
else:
logging.info("Page accessed successfully.")
finally:
# 清理资源
drission.quit()
适用场景
DrissionPage 适用于需要同时进行浏览器自动化和数据抓取的项目,特别是在处理需要登录的网站爬虫任务时,它简化了原本复杂的流程,无需深入分析网络数据包或 JavaScript 代码,开发者可以通过简洁的代码实现自动化的登录过程。这不仅提高了开发效率,还降低了出错的可能性。
希望这些信息对你有所帮助!如果你有其他问题或需要进一步的示例,请告诉我。