无界面 centOS 中使用 DrissionPage

无界面 centOS 中使用 DrissionPage

    • [1. centos 安装 chrome](#1. centos 安装 chrome)
    • [2. python 代码](#2. python 代码)
    • DrissionPage简介

某电影网站使用了加密js,无法直接从主页上爬取电影信息,只好借助 selenium 等工具。selenium 需要在服务器上安装浏览器和对应的 driver。我的服务器是无界面 centOS,未找到对应的办法。偶然看到 DrissionPage,一个国人开发的网页自动化工具,直接使用系统中的 chromium(可以指定chrome、edge),不需要 driver。尝试了一下,可以解决问题。

需要解决两个事情:

  • centOS 上安装安装 chrome
  • DrissionPage 使用无头模块

1. centos 安装 chrome

添加 Chrome 的 Yum Repository:

sh 复制代码
sudo wget https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm

安装下载的 rpm 包:

sh 复制代码
sudo yum localinstall google-chrome-stable_current_x86_64.rpm

如果出现依赖问题,执行以下命令来解决:

sh 复制代码
sudo yum install lsb

默认安装位置:/opt/google/chrome/google-chrome,可以通过在终端中输入 google-chrome-stable 来启动 Chrome 浏览器

2. python 代码

安装 DrissionPage 包

sh 复制代码
pip install DrissionPage

实现代码如下:

python 复制代码
# -*- coding: utf-8 -*-
""" centOS 使用 DrissionPage """
from collections import namedtuple

from DrissionPage import ChromiumPage, ChromiumOptions

Movie = namedtuple('Movie', 'name url des date')


def crawl_dy2018():
	# 在 centOS 中使用无头模式的配置
    co = ChromiumOptions()
    co.set_browser_path(r'/opt/google/chrome/google-chrome') # 设置系统中 chrome 的位置
    co.set_argument('--incognito')
    co.set_argument('--no-sandbox')
    co.headless() # 无头模块

	# 具体爬取方法
    movies = []
    page = ChromiumPage(co)
    page.get('https://dy2018.com/')
    items = page.eles('.co_content222')
    if items:
        for item in [items[0], items[2]]:
            for li in item.eles('tag:li'):
                a = li.ele('tag:a')
                span = li.ele('tag:span')
                movies.append(Movie(a.text, a.link, '', span.text))
    # page.quit()

    return sorted(movies, key=lambda movie: movie.date, reverse=True)

DrissionPage简介

DrissionPage 是一个基于 python 的网页自动化工具。

它既能控制浏览器,也能收发数据包,还能把两者合而为一。

可兼顾浏览器自动化的便利性和 requests 的高效率。

它功能强大,内置无数人性化设计和便捷功能。

它的语法简洁而优雅,代码量少,对新手友好。

详情及使用方法见官网

相关推荐
曲幽3 小时前
刚部署的 LibreTranslate 频频翻车?我掏出了 20 年前的 StarDict 词典,用 FastAPI 搭了个本地词典翻译 API
python·fastapi·web·translate·goldendict·libretranslate·stardict·pystardict
荣码3 小时前
用Streamlit给AI应用套个界面,10行代码出Web页面
java·python
兵慌码乱13 小时前
基于Python+PyQt5+SQLite的药房管理系统实现:事务一致性与界面解耦全流程解析
python·sqlite·信号与槽·pyqt5·数据库设计·桌面应用开发·事务处理
金銀銅鐵14 小时前
[Python] 体验用欧几里得算法计算最大公约数的过程
python·数学
FreakStudio18 小时前
W55MH32L-EVB 上手测评:硬件 TCP/IP 加持的以太网单片机,MicroPython 零门槛开发
python·单片机·嵌入式·大学生·面向对象·并行计算·电子diy·电子计算机
用户03321266636719 小时前
使用 Python 从零创建 Word 文档
python
Csvn1 天前
Python 两大经典坑点 —— 可变默认参数 & 闭包延迟绑定
后端·python
曲幽1 天前
别再用网页翻译看源码了!你的私人翻译神器LibreTranslate,部署避坑指南来了
python·docker·web·pot·translate·libretranslate·arogstranslate
用户556918817531 天前
#从脚本到独立程序:Python + Playwright 批量抓取的完整踩坑记录
python·自动化运维
兵慌码乱2 天前
基于 MediaPipe 与 PySide2 的手势交互音乐控制系统实现:轻量化视觉交互全流程解析
python·opencv·计算机视觉·人机交互·手势识别·mediapipe·pyside2