ubuntu上安装firefox geckodriver 实现爬虫

缘由:当时在windows 上运行chrom 的时候 发现要找到 浏览器和 webdirver 相匹配的 版本比较麻烦,当时搞了大半天才找到并安装好。

这次在ubuntu上尝试用firefox 实现爬虫

文章分为三个部分:

  1. 环境搭建
  2. 浏览器弹窗输入用户名,密码的解决方法
  3. web 页面元素的获取

1.环境搭建

1)安装firefox 浏览器

复制代码
apt-get install firefox

2)安装 python 相关

apt-get install python3.8
apt-get install python3-pip
python3 -m pip install selenium

3)将github 上的geckdirver 下载下来 放到 Ubuntu目录下待用
	github 地址:https://github.com/mozilla/geckodriver/releases

	tar -zxvf geckodriver-v0.33.0-linux-aarch64.tar.gz
	mv geckodriver /usr/local/share/
	ln -s /usr/local/share/geckodriver /usr/local/bin/geckodriver
	ln -s /usr/local/share/geckodriver /usr/bin/geckodriver

4). 编写测试文件

复制代码
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver import ActionChains
from selenium.webdriver.support.select import Select
from selenium.webdriver.firefox.options import Options
import os
import time
 
options = Options()
options.add_argument('-headless') # 无头参数
browser = webdriver.Firefox(options=options)
browser.get('https://blog.csdn.net')
print(browser.title)
browser.close()

测试过程中可能会遇到相关软件的版本不匹配,网上搜搜,都会有解决方法,我也是边搜边解决,具体解决问题忘记,而且每个人的情况有差异

二. 浏览器弹窗输入用户名,密码的解决方法

有些web程序使用浏览器自带的弹窗,让用户填写用户名密码来实现登录,但是对于爬虫来说,我们定位不到元素,所以也就无法输入用户名,密码,解决方法如下

url= http://用户:密码@登录ip:端口 没有端口的不用填

例:

url = 'http://admin:12345@192.168.1.254'

browser.get(url)

这样就可以正常登录了

三. 页面元素获取

复制代码
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver import ActionChains
from selenium.webdriver.support.select import Select
from selenium.webdriver.firefox.options import Options
import os
import time


url = 'http://admin:12345@192.168.1.254'

# 登录路由器管理页面  
def login():
    global browser,url,name,passwd
    try:
        # 实例化一个浏览器对象(传入浏览器的驱动程序)
        options = Options()
        options.add_argument('-headless') # 无头参数
        browser = webdriver.Firefox(options=options)
        browser.get(url)
        time.sleep(3)
        print(browser.title)
        iframe_sub0 = browser.find_elements(By.XPATH, '/html/frameset/frame[1]') 
        #print(len(iframe_sub0))
        browser.switch_to.frame(iframe_sub0[0])
        browser.find_elements(By.XPATH,'//*[@id="mynav7"]/span')[0].click()
        time.sleep(1)
        browser.switch_to.parent_frame()
        iframe_sub1 = browser.find_elements(By.XPATH, '/html/frameset/frame[2]')
        #print(len(iframe_sub1))
        browser.switch_to.frame(iframe_sub1[0])
        time.sleep(1)
        iframe_sub2 = browser.find_elements(By.XPATH, '/html/body/div/iframe')
        #print(len(iframe_sub2))
        browser.switch_to.frame(iframe_sub2[0])
        time.sleep(1)
        net_info = browser.find_elements(By.XPATH, '/html/body/pre')
        #print(len(net_info)) 
        print(net_info[0].text)        
        return 0
    except Exception as e:
        print(e)
        print("登录失败,请检查,用户名或者密码是否正确 !")
        return 1
if __name__=="__main__":
    login()    
相关推荐
码农小卡拉10 小时前
Ubuntu22.04 安装 Docker 及 Docker Compose v2 详细教程
ubuntu·docker·容器
EndingCoder15 小时前
属性和参数装饰器
java·linux·前端·ubuntu·typescript
2501_9481201516 小时前
教育资源网站的爬虫采集与个性化学习推荐
爬虫·学习
生活很暖很治愈18 小时前
Linux基础指令——【2】
linux·服务器·后端·ubuntu
胖少年20 小时前
Ubuntu 24.04 LTS apt autoremove 误删依赖致程序崩溃 解决与预防笔记
linux·笔记·ubuntu
xiaozenbin20 小时前
关于tomcat9页面部分乱码的处理
前端·tomcat·firefox
Source.Liu21 小时前
【办公平台】在 Ubuntu 上部署 Synapse Matrix 服务器(本地网络版)
服务器·ubuntu
2501_948120151 天前
深度学习在爬虫图片数据内容识别中的应用
人工智能·爬虫·深度学习
爱写bug的野原新之助1 天前
协程爬虫案例: 王者荣耀英雄皮肤图片爬取
爬虫
煤炭里de黑猫1 天前
Python爬虫开发实战指南:从基础到高级工具应用
人工智能·爬虫