ubuntu上安装firefox geckodriver 实现爬虫

缘由:当时在windows 上运行chrom 的时候 发现要找到 浏览器和 webdirver 相匹配的 版本比较麻烦,当时搞了大半天才找到并安装好。

这次在ubuntu上尝试用firefox 实现爬虫

文章分为三个部分:

  1. 环境搭建
  2. 浏览器弹窗输入用户名,密码的解决方法
  3. web 页面元素的获取

1.环境搭建

1)安装firefox 浏览器

复制代码
apt-get install firefox

2)安装 python 相关

apt-get install python3.8
apt-get install python3-pip
python3 -m pip install selenium

3)将github 上的geckdirver 下载下来 放到 Ubuntu目录下待用
	github 地址:https://github.com/mozilla/geckodriver/releases

	tar -zxvf geckodriver-v0.33.0-linux-aarch64.tar.gz
	mv geckodriver /usr/local/share/
	ln -s /usr/local/share/geckodriver /usr/local/bin/geckodriver
	ln -s /usr/local/share/geckodriver /usr/bin/geckodriver

4). 编写测试文件

复制代码
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver import ActionChains
from selenium.webdriver.support.select import Select
from selenium.webdriver.firefox.options import Options
import os
import time
 
options = Options()
options.add_argument('-headless') # 无头参数
browser = webdriver.Firefox(options=options)
browser.get('https://blog.csdn.net')
print(browser.title)
browser.close()

测试过程中可能会遇到相关软件的版本不匹配,网上搜搜,都会有解决方法,我也是边搜边解决,具体解决问题忘记,而且每个人的情况有差异

二. 浏览器弹窗输入用户名,密码的解决方法

有些web程序使用浏览器自带的弹窗,让用户填写用户名密码来实现登录,但是对于爬虫来说,我们定位不到元素,所以也就无法输入用户名,密码,解决方法如下

url= http://用户:密码@登录ip:端口 没有端口的不用填

例:

url = 'http://admin:12345@192.168.1.254'

browser.get(url)

这样就可以正常登录了

三. 页面元素获取

复制代码
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver import ActionChains
from selenium.webdriver.support.select import Select
from selenium.webdriver.firefox.options import Options
import os
import time


url = 'http://admin:12345@192.168.1.254'

# 登录路由器管理页面  
def login():
    global browser,url,name,passwd
    try:
        # 实例化一个浏览器对象(传入浏览器的驱动程序)
        options = Options()
        options.add_argument('-headless') # 无头参数
        browser = webdriver.Firefox(options=options)
        browser.get(url)
        time.sleep(3)
        print(browser.title)
        iframe_sub0 = browser.find_elements(By.XPATH, '/html/frameset/frame[1]') 
        #print(len(iframe_sub0))
        browser.switch_to.frame(iframe_sub0[0])
        browser.find_elements(By.XPATH,'//*[@id="mynav7"]/span')[0].click()
        time.sleep(1)
        browser.switch_to.parent_frame()
        iframe_sub1 = browser.find_elements(By.XPATH, '/html/frameset/frame[2]')
        #print(len(iframe_sub1))
        browser.switch_to.frame(iframe_sub1[0])
        time.sleep(1)
        iframe_sub2 = browser.find_elements(By.XPATH, '/html/body/div/iframe')
        #print(len(iframe_sub2))
        browser.switch_to.frame(iframe_sub2[0])
        time.sleep(1)
        net_info = browser.find_elements(By.XPATH, '/html/body/pre')
        #print(len(net_info)) 
        print(net_info[0].text)        
        return 0
    except Exception as e:
        print(e)
        print("登录失败,请检查,用户名或者密码是否正确 !")
        return 1
if __name__=="__main__":
    login()    
相关推荐
Caco_D6 天前
一行代码抓遍全网 20 个热榜!Aneiang.Pa 4.0 发布 — 极简 .NET 爬虫库
爬虫·.net
太岁又沐风10 天前
复现并修掉ART hook框架 Pine 调用原方法时的偶发 SIGSEGV
爬虫
隔窗听雨眠11 天前
大模型加爬虫上篇:技术融合与架构革新
爬虫·架构
张飞飞飞飞飞11 天前
Tmux命令使用教程
linux·服务器·ubuntu
Super Scraper11 天前
如何批量抓取 TikTok 数据而不被封锁?完整指南
爬虫·ai·自动化·抖音·tiktok·ai agent
深蓝电商API12 天前
自动化录屏 + 截图:打造爬虫调试的上帝视角
爬虫
tang7778912 天前
市场调研自动化采集架构:基于住宅IP轮换的APP数据抓取与反风控方案
爬虫·动态代理ip·爬虫代理ip·爬虫动态ip·住宅代理ip·动态住宅ip
数据知道12 天前
指纹浏览器环境的导入、导出、快照与云端同步机制
爬虫·数据采集·指纹浏览器
星川皆无恙12 天前
大数据k-means聚类算法:基于k-means聚类算法+NLP微博舆情数据爬虫可视化分析推荐系统(新版)
大数据·人工智能·爬虫·算法·机器学习·自然语言处理·kmeans