2024/3/24--爬虫库

1.常用的爬虫库

(1)在setting的project里面点击Python Interpreter

(2)常用的爬虫库有

python 复制代码
import requests
//用途:用于发送HTTP请求。

from bs4 import BeautifulSoup
//用于从HTML或XML文档中提取数据。

import scrapy
//一个功能强大的爬虫框架,用于大规模的数据提取。

from selenium import webdriver
//用途:用于自动化浏览器操作,如JavaScript渲染页面的爬取。

from pyquery import PyQuery as pq
//用途:类似于jQuery的选择器,用于解析和操作HTML文档。

from lxml import etree
//于处理XML和HTML文档。

import tesserocr
//用于OCR(光学字符识别),从图像中提取文本。

import aiohttp
//异步HTTP客户端/服务器框架。

3.如果在setting里面下载不了,就直接切换到cmd窗口

任何目录下打开命令行窗口(例如Windows的命令提示符或Linux/macOS的终端),然后输入python -m pip install --upgrade pip命令。不需要特定的目录,只要您的Python环境已正确配置并且pip可用即可。

java 复制代码
python -m pip install --upgrade pip
python -m pip install --index-url=https://pypi.org/simple/ pyquery

4.然后打开cmd窗口pip安装

java 复制代码
pip install requests beautifulsoup4 scrapy selenium pyquery lxml tesserocr aiohttp
相关推荐
xinxinhenmeihao8 小时前
爬虫如何使用代理IP才能不被封号?有什么解决方案?
爬虫·网络协议·tcp/ip
2501_9388101115 小时前
什么IP 适用爬虫 采集相关业务
爬虫·网络协议·tcp/ip
第二只羽毛1 天前
主题爬虫采集主题新闻信息
大数据·爬虫·python·网络爬虫
0***h9421 天前
初级爬虫实战——麻省理工学院新闻
爬虫
是有头发的程序猿1 天前
Python爬虫实战:面向对象编程在淘宝商品数据抓取中的应用
开发语言·爬虫·python
Onebound_Ed1 天前
Python爬虫进阶:面向对象设计构建高可维护的1688商品数据采集系统
开发语言·爬虫·python
深蓝电商API2 天前
爬虫登录态维护高级技巧:Cookie 池 + Session 复用实战
爬虫
嫂子的姐夫2 天前
01-selenium
爬虫·python·selenium·自动化
岁忧2 天前
GoLang五种字符串拼接方式详解
开发语言·爬虫·golang
小白学大数据2 天前
基于Splash的搜狗图片动态页面渲染爬取实战指南
开发语言·爬虫·python