2024/3/24--爬虫库

1.常用的爬虫库

(1)在setting的project里面点击Python Interpreter

(2)常用的爬虫库有

python 复制代码
import requests
//用途:用于发送HTTP请求。

from bs4 import BeautifulSoup
//用于从HTML或XML文档中提取数据。

import scrapy
//一个功能强大的爬虫框架,用于大规模的数据提取。

from selenium import webdriver
//用途:用于自动化浏览器操作,如JavaScript渲染页面的爬取。

from pyquery import PyQuery as pq
//用途:类似于jQuery的选择器,用于解析和操作HTML文档。

from lxml import etree
//于处理XML和HTML文档。

import tesserocr
//用于OCR(光学字符识别),从图像中提取文本。

import aiohttp
//异步HTTP客户端/服务器框架。

3.如果在setting里面下载不了,就直接切换到cmd窗口

任何目录下打开命令行窗口(例如Windows的命令提示符或Linux/macOS的终端),然后输入python -m pip install --upgrade pip命令。不需要特定的目录,只要您的Python环境已正确配置并且pip可用即可。

java 复制代码
python -m pip install --upgrade pip
python -m pip install --index-url=https://pypi.org/simple/ pyquery

4.然后打开cmd窗口pip安装

java 复制代码
pip install requests beautifulsoup4 scrapy selenium pyquery lxml tesserocr aiohttp
相关推荐
油头少年_w4 小时前
Python爬虫基础
爬虫
照物华7 小时前
python中http.cookiejar和http.cookie的区别
爬虫·python·http
无敌最俊朗@8 小时前
**HTTP/HTTPS基础** - URL结构(协议、域名、端口、路径、参数、锚点) - 请求方法(GET、POST) - 请求头/响应头 - 状态码含义
爬虫·python·网络协议·http·https
漫路在线20 小时前
JS逆向-某易云音乐下载器
开发语言·javascript·爬虫·python
小生凡一1 天前
搜索引擎工作原理|倒排索引|query改写|CTR点击率预估|爬虫
爬虫·搜索引擎
CodeJourney.1 天前
基于MATLAB的生物量数据拟合模型研究
人工智能·爬虫·算法·matlab·信息可视化
一只专注api接口开发的技术猿1 天前
企业级电商数据对接:1688 商品详情 API 接口开发与优化实践
大数据·前端·爬虫
江禾藜1 天前
Python爬虫之路(14)--playwright浏览器自动化
爬虫·python·自动化
北漂老男孩1 天前
ChromeDriver进程泄漏问题分析与最佳实践解决方案
开发语言·爬虫
一个天蝎座 白勺 程序猿1 天前
Python爬虫(29)Python爬虫高阶:动态页面处理与云原生部署全链路实践(Selenium、Scrapy、K8s)
redis·爬虫·python·selenium·scrapy·云原生·k8s