2024/3/24--爬虫库

1.常用的爬虫库

(1)在setting的project里面点击Python Interpreter

(2)常用的爬虫库有

python 复制代码
import requests
//用途:用于发送HTTP请求。

from bs4 import BeautifulSoup
//用于从HTML或XML文档中提取数据。

import scrapy
//一个功能强大的爬虫框架,用于大规模的数据提取。

from selenium import webdriver
//用途:用于自动化浏览器操作,如JavaScript渲染页面的爬取。

from pyquery import PyQuery as pq
//用途:类似于jQuery的选择器,用于解析和操作HTML文档。

from lxml import etree
//于处理XML和HTML文档。

import tesserocr
//用于OCR(光学字符识别),从图像中提取文本。

import aiohttp
//异步HTTP客户端/服务器框架。

3.如果在setting里面下载不了,就直接切换到cmd窗口

任何目录下打开命令行窗口(例如Windows的命令提示符或Linux/macOS的终端),然后输入python -m pip install --upgrade pip命令。不需要特定的目录,只要您的Python环境已正确配置并且pip可用即可。

java 复制代码
python -m pip install --upgrade pip
python -m pip install --index-url=https://pypi.org/simple/ pyquery

4.然后打开cmd窗口pip安装

java 复制代码
pip install requests beautifulsoup4 scrapy selenium pyquery lxml tesserocr aiohttp
相关推荐
WeeJot嵌入式11 小时前
爬虫对抗:ZLibrary反爬机制实战分析
爬虫·python·网络安全·playwright·反爬机制
进击的雷神12 小时前
攻克JSON嵌套HTML的双重解析难题:基于多层数据提取的精准爬虫设计
爬虫·html·json·spiderflow
前端小趴菜~时倾12 小时前
自我提升-python爬虫学习:day05-函数与面向对象编程
爬虫·python·学习
进击的雷神13 小时前
攻克JSON接口分页与对象数组处理:基于AJAX数据源的精准博客爬虫设计
爬虫·ajax·json·spiderflow
vx_biyesheji000116 小时前
计算机毕业设计:Python汽车数据分析系统 Django框架 requests爬虫 可视化 车辆 数据分析 大数据 机器学习(建议收藏)✅
爬虫·python·算法·机器学习·django·汽车·课程设计
小白学大数据17 小时前
效率翻倍:Scrapy-Redis 分布式全站爬虫并发优化进阶
redis·分布式·爬虫·scrapy
tang777891 天前
小红书平台用什么代理 IP 比较好?2026年3月实测数据 + 选型推荐
网络·爬虫·python·网络协议·tcp/ip·数据挖掘·ip
进击的雷神1 天前
突破POST分页与IP封锁:基于表单提交和代理转发的新闻爬虫设计
爬虫·网络协议·tcp/ip
小邓睡不饱耶2 天前
东方财富股吧话题爬虫实现:从接口请求到Excel数据落地
爬虫·excel
进击的雷神2 天前
攻克动态列表页结构:基于ID与URL双字段协同提取的精准爬虫设计
爬虫·spiderflow