2024/3/24--爬虫库

1.常用的爬虫库

(1)在setting的project里面点击Python Interpreter

(2)常用的爬虫库有

python 复制代码
import requests
//用途:用于发送HTTP请求。

from bs4 import BeautifulSoup
//用于从HTML或XML文档中提取数据。

import scrapy
//一个功能强大的爬虫框架,用于大规模的数据提取。

from selenium import webdriver
//用途:用于自动化浏览器操作,如JavaScript渲染页面的爬取。

from pyquery import PyQuery as pq
//用途:类似于jQuery的选择器,用于解析和操作HTML文档。

from lxml import etree
//于处理XML和HTML文档。

import tesserocr
//用于OCR(光学字符识别),从图像中提取文本。

import aiohttp
//异步HTTP客户端/服务器框架。

3.如果在setting里面下载不了,就直接切换到cmd窗口

任何目录下打开命令行窗口(例如Windows的命令提示符或Linux/macOS的终端),然后输入python -m pip install --upgrade pip命令。不需要特定的目录,只要您的Python环境已正确配置并且pip可用即可。

java 复制代码
python -m pip install --upgrade pip
python -m pip install --index-url=https://pypi.org/simple/ pyquery

4.然后打开cmd窗口pip安装

java 复制代码
pip install requests beautifulsoup4 scrapy selenium pyquery lxml tesserocr aiohttp
相关推荐
在放️9 小时前
Python 爬虫 · 第三方代理接入与合规使用
开发语言·爬虫·python
隔窗听雨眠10 小时前
大模型加爬虫中篇:工程实践与应用场景
爬虫
赵大大宝10 小时前
反爬虫从入门到精通:构建坚不可摧的数据防线
爬虫
深蓝电商API12 小时前
Selenium 5.0 全新架构解析:值得升级吗?
爬虫·selenium
深蓝电商API20 小时前
移动端浏览器自动化:Playwright for Android 实战
爬虫·playwright
如烟花的信页20 小时前
外贸*登录逆向分析
javascript·爬虫·python·js逆向
隔窗听雨眠1 天前
大模型加爬虫下篇:合规边界与未来趋势
爬虫·大模型
云樱梦海1 天前
2025 年全国高考投档线数据批量爬取实战:从 31 省教育考试院提取原始 PDF/Excel
爬虫·高考·投档线
2601_951645782 天前
如何优雅地使用c语言编写爬虫
c语言·爬虫·网络请求·字符串处理·cspider
在放️2 天前
Python 爬虫 · 模拟浏览器跳转 - 防盗链处理
爬虫·python