2024/3/24--爬虫库

1.常用的爬虫库

(1)在setting的project里面点击Python Interpreter

(2)常用的爬虫库有

python 复制代码
import requests
//用途:用于发送HTTP请求。

from bs4 import BeautifulSoup
//用于从HTML或XML文档中提取数据。

import scrapy
//一个功能强大的爬虫框架,用于大规模的数据提取。

from selenium import webdriver
//用途:用于自动化浏览器操作,如JavaScript渲染页面的爬取。

from pyquery import PyQuery as pq
//用途:类似于jQuery的选择器,用于解析和操作HTML文档。

from lxml import etree
//于处理XML和HTML文档。

import tesserocr
//用于OCR(光学字符识别),从图像中提取文本。

import aiohttp
//异步HTTP客户端/服务器框架。

3.如果在setting里面下载不了,就直接切换到cmd窗口

任何目录下打开命令行窗口(例如Windows的命令提示符或Linux/macOS的终端),然后输入python -m pip install --upgrade pip命令。不需要特定的目录,只要您的Python环境已正确配置并且pip可用即可。

java 复制代码
python -m pip install --upgrade pip
python -m pip install --index-url=https://pypi.org/simple/ pyquery

4.然后打开cmd窗口pip安装

java 复制代码
pip install requests beautifulsoup4 scrapy selenium pyquery lxml tesserocr aiohttp
相关推荐
waterHBO几秒前
( github actions + workflow 01 ) 实现爬虫自动化,每2小时爬取一次澎湃新闻
爬虫·自动化·github
q5673152342 分钟前
Java使用Selenium反爬虫优化方案
java·开发语言·分布式·爬虫·selenium
xbotcoding2 小时前
Scrapeless Crawl:规模化网络数据抓取与爬行解决方案
爬虫
不叫猫先生5 小时前
Bright Data网页抓取工具实战:BOSS直聘爬虫 + PandasAI分析洞察前端岗位市场趋势
爬虫·python·ai·代理
华科云商xiao徐6 小时前
用Rust如何构建高性能爬虫
爬虫·rust
华科云商xiao徐7 小时前
Go语言高并发爬虫程序源码
爬虫
一个天蝎座 白勺 程序猿9 小时前
Python爬虫(54)Python数据治理全攻略:从爬虫清洗到NLP情感分析的实战演进
爬虫·python·自然语言处理
一个天蝎座 白勺 程序猿1 天前
Python爬虫(53)Python爬虫数据清洗与分析实战:Pandas+Great Expectations构建可信数据管道
爬虫·python·pandas
weixin_377634841 天前
【python异步多线程】异步多线程爬虫代码示例
开发语言·爬虫·python
广州正荣1 天前
Scrapy-Redis分布式爬虫架构的可扩展性与容错性增强:基于微服务与容器化的解决方案
人工智能·爬虫·科技