2024/3/24--爬虫库

1.常用的爬虫库

(1)在setting的project里面点击Python Interpreter

(2)常用的爬虫库有

python 复制代码
import requests
//用途:用于发送HTTP请求。

from bs4 import BeautifulSoup
//用于从HTML或XML文档中提取数据。

import scrapy
//一个功能强大的爬虫框架,用于大规模的数据提取。

from selenium import webdriver
//用途:用于自动化浏览器操作,如JavaScript渲染页面的爬取。

from pyquery import PyQuery as pq
//用途:类似于jQuery的选择器,用于解析和操作HTML文档。

from lxml import etree
//于处理XML和HTML文档。

import tesserocr
//用于OCR(光学字符识别),从图像中提取文本。

import aiohttp
//异步HTTP客户端/服务器框架。

3.如果在setting里面下载不了,就直接切换到cmd窗口

任何目录下打开命令行窗口(例如Windows的命令提示符或Linux/macOS的终端),然后输入python -m pip install --upgrade pip命令。不需要特定的目录,只要您的Python环境已正确配置并且pip可用即可。

java 复制代码
python -m pip install --upgrade pip
python -m pip install --index-url=https://pypi.org/simple/ pyquery

4.然后打开cmd窗口pip安装

java 复制代码
pip install requests beautifulsoup4 scrapy selenium pyquery lxml tesserocr aiohttp
相关推荐
喵手12 小时前
Python爬虫实战:HTTP缓存系统深度实战 — ETag、Last-Modified与requests-cache完全指南(附SQLite持久化存储)!
爬虫·python·爬虫实战·http缓存·etag·零基础python爬虫教学·requests-cache
喵手12 小时前
Python爬虫实战:容器化与定时调度实战 - Docker + Cron + 日志轮转 + 失败重试完整方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·容器化·零基础python爬虫教学·csv导出·定时调度
喵手14 小时前
Python爬虫实战:全站 Sitemap 自动发现 - 解析 sitemap.xml → 自动生成抓取队列的工业级实现!
爬虫·python·爬虫实战·零基础python爬虫教学·sitemap·解析sitemap.xml·自动生成抓取队列实现
iFeng的小屋15 小时前
【2026年新版】Python根据小红书关键词爬取所有笔记数据
笔记·爬虫·python
Love Song残响16 小时前
揭秘Libvio爬虫:动态接口与逆向实战
爬虫
喵手18 小时前
Python爬虫实战:构建招聘会数据采集系统 - requests+lxml 实战企业名单爬取与智能分析!
爬虫·python·爬虫实战·requests·lxml·零基础python爬虫教学·招聘会数据采集
iFeng的小屋18 小时前
【2026最新当当网爬虫分享】用Python爬取千本日本相关图书,自动分析价格分布!
开发语言·爬虫·python
数研小生19 小时前
关键词搜索京东列表API技术对接指南
大数据·数据库·爬虫
喵手19 小时前
Python爬虫实战:网页截图归档完全指南 - 构建生产级页面存证与历史回溯系统!
爬虫·python·爬虫实战·零基础python爬虫教学·网页截图归档·历史回溯·生产级方案
Blurpath住宅代理20 小时前
动态代理的五大优点:提升爬虫效率与安全性
网络·爬虫·动态ip·住宅ip·住宅代理