(Win11系统)搭建Python爬虫环境

详细安装步骤
  1. 安装Python

    • 访问Python官网下载最新的Windows安装程序,Python

    • 运行下载的安装程序。非常重要的一步是:勾选 "Add Python to PATH" 选项,这能避免后续在命令行中运行Python的麻烦。

    • 完成安装后,打开命令提示符(CMD)或Windows PowerShell,输入 python --version。如果显示Python版本号,说明安装成功。

  2. 选择并安装IDE

    • PyCharm :适合大型项目,功能全面。可从 JetBrains官网下载安装pycharm

或者https://www.alipan.com/t/0vRrQJWj8BmK0OJAzrQW

    • VSCode :轻量灵活,通过安装Python插件提供强大功能。从 VSCode官网下载安装后,在扩展商店搜索并安装 "Python" 插件即可Visual Studio Code
  1. 安装包管理工具 (pip)

    pip通常会随Python自动安装。可以通过在命令行输入 pip --version来验证。

Python爬虫的强大功能依赖于各种库。你可以使用pip命令一键安装这些核心库:

pip install requests selenium beautifulsoup4 lxml pandas pymysql pymongo redis

|----------------|-----------------------------------|
| 库名 | 主要用途 |
| requests | 发送HTTP请求,获取网页内容。是爬虫最基础的库 |
| urllib | Python内置的HTTP请求库,但requests更简单易用 |
| BeautifulSoup4 | 解析HTML/XML文档,配合lxml解析器能高效提取数据 |
| lxml | 高性能的HTML/XML解析库,支持XPath |
| pyquery | 类似jQuery语法,如果你熟悉jQuery会感到很亲切 |
| selenium | 模拟真实浏览器操作,用于处理JavaScript动态加载的页面 |
| scrapy | 专业的爬虫框架,适合构建大型、复杂的爬虫项目 |
| pandas | 数据处理和分析,用于清洗、分析爬取到的结构化数据 |
| pymysql | 操作MySQL数据库 |
| pymongo | 操作MongoDB数据库 |
| redis | 操作Redis数据库,常用于分布式爬虫或缓存 |

  • 验证库安装 :安装完库后,可以打开Python交互环境,输入import requests等命令,若无报错则说明安装成功。

  • 配置浏览器驱动(针对Selenium) :如果你需要使用Selenium控制Chrome浏览器,需下载与你的Chrome浏览器版本匹配的 ChromeDriver

    • 查看Chrome版本:在浏览器地址栏输入 chrome://version/。

    • 下载对应版本的ChromeDriver,可以从 官方下载地址或淘宝镜像获取chromedriver

    • 将下载的chromedriver.exe文件放在Python安装目录下,或任何在系统PATH环境变量中的目录里。

  • 使用虚拟环境(推荐) :为避免不同项目间的库版本冲突,推荐使用虚拟环境。可以通过 pip install pipenv安装Pipenv,然后在项目目录下使用 pipenv install创建隔离环境。

简单示例验证

环境配置好后,可以编写一个简单的爬虫脚本进行测试:

python 复制代码
import requests
from bs4 import BeautifulSoup

url = 'https://httpbin.org/json'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
print(soup.prettify())
相关推荐
MageGojo3 分钟前
基于 API Zero 平台集成 TTS 语音合成服务的技术实践
python·语音合成·tts·restful api·api集成
YsyaaabB27 分钟前
LangChain作业二---多语言翻译Prompt
开发语言·python·langchain
HappyAcmen29 分钟前
2.PDF长文档完整读取
python·pdf·rag
装不满的克莱因瓶29 分钟前
掌握感知器的学习原理
人工智能·python·神经网络·算法·ai·卷积神经网络
py小王子34 分钟前
Nature 期刊图复现|Python 实现双轴高维直方图与重叠分布图
python·nature·期刊图复现
小熊Coding38 分钟前
从零打造一款回合制 RPG 游戏:基于 Pygame 的《塔影守卫》全解析
python·游戏·计算机专业·pygame·rpg·2d游戏
myenjoy_11 小时前
串口采集与 Modbus RTU——字节流里的时间敏感博弈
网络·python·网络协议·tcp/ip
易舟云财务软件1 小时前
财务 AI Python 实战:从自动化报表到智能风控的应用场景
人工智能·python·自动化
武雄(小星Ai)1 小时前
一个模型干五件事:拆解 NVIDIA Cosmos 3 的物理 AI 全模态架构
人工智能·python·agent
Mr.Daozhi2 小时前
跨境电商选品完整流水线:Google Trends筛词+Meta广告分析,CLI工具设计实战
开发语言·爬虫·python·跨境电商·工具链·选品