对于 0 基础想入门爬虫的小伙伴来说,第一步就是搞定环境搭建。爬虫入门最经典的组合是 Python+requests,Python 是核心编程语言,requests 是处理网络请求的必备库。这篇教程会把每一步拆解得明明白白,哪怕你完全没接触过编程,跟着做也能顺利搞定!
一、先搞懂:为什么选 Python+requests?
- Python 语法简单直观,像 "伪代码" 一样容易理解,0 基础也能快速上手。
- requests 库是爬虫的 "神器",能轻松实现网页请求、数据获取,不用写复杂的底层代码。
- 两者搭配轻量高效,入门成本极低,是爬虫新手的首选组合。
二、第一步:安装 Python(核心环境)
1. 下载 Python 安装包
- 打开官网:Python 官方下载地址(无需科学上网,直接访问)。
- 选择版本:优先下载 Python 3.9~3.11 之间的版本(兼容性最好,太新的版本可能和部分库冲突)。
- 注意系统:根据自己的电脑选择(Windows 选 Windows Installer,Mac 选 macOS Installer)。
2. 安装 Python(关键步骤!)
-
Windows 系统:
- 双击下载的 .exe 安装包,第一步必须勾选 "Add Python.exe to PATH"(自动添加环境变量,否则后续无法直接在命令行调用 Python)。
- 点击 "Install Now" 默认安装,或 "Customize Installation" 自定义安装路径(建议安装在 C 盘以外的盘符,比如 D:\Python310)。
- 安装完成后,点击 "Close" 关闭即可。
-
Mac 系统:
- 双击 .pkg 安装包,按照提示一步步点击 "继续",默认安装路径即可。
- 注意:Mac 自带 Python 2.x 版本,但爬虫需要 Python 3.x,安装完成后需用 "python3" 命令调用(后续会讲)。
3. 验证 Python 是否安装成功
- 打开命令行工具:
- Windows:按下 Win+R,输入 cmd 回车,打开命令提示符。
- Mac:打开 "终端"(在启动台的 "其他" 文件夹里)。
- 输入命令:
- Windows 输入:
python --version(注意是两个短横线)。 - Mac 输入:
python3 --version。
- Windows 输入:
- 若显示类似 "Python 3.10.12" 的版本号,说明安装成功!
三、第二步:安装 requests 库(爬虫必备库)
Python 安装完成后,通过 pip(Python 自带的包管理工具)就能快速安装 requests 库,全程只需 1 行命令。
1. 打开命令行工具
- 还是用刚才验证 Python 的命令提示符(Windows)或终端(Mac)。
2. 执行安装命令
-
Windows 系统 :直接输入以下命令,回车:
plaintext
pip install requests -
Mac 系统 :输入以下命令(因为默认是 Python 2.x 的 pip,需要指定 Python 3 的 pip):
plaintext
pip3 install requests
3. 解决安装慢 / 失败的问题
-
若出现下载卡顿、超时,是因为默认下载源在国外,换成国内镜像源即可:
-
Windows 命令: plaintext
pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple -
Mac 命令: plaintext
pip3 install requests -i https://pypi.tuna.tsinghua.edu.cn/simple
-
-
等待命令执行完成,出现 "Successfully installed requests-xxx" 提示,说明 requests 安装成功!
四、第三步:验证环境是否能正常使用(关键!)
环境搭建好后,必须验证一下是否能正常运行爬虫代码,避免后续踩坑。
1. 打开 Python 交互环境
- 命令行输入:
- Windows:
python - Mac:
python3
- Windows:
- 进入后会显示 Python 版本号,且光标变成
>>>,说明进入了交互模式。
2. 运行测试代码
在 >>> 后依次输入以下 3 行代码,每行输入完按回车:
python
运行
import requests # 导入 requests 库
response = requests.get("https://www.baidu.com") # 向百度发送请求
print(response.status_code) # 打印响应状态码
3. 验证结果
- 若输出
200,说明请求成功!环境搭建完全没问题。 - 若没报错但输出其他数字(如 403、500),或报错 "ModuleNotFoundError: No module named 'requests'",请回头检查步骤:
- 是否勾选了 "Add Python.exe to PATH"。
- requests 库是否安装成功(重新执行安装命令)。
五、可选:安装代码编辑器(推荐新手用 VS Code)
虽然用命令行能写代码,但编辑器更直观、易操作,推荐安装 VS Code(免费、轻量、支持 Python 插件):
- 下载:VS Code 官网,按系统选择版本安装。
- 安装 Python 插件:打开 VS Code 后,点击左侧 "扩展"(图标是方块),搜索 "Python",安装第一个(微软官方插件)。
- 新建文件:点击 "文件→新建文件",保存为
test.py(后缀必须是 .py),粘贴上面的测试代码,点击右上角的运行按钮,即可看到结果。
六、常见问题排查(新手必看)
-
命令行输入 python 提示 "不是内部或外部命令":
- 原因:安装 Python 时没勾选 "Add Python.exe to PATH"。
- 解决:重新运行安装包,选择 "Modify",勾选 "Add Python.exe to PATH",或手动添加环境变量(网上搜 "Python 环境变量配置 + 你的系统",有详细步骤)。
-
pip install 提示 "pip 不是内部或外部命令":
- 原因:pip 没被添加到环境变量(和 Python 同理)。
- 解决:Windows 可直接用
python -m pip install requests替代pip install requests;Mac 用python3 -m pip install requests。
-
安装 requests 时提示权限不足(Mac/Linux):
- 解决:命令后加
--user,如pip3 install requests --user -i 镜像源。
- 解决:命令后加
总结
到这里,Python+requests 爬虫环境就搭建完成了!这是爬虫入门的第一步,接下来你可以学习 requests 的基本用法(如获取网页内容、解析数据),慢慢开启爬虫之旅。