用 urllib 开启爬虫之门:从零掌握网页数据抓取

在数字时代,数据就是力量。作为一名社会工作者,或许你想了解城市服务资源;作为一个编程初学者,你可能希望从网页中自动提取新闻、课程或公开数据。今天,我们就来讲一讲 Python 标准库中的一把"钥匙"------urllib,它能帮你打开网页数据的大门。


一、什么是 urllib?

urllib 是 Python 内置的标准库,不需要额外安装。它可以帮助我们完成如下工作:

  • 发送 HTTP 请求(如 GET、POST)

  • 解析网页 URL

  • 模拟浏览器访问网站

  • 提交表单数据

  • 下载网页或文件

相当于一套爬虫工具箱,轻量、易学、直接,适合入门者使用。


二、urllib 的模块组成

urllib 实际上是一个"包",里面有几个子模块,各司其职:

子模块 作用说明
urllib.request 用于发送请求、获取网页内容
urllib.parse 用于解析和拼接 URL 地址
urllib.error 用于处理异常和错误
urllib.robotparser 用于读取 robots.txt(爬虫协议)文件

三、实战操作:一步步抓取网页内容

1. 请求一个网页并读取内容

复制代码
复制代码
from urllib import requesturl = "https://example.com"response = request.urlopen(url)html = response.read().decode("utf-8")  # 解码成字符串print(html)

✅ 说明:

  • urlopen() 会像浏览器一样访问网页

  • read() 获取的是字节数据,要用 .decode() 转换成字符串

  • 默认是 GET 请求


2. 添加浏览器头部(模拟正常访问)

有的网站会检测是不是"爬虫",我们可以加一个 User-Agent 来模拟浏览器:

复制代码
复制代码
from urllib import requesturl = "https://example.com"headers = {"User-Agent": "Mozilla/5.0"}req = request.Request(url, headers=headers)response = request.urlopen(req)print(response.read().decode("utf-8"))

3. POST 请求(提交表单数据)

复制代码
复制代码
from urllib import request, parseurl = "https://httpbin.org/post"data = {"username": "test","password": "123456"}data = parse.urlencode(data).encode("utf-8")  # 编码成 bytesreq = request.Request(url, data=data)req.add_header("User-Agent", "Mozilla/5.0")response = request.urlopen(req)

print(response.read().decode("utf-8"))


4. 下载一个文件(如图片或PDF)

复制代码

from urllib import request

img_url = "https://www.example.com/image.jpg"
request.urlretrieve(img_url, "downloaded.jpg")

print("下载完成!")


5. 解析 URL 和参数

复制代码

from urllib import parse

url = "https://example.com/search?q=python&sort=desc"
result = parse.urlparse(url)

print(result.scheme) # https
print(result.netloc) # example.com
print(result.path) # /search
print(result.query) # q=python&sort=desc


四、应对爬虫限制

虽然 urllib 简单易用,但功能相对基础。许多网站会设置反爬机制,例如:

  • 验证 User-Agent

  • 限速(频繁请求会被封)

  • 需要登录才能访问

对于这些高级功能,可以搭配使用 time.sleep()(加延迟),或者使用更强大的库如 requestsselenium 等。


五、结语:数据不难,只要你敢动手

urllib 是 Python 网络爬虫的入门首选。它虽然不像 requests 那样灵活优雅,但胜在"标准、轻量、易懂"。对刚接触爬虫的社会工作者、老师、学生来说,完全够用。你只需掌握基本结构,便能自主从网页中抓取你需要的资源数据。

相关推荐
喵手15 小时前
Python爬虫实战:HTTP缓存系统深度实战 — ETag、Last-Modified与requests-cache完全指南(附SQLite持久化存储)!
爬虫·python·爬虫实战·http缓存·etag·零基础python爬虫教学·requests-cache
喵手15 小时前
Python爬虫实战:容器化与定时调度实战 - Docker + Cron + 日志轮转 + 失败重试完整方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·容器化·零基础python爬虫教学·csv导出·定时调度
喵手17 小时前
Python爬虫实战:全站 Sitemap 自动发现 - 解析 sitemap.xml → 自动生成抓取队列的工业级实现!
爬虫·python·爬虫实战·零基础python爬虫教学·sitemap·解析sitemap.xml·自动生成抓取队列实现
iFeng的小屋18 小时前
【2026年新版】Python根据小红书关键词爬取所有笔记数据
笔记·爬虫·python
Love Song残响19 小时前
揭秘Libvio爬虫:动态接口与逆向实战
爬虫
喵手21 小时前
Python爬虫实战:构建招聘会数据采集系统 - requests+lxml 实战企业名单爬取与智能分析!
爬虫·python·爬虫实战·requests·lxml·零基础python爬虫教学·招聘会数据采集
iFeng的小屋21 小时前
【2026最新当当网爬虫分享】用Python爬取千本日本相关图书,自动分析价格分布!
开发语言·爬虫·python
数研小生1 天前
关键词搜索京东列表API技术对接指南
大数据·数据库·爬虫
喵手1 天前
Python爬虫实战:网页截图归档完全指南 - 构建生产级页面存证与历史回溯系统!
爬虫·python·爬虫实战·零基础python爬虫教学·网页截图归档·历史回溯·生产级方案
Blurpath住宅代理1 天前
动态代理的五大优点:提升爬虫效率与安全性
网络·爬虫·动态ip·住宅ip·住宅代理