【Python】Requests 库使用示例

本文使用Python+requests库对微博页面进行数据抓取和简单的数据清洗

使用Requests库进行网络爬虫

requests是一个PythonHTTP客户端库,用于发送HTTP请求。它简单易用,同时提供了足够的功能来处理各种网络请求。

1. 安装requests库

Python中安装requests库,可以使用pip,使用国内镜像源,下载速度更快:

bash 复制代码
pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple

常用的镜像源可以参考以下文章:Python常用镜像库源

2. 基本用法

2.1 发送GET请求

python 复制代码
import requests
# 发送GET请求
response = requests.get('https://www.weibo.com/')
# 检查响应状态码
if response.status_code == 200:
    print('成功获取页面内容')
else:
    print('请求失败,状态码:', response.status_code)

2.2 解析响应内容

python 复制代码
# 获取响应的文本内容
page_content = response.text
# 打印前500个字符
print(page_content[:500])

3. 数据清洗

通常,抓取到的HTML页面需要经过数据清洗,以提取有用的信息。可以使用BeautifulSoup库进行HTML的解析和清洗。

3.1 安装BeautifulSoup库

bash 复制代码
pip install beautifulsoup4

3.2 使用BeautifulSoup清洗数据

python 复制代码
from bs4 import BeautifulSoup
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(page_content, 'html.parser')
# 假设我们要提取微博用户的昵称
user_nicknames = soup.find_all('nick-name')
# 清洗并打印用户昵称
for nickname in user_nicknames:
    print(nickname.get_text().strip())

4. 完整示例

以下是一个简单的示例,展示了如何抓取微博页面并清洗数据。

python 复制代码
import requests
from bs4 import BeautifulSoup
# 微博页面URL(需登录微博,点击任一内容页面)
url = 'https://www.weibo.com/'
# 发送GET请求
response = requests.get(url)
# 检查响应状态码
if response.status_code == 200:
    # 解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 假设我们要提取所有微博用户的昵称
    user_nicknames = soup.find_all('nick-name')
    
    # 清洗并打印用户昵称
    for nickname in user_nicknames:
        print(nickname.get_text().strip())
else:
    print('请求失败,状态码:', response.status_code)

请注意,实际的微博页面结构可能与此示例不同,在摘取信息的时候需要根据实际情况调整选择器和清洗逻辑。此外,微博可能会采取反爬虫措施,因此在实际应用中可能需要其他技术来绕过这些措施。

这个示例展示了如何使用requests库来获取微博页面的HTML内容,并使用BeautifulSoup库来解析和清洗数据。在实际应用中,您需要根据微博页面的具体结构来调整选择器。

相关推荐
晓纪同学27 分钟前
QT-简单视觉框架代码
开发语言·qt
威桑28 分钟前
Qt SizePolicy详解:minimum 与 minimumExpanding 的区别
开发语言·qt·扩张策略
飞飞-躺着更舒服31 分钟前
【QT】实现电子飞行显示器(简易版)
开发语言·qt
明月看潮生37 分钟前
青少年编程与数学 02-004 Go语言Web编程 16课题、并发编程
开发语言·青少年编程·并发编程·编程与数学·goweb
明月看潮生40 分钟前
青少年编程与数学 02-004 Go语言Web编程 17课题、静态文件
开发语言·青少年编程·编程与数学·goweb
Java Fans42 分钟前
C# 中串口读取问题及解决方案
开发语言·c#
盛派网络小助手1 小时前
微信 SDK 更新 Sample,NCF 文档和模板更新,更多更新日志,欢迎解锁
开发语言·人工智能·后端·架构·c#
算法小白(真小白)1 小时前
低代码软件搭建自学第二天——构建拖拽功能
python·低代码·pyqt
唐小旭1 小时前
服务器建立-错误:pyenv环境建立后python版本不对
运维·服务器·python
007php0071 小时前
Go语言zero项目部署后启动失败问题分析与解决
java·服务器·网络·python·golang·php·ai编程