【Python】Requests 库使用示例

本文使用Python+requests库对微博页面进行数据抓取和简单的数据清洗

使用Requests库进行网络爬虫

requests是一个PythonHTTP客户端库,用于发送HTTP请求。它简单易用,同时提供了足够的功能来处理各种网络请求。

1. 安装requests库

Python中安装requests库,可以使用pip,使用国内镜像源,下载速度更快:

bash 复制代码
pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple

常用的镜像源可以参考以下文章:Python常用镜像库源

2. 基本用法

2.1 发送GET请求

python 复制代码
import requests
# 发送GET请求
response = requests.get('https://www.weibo.com/')
# 检查响应状态码
if response.status_code == 200:
    print('成功获取页面内容')
else:
    print('请求失败,状态码:', response.status_code)

2.2 解析响应内容

python 复制代码
# 获取响应的文本内容
page_content = response.text
# 打印前500个字符
print(page_content[:500])

3. 数据清洗

通常,抓取到的HTML页面需要经过数据清洗,以提取有用的信息。可以使用BeautifulSoup库进行HTML的解析和清洗。

3.1 安装BeautifulSoup库

bash 复制代码
pip install beautifulsoup4

3.2 使用BeautifulSoup清洗数据

python 复制代码
from bs4 import BeautifulSoup
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(page_content, 'html.parser')
# 假设我们要提取微博用户的昵称
user_nicknames = soup.find_all('nick-name')
# 清洗并打印用户昵称
for nickname in user_nicknames:
    print(nickname.get_text().strip())

4. 完整示例

以下是一个简单的示例,展示了如何抓取微博页面并清洗数据。

python 复制代码
import requests
from bs4 import BeautifulSoup
# 微博页面URL(需登录微博,点击任一内容页面)
url = 'https://www.weibo.com/'
# 发送GET请求
response = requests.get(url)
# 检查响应状态码
if response.status_code == 200:
    # 解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 假设我们要提取所有微博用户的昵称
    user_nicknames = soup.find_all('nick-name')
    
    # 清洗并打印用户昵称
    for nickname in user_nicknames:
        print(nickname.get_text().strip())
else:
    print('请求失败,状态码:', response.status_code)

请注意,实际的微博页面结构可能与此示例不同,在摘取信息的时候需要根据实际情况调整选择器和清洗逻辑。此外,微博可能会采取反爬虫措施,因此在实际应用中可能需要其他技术来绕过这些措施。

这个示例展示了如何使用requests库来获取微博页面的HTML内容,并使用BeautifulSoup库来解析和清洗数据。在实际应用中,您需要根据微博页面的具体结构来调整选择器。

相关推荐
StayInLove几秒前
G1垃圾回收器日志详解
java·开发语言
无尽的大道8 分钟前
Java字符串深度解析:String的实现、常量池与性能优化
java·开发语言·性能优化
爱吃生蚝的于勒12 分钟前
深入学习指针(5)!!!!!!!!!!!!!!!
c语言·开发语言·数据结构·学习·计算机网络·算法
binishuaio21 分钟前
Java 第11天 (git版本控制器基础用法)
java·开发语言·git
zz.YE23 分钟前
【Java SE】StringBuffer
java·开发语言
就是有点傻27 分钟前
WPF中的依赖属性
开发语言·wpf
洋24035 分钟前
C语言常用标准库函数
c语言·开发语言
进击的六角龙37 分钟前
Python中处理Excel的基本概念(如工作簿、工作表等)
开发语言·python·excel
wrx繁星点点38 分钟前
状态模式(State Pattern)详解
java·开发语言·ui·设计模式·状态模式
NoneCoder1 小时前
Java企业级开发系列(1)
java·开发语言·spring·团队开发·开发