python爬虫的简单实现

当涉及网络爬虫时,Python中最常用的库之一是requests。它能够发送HTTP请求并获取网页内容。下面是一个简单的示例,展示如何使用requests库来获取一个网页的内容:

import requests

指定要爬取的网页的URL

url = 'https://example.com'

发送HTTP GET请求并获取响应内容

response = requests.get(url)

检查响应状态码

if response.status_code == 200:

输出网页内容

print(response.text)

else:

print(f"Failed to retrieve the page. Status code: {response.status_code}")

以上代码演示了如何发送HTTP GET请求并获取网页内容。但是,当涉及实际爬取时,您可能还需要考虑处理页面解析、处理页面结构、处理异常、设置请求头以模拟浏览器等。一个更完整的爬虫示例可以是:

python

Copy code

import requests

from bs4 import BeautifulSoup

指定要爬取的网页的URL

url = 'https://example.com'

添加请求头,模拟浏览器访问

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'

}

发送HTTP GET请求并获取响应内容

response = requests.get(url, headers=headers)

检查响应状态码

if response.status_code == 200:

使用BeautifulSoup解析网页内容

soup = BeautifulSoup(response.text, 'html.parser')

复制代码
# 示例:查找所有的标题
titles = soup.find_all('h1')
for title in titles:
    print(title.text)

else:

print(f"Failed to retrieve the page. Status code: {response.status_code}")

在这个示例中,我们使用了requests库发送HTTP GET请求,同时使用了BeautifulSoup库来解析HTML内容。还添加了请求头,以便模拟浏览器的请求。请注意,BeautifulSoup需要安装,可以使用以下命令安装:

Copy code

pip install beautifulsoup4

请注意,当您编写爬虫时,您需要遵守网站的使用条款和条件,以及遵循良好的网络爬虫实践。不当的爬取行为可能导致法律问题或对目标网站造成负担。

相关推荐
曹牧3 分钟前
Spring Boot:如何在Java Controller中处理POST请求?
java·开发语言
浅念-6 分钟前
C++入门(2)
开发语言·c++·经验分享·笔记·学习
WeiXiao_Hyy7 分钟前
成为 Top 1% 的工程师
java·开发语言·javascript·经验分享·后端
ZH15455891317 分钟前
Flutter for OpenHarmony Python学习助手实战:面向对象编程实战的实现
python·学习·flutter
玄同7658 分钟前
SQLite + LLM:大模型应用落地的轻量级数据存储方案
jvm·数据库·人工智能·python·语言模型·sqlite·知识图谱
User_芊芊君子13 分钟前
CANN010:PyASC Python编程接口—简化AI算子开发的Python框架
开发语言·人工智能·python
Max_uuc23 分钟前
【C++ 硬核】打破嵌入式 STL 禁忌:利用 std::pmr 在“栈”上运行 std::vector
开发语言·jvm·c++
白日做梦Q23 分钟前
Anchor-free检测器全解析:CenterNet vs FCOS
python·深度学习·神经网络·目标检测·机器学习
故事不长丨24 分钟前
C#线程同步:lock、Monitor、Mutex原理+用法+实战全解析
开发语言·算法·c#
牵牛老人27 分钟前
【Qt 开发后台服务避坑指南:从库存管理系统开发出现的问题来看后台开发常见问题与解决方案】
开发语言·qt·系统架构