简单的Python爬虫实例

下面是一个简单的Python爬虫实例,用于抓取一个网页的标题。我们将使用requests库来发送HTTP请求,使用BeautifulSoup库来解析HTML。

首先,你需要安装这两个库。如果你还没有安装,可以使用以下命令:

复制代码
pip install requests
pip install beautifulsoup4

接下来是一个简单的爬虫代码示例:

复制代码
import requests
from bs4 import BeautifulSoup
# 目标网页URL
url = 'http://example.com'
# 发送HTTP GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
    # 解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')
    # 查找并打印网页的标题
    title = soup.find('title').text
    print(f'网页标题是: {title}')
else:
    print(f'请求失败,状态码: {response.status_code}')

代码解释

‌导入库‌:

import requests

from bs4 import BeautifulSoup

‌定义目标网页的URL‌:

url = 'http://example.com'

‌发送HTTP GET请求‌:

response = requests.get(url)

‌检查请求是否成功‌:

if response.status_code == 200:

这里我们检查返回的状态码是否为200,表示请求成功。

‌解析HTML内容‌:

soup = BeautifulSoup(response.text, 'html.parser')

使用BeautifulSoup解析获取的HTML内容。

‌查找并打印网页的标题‌:

title = soup.find('title').text

print(f'网页标题是: {title}')

查找HTML中的<title>标签,并打印其文本内容。

‌处理请求失败的情况‌:

else:

print(f'请求失败,状态码: {response.status_code}')

注意事项

‌爬取频率‌:请不要频繁地爬取同一个网站,以免给网站服务器带来负担。遵守网站的robots.txt规则(通常位于http://example.com/robots.txt),了解允许爬取的内容和频率。

‌法律与道德‌:确保你的爬虫行为符合法律法规和网站的条款与条件。不要爬取敏感信息或侵犯他人隐私。

‌错误处理‌:在实际应用中,添加更多的错误处理机制,例如处理网络异常、超时等。

希望这个简单的示例能帮助你入门Python爬虫开发!

相关推荐
不爱吃炸鸡柳1 分钟前
算法复杂度从入门到精通:时间与空间复杂度全解析
开发语言·c++·算法
游乐码10 分钟前
c#lambad表达式
开发语言·c#
weixin_4080996726 分钟前
python请求文字识别ocr api
开发语言·人工智能·后端·python·ocr·api·ocr文字识别
我会好好吃饭歌27 分钟前
医疗单据隐私脱敏开源项目:OCR + Vision LLM + 四点定位打码,适配弯曲、旋转、复杂拍摄场景
图像处理·python·开源项目·paddleocr·医疗ai·隐私脱敏
惊鸿若梦一书生28 分钟前
《Python 高阶教程》003|变量背后不是盒子:名字、对象与引用的本质
java·jvm·python
不爱吃炸鸡柳31 分钟前
C++ 进阶:unordered_map 与 unordered_set 超全详解(哈希容器实战)
开发语言·c++·哈希算法
qq_3806191640 分钟前
SQL中如何实现特定范围内数据的批量删除_范围分区与分区删除
jvm·数据库·python
码云数智-大飞42 分钟前
Go并发编程避坑指南:如何彻底解决死锁(Deadlock)问题
开发语言
Hommy881 小时前
【开源剪映小助手】云渲染环境搭建
python·开源·github·剪映小助手
qq_380619161 小时前
HTML函数开发需要独立显卡吗_HTML函数与显卡关系详解【说明】
jvm·数据库·python