python爬虫案例分享

当然,我可以分享一个基本的Python爬虫示例。这个示例将使用Python的requests库来抓取网页内容,然后使用BeautifulSoup库来解析和提取信息。我们将构建一个简单的爬虫来从一个示例网站抓取标题。

Python爬虫示例

目标

提取某网站的标题。

需要的库
  • requests: 用于发送HTTP请求。
  • BeautifulSoup (属于bs4包): 用于解析HTML和提取所需信息。
安装依赖

在开始之前,确保安装了必要的库。可以使用pip安装:

bash 复制代码
pip install requests beautifulsoup4
爬虫代码

下面是抓取并解析网页标题的完整代码。

python 复制代码
import requests
from bs4 import BeautifulSoup

def fetch_title(url):
    # 发送HTTP请求
    response = requests.get(url)
    
    # 检查请求是否成功
    if response.status_code != 200:
        print("Failed to retrieve the web page")
        return None

    # 解析网页内容
    soup = BeautifulSoup(response.content, 'html.parser')

    # 提取标题
    title = soup.find('title').text
    return title

# 测试爬虫
url = "http://example.com/"
title = fetch_title(url)
if title:
    print(f"The title of the web page is: '{title}'")
运行

运行上述脚本,它将访问example.com,提取并打印网页的标题。

注意

  • 在进行网络爬虫时,务必遵守目标网站的robots.txt规则,以及相关法律法规。
  • 一些网站可能通过各种方式阻止爬虫,例如检查用户代理、使用CAPTCHA等。
  • 本例仅用于教育目的,建议在合法和符合道德的范围内进行实践。

通过以上示例,你可以了解到构建一个基本Python爬虫的基础知识和步骤。随着经验的积累,你可以扩展这个基本模型,以满足更复杂的需求,例如处理JavaScript动态加载的内容、维护会话、处理重定向等。

相关推荐
Ulyanov1 分钟前
Python射击游戏开发实战:从系统架构到高级编程技巧
开发语言·前端·python·系统架构·tkinter·gui开发
筱昕~呀11 分钟前
“烷”域天观——甲烷监测系统
人工智能·python·深度学习·豆包
mahtengdbb113 分钟前
YOLO11-seg-ASF-DySample:人脸检测识别新突破,提升检测精度与效率
python
测试老哥14 分钟前
接口测试:加密和签名
自动化测试·软件测试·python·功能测试·测试工具·测试用例·接口测试
今天又得骑车了19 分钟前
Python 3.12 内置函数全图鉴:71 个“官方外挂”详解
python
CCPC不拿奖不改名19 分钟前
大语言模型的基础:大语言模型基础认知
人工智能·python·学习·语言模型·自然语言处理·面向对象·智能体
夏沫mds21 分钟前
基于 Flask 与Vue 3 及协同过滤算法的智能电影推荐系统
vue.js·python·flask·协同过滤
子午26 分钟前
【2026原创】鱼类识别系统~Python+深度学习+CNN卷积神经网络算法+模型训练+图像识别
图像处理·python·深度学习·cnn
地理探险家27 分钟前
【YOLOv8实战】15组衣物类深度学习数据集分享|附加载+标签管理代码
人工智能·python·深度学习·yolo·模型训练·电商视觉
大学生毕业题目28 分钟前
毕业项目推荐:103-基于yolov8/yolov5/yolo11的皮肤癌检测识别系统(Python+卷积神经网络)
人工智能·python·yolo·目标检测·cnn·pyqt·皮肤癌检测