Python爬虫案例分享

1. 导入所需库:

复制代码
import requests
from bs4 import BeautifulSoup
  • requests库:这是一个Python HTTP客户端库,用于发送HTTP请求。在这个案例中,我们使用它来向目标网站发送GET请求,获取网页内容。
  • BeautifulSoup库:它是Python的一个解析库,主要用于解析HTML和XML文档。在爬虫项目中,我们经常用它来解析从网页获取的HTML文本,提取我们需要的数据。

2. 发送GET请求:

复制代码
url = 'https://news.example.com/latest'
response = requests.get(url)

这段代码定义了要爬取的URL,并通过requests.get()函数发送一个GET请求到该URL。返回的response对象包含了服务器对请求的响应,包括状态码、响应头和网页内容等信息。

3. 检查请求是否成功:

复制代码
if response.status_code == 200:

HTTP状态码200表示请求成功。如果请求失败或者服务器无法正常响应,状态码会是其他值。这里我们只处理成功的情况。

4. 解析HTML并提取数据:

复制代码
soup = BeautifulSoup(response.text, 'html.parser')
news_titles = soup.find_all('h2')

for title in news_titles:
    print(title.text.strip())

首先,我们调用BeautifulSoup的构造函数,传入response的text属性(即网页内容)进行解析。然后,我们使用find_all()方法查找所有的'h2'标签,通常新闻标题会在这样的大标题标签内。最后,遍历找到的所有'h2'标签,提取并打印出它们的文本内容(title.text),strip()函数用于去除字符串首尾的空白字符。

这就是这个简单Python爬虫的基本原理和流程。实际编写爬虫时,根据不同的网页结构和需要抓取的数据,可能需要使用更复杂的BeautifulSoup选择器或方法来定位和提取信息。

相关推荐
唐装鼠5 小时前
Nginx + Gunicorn + Python Web 应用 架构(Claude)
python·nginx·gunicorn
梦想三三5 小时前
【PYthon词频统计与文本向量化】苏宁易购评论分析实战
开发语言·python
biter down6 小时前
9:JSONSchema
python
日晨难再6 小时前
C语言&Python&Bash&Tcl:全局变量和局部变量
c语言·python·bash·tcl
麻雀飞吧6 小时前
期货量化主连和具体合约怎么切:天勤 KQ.m 与 KQ.i 用法
python·区块链
先吃饱再说6 小时前
Python List 切片与 LLM Prompt 设计:从数据结构到接口调用
python
一只专注api接口开发的技术猿7 小时前
OpenClaw 对接淘宝商品 API,低成本实现全天候选品监控|附可运行 Python 实操代码
大数据·开发语言·数据库·python
xingpanvip7 小时前
星盘接口开发文档:马盘次限盘接口指南
android·开发语言·python·php·lua
FBI HackerHarry浩7 小时前
第二阶段Day07【Python生成器、yield关键字、property、正则表达式】
开发语言·python·正则表达式
梦想不只是梦与想7 小时前
Python 中的 4 种作用域
python·作用域