Python爬虫——简单网页抓取（实战案例）小白篇

Python 爬虫是一种强大的工具，用于从网页中提取数据。这里，我将通过一个简单的实战案例来展示如何使用 Python 和一些流行的库（如 requests 和 BeautifulSoup）来抓取网页数据。

实战案例：抓取一个新闻网站的头条新闻标题和链接

假设我们要从一个新闻网站（这里以虚构的 news.example.com 为例）抓取头条新闻的标题和链接。

步骤 1: 安装必要的库

首先，确保你已经安装了 requests 和 beautifulsoup4。如果没有安装，可以通过 pip 安装：

python 复制代码

pip install requests beautifulsoup4

复制代码

步骤 2: 编写爬虫代码

python 复制代码

import requests  
from bs4 import BeautifulSoup  
  
def fetch_headlines(url):  
    # 发送 HTTP GET 请求  
    response = requests.get(url)  
      
    # 检查请求是否成功  
    if response.status_code == 200:  
        # 使用 BeautifulSoup 解析 HTML  
        soup = BeautifulSoup(response.text, 'html.parser')  
          
        # 假设头条新闻位于一个具有特定类名的 div 中，这里以 'headline' 为例  
        headlines = soup.find_all('div', class_='headline')  
          
        # 遍历所有头条新闻  
        for headline in headlines:  
            # 假设标题和链接分别位于 h2 和 a 标签中  
            title = headline.find('h2').get_text(strip=True)  
            link = headline.find('a')['href']  
              
            # 打印标题和链接  
            print(f"标题: {title}, 链接: {link}")  
    else:  
        print("请求失败，状态码：", response.status_code)  
  
# 调用函数，传入新闻网站的 URL  
fetch_headlines('http://news.example.com')

复制代码

注意事项：

网页结构 ：上面的代码假设了网页的特定结构（如 div 标签的类名为 headline，标题在 h2 标签中，链接在 a 标签中）。在实际应用中，你需要根据目标网页的实际结构来调整选择器。
异常处理：在实际应用中，你可能需要添加更多的异常处理逻辑，比如处理网络错误、解析错误等。
遵守网站规则 ：在编写爬虫时，请确保遵守目标网站的 robots.txt 文件和其他使用条款，避免对网站造成不必要的负担或侵犯版权。
使用代理和头部信息 ：有时，为了绕过反爬虫机制，你可能需要设置请求头部（如 User-Agent）或使用代理服务器。
数据存储：抓取的数据可能需要保存到文件、数据库或其他存储系统中，以便后续分析和使用。