python爬虫初体验(三)——将网页数据导出csv和excel文件

1. 安装库

bash 复制代码
pip install requests
pip install pandas
pip install BeautifulSoup
  • requests 是一个非常流行的 Python 第三方库,用于简化 HTTP 请求。它允许你发送 HTTP/1.1 请求极其简单,而无需底层的socket库或urllib库。requests 库使得发起请求、处理响应变得非常容易,并且支持多种类型的HTTP请求(GET, POST, PUT, DELETE等)。

  • pandas主要用于数据分析和数据处理。它提供了大量的数据结构和数据操作功能,使得处理表格数据变得更加容易和高效。是目前比较常用的一款Python包。

  • BeautifulSoup4(通常简称 BeautifulSoup)是一个用于解析HTML和XML文档的Python库。它可以帮助开发者从网页中提取所需的数据,常用于Web爬虫项目、数据挖掘以及其他需要解析HTML或XML文档的场景。

2. 示例代码

python 复制代码
# -*- coding: utf-8 -*-
import csv
import requests
import pandas as pd
from bs4 import BeautifulSoup

# 目标URL
url = 'https://www.shanghairanking.cn/rankings/bcur/2024'
# 请求头,模拟浏览器行为,防止被服务器识别为爬虫。
headers = {
  'Connection': 'keep-alive',
  'Cache-Control': 'no-store, no-cache, must-revalidate',
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36',
  'Accept': '*/*',
  'Accept-Encoding': 'gzip, deflate, br, zstd',
  'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
  'Referer': 'https://www.shanghairanking.cn/rankings/bcur/2024',
}
# 创建一个会话对象,保持连接
session = requests.session()

# 先访问一次首页,模拟用户行为
session.get('https://www.shanghairanking.cn')

# 发送带有headers的GET请求并获取响应内容
resHtml = session.get(url, headers=headers).content.decode('utf-8')

# 使用BeautifulSoup解析HTML内容
html_soup = BeautifulSoup(resHtml, 'html.parser')

# 查找表格中的所有行
all_goods_li = html_soup.find('table').find_all('tr')

def export_rank_csv():
  # 打开CSV文件准备写入
  with open('output.csv', 'wb') as csvfile:
  	# 创建一个csv.writer对象
    csv_writer = csv.writer(csvfile)

    for row in all_goods_li:

      goods_info_list = []

      rank = row.find('div', class_="ranking")
      img_link = row.find('img')['src']
      name = row.find('span', class_='name-cn')
      tags = row.find('p', class_="tags")
      if name and img_link:

        goods_info_list.append(rank.get_text(strip=True).encode('utf-8'))
        goods_info_list.append(img_link)
        # 将name添加到列表中,并转换为UTF-8编码
        goods_info_list.append(name.get_text(strip=True).encode('utf-8'))
        goods_info_list.append(tags.get_text(strip=True).encode('utf-8'))

      csv_writer.writerow(goods_info_list)


def export_rank_excel():
  school_info_list = []

  for row in all_school_li:

    rank = row.find('div', class_="ranking")
    img_link = row.find('img')['src']
    name = row.find('span', class_='name-cn')
    tags = row.find('p', class_="tags")
    if name and img_link:

      school_info_list.append([
        rank.get_text(strip=True).encode('utf-8'),
        img_link,
        name.get_text(strip=True).encode('utf-8'),
        tags.get_text(strip=True).encode('utf-8')
      ])
  # 列名
  first_name = ["排名", "logo", "学校名称", "类型"]

  # 创建一个 DataFrame,列名为 first_name,数据为 school_info_list
  rank = pd.DataFrame(school_info_list, columns=first_name)

  # 将"排名"列转换为整数类型
  rank["排名"] = rank["排名"].astype(int)

  # 使用 openpyxl 作为写入引擎,将 DataFrame 写入 Excel 文件
  # 注意:这里使用了默认的 UTF-8 编码,通常不需要显式指定编码
  rank.to_excel(u"2024中国大学排名.xlsx", index=False)

if __name__ == '__main__':
  # 导出csv文件
  export_rank_csv()

3. 注意事项

  • 编码问题:确保使用正确的编码处理非ASCII字符。
  • 虽然在 Python 2 中 encode('utf-8') 有助于处理编码问题,但在将数据写入 Excel 文件时通常不需要显式指定编码。但是如果导出文件为乱码,在文件开头添加 # -*- coding: utf-8 -*- 以确保文件以 UTF-8 编码保存。
  • 依赖库:确保已经安装了 pandas 和 beautifulsoup4 库。
  • 创建 DataFrame:使用 pandas 创建 DataFrame,列名为 first_name,数据为 school_info_list。
  • 转换数据类型:将"排名"列的数据类型转换为整数。
  • 导出到 Excel 文件:使用 to_excel 方法将 DataFrame 导出到 Excel 文件,index=False 表示不导出索引列。
相关推荐
冷雨夜中漫步7 小时前
Python快速入门(6)——for/if/while语句
开发语言·经验分享·笔记·python
郝学胜-神的一滴8 小时前
深入解析Python字典的继承关系:从abc模块看设计之美
网络·数据结构·python·程序人生
百锦再8 小时前
Reactive编程入门:Project Reactor 深度指南
前端·javascript·python·react.js·django·前端框架·reactjs
喵手9 小时前
Python爬虫实战:旅游数据采集实战 - 携程&去哪儿酒店机票价格监控完整方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·采集结果csv导出·旅游数据采集·携程/去哪儿酒店机票价格监控
2501_9449347310 小时前
高职大数据技术专业,CDA和Python认证优先考哪个?
大数据·开发语言·python
helloworldandy10 小时前
使用Pandas进行数据分析:从数据清洗到可视化
jvm·数据库·python
肖永威11 小时前
macOS环境安装/卸载python实践笔记
笔记·python·macos
TechWJ11 小时前
PyPTO编程范式深度解读:让NPU开发像写Python一样简单
开发语言·python·cann·pypto
枷锁—sha11 小时前
【SRC】SQL注入WAF 绕过应对策略(二)
网络·数据库·python·sql·安全·网络安全
abluckyboy12 小时前
Java 实现求 n 的 n^n 次方的最后一位数字
java·python·算法