爬虫与数据分析结和

wwww.bo2025-08-12 14:30

任务描述
- 爬取目标：高三网中国大学排名一览表，网址为 2021中国的大学排名一览表_高三网。
- 爬取内容：学校名称、总分、全国排名、星级排名、办学层级。
- 数据存储：爬取后的数据保存在 CSV 文件中。
代码实现（爬取）
- 导入库：requests、BeautifulSoup、csv。
- 关键函数：
  - get_html(url, time=3)：发送 get 请求获取网页文本内容，设置编码和异常处理。
  - parser(html)：将 html 转换为 soup 对象，遍历表格行提取数据并整理成列表。
  - save_csv(item, path)：将列表数据写入 CSV 文件。
- 主程序：获取网页数据、解析数据、存储数据到 school.csv。
运行结果（爬取）
- 生成 school.csv 文件，包含多所大学的排名信息，例如北京大学（总分 100、全国排名 1 等）、清华大学（总分 99.81、全国排名 2 等）。

数据预处理

问题：school.csv 中 "总分" 列存在空数据。

处理方法：

处理方式	具体操作
删除包含空字段的行	使用`pd.read_csv`读取文件，通过`df.dropna()`删除空行
用指定内容替换空字段	使用`df.fillna("暂无分数信息",inplace = True)`替换
计算列的均值替换空单元格	计算 "总分" 列均值，用`df["总分"].fillna(x, inplace=True)`替换
计算列的中位数替换空单元格	计算 "总分" 列中位数，用`df["总分"].fillna(x, inplace=True)`替换

数据分析
- 数据规模：该网站共有 820 所学校。
- 星级分布：8 星学校有 8 所，7 星学校有 16 所，6 星学校有 36 所，5 星学校有 59 所，4 星学校有 103 所，3 星学校有 190 所，2 星学校有 148 所，1 星学校有 260 所。
- 占比情况：8 星约占 1%，7 星约占 2%，6 星约占 4.5%，5 星约占 7.2%，4 星约占 12.5%，3 星约占 23.1%，2 星约占 18%，1 星约占 31.7%。
数据可视化
- 柱形图：使用 matplotlib 绘制，展示不同星级学校的个数，有垂直和水平两种形式。
- 饼图：使用 matplotlib 绘制，展示不同星级学校个数的占比情况。

关键问题

问题：在爬取中国大学排名数据时，使用了哪些库及各自的作用？
答案：使用了 requests 库，用于发送 HTTP 请求获取网页内容；BeautifulSoup 库，用于解析网页 HTML 结构，提取所需数据；csv 库，用于将提取的数据写入 CSV 文件进行存储。
问题：对 school.csv 中 "总分" 列的空数据，有哪些处理方法？
答案：有四种处理方法，分别是删除包含空字段的行，使用df.dropna()实现；用指定内容（如 "暂无分数信息"）替换空字段，通过df.fillna()实现；计算列的均值替换空单元格，先算均值再用fillna替换；计算列的中位数替换空单元格，先算中位数再用fillna替换。
问题：在对中国大学星级分布进行可视化时，使用了哪些图表及各自的作用？
答案：使用了柱形图和饼图。柱形图直观展示了不同星级学校的具体数量，能清晰对比各星级学校数量的多少；饼图则展示了不同星级学校个数在总学校数中的占比情况，便于了解各星级学校的分布比例。

上一篇：Flutter SizeTransition：让你的UI动画更加丝滑

下一篇：Linux Shell：Nano 编辑器备忘

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI科技热点日报 | 2026年07月01日 06幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？09微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 10CC-Switch & Claude 基于 Linux 服务器安装使用指南