Python 数据分析与可视化 Day 1 - Pandas 数据分析基础入门

🎯 今日目标

  • 理解 Pandas 的作用和核心概念
  • 学会创建 Series 和 DataFrame
  • 掌握基本数据读取(CSV)与常用查看方法

🧰 1. 什么是 Pandas?

Pandas 是基于 NumPy 的强大数据分析库,提供了灵活的表格数据结构 DataFrame,让你可以像操作 Excel 或数据库一样处理数据。


🧱 2. 核心数据结构

🧩 Series(带标签的一维数组)

python 复制代码
import pandas as pd

s = pd.Series([90, 85, 78], index=["张三", "李四", "王五"])
print(s)

输出:

python 复制代码
张三    90
李四    85
王五    78
dtype: int64

🧩 DataFrame(二维表格)

python 复制代码
data = {
    "姓名": ["张三", "李四", "王五"],
    "成绩": [90, 85, 78],
    "是否及格": [True, True, False]
}

df = pd.DataFrame(data)
print(df)

输出:

python 复制代码
   姓名  成绩  是否及格
0  张三   90   True
1  李四   85   True
2  王五   78  False

📖 3. 数据导入(CSV 文件)

python 复制代码
df = pd.read_csv("students.csv", encoding="utf-8")
print(df.head())   # 查看前几行
print(df.info())   # 概况
print(df.describe())  # 描述性统计(数值字段)

🔧 4. 常用基本操作

python 复制代码
print(df["成绩"])               # 访问某列
print(df.iloc[0])               # 按行索引访问
print(df[df["成绩"] >= 80])    # 筛选数据
print(df.sort_values("成绩", ascending=False))  # 排序

🧪 今日练习任务

  1. 创建一个 DataFrame,包含 5 名学生的姓名、性别、成绩、是否及格字段

    python 复制代码
    data = {
        "姓名": ["张三", "李四", "王五", "赵六", "钱七"],
        "成绩": [90, 85, 78, 88, 92],
        "是否及格": [True, True, False, True, True],
        "性别": ["男", "女", "男", "女", "男"]
    }
    
    df = pd.DataFrame(data)
    print(df)

    输出:

    python 复制代码
       姓名  成绩   是否及格 性别
    0  张三  90   True  男
    1  李四  85   True  女
    2  王五  78  False  男
    3  赵六  88   True  女
    4  钱七  92   True  男
  2. 筛选出所有不及格学生并打印

    python 复制代码
    failing_students = df[df["是否及格"] == False]
    print("不及格学生:")
    print(failing_students)

    输出:

    python 复制代码
    不及格学生:
       姓名  成绩   是否及格 性别
    2  王五  78  False  男
  3. 计算成绩的平均分、最大分、最小分

    python 复制代码
    average_score = df["成绩"].mean()
    max_score = df["成绩"].max()
    min_score = df["成绩"].min()

    输出:

    python 复制代码
    平均分: 86.6, 最大分: 92, 最小分: 78
  4. 将该 DataFrame 保存为 students.csv 文件(使用 to_csv

    python 复制代码
    df.to_csv("students.csv", index=False, encoding='utf-8-sig')
    print("DataFrame 已保存为 students.csv 文件")

    输出:

    python 复制代码
    DataFrame 已保存为 students.csv 文件

✅ 示例:保存为 CSV 文件

python 复制代码
df.to_csv("students.csv", index=False, encoding="utf-8")

✍️ 今日总结

  • 掌握了 Pandas 的核心结构:Series 与 DataFrame
  • 学会了基本的数据读取、创建和查看方法
  • 初步能用 Pandas 做简单的数据筛选、排序和保存

题外话

相关推荐
测试19981 小时前
软件测试之压力测试总结
自动化测试·软件测试·python·测试工具·职场和发展·测试用例·压力测试
李昊哲小课2 小时前
销售数据可视化分析项目
python·信息可视化·数据分析·matplotlib·数据可视化·seaborn
isNotNullX2 小时前
实时数仓和离线数仓还分不清楚?看完就懂了
大数据·数据库·数据仓库·人工智能·数据分析
烛阴2 小时前
带参数的Python装饰器原来这么简单,5分钟彻底掌握!
前端·python
全干engineer2 小时前
Flask 入门教程:用 Python 快速搭建你的第一个 Web 应用
后端·python·flask·web
nightunderblackcat2 小时前
新手向:Python网络编程,搭建简易HTTP服务器
网络·python·http
李昊哲小课2 小时前
pandas销售数据分析
人工智能·python·数据挖掘·数据分析·pandas
C嘎嘎嵌入式开发3 小时前
python之set详谈
开发语言·python
之歆3 小时前
Python-正则表达式-信息提取-滑动窗口-数据分发-文件加载及分析器-浏览器分析-学习笔记
python·学习·正则表达式
往日情怀酿做酒 V17639296383 小时前
pytorch的介绍以及张量的创建
人工智能·pytorch·python