掌握 Pandas DataFrame 的复杂过滤技巧

准备工作

在开始之前,我们需要先安装 Pandas 包。你可以使用以下命令进行安装:

复制代码
pip install pandas

安装好所需的包后,让我们正式进入主题。


Pandas DataFrame 复杂过滤

DataFrame 是 Pandas 中用于存储和操作数据的对象。它非常强大,因为我们可以利用条件、逻辑运算符和 Pandas 的函数对数据进行过滤。

让我们先创建一个简单的 DataFrame 对象:

复制代码
import pandas as pd

df = pd.DataFrame({
    'Name': ['Alice', 'Leah', 'Jessica', 'Kenny', 'Brad'],
    'Age': [50, 27, 22, 30, 40],
    'Salary': [100000, 154000, 120000, 78000, 88000],
    'Occupation': ['Doctor', 'Soldier', 'Doctor', 'Accountant', 'Florist']
})

接下来,我们将学习如何对这些示例数据进行过滤。首先,可以根据特定条件进行数据筛选:

复制代码
df[df['Age'] > 30]

输出:

复制代码
    Name  Age  Salary Occupation
0  Alice   50  100000     Doctor
4   Brad   40   88000    Florist

我们也可以结合 And(&)运算符来组合多个条件:

复制代码
df[(df['Age'] > 25) & (df['Salary'] < 100000)]

输出:

复制代码
    Name  Age  Salary  Occupation
3  Kenny   30   78000  Accountant
4   Brad   40   88000     Florist

同样地,也可以用 Or(|)运算符组合条件:

复制代码
df[(df['Salary'] < 100000) | (df['Occupation'] == 'Soldier')]

输出:

复制代码
    Name  Age  Salary  Occupation
1   Leah   27  154000     Soldier
3  Kenny   30   78000  Accountant
4   Brad   40   88000     Florist

此外,我们还可以利用字符串函数进行数据过滤。例如,筛选出某列包含特定值的数据:

复制代码
df[df['Occupation'].str.contains('Sol')]

输出:

复制代码
    Name  Age  Salary Occupation
1  Leah   27  154000    Soldier

如果你需要按照特定字符串值进行过滤,可以使用以下方法:

复制代码
df[df['Occupation'].isin(['Doctor', 'Florist'])]

输出:

复制代码
      Name  Age  Salary Occupation
0    Alice   50  100000     Doctor
2  Jessica   22  120000     Doctor
4     Brad   40   88000    Florist

还可以通过 lambda 函数对数据进行过滤:

复制代码
df[df['Name'].apply(lambda x: len(x) > 5)]

输出:

复制代码
      Name  Age  Salary Occupation
2  Jessica   22  120000     Doctor

如果你想简化操作,可以使用 query 方法来过滤数据:

复制代码
df.query('Age < 30 and Salary > 100000')

输出:

复制代码
      Name  Age  Salary Occupation
1     Leah   27  154000    Soldier
2  Jessica   22  120000     Doctor

最后,我们可以将前面学到的各种过滤条件进行组合:

复制代码
df[(df['Age'] > 30) & (
    (df['Salary'] > 60000) | 
    (df['Occupation'].str.contains('Doc')))]

输出:

复制代码
    Name  Age  Salary Occupation
0  Alice   50  100000     Doctor
4   Brad   40   88000    Florist

掌握这些过滤函数,将大大提升你的数据分析能力。

相关推荐
深耕AI1 小时前
【PyTorch训练】准确率计算(代码片段拆解)
人工智能·pytorch·python
eqwaak01 小时前
科技信息差(9.12)
开发语言·python·科技·量子计算
Blossom.1181 小时前
从“能写”到“能干活”:大模型工具调用(Function-Calling)的工程化落地指南
数据库·人工智能·python·深度学习·机器学习·计算机视觉·oracle
蒋星熠2 小时前
破壁者指南:内网穿透技术的深度解构与实战方法
网络·数据库·redis·python·websocket·网络协议·udp
shizidushu2 小时前
使用 Pyinstaller 打包 PPOCRLabel
python·pyinstaller
Q_Q19632884752 小时前
python+springboot+uniapp微信小程序题库系统 在线答题 题目分类 错题本管理 学习记录查询系统
spring boot·python·django·uni-app·node.js·php
Rhys..3 小时前
.gitignore文件的作用及用法
python·github
IT学长编程3 小时前
计算机毕业设计 基于深度学习的酒店评论文本情感分析研究 Python毕业设计项目 Hadoop毕业设计选题 机器学习选题【附源码+文档报告+安装调试】
hadoop·python·深度学习·机器学习·数据分析·毕业设计·酒店评论文本情感分析
~-~%%3 小时前
Moe机制与pytorch实现
人工智能·pytorch·python