【数据分析】数据筛选(布尔索引:一个判断条件)

布尔索引

布尔索引:在实际应用中,只要是通过比较运算返回的判断结果(一个布尔型Series),就可以进行布尔索引。

应用场景:

面对大型数据时,用于获取数据的行索引和列索引往往不确定,通常我们需要寻找满足或不满足特定计算或条件的值。这时候,我们就需要用到 布尔索引 来筛选出符合要求的数据。

让我们来考虑以下例子:
假设在读取电商数据时,我们想要输出所有 "cutdown_price"(优惠价格)大于0 的行数据,该怎么做呢?

先访问了 "cutdown_price" 这一列数据,然后就需要判断该列中哪些值大于0。
如果大于0,就把对应的那一行数据保留下来。

判断 "cutdown_price" 这一列数据中哪些值大于0,可以使用比较运算中的大于(>)来写一个条件表达式:data"cutdown_price">0。与我们之前学的数学操作类似,这时候该列的数据会逐个和0进行比较操作,每一行都会返回一个对应的布尔值,从而得到一个布尔型Series:

True表示该行的"cutdown_price"大于0;

False表示该行的"cutdown_price"小于等于0。

上面的图可以看到,"cutdown_price"这一列里,85647对应的数据是1000,大于0,所以返回的布尔值是True。

  1. 使用比较运算中的大于(>)来写一个条件表达式,判断一下data变量里,"cutdown_price"这一列哪些值大于0?

导入pandas模块,并以"pd"为该模块的简写

import pandas as pd

使用pd.read_csv()函数读取路径为 "/Users/yequ/电商数据清洗.csv" 的CSV文件,并将结果赋值给变量data

data = pd.read_csv("/Users/yequ/电商数据清洗.csv")

使用列索引筛选出"cutdown_price"这一列数据

同时使用比较运算判断这一列哪些值大于0

并使用print()将结果直接输出

print(data"cutdown_price" > 0)

输出:

在得到了一个布尔型Series后,我们就可以把True对应位置的行保留下来,作为新的DataFrame返回。

接下来,我们来获取所有 "cutdown_price" 大于0的行数据。

要将所有返回为True的对应行数据保留下来,就需要用到布尔索引。将刚刚写的条件表达式传入DataFrame对象后的中括号里作为布尔索引即可。布尔索引会把判断结果为True的行数据直接返回,从而达到筛选数据的效果。

|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| # 导入pandas模块,并以"pd"为该模块的简写 import pandas as pd # 使用pd.read_csv()函数读取路径为 "/Users/yequ/电商数据清洗.csv" 的CSV文件,并将结果赋值给变量data data = pd.read_csv("/Users/yequ/电商数据清洗.csv") # 使用print()和布尔索引,输出"cutdown_price"这一列值里大于0的行 print(datadata\["cutdown_price">0]) |
| |

从输出的内容可以看到,返回的DataFrame就是data变量里,所有"cutdown_price"这一列值里大于0的行数据。
这时的行索引index就类似于一个书签,用于标记位置,不影响内容。
根据行索引index,就能很快地知道原数据data变量里的第10行、第27行、第28行、......的cutdown_price都大于0。

|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| # 导入pandas模块,并以"pd"为该模块的简写 import pandas as pd # 使用pd.read_csv()函数读取路径为 "/Users/yequ/电商数据清洗.csv" 的CSV文件,并将结果赋值给变量data data = pd.read_csv("/Users/yequ/电商数据清洗.csv") # 使用print()和布尔索引,输出"cutdown_price"这一列值里大于0的行 print(datadata\["cutdown_price">0]) |
| |

代码具体解释:

|-------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------|
| 要筛选的数据 data是需要进行筛选的DataFrame对象。 | print(datadata\["cutdown_price">0]) |
| 第一个中括号 第一个中括号,也就是最外面的中括号,表示对变量data进行索引。 | print(datadata\["cutdown_price">0]) |
| 条件表达式 中括号里的内容是通过一个条件表达式,来判断"cutdown_price"这一列值里是否大于0。 | pandas通过这个条件表达式得到一个布尔型Series,再通过这个Series来索引数据。 |
| 访问列数据 按data"columns"的形式访问"cutdown_price"这一列数据。 | |
| 比较运算 通过大于(>)来判断"cutdown_price"列的数据是否大于0。 | |

比如,常见的比较运算有:==、>、<、>=、<=、!=(不等于),以及接下来会学的一些逻辑判断。

相关推荐
ejinxian3 小时前
PolarDB ,MongoDB ,MySQL ,PostgreSQL ,Redis, OceanBase, Sql Server等数据库
数据库·mysql·mongodb
Ztopcloud极拓云视角3 小时前
ChatGPT超级应用改版技术解析:Codex集成架构与多模型路由实战
人工智能·chatgpt·架构
折哥的程序人生 · 物流技术专研10 小时前
Java面试85题图解版 · 特别篇:2026后端高频面试题复盘(算法底层逻辑+高并发架构设计全解析,附Java实战代码)
java·网络·数据库·算法·面试
AOwhisky10 小时前
Redis 学习笔记(第三期):持久化与主从复制
运维·数据库·redis·笔记·学习·云计算
李白的天不白10 小时前
数据库连接报错问题
数据库
秋910 小时前
从 Python 后端工程师转型 AI Engineer(AI 工程化)的完整补课清单(2026实战版)
开发语言·人工智能·python
一条泥憨鱼10 小时前
【Redis】数据类型和常用命令
java·数据库·redis·后端·缓存
啦啦啦_999910 小时前
5. 迁移学习
人工智能·机器学习·迁移学习
A.说学逗唱的Coke10 小时前
【AI·Coding】TDD × SDD × AI Coding:从“测试驱动“到“规范驱动“的智能协作实践
人工智能·驱动开发·tdd
云烟成雨TD10 小时前
Spring AI Alibaba 1.x 系列【78】沙箱(Sandbox)
java·人工智能·spring