pandas
的DataFrame
功能强大自不必说,它可以帮助我们极大的提高统计分析的效率。
不过,使用DataFrame
开发我们的分析程序的时候,经常需要打印出DataFrame
的内容,
以验证和调试数据的处理是否正确。
在命令行中虽然可以直接打印出DataFrame
的内容,但是阅读比较困难。
正好前段时间了解到python
的一个用于创建美观和富有表现力的终端输出的库--Rich
。
Rich
库有命令行中显示表格的功能,于是,尝试了结合Rich
来显示DataFrame
,
以便在开发过程中,更好的调试DataFrame
中的数据。
1. 原始显示
首先,构造一个简单的DataFrame
,直接在命令行中显示出来,看看原始的效果,然后再一步步改进。
python
import pandas as pd
if __name__ == "__main__":
df = pd.DataFrame(
{
"订单号": ["0001", "0002", "0003", "0004", "0005"],
"单价": [1099.5, 8790.0, 12.55, 10999.0, 999.5],
"数量": [1, 3, 1200, 4, 5],
}
)
df["总价"] = df["单价"] * df["数量"]
print(df)
从图中可以看出,默认情况下,表头和值都没有对齐,
这个示例的DataFrame
比较简单,如果列多的话,阅读会更加困难。
2. 表格显示
接下来,该Rich
登场了。
为了方便后续逐步扩展功能,我创建了一个DataFramePretty
类来显示DataFrame
。
python
# -*- coding: utf-8 -*-
import pandas as pd
from rich.console import Console
from rich.table import Table
class DataFramePretty(object):
def __init__(self, df: pd.DataFrame) -> None:
self.data = df
def show(self):
table = Table()
# self.data是原始数据
# df 是用来显示的数据
df = self.data.copy()
for col in df.columns:
df[col] = df[col].astype("str")
table.add_column(col)
for idx in range(len(df)):
table.add_row(*df.iloc[idx].tolist())
console = Console()
console.print(table)
主函数也稍微做些调整,不是直接print(df)
,而是用DataFramePretty
类来显示。
python
import pandas as pd
from dataframe_pretty import DataFramePretty
if __name__ == "__main__":
df = pd.DataFrame(
{
"订单号": ["0001", "0002", "0003", "0004", "0005"],
"单价": [1099.5, 8790.0, 12.55, 10999.0, 999.5],
"数量": [1, 3, 1200, 4, 5],
}
)
df["总价"] = df["单价"] * df["数量"]
dfp = DataFramePretty(df)
dfp.show()
DataFramePretty
类在同级目录的dataframe_pretty.py
文件中。
显示效果如下:
3. 标题和表头
上面是最朴素的显示方式,但是至少通过表格和边框,将每列的数据很清晰的分割开来,方便阅读。
在创建表格时,可以简单的添加一些参数,给表格添加个标题,这样在需要显示多个表格的时候,方便区分。
还可以给表头设置个样式(比如颜色),以区分表头和值。
修改方法很简单,把上面DataFramePretty
类中的table = Table()
改成:
python
table = Table(
title="DataFrame",
title_style="i on dark_cyan",
header_style="bold cyan",
)
显示效果如下:
这里的标题(title
)固定用了DataFrame
字符串,实际使用时,可以根据情况使用和自己表格内容相关的标题。
title_style
参数是设置标题样式的,header_style
参数是 设置表头样式的。
4. 高亮最大最小值
找出最大值和最小值是常见的分析步骤,下面扩展了DataFramePretty
类,增加一个min_max_cols
属性,
用来标记需要高亮最大最小值的列。
python
class DataFramePretty(object):
def __init__(self, df: pd.DataFrame, min_max_cols=[]) -> None:
self.data = df
self.min_max_cols = min_max_cols
def __set_min_max_style(self, df: pd.DataFrame):
imax = self.data.idxmax()
imin = self.data.idxmin()
max_tmpl = "[b on red3]{}[/b on red3]"
min_tmpl = "[i on green3]{}[/i on green3]"
for col in self.min_max_cols:
col_idx = imax.index.tolist().index(col)
val = df.iloc[imax[col], col_idx]
df.iloc[imax[col], col_idx] = max_tmpl.format(val)
col_idx = imin.index.tolist().index(col)
val = df.iloc[imin[col], col_idx]
df.iloc[imin[col], col_idx] = min_tmpl.format(val)
def show(self):
table = Table(
title="DataFrame",
title_style="i on dark_cyan",
header_style="bold cyan",
)
# self.data是原始数据
# df 是用来显示的数据
df = self.data.copy()
for col in df.columns:
df[col] = df[col].astype("str")
table.add_column(col)
self.__set_min_max_style(df)
for idx in range(len(df)):
table.add_row(*df.iloc[idx].tolist())
console = Console()
console.print(table)
说明:
__init__
函数中增加了一个min_max_cols
参数,用来传入需要高亮最大最小值的列,默认为空列表__set_min_max_style
函数用来高亮每个列的最大最小值,最大值用粗体 和红色 ,最小值用斜体 和绿色
其中的变量max_tmpl
和min_tmpl
就是用来定义最大最小值样式的。
DataFramePretty
类调整后,调用的地方也相应修改如下:
python
dfp = DataFramePretty(df, ["单价", "数量", "总价"])
dfp.show()
显示效果如下:
5. 加入Emoji
最后这个Emoji
的功能是在看Rich
文档的时候偶然看到的,没想到还能支持Emoji
。
试了下,给最大值 后面加个大拇指向上,最小值后面加个大拇指向下。
python
max_tmpl = "[b on red3]{}[/b on red3]"
min_tmpl = "[i on green3]{}[/i on green3]"
修改为:
python
max_tmpl = "[b on red3]{}[/b on red3] :thumbsup:"
min_tmpl = "[i on green3]{}[/i on green3] :thumbsdown:"
效果如下:
6. 附录
这个简单封装的DataFramePretty
类,不太成熟,暂时是为了方便自己在开发过程中打印DataFrame
用的。
上面的DataFramePretty
类只高亮了最大值和最小值,其他根据实际业务需要高亮的内容可以仿照编写。
Emoji
的功能不只是为了好玩,也给我们多提供了一种标记数据的方式。
Rich
库的颜色种类可参考:github.com/scotch-io/A...
Emoji
的字符表示可参考:github.com/scotch-io/A...
关于Rich
的介绍可参考之前的文章:Python Rich:美化终端显示效果
关于pandas
的介绍可参考之前的系列:pandas系列