Pandas基本操作

python 复制代码
import pandas as pd
import numpy as np
python 复制代码
#读入csv文件
book_df = pd.read_csv("./doubantushu2.csv",sep=',',header=None,names=['bookname','writer','publication','year','price','value'])
python 复制代码
#inplace = "",表明是否对原数据库进行修改,默认为False(不修改)
book_df.drop(index=39, inplace=True)
python 复制代码
book_df

| | bookname | writer | publication | year | price | value |
| 0 | 额尔古纳河右岸 | 迟子建 | 人民文学出版社 | 2019-6-1 | 32.00 | 9.1 |
| 1 | 我在北京送快递 | 胡安焉 | 湖南文艺出版社 | 2023-3-24 | 56.00 | 8.2 |
| 2 | 太白金星有点烦 | 马伯庸 | 湖南文艺出版社 | 2023-6 | 45.00 | 9.0 |
| 3 | 长安的荔枝 | 马伯庸 | 湖南文艺出版社 | 2022-10 | 45.00 | 8.5 |
| 4 | 繁花 | 金宇澄 | 上海文艺出版社 | 2013-3 | 48.00 | 8.6 |
| 5 | 阿勒泰的角落 | 李娟 | 新星出版社 | 2024-1-9 | 59 | 9.1 |
| 6 | 豆子芝麻茶 : 和妈妈的最后絮叨 | 杨本芬 | 广东人民出版社 | 2023-10 | 39.8 | 8.6 |
| 7 | 十八岁出门远行 | 余华 | 江苏凤凰文艺出版社 | 2024-3-7 | 45 | 8.3 |
| 8 | 我与地坛 | 史铁生 | 人民文学出版社 | 2011-1-1 | 23.00 | 9.3 |
| 9 | 我的母亲做保洁 | 张小满 | 光启书局 | 2023-11 | 59.8 | 8.6 |
| 10 | 秋园 | 杨本芬 | 北京联合出版公司 | 2020-6 | 38.00 | 9.0 |
| 11 | 生死疲劳 | 莫言 | 浙江文艺出版社 | 2022-1 | 69.90 | 9.1 |
| 12 | 活着 | 余华 | 作家出版社 | 2012-8 | 20.00 | 9.4 |
| 13 | 一句顶一万句 | 刘震云 | 长江文艺出版社 | 2009-3 | 29.80 | 8.8 |
| 14 | 平乐县志 | 颜歌 | 上海三联书店 | 2023-10 | 78 | 8.5 |
| 15 | 在细雨中呼喊 | 余华 | 作家出版社 | 2012-11-1 | 25.00 | 8.8 |
| 16 | 夜晚的潜水艇 | 陈春成 | 上海三联书店 | 2020-9 | 52.00 | 8.3 |
| 17 | 东北故事集 | 迟子建 | 人民文学出版社 | 2024-1-22 | 59.00 | 8.3 |
| 18 | 一句顶一万句 | 刘震云 | 花城出版社 | 2022-8 | 68.00 | 9.0 |
| 19 | 不间断的人 | 双雪涛 | 上海三联书店 | 2024-2 | 68 | 8.1 |
| 20 | 寻常百姓家 | 么书仪 | 社会科学文献出版社 | 2022-9 | 70.00 | 9.2 |
| 21 | 妖怪说 | 张云 | 北京科学技术出版社 | 2024-3-1 | 68 | 8.8 |
| 22 | 倾城之恋 : 张爱玲全集01 | 张爱玲 | 北京十月文艺出版社 | 2019-3 | 49.50 | 9.2 |
| 23 | 幸得诸君慰平生 | 故园风雨前、杨云苏 | 四川文艺出版社 | 2022-6 | 68 | 8.8 |
| 24 | 凛冬之刃 | 于小千 | 江苏凤凰文艺出版社 | 2023-5-1 | 45.00 | 6.2 |
| 25 | 饺子 | 李碧华 | 新星出版社 | 2013-11 | 49 | 8.2 |
| 26 | 在细雨中呼喊 | 余华 | 北京十月文艺出版社 | 2018-5-1 | 39.50 | 8.8 |
| 27 | 法治的细节 | 罗翔 | 云南人民出版社 | 2021-11 | 49.8 | 8.4 |
| 28 | 金锁记 | 张爱玲 | 哈尔滨出版社 | 2005-6 | 19.80 | 9.1 |
| 29 | 浮出历史地表 : 现代妇女文学研究 | 孟悦、戴锦华 | 北京大学出版社 | 2018-5 | 59.00 | 9.5 |
| 30 | 蒋勋说文学之美(全5册修订版) : 随套装赠送蒋勋先生《生命里的善与美》演讲光盘。 | 蒋勋 | 中信出版社 | 2015-3 | 199.00 | 9.0 |
| 31 | 水浒传(全二册) | [明] 施耐庵、罗贯中 | 人民文学出版社 | 1997-1 | 50.60 | 8.7 |
| 32 | 一半是火焰 一半是海水 | 王朔 | 北京十月文艺出版社 | 2015-3-1 | 39.00 | 7.9 |
| 33 | 人民的名义 | 周梅森 | 北京十月文艺出版社 | 2017-1 | 46.90 | 7.3 |
| 34 | 绿毛水怪 | 王小波 | 北京十月文艺出版社 | 2018-6 | 39.00 | 9.1 |
| 35 | 我是落花生的女儿 | 许燕吉 | 湖南人民出版社 | 2013-10-1 | 39.80 | 8.6 |
| 36 | 穆斯林的葬礼 | 霍达 | 北京十月文艺出版社 | 1988-12-1 | 32.00 | 8.1 |
| 37 | 许三观卖血记 | 余华 | 北京十月文艺出版社 | 2017-10 | 39.50 | 9.2 |

38 大真探赵赶鹅 : 重案组的人性档案簿 赵赶鹅 天地出版社 2021-1 52.00 7.3
python 复制代码
#修改数据类型
book_df['price'] = book_df['price'].apply(pd.to_numeric)

book_df.info()

python 复制代码
#取特定的行
book_df["price"]
0      32.0
1      56.0
2      45.0
3      45.0
4      48.0
5      59.0
6      39.8
7      45.0
8      23.0
9      59.8
10     38.0
11     69.9
12     20.0
13     29.8
14     78.0
15     25.0
16     52.0
17     59.0
18     68.0
19     68.0
20     70.0
21     68.0
22     49.5
23     68.0
24     45.0
25     49.0
26     39.5
27     49.8
28     19.8
29     59.0
30    199.0
31     50.6
32     39.0
33     46.9
34     39.0
35     39.8
36     32.0
37     39.5
38     52.0
Name: price, dtype: float64
python 复制代码
#只取前十行
book_df.head(10)

| | bookname | writer | publication | year | price | value |
| 0 | 额尔古纳河右岸 | 迟子建 | 人民文学出版社 | 2019-6-1 | 32.0 | 9.1 |
| 1 | 我在北京送快递 | 胡安焉 | 湖南文艺出版社 | 2023-3-24 | 56.0 | 8.2 |
| 2 | 太白金星有点烦 | 马伯庸 | 湖南文艺出版社 | 2023-6 | 45.0 | 9.0 |
| 3 | 长安的荔枝 | 马伯庸 | 湖南文艺出版社 | 2022-10 | 45.0 | 8.5 |
| 4 | 繁花 | 金宇澄 | 上海文艺出版社 | 2013-3 | 48.0 | 8.6 |
| 5 | 阿勒泰的角落 | 李娟 | 新星出版社 | 2024-1-9 | 59.0 | 9.1 |
| 6 | 豆子芝麻茶 : 和妈妈的最后絮叨 | 杨本芬 | 广东人民出版社 | 2023-10 | 39.8 | 8.6 |
| 7 | 十八岁出门远行 | 余华 | 江苏凤凰文艺出版社 | 2024-3-7 | 45.0 | 8.3 |
| 8 | 我与地坛 | 史铁生 | 人民文学出版社 | 2011-1-1 | 23.0 | 9.3 |

9 我的母亲做保洁 张小满 光启书局 2023-11 59.8 8.6
python 复制代码
#只取后十行
book_df.tail(10)

| | bookname | writer | publication | year | price | value |
| 29 | 浮出历史地表 : 现代妇女文学研究 | 孟悦、戴锦华 | 北京大学出版社 | 2018-5 | 59.0 | 9.5 |
| 30 | 蒋勋说文学之美(全5册修订版) : 随套装赠送蒋勋先生《生命里的善与美》演讲光盘。 | 蒋勋 | 中信出版社 | 2015-3 | 199.0 | 9.0 |
| 31 | 水浒传(全二册) | [明] 施耐庵、罗贯中 | 人民文学出版社 | 1997-1 | 50.6 | 8.7 |
| 32 | 一半是火焰 一半是海水 | 王朔 | 北京十月文艺出版社 | 2015-3-1 | 39.0 | 7.9 |
| 33 | 人民的名义 | 周梅森 | 北京十月文艺出版社 | 2017-1 | 46.9 | 7.3 |
| 34 | 绿毛水怪 | 王小波 | 北京十月文艺出版社 | 2018-6 | 39.0 | 9.1 |
| 35 | 我是落花生的女儿 | 许燕吉 | 湖南人民出版社 | 2013-10-1 | 39.8 | 8.6 |
| 36 | 穆斯林的葬礼 | 霍达 | 北京十月文艺出版社 | 1988-12-1 | 32.0 | 8.1 |
| 37 | 许三观卖血记 | 余华 | 北京十月文艺出版社 | 2017-10 | 39.5 | 9.2 |

38 大真探赵赶鹅 : 重案组的人性档案簿 赵赶鹅 天地出版社 2021-1 52.0 7.3
python 复制代码
#查看信息
book_df.info
<bound method DataFrame.info of                                      bookname        writer  publication  \
0                                     额尔古纳河右岸          迟子建      人民文学出版社    
1                                     我在北京送快递          胡安焉      湖南文艺出版社    
2                                     太白金星有点烦          马伯庸      湖南文艺出版社    
3                                       长安的荔枝          马伯庸      湖南文艺出版社    
4                                          繁花          金宇澄      上海文艺出版社    
5                                      阿勒泰的角落           李娟        新星出版社    
6                            豆子芝麻茶 : 和妈妈的最后絮叨          杨本芬      广东人民出版社    
7                                     十八岁出门远行           余华    江苏凤凰文艺出版社    
8                                        我与地坛          史铁生      人民文学出版社    
9                                     我的母亲做保洁          张小满         光启书局    
10                                         秋园          杨本芬     北京联合出版公司    
11                                       生死疲劳           莫言      浙江文艺出版社    
12                                         活着           余华        作家出版社    
13                                     一句顶一万句          刘震云      长江文艺出版社    
14                                       平乐县志           颜歌       上海三联书店    
15                                     在细雨中呼喊           余华        作家出版社    
16                                     夜晚的潜水艇          陈春成       上海三联书店    
17                                      东北故事集          迟子建      人民文学出版社    
18                                     一句顶一万句          刘震云        花城出版社    
19                                      不间断的人          双雪涛       上海三联书店    
20                                      寻常百姓家          么书仪    社会科学文献出版社    
21                                        妖怪说           张云    北京科学技术出版社    
22                             倾城之恋 : 张爱玲全集01          张爱玲    北京十月文艺出版社    
23                                    幸得诸君慰平生    故园风雨前、杨云苏      四川文艺出版社    
24                                       凛冬之刃          于小千    江苏凤凰文艺出版社    
25                                         饺子          李碧华        新星出版社    
26                                     在细雨中呼喊           余华    北京十月文艺出版社    
27                                      法治的细节           罗翔      云南人民出版社    
28                                        金锁记          张爱玲       哈尔滨出版社    
29                          浮出历史地表 : 现代妇女文学研究       孟悦、戴锦华      北京大学出版社    
30  蒋勋说文学之美(全5册修订版) : 随套装赠送蒋勋先生《生命里的善与美》演讲光盘。           蒋勋        中信出版社    
31                                   水浒传(全二册)  [明] 施耐庵、罗贯中      人民文学出版社    
32                                一半是火焰 一半是海水           王朔    北京十月文艺出版社    
33                                      人民的名义          周梅森    北京十月文艺出版社    
34                                       绿毛水怪          王小波    北京十月文艺出版社    
35                                   我是落花生的女儿          许燕吉      湖南人民出版社    
36                                     穆斯林的葬礼           霍达    北京十月文艺出版社    
37                                     许三观卖血记           余华    北京十月文艺出版社    
38                         大真探赵赶鹅 : 重案组的人性档案簿          赵赶鹅        天地出版社    

           year  price  value  
0     2019-6-1    32.0    9.1  
1    2023-3-24    56.0    8.2  
2       2023-6    45.0    9.0  
3      2022-10    45.0    8.5  
4       2013-3    48.0    8.6  
5     2024-1-9    59.0    9.1  
6      2023-10    39.8    8.6  
7     2024-3-7    45.0    8.3  
8     2011-1-1    23.0    9.3  
9      2023-11    59.8    8.6  
10      2020-6    38.0    9.0  
11      2022-1    69.9    9.1  
12      2012-8    20.0    9.4  
13      2009-3    29.8    8.8  
14     2023-10    78.0    8.5  
15   2012-11-1    25.0    8.8  
16      2020-9    52.0    8.3  
17   2024-1-22    59.0    8.3  
18      2022-8    68.0    9.0  
19      2024-2    68.0    8.1  
20      2022-9    70.0    9.2  
21    2024-3-1    68.0    8.8  
22      2019-3    49.5    9.2  
23      2022-6    68.0    8.8  
24    2023-5-1    45.0    6.2  
25     2013-11    49.0    8.2  
26    2018-5-1    39.5    8.8  
27     2021-11    49.8    8.4  
28      2005-6    19.8    9.1  
29      2018-5    59.0    9.5  
30      2015-3   199.0    9.0  
31      1997-1    50.6    8.7  
32    2015-3-1    39.0    7.9  
33      2017-1    46.9    7.3  
34      2018-6    39.0    9.1  
35   2013-10-1    39.8    8.6  
36   1988-12-1    32.0    8.1  
37     2017-10    39.5    9.2  
38      2021-1    52.0    7.3  >
python 复制代码
book_df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39 entries, 0 to 38
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   bookname     39 non-null     object 
 1   writer       39 non-null     object 
 2   publication  39 non-null     object 
 3   year         39 non-null     object 
 4   price        39 non-null     float64
 5   value        39 non-null     float64
dtypes: float64(2), object(4)
memory usage: 2.0+ KB
python 复制代码
#显示行列数
book_df.shape
(39, 6)
python 复制代码
# 取价格大于40的图书,并排序输出;默认升序排列(通过value值进行排序)
book_df[(book_df['price']>40)].sort_values('price',ascending=False)

| | bookname | writer | publication | year | price | value |
| 30 | 蒋勋说文学之美(全5册修订版) : 随套装赠送蒋勋先生《生命里的善与美》演讲光盘。 | 蒋勋 | 中信出版社 | 2015-3 | 199.0 | 9.0 |
| 14 | 平乐县志 | 颜歌 | 上海三联书店 | 2023-10 | 78.0 | 8.5 |
| 20 | 寻常百姓家 | 么书仪 | 社会科学文献出版社 | 2022-9 | 70.0 | 9.2 |
| 11 | 生死疲劳 | 莫言 | 浙江文艺出版社 | 2022-1 | 69.9 | 9.1 |
| 19 | 不间断的人 | 双雪涛 | 上海三联书店 | 2024-2 | 68.0 | 8.1 |
| 23 | 幸得诸君慰平生 | 故园风雨前、杨云苏 | 四川文艺出版社 | 2022-6 | 68.0 | 8.8 |
| 21 | 妖怪说 | 张云 | 北京科学技术出版社 | 2024-3-1 | 68.0 | 8.8 |
| 18 | 一句顶一万句 | 刘震云 | 花城出版社 | 2022-8 | 68.0 | 9.0 |
| 9 | 我的母亲做保洁 | 张小满 | 光启书局 | 2023-11 | 59.8 | 8.6 |
| 29 | 浮出历史地表 : 现代妇女文学研究 | 孟悦、戴锦华 | 北京大学出版社 | 2018-5 | 59.0 | 9.5 |
| 5 | 阿勒泰的角落 | 李娟 | 新星出版社 | 2024-1-9 | 59.0 | 9.1 |
| 17 | 东北故事集 | 迟子建 | 人民文学出版社 | 2024-1-22 | 59.0 | 8.3 |
| 1 | 我在北京送快递 | 胡安焉 | 湖南文艺出版社 | 2023-3-24 | 56.0 | 8.2 |
| 16 | 夜晚的潜水艇 | 陈春成 | 上海三联书店 | 2020-9 | 52.0 | 8.3 |
| 38 | 大真探赵赶鹅 : 重案组的人性档案簿 | 赵赶鹅 | 天地出版社 | 2021-1 | 52.0 | 7.3 |
| 31 | 水浒传(全二册) | [明] 施耐庵、罗贯中 | 人民文学出版社 | 1997-1 | 50.6 | 8.7 |
| 27 | 法治的细节 | 罗翔 | 云南人民出版社 | 2021-11 | 49.8 | 8.4 |
| 22 | 倾城之恋 : 张爱玲全集01 | 张爱玲 | 北京十月文艺出版社 | 2019-3 | 49.5 | 9.2 |
| 25 | 饺子 | 李碧华 | 新星出版社 | 2013-11 | 49.0 | 8.2 |
| 4 | 繁花 | 金宇澄 | 上海文艺出版社 | 2013-3 | 48.0 | 8.6 |
| 33 | 人民的名义 | 周梅森 | 北京十月文艺出版社 | 2017-1 | 46.9 | 7.3 |
| 2 | 太白金星有点烦 | 马伯庸 | 湖南文艺出版社 | 2023-6 | 45.0 | 9.0 |
| 7 | 十八岁出门远行 | 余华 | 江苏凤凰文艺出版社 | 2024-3-7 | 45.0 | 8.3 |
| 24 | 凛冬之刃 | 于小千 | 江苏凤凰文艺出版社 | 2023-5-1 | 45.0 | 6.2 |

3 长安的荔枝 马伯庸 湖南文艺出版社 2022-10 45.0 8.5
python 复制代码
#取价格大于40的图书,按照index(索引)进行排序输出
book_df[(book_df['price']>40)].reset_index(drop=True)

| | bookname | writer | publication | year | price | value |
| 0 | 我在北京送快递 | 胡安焉 | 湖南文艺出版社 | 2023-3-24 | 56.0 | 8.2 |
| 1 | 太白金星有点烦 | 马伯庸 | 湖南文艺出版社 | 2023-6 | 45.0 | 9.0 |
| 2 | 长安的荔枝 | 马伯庸 | 湖南文艺出版社 | 2022-10 | 45.0 | 8.5 |
| 3 | 繁花 | 金宇澄 | 上海文艺出版社 | 2013-3 | 48.0 | 8.6 |
| 4 | 阿勒泰的角落 | 李娟 | 新星出版社 | 2024-1-9 | 59.0 | 9.1 |
| 5 | 十八岁出门远行 | 余华 | 江苏凤凰文艺出版社 | 2024-3-7 | 45.0 | 8.3 |
| 6 | 我的母亲做保洁 | 张小满 | 光启书局 | 2023-11 | 59.8 | 8.6 |
| 7 | 生死疲劳 | 莫言 | 浙江文艺出版社 | 2022-1 | 69.9 | 9.1 |
| 8 | 平乐县志 | 颜歌 | 上海三联书店 | 2023-10 | 78.0 | 8.5 |
| 9 | 夜晚的潜水艇 | 陈春成 | 上海三联书店 | 2020-9 | 52.0 | 8.3 |
| 10 | 东北故事集 | 迟子建 | 人民文学出版社 | 2024-1-22 | 59.0 | 8.3 |
| 11 | 一句顶一万句 | 刘震云 | 花城出版社 | 2022-8 | 68.0 | 9.0 |
| 12 | 不间断的人 | 双雪涛 | 上海三联书店 | 2024-2 | 68.0 | 8.1 |
| 13 | 寻常百姓家 | 么书仪 | 社会科学文献出版社 | 2022-9 | 70.0 | 9.2 |
| 14 | 妖怪说 | 张云 | 北京科学技术出版社 | 2024-3-1 | 68.0 | 8.8 |
| 15 | 倾城之恋 : 张爱玲全集01 | 张爱玲 | 北京十月文艺出版社 | 2019-3 | 49.5 | 9.2 |
| 16 | 幸得诸君慰平生 | 故园风雨前、杨云苏 | 四川文艺出版社 | 2022-6 | 68.0 | 8.8 |
| 17 | 凛冬之刃 | 于小千 | 江苏凤凰文艺出版社 | 2023-5-1 | 45.0 | 6.2 |
| 18 | 饺子 | 李碧华 | 新星出版社 | 2013-11 | 49.0 | 8.2 |
| 19 | 法治的细节 | 罗翔 | 云南人民出版社 | 2021-11 | 49.8 | 8.4 |
| 20 | 浮出历史地表 : 现代妇女文学研究 | 孟悦、戴锦华 | 北京大学出版社 | 2018-5 | 59.0 | 9.5 |
| 21 | 蒋勋说文学之美(全5册修订版) : 随套装赠送蒋勋先生《生命里的善与美》演讲光盘。 | 蒋勋 | 中信出版社 | 2015-3 | 199.0 | 9.0 |
| 22 | 水浒传(全二册) | [明] 施耐庵、罗贯中 | 人民文学出版社 | 1997-1 | 50.6 | 8.7 |
| 23 | 人民的名义 | 周梅森 | 北京十月文艺出版社 | 2017-1 | 46.9 | 7.3 |

24 大真探赵赶鹅 : 重案组的人性档案簿 赵赶鹅 天地出版社 2021-1 52.0 7.3
python 复制代码
# 取多个列,且只取前十行
book_df[['year','price','value']].head(10)

| | year | price | value |
| 0 | 2019-6-1 | 32.0 | 9.1 |
| 1 | 2023-3-24 | 56.0 | 8.2 |
| 2 | 2023-6 | 45.0 | 9.0 |
| 3 | 2022-10 | 45.0 | 8.5 |
| 4 | 2013-3 | 48.0 | 8.6 |
| 5 | 2024-1-9 | 59.0 | 9.1 |
| 6 | 2023-10 | 39.8 | 8.6 |
| 7 | 2024-3-7 | 45.0 | 8.3 |
| 8 | 2011-1-1 | 23.0 | 9.3 |

9 2023-11 59.8 8.6
python 复制代码
#查看所属出版社的情况
pd.get_dummies(book_df['publication'],prefix='_')

| | __ 上海三联书店 | __ 上海文艺出版社 | __ 中信出版社 | __ 云南人民出版社 | __ 人民文学出版社 | __ 作家出版社 | __ 光启书局 | __ 北京十月文艺出版社 | __ 北京大学出版社 | __ 北京科学技术出版社 | ... | __ 天地出版社 | __ 广东人民出版社 | __ 新星出版社 | __ 江苏凤凰文艺出版社 | __ 浙江文艺出版社 | __ 湖南人民出版社 | __ 湖南文艺出版社 | __ 社会科学文献出版社 | __ 花城出版社 | __ 长江文艺出版社 |
| 0 | False | False | False | False | True | False | False | False | False | False | ... | False | False | False | False | False | False | False | False | False | False |
| 1 | False | False | False | False | False | False | False | False | False | False | ... | False | False | False | False | False | False | True | False | False | False |
| 2 | False | False | False | False | False | False | False | False | False | False | ... | False | False | False | False | False | False | True | False | False | False |
| 3 | False | False | False | False | False | False | False | False | False | False | ... | False | False | False | False | False | False | True | False | False | False |
| 4 | False | True | False | False | False | False | False | False | False | False | ... | False | False | False | False | False | False | False | False | False | False |
| 5 | False | False | False | False | False | False | False | False | False | False | ... | False | False | True | False | False | False | False | False | False | False |
| 6 | False | False | False | False | False | False | False | False | False | False | ... | False | True | False | False | False | False | False | False | False | False |
| 7 | False | False | False | False | False | False | False | False | False | False | ... | False | False | False | True | False | False | False | False | False | False |
| 8 | False | False | False | False | True | False | False | False | False | False | ... | False | False | False | False | False | False | False | False | False | False |
| 9 | False | False | False | False | False | False | True | False | False | False | ... | False | False | False | False | False | False | False | False | False | False |
| 10 | False | False | False | False | False | False | False | False | False | False | ... | False | False | False | False | False | False | False | False | False | False |
| 11 | False | False | False | False | False | False | False | False | False | False | ... | False | False | False | False | True | False | False | False | False | False |
| 12 | False | False | False | False | False | True | False | False | False | False | ... | False | False | False | False | False | False | False | False | False | False |
| 13 | False | False | False | False | False | False | False | False | False | False | ... | False | False | False | False | False | False | False | False | False | True |
| 14 | True | False | False | False | False | False | False | False | False | False | ... | False | False | False | False | False | False | False | False | False | False |
| 15 | False | False | False | False | False | True | False | False | False | False | ... | False | False | False | False | False | False | False | False | False | False |
| 16 | True | False | False | False | False | False | False | False | False | False | ... | False | False | False | False | False | False | False | False | False | False |
| 17 | False | False | False | False | True | False | False | False | False | False | ... | False | False | False | False | False | False | False | False | False | False |
| 18 | False | False | False | False | False | False | False | False | False | False | ... | False | False | False | False | False | False | False | False | True | False |
| 19 | True | False | False | False | False | False | False | False | False | False | ... | False | False | False | False | False | False | False | False | False | False |
| 20 | False | False | False | False | False | False | False | False | False | False | ... | False | False | False | False | False | False | False | True | False | False |
| 21 | False | False | False | False | False | False | False | False | False | True | ... | False | False | False | False | False | False | False | False | False | False |
| 22 | False | False | False | False | False | False | False | True | False | False | ... | False | False | False | False | False | False | False | False | False | False |
| 23 | False | False | False | False | False | False | False | False | False | False | ... | False | False | False | False | False | False | False | False | False | False |
| 24 | False | False | False | False | False | False | False | False | False | False | ... | False | False | False | True | False | False | False | False | False | False |
| 25 | False | False | False | False | False | False | False | False | False | False | ... | False | False | True | False | False | False | False | False | False | False |
| 26 | False | False | False | False | False | False | False | True | False | False | ... | False | False | False | False | False | False | False | False | False | False |
| 27 | False | False | False | True | False | False | False | False | False | False | ... | False | False | False | False | False | False | False | False | False | False |
| 28 | False | False | False | False | False | False | False | False | False | False | ... | False | False | False | False | False | False | False | False | False | False |
| 29 | False | False | False | False | False | False | False | False | True | False | ... | False | False | False | False | False | False | False | False | False | False |
| 30 | False | False | True | False | False | False | False | False | False | False | ... | False | False | False | False | False | False | False | False | False | False |
| 31 | False | False | False | False | True | False | False | False | False | False | ... | False | False | False | False | False | False | False | False | False | False |
| 32 | False | False | False | False | False | False | False | True | False | False | ... | False | False | False | False | False | False | False | False | False | False |
| 33 | False | False | False | False | False | False | False | True | False | False | ... | False | False | False | False | False | False | False | False | False | False |
| 34 | False | False | False | False | False | False | False | True | False | False | ... | False | False | False | False | False | False | False | False | False | False |
| 35 | False | False | False | False | False | False | False | False | False | False | ... | False | False | False | False | False | True | False | False | False | False |
| 36 | False | False | False | False | False | False | False | True | False | False | ... | False | False | False | False | False | False | False | False | False | False |
| 37 | False | False | False | False | False | False | False | True | False | False | ... | False | False | False | False | False | False | False | False | False | False |

38 False False False False False False False False False False ... True False False False False False False False False False

39 rows × 23 columns

python 复制代码
#查看价格所属区间
pd.cut(book_df.price,bins=[10,20,60,90,200],right=True)
0      (20, 60]
1      (20, 60]
2      (20, 60]
3      (20, 60]
4      (20, 60]
5      (20, 60]
6      (20, 60]
7      (20, 60]
8      (20, 60]
9      (20, 60]
10     (20, 60]
11     (60, 90]
12     (10, 20]
13     (20, 60]
14     (60, 90]
15     (20, 60]
16     (20, 60]
17     (20, 60]
18     (60, 90]
19     (60, 90]
20     (60, 90]
21     (60, 90]
22     (20, 60]
23     (60, 90]
24     (20, 60]
25     (20, 60]
26     (20, 60]
27     (20, 60]
28     (10, 20]
29     (20, 60]
30    (90, 200]
31     (20, 60]
32     (20, 60]
33     (20, 60]
34     (20, 60]
35     (20, 60]
36     (20, 60]
37     (20, 60]
38     (20, 60]
Name: price, dtype: category
Categories (4, interval[int64, right]): [(10, 20] < (20, 60] < (60, 90] < (90, 200]]
python 复制代码
#通过出版社对图书进行分组
dfg = book_df.groupby('publication')
python 复制代码
dfg.groups
{' 上海三联书店 ': [14, 16, 19], ' 上海文艺出版社 ': [4], ' 中信出版社 ': [30], ' 云南人民出版社 ': [27], ' 人民文学出版社 ': [0, 8, 17, 31], ' 作家出版社 ': [12, 15], ' 光启书局 ': [9], ' 北京十月文艺出版社 ': [22, 26, 32, 33, 34, 36, 37], ' 北京大学出版社 ': [29], ' 北京科学技术出版社 ': [21], ' 北京联合出版公司 ': [10], ' 哈尔滨出版社 ': [28], ' 四川文艺出版社 ': [23], ' 天地出版社 ': [38], ' 广东人民出版社 ': [6], ' 新星出版社 ': [5, 25], ' 江苏凤凰文艺出版社 ': [7, 24], ' 浙江文艺出版社 ': [11], ' 湖南人民出版社 ': [35], ' 湖南文艺出版社 ': [1, 2, 3], ' 社会科学文献出版社 ': [20], ' 花城出版社 ': [18], ' 长江文艺出版社 ': [13]}
python 复制代码
dfg.describe()

| | price |||||||| value ||||||||
| | count | mean | std | min | 25% | 50% | 75% | max | count | mean | std | min | 25% | 50% | 75% | max |
| publication | | | | | | | | | | | | | | | | |
| 上海三联书店 | 3.0 | 66.000000 | 13.114877 | 52.0 | 60.00 | 68.0 | 73.00 | 78.0 | 3.0 | 8.300000 | 0.200000 | 8.1 | 8.200 | 8.30 | 8.400 | 8.5 |
| 上海文艺出版社 | 1.0 | 48.000000 | NaN | 48.0 | 48.00 | 48.0 | 48.00 | 48.0 | 1.0 | 8.600000 | NaN | 8.6 | 8.600 | 8.60 | 8.600 | 8.6 |
| 中信出版社 | 1.0 | 199.000000 | NaN | 199.0 | 199.00 | 199.0 | 199.00 | 199.0 | 1.0 | 9.000000 | NaN | 9.0 | 9.000 | 9.00 | 9.000 | 9.0 |
| 云南人民出版社 | 1.0 | 49.800000 | NaN | 49.8 | 49.80 | 49.8 | 49.80 | 49.8 | 1.0 | 8.400000 | NaN | 8.4 | 8.400 | 8.40 | 8.400 | 8.4 |
| 人民文学出版社 | 4.0 | 41.150000 | 16.543579 | 23.0 | 29.75 | 41.3 | 52.70 | 59.0 | 4.0 | 8.850000 | 0.443471 | 8.3 | 8.600 | 8.90 | 9.150 | 9.3 |
| 作家出版社 | 2.0 | 22.500000 | 3.535534 | 20.0 | 21.25 | 22.5 | 23.75 | 25.0 | 2.0 | 9.100000 | 0.424264 | 8.8 | 8.950 | 9.10 | 9.250 | 9.4 |
| 光启书局 | 1.0 | 59.800000 | NaN | 59.8 | 59.80 | 59.8 | 59.80 | 59.8 | 1.0 | 8.600000 | NaN | 8.6 | 8.600 | 8.60 | 8.600 | 8.6 |
| 北京十月文艺出版社 | 7.0 | 40.771429 | 5.776306 | 32.0 | 39.00 | 39.5 | 43.20 | 49.5 | 7.0 | 8.514286 | 0.751506 | 7.3 | 8.000 | 8.80 | 9.150 | 9.2 |
| 北京大学出版社 | 1.0 | 59.000000 | NaN | 59.0 | 59.00 | 59.0 | 59.00 | 59.0 | 1.0 | 9.500000 | NaN | 9.5 | 9.500 | 9.50 | 9.500 | 9.5 |
| 北京科学技术出版社 | 1.0 | 68.000000 | NaN | 68.0 | 68.00 | 68.0 | 68.00 | 68.0 | 1.0 | 8.800000 | NaN | 8.8 | 8.800 | 8.80 | 8.800 | 8.8 |
| 北京联合出版公司 | 1.0 | 38.000000 | NaN | 38.0 | 38.00 | 38.0 | 38.00 | 38.0 | 1.0 | 9.000000 | NaN | 9.0 | 9.000 | 9.00 | 9.000 | 9.0 |
| 哈尔滨出版社 | 1.0 | 19.800000 | NaN | 19.8 | 19.80 | 19.8 | 19.80 | 19.8 | 1.0 | 9.100000 | NaN | 9.1 | 9.100 | 9.10 | 9.100 | 9.1 |
| 四川文艺出版社 | 1.0 | 68.000000 | NaN | 68.0 | 68.00 | 68.0 | 68.00 | 68.0 | 1.0 | 8.800000 | NaN | 8.8 | 8.800 | 8.80 | 8.800 | 8.8 |
| 天地出版社 | 1.0 | 52.000000 | NaN | 52.0 | 52.00 | 52.0 | 52.00 | 52.0 | 1.0 | 7.300000 | NaN | 7.3 | 7.300 | 7.30 | 7.300 | 7.3 |
| 广东人民出版社 | 1.0 | 39.800000 | NaN | 39.8 | 39.80 | 39.8 | 39.80 | 39.8 | 1.0 | 8.600000 | NaN | 8.6 | 8.600 | 8.60 | 8.600 | 8.6 |
| 新星出版社 | 2.0 | 54.000000 | 7.071068 | 49.0 | 51.50 | 54.0 | 56.50 | 59.0 | 2.0 | 8.650000 | 0.636396 | 8.2 | 8.425 | 8.65 | 8.875 | 9.1 |
| 江苏凤凰文艺出版社 | 2.0 | 45.000000 | 0.000000 | 45.0 | 45.00 | 45.0 | 45.00 | 45.0 | 2.0 | 7.250000 | 1.484924 | 6.2 | 6.725 | 7.25 | 7.775 | 8.3 |
| 浙江文艺出版社 | 1.0 | 69.900000 | NaN | 69.9 | 69.90 | 69.9 | 69.90 | 69.9 | 1.0 | 9.100000 | NaN | 9.1 | 9.100 | 9.10 | 9.100 | 9.1 |
| 湖南人民出版社 | 1.0 | 39.800000 | NaN | 39.8 | 39.80 | 39.8 | 39.80 | 39.8 | 1.0 | 8.600000 | NaN | 8.6 | 8.600 | 8.60 | 8.600 | 8.6 |
| 湖南文艺出版社 | 3.0 | 48.666667 | 6.350853 | 45.0 | 45.00 | 45.0 | 50.50 | 56.0 | 3.0 | 8.566667 | 0.404145 | 8.2 | 8.350 | 8.50 | 8.750 | 9.0 |
| 社会科学文献出版社 | 1.0 | 70.000000 | NaN | 70.0 | 70.00 | 70.0 | 70.00 | 70.0 | 1.0 | 9.200000 | NaN | 9.2 | 9.200 | 9.20 | 9.200 | 9.2 |
| 花城出版社 | 1.0 | 68.000000 | NaN | 68.0 | 68.00 | 68.0 | 68.00 | 68.0 | 1.0 | 9.000000 | NaN | 9.0 | 9.000 | 9.00 | 9.000 | 9.0 |

长江文艺出版社 1.0 29.800000 NaN 29.8 29.80 29.8 29.80 29.8 1.0 8.800000 NaN 8.8 8.800 8.80 8.800 8.8
python 复制代码
#获取每个出版社中最贵的书籍的价格
book_df.groupby('publication')['price'].max()
publication
上海三联书店         78.0
上海文艺出版社        48.0
中信出版社         199.0
云南人民出版社        49.8
人民文学出版社        59.0
作家出版社          25.0
光启书局           59.8
北京十月文艺出版社      49.5
北京大学出版社        59.0
北京科学技术出版社      68.0
北京联合出版公司       38.0
哈尔滨出版社         19.8
四川文艺出版社        68.0
天地出版社          52.0
广东人民出版社        39.8
新星出版社          59.0
江苏凤凰文艺出版社      45.0
浙江文艺出版社        69.9
湖南人民出版社        39.8
湖南文艺出版社        56.0
社会科学文献出版社      70.0
花城出版社          68.0## 标题
长江文艺出版社        29.8
Name: price, dtype: float64

制图

python 复制代码
#导包(在导报之前需要在终端执行pip install matplotlib操作)
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] 
#指定默认字体 SimHei为黑体
plt.figure ()


#箱型图包含一组数据:中位数、上四分位数、下四分位数、内限、外限、异常值。
# ylim表示y轴刻度范围, vert表示横向还是纵向
#book_df ['price'].plot .box (title='第一个图',ylim=(20,80))
book_df.price.plot.box(vert = False)

#出版社的条形图
pd.value_counts(book_df.publication).plot(kind='bar')

#价格的直方图
book_df.price.plot.hist(bins=5)

#评分的饼图
pd.value_counts(book_df.value).plot.pie()

#价格和年份的散点图
book_df.plot.scatter('price','year')
相关推荐
奈斯。zs10 小时前
yjs11——pandas运算
人工智能·python·机器学习·pandas
Darling_0014 小时前
Pandas -----------------------基础知识(六)
pandas
柚子+21 小时前
读取h5ad文件
pandas
chusheng18401 天前
Python 如何使用 Pandas 进行数据分析
python·数据分析·pandas
TuringSnowy3 天前
PySpark把一列数据上下移动,时序数据
笔记·python·spark·pandas
凭栏落花侧4 天前
什么是数据挖掘?初学者指南
开发语言·笔记·python·学习·conda·pandas·pip
python1564 天前
Python Pandas数据处理效率提升指南
开发语言·python·pandas
凭栏落花侧4 天前
数据预处理:数据挖掘的第一步
人工智能·python·数据挖掘·conda·numpy·pandas·pip
电子海鸥5 天前
数据分析入门
数据分析·pandas
TuringSnowy5 天前
Groupby_SQL和pandas等效例子
数据库·sql·mysql·pandas