900字范文 > pandas pivot 占比_数据处理进阶pandas入门（十八）

pandas pivot 占比_数据处理进阶pandas入门（十八）

时间：2018-12-31 06:24:36

回顾

在数据处理进阶pandas入门(十七)中，我们介绍了pandas中对groupby()方法的分组数据处理的两个方法：transform()和apply()。我们需要掌握好这两个方法，对分组数据进行灵活处理。今天我们讲一下pandas中生成数据透视表和交叉表的方法。

生成透视表方法pivot_table()

数据透视表就是将数据的每一列作为输入，输出将数据不断细分成多个维度累计信息的二维数据表。简单来说，数据透视表更像是一种多维的groupb累计操作。pandas中使用pivot_table()方法来生成透视表，基本用法如下。

import numpy as npimport pandas as pddate_range = pd.to_datetime(['-5-29', '-5-30', '-5-31']*3)df = pd.DataFrame({'date':date_range, 'key': list('abcdabcdb'), 'values':np.random.rand(9)*10})print(df)print("---------------")print(pd.pivot_table(df, values='values', index='date', columns='key', aggfunc=np.sum))

pivot_table()方法接收一个DataFrame对象，values表示要聚合的列；index表示从原数据中筛选出列作为数据透视表中的index索引；columns表示从原数据中筛选出列作为数据透视表中的columns索引；aggfunc表示用于聚合的函数(支持Numpy计算函数)，默认为np.mean，可以用字符串或“np.”两种形式表示。运行结果如下图所示。

pivot_table()方法基本用法

上述代码生成的数据透视表中有缺失值， pivot_table()方法对缺失值的处理默认以NaN填充。如果我们不想使用NaN，我们也可以通过设置fill_value来指定任意值作为缺失值的填充，基本用法如下。

再次运行可以发现，缺失值的地方填充值由原来的NaN变成了0。运行结果如下图所示。

pivot_table()方法指定缺省值填充

pivot_table()方法支持对多列数据同时做数据透视，我们只需给index传入一个包含多列索引的列表即可。例如上述代码中，我们给index参数传入['date', 'key']，pivot_table()方法就会对date列和key列共同做数据透视。代码如下。

运行结果如下图所示。我们使用len作为聚合函数，由于原DataFrame中-5-31对应b有两组数据，所以返回长度为2。

pivot_table()方法多列数据透视

生成交叉表方法crosstab()

交叉表是一种常用的分类汇总表格，利用交叉表查询数据非常直观明了。pandas中使用crosstab()方法来生成交叉表，crosstab()方法一般用于计算因子的频率，可以对字符串类型的数据进行透视分析，基本用法如下。

import numpy as npimport pandas as pddf = pd.DataFrame({'A':[1, 2, 2, 2, 2], 'B':['a', 'a', 'b', 'b', 'b'], 'C':[10, 10, np.nan, 10, 10]})print(df)print("---------------")print(pd.crosstab(df['A'], df['B']))

crosstab()方法如果只接收两个Series，那么会生成一个频率表。上述代码中传入了df['A']、df['B']，那么生成的频率表就是用A的唯一值去统计b的唯一值出现的次数。运行结果如下图所示，1对应‘a’出现的次数为1，2对应‘a’出现的次数为1，2对应‘b’出现的次数为3。

crosstab()方法基本用法

既然是频率表，我们往往希望看到的是占比情况，这时只需设置crosstab()方法中的normalize参数即可。基本用法如下。

normalize参数默认为False，当我们设置normalize=True时，频率表中的所有值就会除以总和来进行归一化(计算占比)。运行结果如下图所示。

crosstab()方法频率数据归一化

crosstab()方法中有两个参数：values和aggfunc，这两个参数跟生成透视表方法pivot_table()中的参数一样。事实上，crosstab()方法配合values和aggfunc这两个参数也能生成透视表。基本用法如下。

import numpy as npimport pandas as pddate_range = pd.to_datetime(['-5-29', '-5-30', '-5-31']*3)df = pd.DataFrame({'date':date_range, 'key': list('abcdabcdb'), 'values':np.random.rand(9)*10})print(df)print("---------------")print(pd.crosstab(df['date'], df['key'], values=df['values'], aggfunc=np.sum))

传入的前两个Series会分别作为透视表的index和columns索引，values为要聚合的列，运行结果如下图所示，可以看到，跟pivot_table()生成的透视表完全一样。

pivot_table()生成透视表

crosstab()方法可以通过设置margins参数给生成的表添加行/列边距，基本用法如下。

import numpy as npimport pandas as pddate_range = pd.to_datetime(['-5-29', '-5-30', '-5-31']*3)df = pd.DataFrame({'date':date_range, 'key': list('abcdabcdb'), 'values':np.random.rand(9)*10})print(df)print("---------------")print(pd.crosstab(df['date'], df['key'], values=df['values'], aggfunc=np.sum, margins=True))

margins参数默认为False，当我们设置margins=True时，会在生成的表上添加行/列，用于计算各行各列的和。运行结果如下图所示。

crosstab()添加行/列

总结

以上内容介绍了pandas中生成数据透视表和交叉表的方法。透视表pivot_table()方法是一种进行分组统计的函数，参数aggfunc决定统计类型；而交叉表crosstab()方法是一种特殊的pivot_table()方法，虽然也可以生成透视表，但我们一般将它专用于计算分组频率。感谢大家的支持与关注，欢迎批评指正，欢迎一起交流~

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。