Pandas教程-Pandas DataFrame.hist()
hist()
函数被定义为一种快速了解数据集中某些数值变量分布的方法。它将数值变量中的值分成“bins”(箱),并计算落入每个箱中的观察次数。这些箱子有助于通过可视化来迅速而直观地了解变量值的分布。
我们可以通过使用DataFrame.hist()方法来创建直方图,它是matplotlib pyplot API的一个包装器。
直方图还是一种快速访问概率分布的有用工具。
语法
DataFrame.hist(data, column=None, by=None, grid=True, xlabelsize=None, xrot=None, ylabelsize=None, yrot=None, ax=None, sharex=False, sharey=False, figsize=None, layout=None, bins=10, **kwds)
参数
- data: 一个DataFrame。 这是一个包含数据的pandas DataFrame对象。
- column: 一个字符串或序列。 如果传递,它将用于将数据限制为列的子集。
- by: 这是一个可选参数。如果传递,将用于为独立组形成直方图。
- grid: 这也是一个可选参数。用于显示坐标轴网格线。默认值为True。
- xlabelsize: 是一个整数值。默认值为None。用于指定x轴标签大小的更改。
- xrot: 是一个浮点值。用于旋转x轴标签。默认值为None。
- ylabelsize: 是一个整数值。用于指定y轴标签大小的更改。
- yrot: 是一个浮点值。用于旋转y轴标签。默认值为None。
- ax: Matplotlib axes对象。 它定义了我们需要在其上绘制直方图的轴。默认值为None。
- sharex: 是一个布尔值。如果ax为None,则默认值为True,否则为False。在子图的情况下,如果值为True,则共享x轴并将一些x轴标签设置为不可见。其默认值为True。 如果ax为None,则如果传递了ax,则返回False。
注意: 在ax和sharex中都传递true,它将更改所有子图的x轴标签。
- sharey: 默认值为False。在子图的情况下为True,它共享y轴并将一些y轴标签设置为不可见。
- figsize: 是要创建的图的尺寸,以英寸为单位。默认情况下,使用matplotlib.rcParams中的值。
- layout: 这是一个可选参数。它返回直方图的布局的(行数,列数)元组。
- bins: 默认值为10。它是要使用的直方图箱的数量。如果给定整数值,则返回计算值的bins +1箱边缘。
- **kwds: 是要传递给matplotlib.pyplot.hist()的所有其他绘图关键字参数。
返回值
它返回matplotlib.AxesSubplot或numpy.ndarray。
示例1
import pandas as pd
info = pd.DataFrame({
'length': [2, 1.7, 3.6, 2.4, 1],
'width': [4.2, 2.6, 1.6, 5.1, 2.9]
})
hist = info.hist(bins=4)
输出