Pandas教程-Pandas DataFrame.describe()
describe()
方法用于计算 Series 或 DataFrame 的数值数据的一些统计数据,如 百分位数、均值 和 标准差。它分析数值和对象 Series,以及混合数据类型的 DataFrame 列集。
语法
DataFrame.describe(percentiles=None, include=None, exclude=None)
参数
- percentiles: 这是一个可选参数,是一个数字的类似列表,应该落在 0 和 1 之间。其默认值是 [.25, .5, .75],返回第 25、50 和 75 百分位数。
- include: 这也是一个可选参数,包含在描述 DataFrame 时的数据类型列表。其默认值为 None。
- exclude: 这也是一个可选参数,在描述 DataFrame 时排除数据类型列表。其默认值为 None。
返回值
它返回 Series 和 DataFrame 的统计摘要。
示例1
import pandas as pd
import numpy as np
a1 = pd.Series([1, 2, 3])
a1.describe()
输出
count 3.0
mean 2.0
std 1.0
min 1.0
25% 1.5
50% 2.0
75% 2.5
max 3.0
dtype: float64
示例2
import pandas as pd
import numpy as np
a1 = pd.Series(['p', 'q', 'q', 'r'])
a1.describe()
输出
count 4
unique 3
top q
freq 2
dtype: object
示例3
import pandas as pd
import numpy as np
a1 = pd.Series([1, 2, 3])
a1.describe()
a1 = pd.Series(['p', 'q', 'q', 'r'])
a1.describe()
info = pd.DataFrame({'categorical': pd.Categorical(['s','t','u']),
'numeric': [1, 2, 3],
'object': ['p', 'q', 'r']
})
info.describe(include=[np.number])
info.describe(include=[np.object])
info.describe(include=['category'])
输出
categorical
count 3
unique 3
top u
freq 1
示例4
import pandas as pd
import numpy as np
a1 = pd.Series([1, 2, 3])
a1.describe()
a1 = pd.Series(['p', 'q', 'q', 'r'])
a1.describe()
info = pd.DataFrame({'categorical': pd.Categorical(['s','t','u']),
'numeric': [1, 2, 3],
'object': ['p', 'q', 'r']
})
info.describe()
info.describe(include='all')
info.numeric.describe()
info.describe(include=[np.number])
info.describe(include=[np.object])
info.describe(include=['category'])
info.describe(exclude=[np.number])
info.describe(exclude=[np.object])
输出
categorical numeric
count 3 3.0
unique 3 NaN
top u NaN
freq 1 NaN
mean NaN 2.0
std NaN 1.0
min NaN 1.0
25% NaN 1.5
50% NaN 2.0
75% NaN 2.5
max NaN 3.0