Python教程-在Python中使用Pair Plot
Seaborn Pairplot简介
在本教程中,我们将通过Python编程语言中的pairplot()
函数来了解Seaborn Pairplot。这个函数可以帮助我们分析用于机器学习项目的探索性数据。我们还将探讨Seaborn库的pairplot()
函数的语法并进行一些示例。
但在开始之前,让我们简要了解一下Seaborn库。
什么是Python中的Seaborn库?
Python社区提供了一个用于数据可视化的开源库,称为Seaborn。Seaborn库是建立在matplotlib库之上的,与Python中的Pandas数据结构紧密集成。可视化是Seaborn库的核心概念,帮助用户探索和理解数据。
由于Seaborn库结合了不同的库,并与之整合,因此学习者需要熟悉NumPy、Matplotlib和Pandas库。
Seaborn库提供了各种功能,其中一些列举如下:
- Seaborn提供了一个面向数据集的应用程序编程接口(API),用于确定变量之间的关系。
- Seaborn还提供了线性回归图的自动估计和绘图功能。
- Seaborn还提供了用于多重绘图网格的高级抽象支持。
- Seaborn还提供了可视化单变量和双变量分布的功能。
现在,让我们了解如何下载和安装Seaborn库。
如何安装Seaborn库?
在以下部分,我们将讨论Seaborn库的安装过程中涉及的步骤。
使用pip安装程序
我们可以使用pip安装程序来安装Seaborn库的最新版本。我们只需在命令行或终端中键入以下命令即可。
$ pip install seaborn
使用conda安装程序
Anaconda是一个跨平台的免费Python发行版,可用于Windows、Linux和Mac。
我们可以使用conda安装程序来安装Seaborn库的最新版本,使用以下命令:
$ conda install seaborn
除了这两种方法,我们还可以安装Seaborn库的开发版本。
使用GitHub安装开发版本
要安装开发版本,可以访问以下链接:
https://github.com/mwaskom/seaborn
一些依赖关系
在下载和安装Seaborn库时,需要注意一些依赖关系,它们如下:
- Python版本为2.7或3.4+
- NumPy库
- Matplotlib库
- SciPy库
- Pandas库
初始化Seaborn库
一旦我们完成了Seaborn库的下载和安装,让我们创建一个空的Python文件,并使用以下语法来初始化库。
import seaborn
或者
import seaborn as sbn
保存程序并执行文件。如果程序没有返回导入错误,那么库已成功安装。否则,请按照上述说明重新安装库。
Seaborn库允许用户绘制各种图形,如:
- 饼图
- 条形图
- 分布图
- 散点图
- 热图
- Pair Plots
在本教程中,我们将仅讨论Seaborn Pair Plots和pairplot()
函数。那么,让我们开始吧。
理解Seaborn Pairplot函数
Seaborn Pairplot函数允许用户创建一个坐标轴网格,通过该网格,数据中存储的每个数值变量都在X轴和Y轴上以列和行的形式共享。我们可以创建散点图,以显示成对的关系,同时在列对角线上显示数据分布。
pairplot()函数还可以用来展示变量的子集,或者在行和列上绘制不同类型的变量。
让我们来看一下Seaborn Pairplot函数的语法,如下所示:
Seaborn Pairplot函数的语法
seaborn.pairplot(
data,
hue = None,
hue_order = None,
palette = None,
vars = None,
x_vars = None,
y_vars = None,
kind = 'scatter',
diag_kind = 'auto',
markers = None,
height = 2.5,
aspect = 1,
corner = False,
dropna = False,
plot_kws = None,
diag_kws = None,
grid_kws = None,
size = None
)
Pairplot函数的参数:
- data:
data
参数接受要绘制的可视化数据。该值可以是DataFrame
、数组或数组列表。 - hue_order, order:
hue_order
或简单的order
参数是在图中使用的分类变量的顺序。此参数的值可以是字符串列表。 - scale:
scale
参数用于调整图形的大小。该参数可以采用多个用途的值,如面积、计数或宽度。 - scale_hue:
scale_hue
参数采用布尔值,以确定是否在主要分组变量的每个级别内估计比例(TRUE
)或跨图中的所有小提琴估计比例(FALSE
)。 - gridsize:
gridsize
参数采用整数值,用于计算图的核密度。 - inner:
inner
参数允许用户定义小提琴图的内部点。此参数可以采用值,如框、点、四分位数、棍棒或None
。 - orient:
orient
参数允许用户确定图的方向。方向可以是垂直,用'v'
表示,或水平,用'h'
表示。 - linewidth:
linewidth
参数采用浮点整数作为其值,以确定图中使用的灰线的宽度。 - color:
color
参数允许用户指定图中所有数据元素的颜色范围。该参数的值可以是matplotlib颜色。 - palette:
palette
参数用于定义用于图的每个级别的颜色,包括各种色调。 - ax:
ax
参数用于定义图将构建在其上的坐标轴。该参数的值可以是matplotlib Axes。
让我们考虑一些示例,以了解pairplot()函数的工作原理。
示例1:
# importing the required libraries
import seaborn as sbn
import matplotlib.pyplot as plt
# loading the dataset using the seaborn library
mydata = sbn.load_dataset('penguins')
# pairplot with the hue = gender parameter
sbn.pairplot(mydata, hue = 'gender')
# displaying the plot
plt.show()
输出:
解释:
在上面的示例中,我们导入了所需的库,并使用Seaborn的load_dataset()
函数加载了penguins数据集。然后,我们使用pairplot()
函数可视化图形,其中hue
参数设置为值'gender'。最后,我们使用Matplotlib的show()
函数将图形显示给用户。结果,成功生成了Pair Plot。
示例2:
# importing the required libraries
import seaborn as sbn
import matplotlib.pyplot as plt
# loading the dataset using the seaborn library
mydata = sbn.load_dataset('tips')
# pairplot with the kind = kde parameter
sbn.pairplot(mydata, kind = 'kde')
# displaying the plot
plt.show()
输出:
解释:
在上面的示例中,我们导入了所需的库,并使用Seaborn的load_dataset()
函数加载了tips数据集。然后,我们使用pairplot()
函数可视化图形,其中kind
参数设置为值'kde'。最后,我们使用Matplotlib的show()
函数将图形显示给用户。结果,成功生成了Pair Plot。