Python教程-缺失数据难题:探索和填充技术
在统计分析和机器学习中,缺失数据是最常见的且不可避免的问题,它们会影响数据质量。缺失数据可以由多种原因引起,例如用户在推荐系统中未回答问题,患者在治疗中去世或不遵循治疗,等等。
在本教程中,我们将讨论缺失数据的重要性并识别导致数据缺失的原因。
缺失数据机制
在当前时代,数据被视为燃料,意味着数据是一种非常强大的东西。它可以以多种方式使用。但不完整的数据可能会导致问题。因此,我们首先需要了解数据的重要性,更重要的是,我们需要全面地确定缺失数据的发生原因。数据收集过程也对识别数据收集错误起重要作用。
缺失数据的机制可以分为三个主要类别。这些类别基于缺失数据和观察到的数据的性质。这些机制如下:
完全随机缺失(MCAR)
缺失数据的性质与观察到的数据有关,但与缺失数据无关。例如 - 孩子们错过了上课,因为他们的父母搬到了另一个城市,因此孩子们不得不离开学校。
随机缺失(MAR)
缺失数据的性质与观察到的数据有关,但与缺失数据无关。例如 - 孩子们错过了上课,因为他们的父母搬到了另一个城市,因此孩子们不得不离开学校。
非随机缺失(MNAR)
它也被称为不可忽视,因为不能忽视缺失机制。只有在既不是MCAR也不是MAR的情况下才会发生。变量上的缺失值与观察到的和未观察到的变量都有关。例如 - 父母拒绝送他们的孩子去学习中心,因为那里的气氛有毒,他们不希望孩子被欺负。MNAR数据的问题与可识别性问题密切相关。
了解数据收集过程和实质性的科学知识有助于假设数据机制。统计测试也有助于了解缺失数据机制的类型。
有许多模块可以有效处理缺失数据,但fancyimpute模块非常有用且受欢迎。
Fancyimpute模块
缺失数据在创建预测模型时发挥重要作用;算法在缺失数据集上表现不佳。
Fancyimpute是用于缺失数据填充算法的机器学习库。它使用机器学习算法来填补缺失值。Fancyimpute使用整个列来填补缺失值。它提供两种填补缺失数据的方法
- KNN或K-最近邻
- MICE或多重链式方程多重填充
K-最近邻
KNN找出所有特征中相似的数据点并填补缺失值。让我们来看下面的示例。
示例 -
import pandas as pd
import numpy as np
# importing the KNN from fancyimpute library
from fancyimpute import KNN
df = pd.DataFrame([[np.nan, 1, np.nan, 0],
[2, 7, np.nan, 1],
[np.nan, np.nan, np.nan, 5],
[np.nan, 8, np.nan, 4],
[9, 7, 8, 2],
[2, 5, 7, 9]],
columns = list('ABCD'))
# printing the dataframe
print(df)
# calling the KNN class
knn_imputer = KNN()
# imputing the missing value with knn imputer
df = knn_imputer.fit_transform(df)
# printing dataframe
print(df)
输出:
A B C D
0 NaN 1.0 NaN 0
1 2.0 7.0 NaN 1
2 NaN NaN NaN 5
3 NaN 8.0 NaN 4
4 9.0 7.0 8.0 2
5 2.0 5.0 7.0 9
Imputing row 1/6 with 2 missing, elapsed time: 0.001
[[4.80735271 1. 7.70802941 0. ]
[2. 7. 7.57627146 1. ]
[5.29411783 7.49760549 7.64000033 5. ]
[6.2499999 8. 7.87179494 4. ]
[9. 7. 8. 2. ]
[2. 5. 7. 9. ]]
多重链式方程多重填充
在此方法中,MICE使用多重填充而不是单一填充。它对样本数据执行多次回归并对它们取平均值。让我们来看下面的示例。
示例 -
import pandas as pd
import numpy as np
# importing the MICE from fancyimpute library
from fancyimpute import IterativeImputer
df = pd.DataFrame([[np.nan, 15, 1, np.nan],
[23, 40, np.nan, 1],
[np.nan, np.nan, np.nan, 5],
[np.nan, 3, np.nan, 4],
[15, 70, 28, 29],
[20, 35, 57, 91]],
columns = list('ABCD'))
# printing the dataframe
print(df)
# calling the MICE class
mice_imputer = IterativeImputer()
# imputing the missing value with mice imputer
df = mice_imputer.fit_transform(df)
# printing dataframe
print(df)
输出:
A B C D
0 NaN 15.0 1.0 NaN
1 23.0 40.0 NaN 1.0
2 NaN NaN NaN 5.0
3 NaN 3.0 NaN 4.0
4 15.0 70.0 28.0 29.0
5 20.0 35.0 57.0 91.0
[[ 32.13508529 15. 1. -76.25883183]
[ 23. 40. 23.80426163 1. ]
[ 24.47759791 32.58430591 26.67745156 5. ]
[ 31.14858991 3. 32.06817994 4. ]
[ 15. 70. 28. 29. ]
[ 20. 35. 57. 91. ]]
处理缺失数据
在文献、教材和标准课程中有许多可用于处理缺失数据的方法。我们已经讨论了一种重要的方法,即fancyimputer。然而,这些方法具有一些缺点。在使用数据挖掘过程时,需要小心避免偏差或高估变异性;这些方法不表现出色。
案例删除
有两种类型的案例删除方法。第一种是列表删除(也称为完全案例分析),第二种方法是对删除。案例删除方法用于分析基础上从数据集中删除缺失案例。
让我们创建一个包含一些缺失值的虚拟数据集,使用pandas数据框。
示例 - 1
import pandas as pd
import numpy as np
import fancyimpute
from sklearn.impute import SimpleImputer
data = {'Name': ['John','Paul', np.NaN, 'Wale', 'Mary', 'Carli', 'Steve'], 'Age': [21,23,np.nan,19,25,np.nan,15],'Sex': ['M',np.nan,np.nan,'M','F','F','M'],'Goals': [5,10,np.nan,19,5,0,7],'Assists': [7,4,np.nan,9,7,6,4],'Value': [55,84,np.nan,90,63,15,46]}
df=pd.DataFrame(data, columns =['Name','Age','Sex','Goals', 'Assists', 'Value'])
print(df)
输出:
Name Age Sex Goals Assists Value
0 John 21.0 M 5.0 7.0 55.0
1 Paul 23.0 NaN 10.0 4.0 84.0
2 NaN NaN NaN NaN NaN NaN
3 Wale 19.0 M 19.0 9.0 90.0
4 Mary 25.0 F 5.0 7.0 63.0
5 Carli NaN F 0.0 6.0 15.0
6 Steve 15.0 M 7.0 4.0 46.0
在上述代码中,我们创建了一个包含缺失值的新数据集。我们可以使用df.dropna()方法删除所有缺失值。让我们看下面的输出。
示例 - 2:
import pandas as pd
import numpy as np
import fancyimpute
from sklearn.impute import SimpleImputer
data = {'Name': ['John','Paul', np.NaN, 'Wale', 'Mary', 'Carli', 'Steve'], 'Age': [21,23,np.nan,19,25,np.nan,15],'Sex': ['M',np.nan,np.nan,'M','F','F','M'],'Goals': [5,10,np.nan,19,5,0,7],'Assists': [7,4,np.nan,9,7,6,4],'Value': [55,84,np.nan,90,63,15,46]}
df=pd.DataFrame(data, columns =['Name','Age','Sex','Goals', 'Assists', 'Value'])
print(df.dropna())
输出:
Name Age Sex Goals Assists Value
0 John 21.0 M 5.0 7.0 55.0
3 Wale 19.0 M 19.0 9.0 90.0
4 Mary 25.0 F 5.0 7.0 63.0
6 Steve 15.0 M 7.0 4.0 46.0
我们还可以使用 df.dropna(how='all'),它会仅移除带有缺失值的行。我们还可以通过 df.dropna(axis=1, how='all') 指定要移除带有缺失值的列。让我们理解下面的示例。
示例 - 2
import pandas as pd
import numpy as np
import fancyimpute
from sklearn.impute import SimpleImputer
data = {'Name': ['John','Paul', np.NaN, 'Wale', 'Mary', 'Carli', 'Steve'], 'Age': [21,23,np.nan,19,25,np.nan,15],'Sex': ['M',np.nan,np.nan,'M','F','F','M'],'Goals': [5,10,np.nan,19,5,0,7],'Assists': [7,4,np.nan,9,7,6,4],'Value': [55,84,np.nan,90,63,15,46]}
df=pd.DataFrame(data, columns =['Name','Age','Sex','Goals', 'Assists', 'Value'])
print(df.dropna(how = 'all'))
输出:
Name Age Sex Goals Assists Value
0 John 21.0 M 5.0 7.0 55.0
1 Paul 23.0 NaN 10.0 4.0 84.0
3 Wale 19.0 M 19.0 9.0 90.0
4 Mary 25.0 F 5.0 7.0 63.0
5 Carli NaN F 0.0 6.0 15.0
6 Steve 15.0 M 7.0 4.0 46.0
示例 - 3
import pandas as pd
import numpy as np
import fancyimpute
from sklearn.impute import SimpleImputer
data = {'Name': ['John','Paul', np.NaN, 'Wale', 'Mary', 'Carli', 'Steve'], 'Age': [21,23,np.nan,19,25,np.nan,15],'Sex': ['M',np.nan,np.nan,'M','F','F','M'],'Goals': [5,10,np.nan,19,5,0,7],'Assists': [7,4,np.nan,9,7,6,4],'Value': [55,84,np.nan,90,63,15,46]}
df=pd.DataFrame(data, columns =['Name','Age','Sex','Goals', 'Assists', 'Value'])
print(df.dropna(axis=1, how='all'))
输出:
Name Age Sex Goals Assists Value
0 John 21.0 M 5.0 7.0 55.0
1 Paul 23.0 NaN 10.0 4.0 84.0
2 NaN NaN NaN NaN NaN NaN
3 Wale 19.0 M 19.0 9.0 90.0
4 Mary 25.0 F 5.0 7.0 63.0
5 Carli NaN F 0.0 6.0 15.0
6 Steve 15.0 M 7.0 4.0 46.0
结论
在本教程中,我们讨论了数据科学项目中缺失数据的重要性。它回顾了用于处理缺失数据的探索技术和重要的填补方法。我们还描述了处理缺失值的方法。一个广泛使用的模型假设所有缺失值的联合分布,并估计描述观察数据的模型参数。