Pandas教程-Pandas DataFrame.drop_duplicates()
drop_duplicates() 函数执行常见的数据清理任务,处理 DataFrame 中的重复值。该方法有助于从 DataFrame 中删除重复值。
语法
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
参数
- subset: 接受列标签或列标签列表。它仅考虑某些列以识别重复项。默认值为 None。
keep:用于控制如何考虑重复值。有三个不同的值,如下所示:
- first: 除第一次出现外,删除重复值。
- last: 除最后一次出现外,删除重复值。
- False: 删除所有重复项。
- inplace: 返回布尔值。默认值为 False。
如果为 True,则删除具有重复值的行。
返回
根据传递的参数,返回删除重复行的 DataFrame。
示例
import pandas as pd
emp = {"Name": ["Parker", "Smith", "William", "Parker"],
"Age": [21, 32, 29, 21]}
info = pd.DataFrame(emp)
print(info)
输出
Name Age
0 Parker 21
1 Smith 32
2 William 29
3 Parker 21
示例
import pandas as pd
emp = {"Name": ["Parker", "Smith", "William", "Parker"],
"Age": [21, 32, 29, 21]}
info = pd.DataFrame(emp)
info = info.drop_duplicates()
print(info)
输出
Name Age
0 Parker 21
1 Smith 32
2 William 29