drop_duplicates() 函数执行常见的数据清理任务,处理 DataFrame 中的重复值。该方法有助于从 DataFrame 中删除重复值。

语法

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)  

参数

  • subset: 接受列标签或列标签列表。它仅考虑某些列以识别重复项。默认值为 None
  • keep:用于控制如何考虑重复值。有三个不同的值,如下所示:

    • first: 除第一次出现外,删除重复值。
    • last: 除最后一次出现外,删除重复值。
    • False: 删除所有重复项。
  • inplace: 返回布尔值。默认值为 False。

如果为 True,则删除具有重复值的行。

返回

根据传递的参数,返回删除重复行的 DataFrame。

示例

import pandas as pd  
emp = {"Name": ["Parker", "Smith", "William", "Parker"],  
"Age": [21, 32, 29, 21]}  
info = pd.DataFrame(emp)  
print(info)  

输出

        Name     Age
0     Parker     21
1     Smith      32
2     William    29
3     Parker     21

示例

import pandas as pd  
emp = {"Name": ["Parker", "Smith", "William", "Parker"],  
"Age": [21, 32, 29, 21]}  
info = pd.DataFrame(emp)  
info = info.drop_duplicates()  
print(info)  

输出

       Name    Age
0    Parker    21
1    Smith     32
2    William   29

标签: Pandas, Pandas教程, Pandas库, Pandas基础, Pandas学习, Pandas使用, Pandas指南, Pandas入门教程, Pandas模块, Pandas数据库, Pandas实战教程, Pandas用法总结, Pandas文档