df.equals(df.drop_duplicates(subset=['a'], keep='first'))
False
判断所有列是否有重复行
同样是使用drop_duplicates()
对重复值进行删除,只保留第一次出现的值,此时不适用subset
参数设置列,默认为全部列,判断处理后的值是否与原df
相等,如果False
就表示有重复值。
df.equals(df.drop_duplicates(keep='first'))
False
统计重复行的数量
len(df) - len(df.drop_duplicates(keep="first"))
显示重复的数据行
先删除重复的行,只保留第一次出现的,得到一个行唯一的数据集,再使用drop_duplicates()
删除掉df
中存在重复的所有数据,这次不保留第一次出现的重复值,将上述两个结果集进行合并,使用drop_duplicates()
对新生成的数据集进行去重,即可得到重复行的数据。
df.drop_duplicates(keep="first").append(df.drop_duplicates(keep=False)).drop_duplicates(keep=False)
对于刚入门 Python
或是想要入门 Python
的小伙伴,可以微信搜【Python新视野
】,一起交流学习,都是从新手走过来的,有时候一个简单的问题卡很久,但可能别人的一点拨就会恍然大悟,由衷的希望大家能够共同进步。