Pandas 找出并查看数据中的重复行_pandas判断多个csv中相同的行_TianCMCC的博客

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

性感的黑框眼镜 · [OSy] chybejici __udivdi3· 5 月前 ·

风度翩翩的豌豆 · 【腾讯视频】女人的战争：搬来的男人大结局· 5 月前 ·

冷静的葫芦 · Enable NGINX logs ...· 7 月前 ·

逃跑的企鹅 · Connecting to MySQL ...· 7 月前 ·

腹黑的墨镜 · 電子書迷最愛　Kindle Oasis ...· 9 月前 ·

df = pd.DataFrame({
    '用户编号': ['小明', '小明', '小王', '小美', '小张', '小王'],
    '统计日期': ['11.12', '11.12', '11.12', '11.12', '11.13'， '11.13'],
    '消费金额': [4, 3, 5, 10, 2, 5]
可见用户 “小明”，在11.12当日产生的消费金额不一致，因此判断为异常数据，将其找出： 
dup_row = df.duplicated(subset=['用户编号', '统计日期'], keep=False)
df.insert(0, 'is_dup', dup_row)
df[df['is_dup'] == True]
                    dup_row = data.duplicated(subset=['用户编号', '统计日期'])data.insert(0, 'is_dup', dup_row)data[data['is_dup'] == True]
近日，在进行数据整理时，需要根据某些列来找出具体重复的数据有哪些，废话不多说，先把图放上先。
import pandas as pd
test_df=pd.DataFrame({'name':['张三','李四','王五','张三','李四','王五','张三'],
                     'level':[10,3,8,14,2,3,18],
                      'info':['吵闹','安静','中等','吵闹','安静','安静','吵闹'],
				数据重复是一个特别普遍的现象，但不一定是用户所希望看到的。无论是从数据存储，还是数据利用角度，过多冗余重复的数据都会带来不必要的开支。首先，我们要能检测相关数据是否重复。
Dataframe.duplicated(subset: 'Optional[Union[Hashable, Sequence[Hashable]]]' = None, keep: 'Union[str, bool]' = 'first')
使用DataFrame来查看我们刚刚输入的表格，使用duplicated()函数来查看重复数据，如果数据重复就返回True，否则返回False，为bool类型的数据；也可以用duplicated('你要指定的列')指定列来查看重复数据，不指定则默认为第一列，如上图的num列；
使用函数drop_duplicates('num',inplace = True)来删除指定的数据，可以指定返回的.
# 创建数据帧
df = pd.DataFrame({'A': [1, 2, 3, 4, 1, 2, 3, 4], 
                   'B': ['a', 'b', 'c', 'd', 'a', 'b', 'c', 'd']})
# 检查重复数据
df.duplicated()
# 输出：
# 0    False
# 1    False
# 2    False
# 3    False
# 4     True
# 5     True
# 6     True
# 7     True
# dtype: bool
如果想要删除重复的数据，可以使用 `drop_duplicates` 函数：
df.drop_duplicates(inplace=True)
这将在原数据帧上删除重复数据，并修改原数据帧。如果不想对原数据帧进行修改，可以不使用 `inplace` 参数。
                    CSDN-Ada助手: 
                    非常感谢您分享如何在Centos离线安装gcc的经验，这篇博客对于那些需要在离线环境下进行gcc安装的用户来说非常有用。恭喜您已经写了第9篇博客，您的持续创作精神值得表扬和鼓励。我建议您在未来的博客中可以分享一些更加高级的技术知识或者一些有趣的项目经验，让我们更加期待您的下一篇作品。再次感谢您的分享！
CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply9 看奖励名单。
                时间序列预测----(基于多变量深度模型)
                    m0_62815839: 
                    请问ts ，也就是滑窗大小的值怎么设置合理呢？
                大数据分析师理论知识解析（Part.1）
                    还有part2么