df = pd.DataFrame({
'用户编号': ['小明', '小明', '小王', '小美', '小张', '小王'],
'统计日期': ['11.12', '11.12', '11.12', '11.12', '11.13', '11.13'],
'消费金额': [4, 3, 5, 10, 2, 5]
可见用户 “小明”,在11.12当日产生的消费金额不一致,因此判断为异常数据,将其找出:
dup_row = df.duplicated(subset=['用户编号', '统计日期'], keep=False)
df.insert(0, 'is_dup', dup_row)
df[df['is_dup'] == True]
dup_row = data.duplicated(subset=['用户编号', '统计日期'])data.insert(0, 'is_dup', dup_row)data[data['is_dup'] == True]
近日,在进行数据整理时,需要根据某些列来找出具体重复的数据有哪些,废话不多说,先把图放上先。
import pandas as pd
test_df=pd.DataFrame({'name':['张三','李四','王五','张三','李四','王五','张三'],
'level':[10,3,8,14,2,3,18],
'info':['吵闹','安静','中等','吵闹','安静','安静','吵闹'],
数据重复是一个特别普遍的现象,但不一定是用户所希望看到的。无论是从数据存储,还是数据利用角度,过多冗余重复的数据都会带来不必要的开支。首先,我们要能检测相关数据是否重复。
Dataframe.duplicated(subset: 'Optional[Union[Hashable, Sequence[Hashable]]]' = None, keep: 'Union[str, bool]' = 'first')
使用DataFrame来查看我们刚刚输入的表格,使用duplicated()函数来查看重复数据,如果数据重复就返回True,否则返回False,为bool类型的数据;也可以用duplicated('你要指定的列')指定列来查看重复数据,不指定则默认为第一列,如上图的num列;
使用函数drop_duplicates('num',inplace = True)来删除指定的数据,可以指定返回的.
# 创建数据帧
df = pd.DataFrame({'A': [1, 2, 3, 4, 1, 2, 3, 4],
'B': ['a', 'b', 'c', 'd', 'a', 'b', 'c', 'd']})
# 检查重复数据
df.duplicated()
# 输出:
# 0 False
# 1 False
# 2 False
# 3 False
# 4 True
# 5 True
# 6 True
# 7 True
# dtype: bool
如果想要删除重复的数据,可以使用 `drop_duplicates` 函数:
df.drop_duplicates(inplace=True)
这将在原数据帧上删除重复数据,并修改原数据帧。如果不想对原数据帧进行修改,可以不使用 `inplace` 参数。
CSDN-Ada助手:
时间序列预测----(基于多变量深度模型)
m0_62815839:
大数据分析师理论知识解析(Part.1)