1. 建立一个DataFrame
C=pd.DataFrame({'a':['dog']*3+['fish']*3+['dog'],'b':[10,10,12,12,14,14,10]})
2. 判断是否有重复项
用duplicated( )函数判断
C.duplicated()
3. 有重复项,则可以用drop_duplicates()移除重复项
C.drop_duplicates()
4. Duplicated( )和drop_duplicates( )方法是以默认的方式判断全部的列(上面的例子中是看两个变量a和b是否都是重复出现)。
我们也可以对特定的列进行重复项判断。
C.duplicated(['a']) C.drop_duplicates(['a'])
C.duplicated(['b']) C.drop_duplicates(['b'])
5. norepeat_df = df.drop_duplicates(subset=['A_ID', 'B_ID'], keep='first')
#上面的命令去掉UNIT_ID和KPI_ID列中重复的行,并保留重复出现的行中第一次出现的行
补充:
当keep=False时,就是去掉所有的重复行
当keep=‘first’时,就是保留第一次出现的重复行
当keep=’last’时就是保留最后一次出现的重复行。
(注意,这里的参数是字符串,要加引号!!!)
1. 建立一个DataFrame C=pd.DataFrame({'a':['dog']*3+['fish']*3+['dog'],'b':[10,10,12,12,14,14,10]}) 2. 判断是否有重复项用duplicated( )函数判断 C.duplicated() 3. 有重复项,则可以用drop_duplicates()移除重复项 C...
import
pandas
as pd
se1=pd.Series(['a','b','b','d','d','d','e','f','f'])
se2=pd.Series(['1','2','2','4','4','4','5','7','8'])
df = pd.
DataFrame
({'name':se1, 'number':se2})
看一下df的样子:
2.查看name列中包含的数据有
Pandas
-
DataFrame
常用基础知识点总结,代码示例,主要有对某列字符替换、groupby分组统计、聚合统计、根据某列进
行
排序、
dataframe
格式转字典、datafrane 多
行
合并为一
行
、新增与
删除
某列、
删除
某列字符大于8的
行
、某列格式转换、
删除
包含某特殊字符的
行
、对某列文本中包含的字符进
行
替换
删除
、截取某列字符、指定时间格式、对空值/缺失值进
行
填充、某列数据末尾添加特殊字符、获取索引和数据、
删除
重复
数据、常用的统计计算、使用countains可以用来正则匹配筛选、某列累计求和 cumsum函数、、某列整体计算、多列合并为一列、某两列时间相减、
删除
去掉默认索引 、取消索引、重置索引等等。
DataFrame
.drop_duplicates(subset=None, keep=’first’, inplace=False)
subset考虑
重复
发生在哪一列,默认考虑所有列,就是在任何一列上出现
重复
都算作是
重复
数据
keep 包含三个参数first, last, False,first是指,保留搜索到的第一个
重复
数据,之后的都
删除
;last是指,保留搜索到的最后一个
重复
数据,之前的搜索到的
重复
数据都
删除
,False是指,把所有搜索到的
重复
数据都
删除
,一个都不保留,即如果有两
行
数据
重复
,把两
行
数据都
删除
,而不是保留其中一
行
。默认参数是first。
补充知识:pytho
这个drop_duplicate方法是对
DataFrame
格式的数据,去除特定列下面的
重复
行
。返回
DataFrame
格式的数据。
subset : column label or sequence of labels, optional 用来指定特定的列,默认所有列
keep : {‘first’, ‘last’, False}, default ‘first’
删除
重复
项并
使用
DataFrame
来查看我们刚刚输入的表格,使用duplicated()函数来查看
重复
数据,如果数据
重复
就返回True,否则返回False,为bool类型的数据;也可以用duplicated('你要指定的列')指定列来查看
重复
数据,不指定则默认为第一列,如上图的num列;
使用函数drop_duplicates('num',inplace = True)来
删除
指定的数据,可以指定返回的.
1、subset=[] 表示整个
dataframe
基于[]内选定列进
行
数据
重复
内容识别,可以添加多列数据进
行
识别。
(1)添加一列列名时表示对选中的单列数据进
行
重复
数据识别,
(2)添加多列时则表示识别多列数据同时
重复
的情况;
2、keep='' 表示对选中的
重复
数据操作策略,可选择的参数为'first...
移除
重复
数据
DataFrame
中经常会出现
重复
行
,利用duplicated()函数返回每一
行
判断是否
重复
的结果(
重复
则为True),drop_duplicates([key1,key2,..])则可去除
重复
行
。
1 判断每一
行
是否
重复
df1=pd.
DataFrame
({'A':[1,1,1,2,2,3],'B':list("a...
平常我们用
pandas
做
重复
数据处理时,常常调用到drop_duplicates方法,来去除
重复
保留唯一值。
现在我不想去除
重复
,而是把整个
重复
数据输出,数据如下所示:
https://www.cnblogs.com/trotl/p/11876292.html
https://blog.csdn.net/qq_37977267/article/details/83585869
https://www.cnpython.com/qa/66175
https://blog.csdn.net/qq236