一次性在pandas.DataFrame里添加插入几列
相信有很多人收这个问题的困扰,如果你想一次性在pandas.DataFrame里添加几列,或者在指定的位置添加一列,都会很苦恼找不到简便的方法;可以用到的函数有df.reindex, pd.concat。。
DataFrame在任意处添加一列或者多列的方法
很多时候我们需要在任意处添加一列,而非末尾添加一列,下面就介绍一下几种方法
1.df.insert但是这个允许插入一列
DataFrame.insert(loc,column,value,allow_duplicates = False)
loc: int,插入索引。必须验证0 <= loc <= len(columns)
column:str, number, or hashable object,插入列的标签
value:int, Series, or array-like
allow_duplicates:bool, 可选
前面三个是必选,后面的可选
值得注意的是,如果你不知道value的值,可以使用np.nan代替,后续再赋值
data = pd.DataFrame(columns=['a','b'], data=[[1,2],[3,4]])
data.insert(2,'c',value=np.nan)
a b c
0 1 2 NaN
1 3 4 NaN
2.pd.concat,df.reindex和list.insert(index, obj)配合,可以在任意处插入一列或者多列
首先,如果要在df的后面添加一列,只需要data['c']=xx,但是如果你想一次性添加两列级以上,df[['D','E']] == None ,结果报错
所以接下来我想介绍这种认为比较简便的方法:
利用pd.concat 在DataFrame后面添加两列,这种方法的缺点是不能指定位置
pd.concat([df, pd.DataFrame(columns=list('DE'))]),然后利用 reindex来重排和增加列名df.reindex(columns=list('ABCDE')),
当然这里举的例子比较简单,在实际运用中,列名可能都比较长,都敲出来肯定不方便,所以我们需要更强大的方法,运用到 list.insert的方法list.insert(index, obj)
col_name = df.columns.tolist()
col_name.insert(1,'D')
df.reindex(columns=col_name)
#或者不用数字索引,直接在某列前面或后面插入,利用 list.index的方法
col_name = df.columns.tolist()
col_name.insert(col_name.index('B'),'D')# 在 B 列前面插入
df.reindex(columns=col_name)
col_name = df.columns.tolist()
col_name.insert(col_name.index('B')+1,'D') # 在 B 列后面插入
df.reindex(columns=col_name)
这样子就基本能满足所有要求了
所以接下来我想介绍两种认为比较简便的方法
(1)第一个方法是利用pd.concat 在DataFrame后面添加两列,这种方法的缺点是不能指定位置
pd.concat([df, pd.DataFrame(columns=list('DE'))])
(2)第二种方法是利用 reindex来重排和增加列名df.reindex(columns=list('ABCDE'))
这种方法,你可以改变各列的相对位置,且保留原始列的数值,比如df.reindex(columns=list('BCADE'))
reindex 还有 fill_value 选项,可以填充NaN,例子如下df.reindex(columns=list('ABCDE'), fill_value=0)
当然这里举的例子比较简单,在实际运用中,列名可能都比较长,都敲出来肯定不方便,所以我们需要更强大的方法,运用到 list.insert的方法list.insert(index, obj)
index -- 对象obj需要插入的索引位置。
obj -- 要插入列表中的对象。
先获取原列名集合, 赋值给新变量(这个很重要,具体原因我也不知道为啥), 然后 insert
col_name = df.columns.tolist()
col_name.insert(1,'D')
df.reindex(columns=col_name)
Out[92]:
A D B C
01 NaNNoneNone
13 NaNNoneNone
或者不用数字索引,直接在某列前面或后面插入,利用 list.index的方法
col_name = df.columns.tolist()
col_name.insert(col_name.index('B'),'D')# 在 B 列前面插入
df.reindex(columns=col_name)
Out[93]:
A D B C
01 NaNNoneNone
13 NaNNoneNone
col_name = df.columns.tolist()