Python pandas库DataFrame对象读取csv文件的用法-如何跳过文件开头的行,如何指定列间分隔符,如何重新定义列的名称?
今天我们用例子说明一下个这个问题,现在有一个txt文件,内容如下,我们可以看到有几个特点:第一行数据是没有用的,数据使用两个空格进行分割的;数据是没有列名的,下面我们一步步的对数据进行处理:
1.默认配置读入文件
import pandas as pd
df = pd.read_csv('test.txt')
df
输出如下:
输出结果差强人意,只是第一行数据被当做列名。
2.跳过第一行数据,不进行读取,使用skiprows参数,这里后面可以单个数字,也可是一个list列表,实现跳过多行的目的。
df = pd.read_csv('test.txt',skiprows = 1)
输出结果如下:
可以看到已经跳过第一行了,但是这里数据的第一行,被当做了列名这不是我们想要的结果。可以设定数据没有列名,所有的都是数据。
3.设定dataframe读取的第一行为数据。使用header = None参数。
默认情况下header参数为header=0,即将第一行作为参数。
df = pd.read_csv('test.txt',skiprows = 1,header=None)
输出如下:
这里可以看到,数据读出是正常的了,但是好像出现一个问题。所有的数据被当成了一列来处理。如何解决这个问题呢?
4.指定数据列的分隔符,使用sep参数
df = pd.read_csv('test.txt',skiprows = 1,header=None,sep=' ')
输出结果看一下:
已经满足我们的需求了。这里有两点注意:1).列之间使用两个空格分隔,因此sep必须指明两个空格,否则会出现问题。2).不指定列名的时候,系统自动的用数字0,1,2,3作为列名。下一步我们就手动指定我们的列名。
5.指定列名,使用names参数。
df = pd.read_csv('test.txt',skiprows = 1,header=None,sep=' '\
,names=['A','B','C','D'])
输出结果如下:
好了,现在数据终于以我们想要的结果呈现了。
6.将某列设置为索引。
df = pd.read_csv('test.txt',skiprows = 1,header=None,sep=' '\
,names=['A','B','C','D'],index_col = ['A'])
使用index_col=‘列名’,达到设定列名的目的。输出结果如下:
7.只保留某几列,不保留不想要的行。例如,我们只想保留'C'列和‘D‘列。代码如下:
df = pd.read_csv('test.txt',skiprows = 1,header=None,sep=' '\
,names=['A','B','C','D'],index_col = ['A'])[['C','D']]
只要像在dataframe对象选取某列的操作相同,使用列表将需要筛选的列,取出即可。
好了,后续我还会继续补充dataframe在读取文件的相关问题。