# 创建DataFrame
df = pd.DataFrame(np.arange(12, 60).reshape((12, 4)), columns=["WW", "XX", "YY", "ZZ"])
print(df)
WW XX YY ZZ
0 12 13 14 15
1 16 17 18 19
2 20 21 22 23
3 24 25 26 27
4 28 29 30 31
5 32 33 34 35
6 36 37 38 39
7 40 41 42 43
8 44 45 46 47
9 48 49 50 51
10 52 53 54 55
11 56 57 58 59
# pandas取行或者列的注意点
# - 方括号写数组,表示取行,对行进行操作
# - 写字符串,表示取列索引,对列进行操作
print(df[:5]) # 取前5行
WW XX YY ZZ
0 12 13 14 15
1 16 17 18 19
2 20 21 22 23
3 24 25 26 27
4 28 29 30 31
# 取一列
print(df["YY"])
0 14
1 18
2 22
3 26
4 30
5 34
6 38
7 42
8 46
demo.py(DataFrame切片,DataFrame取行取列):# coding=utf-8import numpy as npimport pandas as pd# 创建DataFramedf = pd.DataFrame(np.arange(12, 60).reshape((12, 4)), columns=["WW", "XX", "YY", "ZZ"])p...
相信很多人像我一样在学习
python
,
pandas
过程中对数据的选取和修改有很大的困惑(也许是深受Matlab)的影响。。。
到今天终于完全搞清楚了!!!
先手工生出一个数据框吧
import numpy as np
import
pandas
as pd
df = pd.
DataFrame
(np.arange(0,60,2).reshape(10,3),columns=list('abc'))
df 是这样子滴
那么这三种选取数据的方式该怎么选择呢?
一、当每列已有column name时,用 df [ ‘a’ ] 就能选取出一整列数据。如果你知道column names 和index,
df['w'] #选择表格中的'w'列,使用类字典属性,返回的是Series类型
df.w #选择表格中的'w'列,使用点属性,返回的是Series类型
df[['w']] #选择表格中的'w'列,返回的是
DataFrame
类型
df[['w','z']] #选择表格中的'w'、'z'列
df[0:2] #返回第1行到第2行的所有行,前闭...
1.通过列名称来提取指定列(推荐)
#列名:irline_sentiment_gold name negativereason_gold retweet_count text
get_data=data[['airline_sentiment','text']]
2.通过
loc
函数传入列名称来获
取列
(推荐)
loc
:
loc
ation 指定列名的位置
data.
loc
[:,'text'] #获
取列
名为text的那一列
3.通过
iloc
函数传入
切片
获
取列
iloc
: i
如果要获取某一列数据有两种方式:
import
pandas
as pd
series = pd.Series(range(5), index = ['a', 'b', 'c', 'd', 'e'])
df = pd.
DataFrame
(np.arange(9).reshape(3,3),index = ['a','b','c'],columns = ['A','B','C'])
a = df['A']
b = df.A
print(a, '\n', "*"*30, '\n', b)
输出结果:
参考:http://
pandas
.pydata.org/
pandas
-docs/stable/api.html#
dataframe
data['w'] #选择表格中的'w'列,使用类字典属性,返回的是Series类型
data.w #选择表格中的'w'列,使用点属性,返回的是Series类型
data[['w']] #选择表格中的'w'列,返回的是
DataFrame
类型
在机器学习、数据分析中,拿到原始数据之后要做的第一件事情就是数据的清洗整理工作,得到我们最终想要的数据。这里以实际学习案例(鸢尾花分类)中的数据作为展示。
import
pandas
as pd
path = 'iris.data'
data = pd.read_csv(path,header=None) #原始数据没有表抬头,所以这里header设置成None
数据预览:
数据说明:
150行,共有150个样本数据。
5列,前四列数据为鸢尾花的四种特征,如’花萼长度’,‘花萼宽度’,
pandas
是一个
Python
的yuyi语言软件包,在我们使用
Python
语音进行机器学习编程的时候,这是一个非常常用的基础编程库。本文是对它的一个入门教程。
pandas
提供了快速,灵活和富有表现力的数据结构,目的是使“关系”或“标记”数据的工作既简单又直观。它旨在成为在
Python
中进行实际数据分析的高级构建块。
pandas
适合于许多不同类型的数据,包括:
# 创建一个
DataFrame
df = pd.
DataFrame
({'A': [1, 2, 3, 4, 5],
'B': ['a', 'b', 'c', 'd', 'e'],
'C': [0.1, 0.2, 0.3, 0.4, 0.5]})
# 输出第2到第4行的所有数据
print(df.
iloc
[1:4, :])
# 输出第2到第4行的A和C列数据
print(df.
loc
[1:3, ['A', 'C']])
A B C
1 2 b 0.2
2 3 c 0.3
3 4 d 0.4
A C
1 2 0.2
2 3 0.3
3 4 0.4
上面的代码中,使用了不同的索引方式。`.
iloc
`使用了整数位置索引,可以根据行列的位置进行
切片
。而`.
loc
`使用了标签索引,可以根据行列的标签进行
切片
。可以根据实际情况选择不同的索引方式来输出数据。