Python数据分析 :pandas数据读取、预处理、筛选、计算,时间序列、透视、拼接、导出

一、Pandas数据结构

S1=pd.Series([‘a’,’b’,’c’]) series是一组数据与一组索引(行索引)组成的数据结构
S1=pd.Series([‘a’,’b’,’c’],index=(1,3,4)) 指定索引
S1=pd.Series({1:‘a’,2:’b’,3:’c’}) 用字典形式指定索引
S1.index() 返回索引
S1.values() 返回值
Df=pd.DataFrame([‘a’,’b’,’c’]) dataframe是一组数据与两组索引(行列索引)组成的数据结构
Df=pd.DataFrame([[a,A],[b,B],[c,C]],columns=[‘小写’,’大写’],index=[‘一’,’二’,’三’])
Columms 为列索引,index为行索引
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspider 清华镜像

  • 查找某个包 anaconda search -t conda tensorflow
    下载某个包 anaconda show package
    data={‘小写’:[‘a’,’b’,’c’],’大写’:[‘A’,’B’,’C’]} 传入字典
    Df=Pd.DataFrame(data)
    Df.index() df.columns()
  • 建立分层索引的dataframe:pd.MultiIndex.from_arrays([[,,]],name=[,,])
  • 二、读取数据

    df=pd.read_excel(r’C:\user...xlsx’,sheet_name=’sheet1’) 或
    pd.read_excel(r’C:\user...xlsx’,sheet_name=0) 读取excel表
    pd.read_excel(r’C:\user...xlsx’,index_col=0,header=0)
    index_col指定行索引,header指定列索引
    pd.read_excel(r’C:\user...xlsx’,usecols=[0,1]) 导入指定列,不能有index_col和header
    pd.read_tablel(r’C:\user...txt’,sep=’ ’) 导入txt文件,sep指定分隔符是什么
    df.head(2) 展示前两行,默认展示前5行
    df.shape 显示数据几行几列,不包含行和列索引
    df.info()可查看表中数据的类型
    df.describe() 可获得表中数值类型指端的分布值(和、平均值、方差等)

    三、数据预处理

  • 多个Series合并成DataFrame:pd.DataFrame(list(zip(series_1, series_2)))
  • python在字符串前面加0:str(1).zfill(2)
    df.info() 可显示表中哪个数据为空
    df.isnull() 方法可以判断哪个值是缺失值,如果缺失返回True,否则为False
    df.dropna() 默认删除含缺失值的行
    df.dropna(how=’all’) 删除全为空值的行,不全为空值的行不会删除
    df.fillna(0) 用0填充所有空值
    df.fillna({‘性别’:’男’,’年龄’:’30’}) 对性别列中空值填充男,年龄填充30
  • 通过随机选择非缺失值来填充缺失值
    foo['A'].apply(lambda x: np.random.choice(
    [x for x in range(min(foo['A']),max(foo['A'])]) if (np.isnan(x)) else x)
  • 按一列数据填充另一列数据中的缺失值
    df_real['净含量'] = df_real['净含量'].fillna(df_real['净含量_y'])
  • df1.combine_first(df2):将df2的非缺失值填充df1中的缺失(dataframe根据列名和索引)值;
    ser1.combine_first(ser2):用ser2的非缺失值填充ser1中的缺失值(series根据索引)
  • 按指定的字符合并多列:df['A'].str.cat([df['B'], df['C']], sep='-')
    df.drop_duplicates(inplace=True) 默认对所有值进行重复值检查,保留第一行的值,inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。
    df.drop_duplicates(subset=’性别’) 对性别列中重复值查询保留第一行
    df.drop_duplicates(subset=[’性别’,’公司’],keep=’last’) 对性别和公司两列查重
    keep设置默认为first(保留第一个),可设置为last(保留最后一个) 或False(都不保留)
    df[‘ID’].dtype 查看ID列的数据类型
    df[‘ID’].astype(‘float’) 将ID列的数据类型转换为float类型
    数据类型:int、float、object、string、unicode、datetime
    df[‘ID’][1] ID列的第二个数据
    df.columns=[‘大写’,’小写’,’中文’] 为无索引表添加列索引
    df.index=[1,2,3] 添加行索引
    df.set_index(‘编号’) 指明要用的列作为行索列
    df.rename(index={‘订单编号’:’新订单编号’,’客户姓名’:’新客户姓名’}) 对行索引进行重新命名
    df.rename(columns={1:’一’,2:’二’}) 对列索引进行一次性重新命名所有列名
    如果你需要做的仅仅是将空格换成下划线,那么更好的办法是使用str.replace()方法,这是因为你都不需要输入所有的列名:
    df.columns = df.columns.str.replace( , _ )
    df.reset_index() 默认将全部index转化为column,
    df.reset_index(level=0) 将0级索引转化为column
    df.reset_index(drop=True) 删除原有索引
  • 多列合并为一行
    df = pd.DataFrame({'id_part':['a','b','c','d'], 'pred':[0.1,0.2,0.3,0.4], 'pred_class':['women','man','cat','dog'], 'v_id':['d1','d2','d3','d1']})
    df.groupby(['v_id']).agg({'pred_class': [', '.join],'pred': lambda x: list(x),'id_part': 'first'}).reset_index()
  • 字符串转换为数值
    df = pd.DataFrame({'列1':['1.1','2.2','3.3'],
    '列2':['4.4','5.5','6.6'],
    '列3':['7.7','8.8','-']})
    df.astype({'列1':'float','列2':'float'}).dtypes
    用这种方式转换第三列会出错,因为这列里包含一个代表 0 的下划线,pandas 无法自动判断这个下划线。为了解决这个问题,可以使用 to_numeric() 函数来处理第三列,让 pandas 把任意无效输入转为 NaN。
    df = df.apply(pd.to_numeric, errors='coerce').fillna(0)
  • 优化 DataFrame 对内存的占用
    方法一:只读取切实所需的列,使用usecols参数
    cols = ['beer_servings','continent']
    small_drinks = pd.read_csv('data/drinks.csv', usecols=cols)
    方法二:把包含类别型数据的 object 列转换为 Category 数据类型,通过指定 dtype 参数实现。
    dtypes ={'continent':'category'}
    smaller_drinks = pd.read_csv('data/drinks.csv',usecols=cols, dtype=dtypes)
  • 把字符串分割为多列
    df = pd.DataFrame({'姓名':['张 三','李 四','王 五'],
    '所在地':['北京-东城区','上海-黄浦区','广州-白云区']})
    df.姓名.str.split(' ', expand=True)
  • 把 Series 里的列表转换为 DataFrame
    df = pd.DataFrame({'列1':['a','b','c'],'列2':[[10,20], [20,30], [30,40]]})
    df_new = df.列2.apply(pd.Series)
    pd.concat([df,df_new], axis='columns')
  • DataFrame迭代:
    iterrows():将DataFrame迭代为(insex, Series)对。
    iteritems():将DataFrame迭代为(列名, Series)对。
    itertuples(): 将DataFrame迭代为元组。
    for row in df.itertuples():
    print(row)
    print('----------------')
    print(getattr(row,'col1'), getattr(row,'col2'))
    getattr() 函数用于返回一个对象属性值。
  • 四、数据选择

  • Query是pandas的过滤查询函数,使用布尔表达式来查询DataFrame的列,就是说按照列的规则进行过滤操作。
    pandas.DataFrame.query(self, expr, inplace = False, **kwargs)
    expr:要评估的查询字符串;
    inplace=False:查询是应该修改数据还是返回修改后的副本
    kwargs:dict关键字参数
    比如要查列 value_1 < value_2 的行记录:df.query('value_1 < value_2')
    查询列 year >=2016的行记录:df.query('year >= 2016 ')
  • Insert用于在DataFrame的指定位置中插入新的数据列。默认情况下新列是添加到末尾的,但可以更改位置参数,将新列添加到任何位置。
    Dataframe.insert(loc, column, value, allow_duplicates=False)
    loc: int型,表示插入位置在第几列;若在第一列插入数据,则 loc=0
    column: 给插入的列取名,如 column='新的一列'
    value:新列的值,数字、array、series等都可以
    allow_duplicates: 是否允许列名重复,选择Ture表示允许新的列名与已存在的列名重复
    在第三列的位置插入新列:df.insert(2, 'new_col', new_col)
  • Cumsum是pandas的累加函数,用来求列的累加值。 用法:
    DataFrame.cumsum(axis=None, skipna=True, args, kwargs)
    axis:index或者轴的名字
    skipna:排除NA/null值
    df中的group列有A、B、C三组,year列有多个年份。我们只知道当年度的值value_1、value_2,现在求group分组下的累计值,比如A、2014之前的累计值,可以用cumsum函数来实现。
    当然仅用cumsum函数没办法对groups (A, B, C)进行区分,所以需要结合分组函数groupby分别对(A, B, C)进行值的累加。
    df['cumsum_2'] = df[['value_2','group']].groupby('group').cumsum()
  • Sample用于从DataFrame中随机选取若干个行或列。 用法:
    DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)
    n:要抽取的行数
    frac:抽取行的比例 例如frac=0.8,就是抽取其中80%
    replace:是否为有放回抽样, True:有放回抽样 False:未放回抽样
    weights:字符索引或概率数组
    random_state :随机数发生器种子
    axis:选择抽取数据的行还是列 axis=0:抽取行 axis=1:抽取列
    从df中随机抽取5行:df.sample(n=5)
    从df随机抽取60%的行,并且设置随机数种子,每次能抽取到一样的样本:df.sample(frac=0.6,random_state=2)
  • Where用来根据条件替换行或列中的值。如果满足条件,保持原来的值,不满足条件则替换为其他值。默认替换为NaN,也可以指定特殊值。
    DataFrame.where(cond, other=nan, inplace=False, axis=None, level=None, errors='raise', try_cast=False, raise_on_error=None)
    cond:布尔条件,如果 cond 为真,保持原来的值,否则替换为other
    other:替换的特殊值
    inplace:inplace为真则在原数据上操作,为False则在原数据的copy上操作
    axis:行或列
    将df中列value_1里小于5的值替换为0:df['value_1'].where(df['value_1'] > 5 , 0)
  • 得到DataFrame中重复的数据
    data={'one':[1,1,2,2,1,2,2],'two':['a','b','c','d','b','c','d']}
    frame=pd.DataFrame(data)
    print("***************原始数据*************")
    print(frame)
    data1 = frame.drop_duplicates(subset=['two'],keep='first')
    print("***************去重后的数据*************")
    print(data1)
    a = frame.drop_duplicates(subset=['two'],keep='last')
    b = frame.drop_duplicates(subset=['two'],keep=False)
    c=a.append(b).drop_duplicates(subset=['two'],keep=False)
    print("***************重复的数据*************")
    print(c)
  • df[[‘ID’,’姓名’]] 多个列名要装入list
    df.iloc[[1,3],[2,4]] 用行列编号选择数据
    df.iloc[1,1] 选取表中的第3行2列数据,第一行默认为列索引
    df.iloc[:,0:4] #获取第1列到第4列的值
    df.loc[‘一’] #loc用行名选取的行数据,格式是Series,但可以用列表形式访问
    df.loc[‘一’][0] 或 df.loc[‘一’][‘序号’]
    df.iloc[1]#iloc用行编号选取行数据
    df.iloc[[1,3]]#多行编号选取行数据,要用list封装,不然变成行列选取
    df.iloc[1:3]#选择第二行和第四行
    df[df[‘年龄’]<45] #加判断条件返回符合条件的全部数据,不局限年龄列
    df[(df[‘年龄’]<45)&(df[‘ID’]<4)] #判断多条件选择数据
    df.iloc[[1,3],[2,4]] 相当于df.loc[[‘一’,’二’],[‘年龄’,’ID’]] #loc是名,iloc是编号
    df[df[‘年龄’]<45][[‘年龄’,’ID’]]#先通过年龄条件选择行,再通过不同索引指定列
    df.iloc[1:3,2:4]#切片索引

  • 行序、列序反转 :行序反转最直接的办法是使用loc函数并传递::-1,跟Python中列表反转时使用的切片符号一致
    df.loc[::-1].reset_index(drop=True)
    列序反转就比较容易了,只需要如下操作:df.loc[:, ::-1]
  • 分组里最大值所在的行方法
    分为分组中有重复值和无重复值两种。无重复值的情况。
    df = pd.DataFrame({'Sp':['a','b','c','d','e','f'], 'Mt':['s1', 's1', 's2','s2','s2','s3'], 'Value':[1,2,3,4,5,6], 'Count':[3,2,5,10,10,6]})
    df.iloc[df.groupby(['Mt']).apply(lambda x: x['Count'].idxmax())]
    先按Mt列进行分组,然后对分组之后的数据框使用idxmax函数取出Count最大值所在的列,再用iloc位置索引将行取出。有重复值的情况
    df["rank"] = df.groupby("ID")["score"].rank(method="min", ascending=False).astype(np.int64)
    df[df["rank"] == 1][["ID", "class"]]
    对ID进行分组之后再对分数应用rank函数,分数相同的情况会赋予相同的排名,然后取出排名为1的数据。
  • 选择特定类型的列
    drinks = pd.read_csv('data/drinks.csv')
    选择所有数值型的列
    drinks.select_dtypes(include=['number']).head()
    选择所有字符型的列
    drinks.select_dtypes(include=['object']).head()
    drinks.select_dtypes(include=['number','object','category','datetime']).head()
    用 exclude 关键字排除指定的数据类型
    drinks.select_dtypes(exclude=['number']).head()
  • 根据最大的类别筛选 DataFrame
    movies = pd.read_csv('data/imdb_1000.csv')
    counts = movies.genre.value_counts()
    movies[movies.genre.isin(counts.nlargest(3).index)].head()
  • 基于字符串的长度来筛选数据
    df[df.col1.str.len() > 20].head()
  • df_new.style.highlight_max(axis = 0, color = "yellow")

    五、数值操作

    df[‘年龄’].replace(100,33)#对年龄列中的100替换成33
    df.replace(np.NaN,0)#相当于fillna(),其中np.NaN是python中缺省值的表示方式
    df.replace([A,B],C)#多对一替换,A、B替换成C
    df.replace({‘A’:’a’,‘B’:’b’,‘C’:’c’})#多对多替换
    df.sort_values(by=['申请单编号'],ascending=False)#申请单编号列降序排列,Ture升序排列(默认)
    df.sort_values(by=['申请单编号'],na_position=’first’)#申请单编号列升序排列,缺失值排在第一位
    默认缺失值在最后一位last
    df = pd.DataFrame([['A',1],['A',3],['A',2],['B',5],['B',9]], columns = ['name','score'])
    df.sort_values(['name','score'], ascending = [True,False])#多列排序
    df.groupby('name').apply(lambda x: x.sort_values('score',ascending=False)).reset_index(drop=True)

  • Pct_change是一个统计函数,用于表示当前元素与前面元素的相差百分比,两元素的区间可以调整。
    比如说给定三个元素[2,3,6],计算相差百分比后得到[NaN, 0.5, 1.0],从第一个元素到第二个元素增加50%,从第二个元素到第三个元素增加100%。
    DataFrame.pct_change(periods=1, fill_method=‘pad’, limit=None, freq=None, **kwargs)
    periods:间隔区间,即步长
    fill_method:处理空值的方法
    对df的value_1列进行增长率的计算:df.value_1.pct_change()
  • df[‘销量’].rank(method=’first’)#销量排名(不是排序),method有first\min\max\average

  • pandas 进行组内排序、单组排序、标号
    组内进行排序(按user_id分组后对product_id排序)
    data1['group_sort']=data1['product_id'].groupby(data1['user_id']).rank(ascending=1,method='first')
  • df.drop([‘销量’,’ID’],axis=1)#删除列,直接是列名,inpace=True是保留修改哦
    df.drop(df.columns[[4,5]],axis=1)#删除列,是编号
    df.drop(colums=[‘销量’,’ID’])#此种方式删除列,可以不写axis=1
    df.drop([‘a’,’b’],axis=0)#删除行,直接是列名
    df.drop(df.index[[4,5]],axis=0)#删除行,是编号
    df.drop(index=[‘a’,’b’])#此种方式删除行,可以不写axis=0
    df[‘ID’].value_counts()#对ID列中数据出现的次数进行统计
    df[‘ID’].value_counts(normalize=Ture,sort=False)#对ID列中数据出现的次数占比进行统计,并降序排序
    df[‘ID’].unique()#获取列的唯一值
    df[‘年龄’].isin([‘a’,11])#查看这列中是否包含a或11
    pd.cut(df[‘ID’],bins=[0,3,6,10])#用bins指明切分区间
    pd.qcut(df[‘ID’],3)#ID列切分成3个部分,每部分数据个数尽量一致
    df.insert(2,’商品’,[‘书’,’笔’,’计算器’])#插入第三列
    df[’商品’]=[‘书’,’笔’,’计算器’])#插新列,在表的最后面
    df.T行列互换
    df.tack()#把表格型数据转化成树形数据
    df.set_index([‘ID’,’姓名’]).stack().reset_index()#宽表转换成长表,先将共同列设置成行索引,再对其他列
    进行转化成树形数据,再重置行索引

  • 堆叠:pd.DataFrame.stack(self, level=-1, dropna=True),level默认为-1是将最内层col堆叠为索引的最内层,为0是将最外层col堆叠为索引的最内层,从最外层开始依次的level值为0,1,2...的顺序来指定对应col。当然直接指定索引名称或许是更好的选择。

  • 反堆叠、拆堆:pd.DataFrame.unstack(self, level=-1, fill_value=None),默认将最内层的索引拆堆到列的最内层,其他同理stack();

  • df.melt(id_vars=[‘ID’,’姓名’],var_name=’year’,value_name=’sale’)
    id_var参数指明宽表转换成长表时保持不变的列,var_name参数表示原来的列索引转化为行索引对应的列名,value_name表示新索引对应值的列名
    df[‘C1’].apply(lambda x:x+1)#相当于map(),只是需要和lambda配合
    df.applymap(lambda x:x+1),对表中的所有数据执行相同函数运算

  • apply搭配匿名函数lambda的神奇用法:
    df['数据3'] = df.apply(lambda x:(x.数据1-x.数据2)/x.上月 if x.col3!=0 else 0 ,axis=1)

  • 删除包含特定字符串所在的
    行:df['b'].values.astype('str') 先转为字符串格式最好;
    df[df['b'].str.contains('exp',na=False)]

  • 计算变量缺失率
    def missing_cal(df):
    df :数据集
    return:每个变量的缺失率
    missing_series = df.isnull().sum()/df.shape[0]
    missing_df = pd.DataFrame(missing_series).reset_index()
    missing_df = missing_df.rename(columns={'index':'col',
    0:'missing_pct'})
    missing_df = missing_df.sort_values('missing_pct',ascending=False).reset_index(drop=True)
    return missing_df
    missing_cal(df)
    如果需要计算样本的缺失率分布,只要加上参数axis=1。

  • 六、数据运算

    df[‘ID’]+Df[‘ID’]#可进行加减乘除
    df[‘ID’]>Df[‘ID’]#可进行> < == !=等比较运算
    df.nunique()#统计每列不重复值的个数
    df.count()#统计每列的非空值的个数
    df.count(axis=1)#统计每行的非空值的个数
    df[‘ID’].count()#统计指定列的非空值的个数
    df.sum(axis=1)#每列/行求和结果
    df.mean(axis=1)#每列/行求均值
    df.max(axis=1)#每列/行求最大值
    df.min(axis=1)#每列/行求最小值
    df.median(axis=1)#每列/行求中间值
    df.mode(axis=1)#每列/行中出现最多的值
    df.var(axis=1)#每列/行求方差
    df.std(axis=1)#每列/行求标准差
    df.quantile(0.25)#求1/4分位数,可以0.5、0.75等分位数
    df.corr()#求整个DataFrame表中的相关性

    七、时间序列

    from datetime import datetime
    datatime.now()#返回现在的时间年月日时分秒
    datatime.now().year#返回年,可以.month.day
    datatime.now().weekday()-1#返回周几
    datatime.now().isocalendar()#返回周数
    (2018,41,7)#2018年的第41周第7天
    datatime.now().date()#只返回年月日
    datatime.now().time()#只返回时间
    datatime.now().strftime(‘%Y-%m-%d %H:%M:%S’)#返回2020-03-13 09:09:12
    pd.to_datetime(['201221'],format = "%Y%m%d")#返回DatetimeIndex(['2012-02-01'], dtype='datetime64[ns]', freq=None)
    pd.to_datetime('201221',format = "%Y%m%d")#不加列表,返回Timestamp('2012-02-01 00:00:00'),需要省去时分秒可以在后面加.strftime("%Y-%m-%d")
    from dateutil.parser import parse
    parse(str_time)#将字符串的时间转化成为时间格式
    pd.Datetimeindex([‘2020-02-03’,2020-03-05’])#设置时间索引
    data[‘2018’]#获取2018年的数据
    data[‘2018-01’]#获取2018年1月的数据
    data[‘2018-01-05’:‘2018-01-15’]#获取这个时段的数据
    非时间索引的表格处理
    df[df[‘成交时间’]==datetime(2018,08,05)]
    df[df[‘成交时间’]>datetime(2018,08,05)]
    df[(df[‘成交时间’]>datetime(2018,08,05))&(df[‘成交时间’] <datetime(2018,08,15))]
    cha=datatime(2018,5,21,19,50)-datatime(2018,5,18,17,50)
    cha.days#返回天的时间差
    cha.seconds#返回秒的时间差
    cha.seconds/3600#返回小时的时间差
    datatime(2018,5,21,19,50)+timedelta(days=1)#往后移一天
    datatime(2018,5,21,19,50)+timedelta(seconds=20)#往后移20秒
    datatime(2018,5,21,19,50)-timedelta(days=1)#往前移一天

    日期时间类型接口一览表

    df = generate_sample_data_datetime().reset_index()
    df = df.sample(500)
    df["Year"] = df["index"].dt.year
    df["Month"] = df["index"].dt.month
    df["Day"] = df["index"].dt.day
    df["Hour"] = df["index"].dt.hour
    df["Minute"] = df["index"].dt.minute
    df["Second"] = df["index"].dt.second
    df["Nanosecond"] = df["index"].dt.nanosecond
    df["Date"] = df["index"].dt.date
    df["Time"] = df["index"].dt.time
    df["Time_Time_Zone"] = df["index"].dt.timetz
    df["Day_Of_Year"] = df["index"].dt.dayofyear
    df["Week_Of_Year"] = df["index"].dt.weekofyear
    df["Week"] = df["index"].dt.week
    df["Day_Of_week"] = df["index"].dt.dayofweek
    df["Week_Day"] = df["index"].dt.weekday
    df["Week_Day_Name"] = df["index"].dt.weekday_name
    df["Quarter"] = df["index"].dt.quarter
    df["Days_In_Month"] = df["index"].dt.days_in_month
    df["Is_Month_Start"] = df["index"].dt.is_month_start
    df["Is_Month_End"] = df["index"].dt.is_month_end
    df["Is_Quarter_Start"] = df["index"].dt.is_quarter_start
    df["Is_Quarter_End"] = df["index"].dt.is_quarter_end
    df["Is_Leap_Year"] = df["index"].dt.is_leap_year

    八、数据透视表

    df.groupby(‘客户分类’).count()#客户分类后求数运算
    df.groupby(‘客户分类’).sum()#客户分类后求和运算
    df.groupby(‘客户分类’,’区域分类’).sum()#多列分类后求和运算
    df.groupby(‘客户分类’,’区域分类’)[‘ID’].sum()#多列分类后ID求和运算
    df[‘ID’]#DataFrame取出一列就是Series类型
    df.groupby(df[‘ID’]).sum() 相当于 df.groupby(‘ID’).sum()
    df.groupby(‘客户分类’).aggregate([‘sum’,’count’]# aggregate可实现多种汇总方式
    df.groupby(‘客户分类’).aggregate({‘ID’:‘count’,’销量’: ‘sum’})

  • 用多个函数聚合
    df.groupby('order_id').item_price.agg(['sum','count']).head()
  • aggregate可针对不同列做不同的汇总运算
    df.groupby(‘客户分类’).sum().reset_index()#分组汇总后再重置索引,变为标准DataFrame
    pd.pivot_table(data,values,index,columms,aggfunc,fill_value,margins,dropna,margins_name)
    数据透视表,data:数据表df,values:值,index:行索引,columns:列索引,aggfunc:values的计算类型,fill_value:对空值的填充方式;margins:是否有合计列;margins_name:合计列的列名
    pd.pivot_table(df,values=[’ID’,‘销量’],index=’客户分类’,columms=‘区域’,aggfunc={‘ID’:‘count’,’销量’:‘sum’}),fill_value=0,margins=Ture,dropna=None,margins_name=’总计’)
  • 分组聚合 dict(list(df.groupby('key1')))
    通过字典或Series进行分组
    people = pd.DataFrame(np.random.randn(5, 5),columns=['a', 'b', 'c', 'd', 'e'],index=['Joe', 'Steve', 'Wes', 'Jim', 'Travis'])
    mapping = {'a':'red', 'b':'red', 'c':'blue', 'd':'blue', 'e':'red', 'f':'orange'}
    by_column = people.groupby(mapping, axis=1)
    by_column.sum()
  • 九、多表格拼接

    pd.merge(df1,df2)#默认自动寻找两个表中的公共列进行拼接
    pd.merge(df1,df2,on=“学号“)#on来指定连接列,连接列要是公共列
    pd.merge(df1,df2,on=[‘学号’,’姓名’]#on来指定连接列,连接列要是公共列
    pd.merge(df1,df2,left_on=‘学号’right_on=’编号’) #由公共列,但类名不同时用左右键指定
    pd.merge(df1,df2,left_index=‘学号’right_index=’编号’)#两表公共列都是索引列时
    pd.merge(df1,df2,left_index=‘学号’right_on=’编号’)#公共列一个时索引列一个时普通列
    pd.merge(df1,df2,on=’学号’,how=’inner’)#返回公共列中对应的公共值拼接(内连接)
    pd.merge(df1,df2,on=’学号’,how=’left’)#返回公共列中对应的左表值(左连接)
    pd.merge(df1,df2,on=’学号’,how=’right’)#返回公共列中对应的右表值(右连接)
    pd.merge(df1,df2,on=’学号’,how=’outer’)#返回公共列中对应的所有值(外连接)
    pd.concat([df1,df2])#两个结构相同的表纵向连接,保留原索引值
    pd.concat([df1,df2],ignore_index=True)#两个结构相同的表纵向连接,重新设置索引值
    pd.concat([df1,df2],ignore_index=True).drop_duplicates()#拼接后去掉重复值

    十、导出文件

    df.to_excel(excel_writer=r’C:\users\zhoulifu\Desktop\测试.xlsx’,sheet_name=’文档’,index=False,columns=[‘ID’,’销量’,‘姓名’],encoding=’utf-8’,na_rep=0)

  • excel_writer参数指定文件路径,导出时去掉索引,设置导出的列,指定文件编码,na_rep缺失值填充
    writer=pd.ExcelWriter(excelpath,engine=’xlsxwirter’)
  • 导出多个文件至一个文件的多个sheet;

    writer=pd.ExcelWriter(excelpath,engine='openpyxl',mode='a')
    用openpyxl不会删除excel表中原有sheet,更保险!
    df1.to_excel(writer,sheet_name=‘表一’,index= False)
    writer.save()
    writer.close()
    
    df = pd.read_excel(path,sheet_name='test3')
    #写入到原Excel表中避免清空其他数据
    book = openpyxl.load_workbook(path)   #读取你要写入的workbook
    #和pd.read_excel() 用于将Dataframe写入excel。xls用xlwt。xlsx用openpyxl
    writer = pd.ExcelWriter(path,engine='openpyxl')   
    ##此时的writer里还只是读写器. 然后将上面读取的book复制给writer  
    writer.book = book
    #转化为字典的形式
    writer.sheets = dict((ws.title, ws) for ws in book.worksheets)#返回一个字典,sheet名和sheet对象组成的键值对
    #将data写入writer
    df.to_excel(writer,sheet_name="测试",index=False)
    writer.save()
    writer.close()
    
  • to_json
    data = df([['a', 'b'], ['c', 'd']], index=['row 1', 'row 2'], columns=['col 1', 'col 2'])
    json_columns = data.to_json(orient = "columns") # 返回结果:
    '{"col 1":{"row 1":"a","row 2":"c"},"col 2":{"row 1":"b","row 2":"d"}}'
    json_split = data.to_json(orient = "split") # 返回结果:
    '{"columns":["col 1","col 2"],"index":["row 1","row 2"],"data":[["a","b"],["c","d"]]}'
    json_records = data.to_json(orient = "records") # 返回结果:
    '[{"col 1":"a","col 2":"b"},{"col 1":"c","col 2":"d"}]'
    json_index = data.to_json(orient = "index") # 返回结果:
    '{"row 1":{"col 1":"a","col 2":"b"},"row 2":{"col 1":"c","col 2":"d"}}'
    json_values = data.to_json(orient = "values") # 返回结果:
    '[["a","b"],["c","d"]]'