python时序分析之重采集(resample)
接着上一回说到的时序分析,上一回主要是学习了datetime库和pandas.to_datetime模块。
今天我们要学习的是resample,这一讲的内容很多,也有很多有意思的东西。
老规矩,用到的资料来源于
参考书Wes McKinney著的Python for Data Analysis,中文名叫《利用python进行数据分析》
在开始resample之前,我觉得有必要介绍一个模块data_range,在介绍data_range之前,我想补充一下datetime的格式说明
这个格式也是format最常用的。当然需要牢记。
好的,我们开始data_range的学习
老规矩,先看一下data_range的参数使用
pandas.date_range(start=None, end=None, periods=None, freq=None, tz=None, normalize=False,
name=None, closed=None, **kwargs)
这里我就主要介绍一下常用的参数
1:start 这个参数是时间索引的起始时间
2:end 自然这个参数是结束的时间
3:period ,如果你只使用了起始或结束的时间戳,那么就需要使用period来告知一个范围
4:freq 这个是frequency的缩写,也就是频率,这个是一个非常重要的参数,可以通过设置这个参数得到自定义的时间频率
官方文档为这些频率做了一个说明,我就直接复制下来了
还有两张图片
光看上面的图片,我觉得很容易就晕掉了,我们来看一看具体的例子,我敬重的考研名师宇哥说过“数无形时少直觉”那么我们用实际的例子去解决上面的问题。
因为昨天学了datetime模块,所以我这里就自己结合了datetime
首先先导入需要以及可能用到的库
import pandas as pd