R实战第六篇：数据变换（aggregate+dplyr）

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

一，使用aggregate()函数做数据变换

在研究数据时，有时需要对数据按照特定的字段进行分组，然后统计各个分组的数据，这就是SQL语法中的分组-聚合操作，使用aggregate()函数对数据进行简单的数据处理。

aggregate()函数用于把数据分离为单独的子集，为每一个子集计算聚合值，然后把聚合值结合（combine）在一起返回。

aggregate(formula, data, FUN, ...,subset, na.action = na.omit)

参数注释：

formula：指定formula对象，包括符号“ ~”，以及在符号“~”两侧的变量，左侧代表要计算聚合值的变量（聚合变量），右侧代表分组的变量，例如，price~cut，函数依据分组变量，把数据分离为多个单独的子集。

data：指定操作的数据框；

FUN：该参数用于指定函数，该函数应用在符号“~”左侧的变量；

...：指定传递给FUN函数的其他参数；

subset：向量类型，可选参数，用于指定data的观测子集；

na.action: 如何处理缺失值，默认为忽略NA。如果不选择na.omit，则需指定函数去处理NA。

1，单个分组变量

使用aggregate() 函数操作diamonds数据集，按照cut字段分组，函数mean的作用是为每个分组计算prince的平均值：

aggregate(price~cut,diamonds,mean)

2，多个分组变量

aggregate()函数能够添加多个分组变量，只需要在formula右侧添加变量，并用加号“+”隔离：

> aggregate(price~cut+color,diamonds,mean)
         cut color    price
1       Fair     D 4291.061
2       Good     D 3405.382
3  Very Good     D 3470.467
3，多个聚合变量
aggregate()函数能够添加多个聚合变量，只需要在formula左侧，使用函数cbind()把两个变量组合起来：
> aggregate(cbind(price,carat)~cut,diamonds,mean)
        cut    price     carat
1      Fair 4358.758 1.0461366
2      Good 3928.864 0.8491847
3 Very Good 3981.760 0.8063814
4   Premium 4584.258 0.8919549
5     Ideal 3457.542 0.7028370
4，多个分组变量和多个聚合变量
aggregate()函数能够formular对象的两侧分别添加多个变量，按照多个分组变量和多个聚合变量执行聚合运算
> aggregate(cbind(price,carat)~cut+color,diamonds,mean)
         cut color    price     carat
1       Fair     D 4291.061 0.9201227
2       Good     D 3405.382 0.7445166
R中计数比较特殊，plyr包中有一个计算函数count()，参数vars定义分组的变量，该函数会把重复值计算N次：
count(df, vars = NULL)
使用aggregate()来实现分组计数，使用length(x)来计算向量中元素的个数，该函数会把重复值计算N次：
aggregate(cut~color,diamonds,length)
为了计算唯一值的数量，可以使用unique(x)，在计数之前，对向量元素去重：
aggregate(cut~color,diamonds,function(x) length(unique(x)))
三，数据变换（dplyr包）
dplyr包提供灵活的数据操作，用于对数据框执行转化和重塑，这个包是plyr包的升级版本，侧重于处理数据框对象，因此其名字带d（data frame）,dplyr包是R开发人员必学必会的包。
dplyr包有三个主要的目标：
 更加灵活和简单地处理数据框；
使用内存，提高数据处理的性能；
使用相同的接口处理数据，无论数据存储在何处，无论是在数据框中，数据表或数据库。
1，tlb类型
dplyr包不是默认安装的包，在使用之前，需要使用以下命令安装和引用dplyr包：
install.packages("dplyr")
library(dplyr)
dplyr包只能用于tibble（简称tbl）类型的对象，tibble 类型是dplyr包特有的对象类型（data frame tbl / tbl_df）。在利用dplyr包处理数据之前，建议把数据框装载成tibble类型，可以调用 tbl_df()函数把数据框类型转化成 tibble 类型的数据对象：
> df <- tbl_df(diamonds)
2，投影函数（select）
从tbl对象中，选择特定的数据列显示，select()函数的第一个参数是tibble对象，后续的参数是tbl对象中的变量名：
> select(df,carat,cut,color)
2，筛选函数（filter）
从tbl对象中，按照特定的条件过滤数据：
> filter(df,color=='E')
3，转换函数（mutate）
根据tbl对象中的数据，应用指定的公式，派生新的数据列，或重写已经存在的数据列：
> mutate(df,avg_ct=price/carat)
4，汇总函数（summarize）
对tbl对象执行聚合运算，如果tbl对象已经被分组，那么单独对每个分组进行聚合运算：
> summarize(df,avg_prince=mean(price),avg_ct=mean(carat))
5，分组函数（group_by）和移除分组(ungroup)
使用group_by()函数对tbl对象执行分组，被分组之后，tbl对象处于分组状态，可以使用ungroup函数，移除tbl对象的分组状态。
group_by(df,color)
6，排序函数（arrange）
arrange()函数对tbl变量进行排序，默认是按照字段的升序值排序，使用desc(field)，可以按照字段的降序值排序：
> arrange(df,color)
7，管道操作符（%>%）
管道操作符（%>%）用于把前一步操作的结果集（变量类型是tbl）传递到给函数的第一个参数中，同时函数的第一个参数可以省略，例如：
> df %>% group_by(color) %>% summarize(mean(price))
# A tibble: 7 x 2
  color `mean(price)`
  <ord>         <dbl>
1     D      3169.954
2     E      3076.752
3     F      3724.886
4     G      3999.136
5     H      4486.669
6     I      5091.875
7     J      5323.818
8，连接操作（join）
dplyr包还提供了连接（join）操作，
inner_join(x, y, by = NULL, copy = FALSE, suffix = c(".x", ".y"), ...)
left_join(x, y, by = NULL, copy = FALSE, suffix = c(".x", ".y"), ...)
right_join(x, y, by = NULL, copy = FALSE, suffix = c(".x", ".y"), ...)
full_join(x, y, by = NULL, copy = FALSE, suffix = c(".x", ".y"), ...)
semi_join(x, y, by = NULL, copy = FALSE, ...)
anti_join(x, y, by = NULL, copy = FALSE, ...)
参数注释：
by：设置两个数据集用于匹配的字段名，默认使用全部的同名字段进行匹配，如果两个数据集需要匹配的字段名不同，可以直接用等号指定匹配的字段名，例如， by = c("a" = "b")，表示用x.a和y.b进行匹配。
copy：如果两个数据集来自不同的数据源，copy设置为TRUE时，会把数据集y的数据复制到数据集x中，出于性能上的考虑，需要谨慎设置copy参数为TRUE。
suffix：合并后的数据集中同名变量，会自动添加suffix中设置的后缀加以区分。
9，集合操作（set）
#取两个集合的交集
intersect(x,y, ...)
#取两个集合的并集，并进行去重
union(x,y, ...)
#取两个集合的并集，不去重
union_all(x,y, ...)
#取两个集合的差集
setdiff(x,y, ...)
#判断两个集合是否相等
setequal(x, y, ...)
10，绑定操作
dplyr包提供了按行/列合并数据集的函数，合并的对象为数据框，也可以是能够转换为数据框的列表。按行合并函数bind_rows()通过列名进行匹配，不匹配的值使用NA替代，类似于base:: rbind()函数。按列合并函数bind_cols()通过行号匹配，因此合并的数据框必须有相同的行数，函数类似于base:: cbind()函数。原数据集行名称会被过滤掉。
#按行合并，.id添加新列用于指明合并后每条数据来自的源数据框
bind_rows(...,.id = NULL)
#按列合并
bind_cols(...)
#合并数据集
combine(...)
11，排名操作
row_number(x)
ntile(x, n)
min_rank(x)
dense_rank(x)
percent_rank(x)
cume_dist(x)
例如，对一个向量的元素进行排序：
x <- c(5, 1, 3, 2, 2, NA)
row_number(x)
12，去重
对数据对象去重
distinct(data, ..., keep_all = FALSE)
参数注释：
data：tbl对象
... ：可选的变量，用于指定去重的变量，如果去重的变量不唯一，那么只保留第一个观测
keep_all：设置为TRUE时，所有的变量都保留到.data，如果...的组合不唯一，那么只保留第一行的观测的各个变量值
13，计数
计数使用函数 n() 来实现，而统计数据集中无重复值的数量使用函数 n_distinct()来实现：
n_distinct(..., na.rm = FALSE)
统计各个分组的观测数量，只能用于 summarise(), mutate() 和 filter() 中
carriers <- group_by(flights, carrier)
summarise(carriers, n())
mutate(carriers, n = n())
filter(carriers, n() < 100)
参考文档：
【R语言】必学包之dplyr包
R语言滴水穿石系列文章（一）：dplyr-高效的数据变换与整理工具
R语言扩展包dplyr笔记
R: 矩阵运算及常用函数 II - aggregate
    作者：悦光阴
出处：http://www.cnblogs.com/ljhdo/
本文版权归作者和博客园所有，欢迎转载，但未经作者同意，必须保留此段声明，且在文章页面醒目位置显示原文连接，否则保留追究法律责任的权利。