R中计数比较特殊,plyr包中有一个计算函数count(),参数vars定义分组的变量,该函数会把重复值计算N次:
count(df, vars = NULL)
使用aggregate()来实现分组计数,使用length(x)来计算向量中元素的个数,该函数会把重复值计算N次:
aggregate(cut~color,diamonds,length)
为了计算唯一值的数量,可以使用unique(x),在计数之前,对向量元素去重:
aggregate(cut~color,diamonds,function(x) length(unique(x)))
三,数据变换(dplyr包)
dplyr包提供灵活的数据操作,用于对数据框执行转化和重塑,这个包是plyr包的升级版本,侧重于处理数据框对象,因此其名字带d(data frame),dplyr包是R开发人员必学必会的包。
dplyr包有三个主要的目标:
更加灵活和简单地处理数据框;
使用内存,提高数据处理的性能;
使用相同的接口处理数据,无论数据存储在何处,无论是在数据框中,数据表或数据库。
1,tlb类型
dplyr包不是默认安装的包,在使用之前,需要使用以下命令安装和引用dplyr包:
install.packages("dplyr")
library(dplyr)
dplyr
包只能用于tibble(简称tbl)类型的对象,tibble 类型是dplyr包特有的对象类型(data frame tbl / tbl_df)。在利用dplyr
包处理数据之前,建议把数据框装载成tibble类型,可以调用 tbl_df()
函数把数据框类型转化成 tibble 类型的数据对象:
> df <- tbl_df(diamonds)
2,投影函数(select)
从tbl对象中,选择特定的数据列显示,select()函数的第一个参数是tibble对象,后续的参数是tbl对象中的变量名:
> select(df,carat,cut,color)
2,筛选函数(filter)
从tbl对象中,按照特定的条件过滤数据:
> filter(df,color=='E')
3,转换函数(mutate)
根据tbl对象中的数据,应用指定的公式,派生新的数据列,或重写已经存在的数据列:
> mutate(df,avg_ct=price/carat)
4,汇总函数(summarize)
对tbl对象执行聚合运算,如果tbl对象已经被分组,那么单独对每个分组进行聚合运算:
> summarize(df,avg_prince=mean(price),avg_ct=mean(carat))
5,分组函数(group_by)和移除分组(ungroup)
使用group_by()函数对tbl对象执行分组,被分组之后,tbl对象处于分组状态,可以使用ungroup函数,移除tbl对象的分组状态。
group_by(df,color)
6,排序函数(arrange)
arrange()函数对tbl变量进行排序,默认是按照字段的升序值排序,使用desc(field),可以按照字段的降序值排序:
> arrange(df,color)
7,管道操作符(%>%)
管道操作符(%>%)用于把前一步操作的结果集(变量类型是tbl)传递到给函数的第一个参数中,同时函数的第一个参数可以省略,例如:
> df %>% group_by(color) %>% summarize(mean(price))
# A tibble: 7 x 2
color `mean(price)`
<ord> <dbl>
1 D 3169.954
2 E 3076.752
3 F 3724.886
4 G 3999.136
5 H 4486.669
6 I 5091.875
7 J 5323.818
8,连接操作(join)
dplyr包还提供了连接(join)操作,
inner_join(x, y, by = NULL, copy = FALSE, suffix = c(".x", ".y"), ...)
left_join(x, y, by = NULL, copy = FALSE, suffix = c(".x", ".y"), ...)
right_join(x, y, by = NULL, copy = FALSE, suffix = c(".x", ".y"), ...)
full_join(x, y, by = NULL, copy = FALSE, suffix = c(".x", ".y"), ...)
semi_join(x, y, by = NULL, copy = FALSE, ...)
anti_join(x, y, by = NULL, copy = FALSE, ...)
参数注释:
by:设置两个数据集用于匹配的字段名,默认使用全部的同名字段进行匹配,如果两个数据集需要匹配的字段名不同,可以直接用等号指定匹配的字段名,例如, by = c("a" = "b"),表示用x.a和y.b进行匹配。
copy:如果两个数据集来自不同的数据源,copy设置为TRUE时,会把数据集y的数据复制到数据集x中,出于性能上的考虑,需要谨慎设置copy参数为TRUE。
suffix:合并后的数据集中同名变量,会自动添加suffix中设置的后缀加以区分。
9,集合操作(set)
#取两个集合的交集
intersect(x,y, ...)
#取两个集合的并集,并进行去重
union(x,y, ...)
#取两个集合的并集,不去重
union_all(x,y, ...)
#取两个集合的差集
setdiff(x,y, ...)
#判断两个集合是否相等
setequal(x, y, ...)
10,绑定操作
dplyr包提供了按行/列合并数据集的函数,合并的对象为数据框,也可以是能够转换为数据框的列表。按行合并函数bind_rows()通过列名进行匹配,不匹配的值使用NA替代,类似于base:: rbind()函数。按列合并函数bind_cols()通过行号匹配,因此合并的数据框必须有相同的行数,函数类似于base:: cbind()函数。原数据集行名称会被过滤掉。
#按行合并,.id添加新列用于指明合并后每条数据来自的源数据框
bind_rows(...,.id = NULL)
#按列合并
bind_cols(...)
#合并数据集
combine(...)
11,排名操作
row_number(x)
ntile(x, n)
min_rank(x)
dense_rank(x)
percent_rank(x)
cume_dist(x)
例如,对一个向量的元素进行排序:
x <- c(5, 1, 3, 2, 2, NA)
row_number(x)
12,去重
对数据对象去重
distinct(data, ..., keep_all = FALSE)
参数注释:
data:tbl对象
... :可选的变量,用于指定去重的变量,如果去重的变量不唯一,那么只保留第一个观测
keep_all:设置为TRUE时,所有的变量都保留到.data,如果...的组合不唯一,那么只保留第一行的观测的各个变量值
13,计数
计数使用函数 n() 来实现,而统计数据集中无重复值的数量使用函数 n_distinct()来实现:
n_distinct(..., na.rm = FALSE)