添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

R 根据不同变量删除重复观测

写在前面:

终于要学R了,SAS和R差别还是挺大。想记录下平日里遇到的、学到的一些知识。



问题:想删除Excel中重复的行观测,比如删除名字相同的行。

所需处理EXCEL文件(CSV格式)

解决办法:

1:导入CSV文件,取名为test0318,header=T表示保留第一行。

2:按照姓名进行重复值的删选(如果存在重复,默认保留前面的行),并保存在outcome数据框中。

3:导出outcome数据框为一CSV文件。

这样就可以解决上述问题。

但会存在一个问题,名字并不是唯一的,存在着名字重复的问题。所以不能只用名字来进行删除,应该选择一些其他的变量来进行筛选(这就体现了一个唯一码的重要性,例如身份证号等)。

实例文件。图中第一个张三和第二个张三不是一个人。

解决代码:

#将处理数据导入R中,名字取为test0318(处理文件为CSV格式,header=T的意思是保留列名)
test0318<-read.csv("C:/Users/陈文松/Desktop/test.csv",header = TRUE)
#调用dplyr包(如果第一次用R,则需安装这个包,语句为“install.packages("dplyr")”)
library(dplyr)
#按照姓名,年龄,血型进行删选重复行,并且将结果储存至outcome数据框中