stata笔记总结(三):一些基本操作
导入数据之后,我们可能会对数据进行一些人为的处理工作,以系统自带的auto数据集为例
sysuse auto
1.常用命令
(1)drop
一些没有用的(碍眼的)变量,我们可以通过drop函数直接扔掉:
drop 变量1 变量2
比如在系统自带的auto数据集中,扔掉make(制造厂商)变量:
drop make
(2)keep
有时候我们只想要保留一部分变量,其它的都不要,那么需要使用keep命令:
keep 变量1 变量2
比如我们只想要price,mpg, height,weight这些变量:
keep price mpg height weight
(3)rename
有时候,我们觉得某变量的名字太长了,不好操作,可以使用rename函数修改好:
rename 当前变量名 新变量名
比如把length改成l:
rename length l
(4)generate
有时候我们会想要“制造”一些新的变量,就可以用generate函数:
generate 新变量名 表达式
比如让价格变为原来的1.1倍:
generate p=price*1,1
此外,我们可以利用generate函数给数据 编号 :
generate id=_n
这样就会生成一个叫id的变量,自上而下给数据编号为1,2,3....
(5)sort
我们可以利用sort函数给数据进行 从小到大 排序:
sort 变量
比如给price排序:
sort price
如果要从大到小排序,需要使用gsort函数:
gsort -price
注意变量前面需要加一个-号
2.运算
在生成变量或者做一些简单的判断时,我们需要用到一些常见的运算命令
2.1数学运算
数学运算无非就是加减乘除和乘方,在stata中依次为:
+ - * / ^
拿price变量举例:
generate p2=price+100
generate p3=price-200
generate p4=price*1.2
generate p5=price/2
generate p6=price^2
2.2逻辑运算
逻辑运算经常和if放在一起使用,当然后面做实证分析生成虚拟变量也会用到,具体主要有:
逻辑关系 | 代码 |
---|---|
与(and) | & |
或(or) | | |
非(not) | ! |
等于 | == |
不等于 | != |
大于 | > |
大于等于 | >= |
小于 | < |
小于等于 | <= |
比如我们生成一个新的价格:原价格小于10000不变,大于10000的多征收10%的“税”
generate pp=price+(price>10000)*p*0.1
stata一些常用的操作大概就是上面这些了,当然还有一些操作,比如字符和数值类型互换,日期格式等等,但是这些东西在stata中有时候并不好操作,不如直接自己在Excel上改方便,这里就先不占用篇幅了。
最后,如果对某些函数存在疑问,可以使用help函数立刻查询:
help 你要查询的函数名