经常有读者留言询问SPSS能够处理多大规模的数据集?用SPSS处理大数据集会不会卡顿?
为了解答大家的疑惑,松鼠进行了相关测试:在SPSS中,对不同规模的数据集执行多种不同的计算任务,记录它们所需的时间。将最终得到的分析结果清晰地展现在下面的两张表格中。
在下面的实验测评环节,使用的数据集变量相同,仅数据的行数不同。这些测试数据集都包含如下图所示的 11个变量 , 数据集行数分别为10万、100万、1000万、10000万 。(这些数据集是通过SPSS的【复杂抽样】功能进行有放回抽样而产生的)
测试分两种 :
一、对变量相同、行数不同的数据集分别执行5种不同分析任务。
二、对变量相同、行数不同、不同格式的数据文件进行导入测试。
测试平台 :处理器I7 7700K 、内存16GB ,所有测试均使用同一台电脑。
一、对变量相同、行数不同的数据集分别执行5种不同分析任务
对变量相同,不同规模的数据集进行5种不同的分析,所用时间如下表:
从上面的表格可知:
1、对于小数据集、不管执行什么分析,能立即得到分析结果;
2、对千万级别的数据执行一些常规分析,几十秒内可完成;
3、对于亿级别的数据,可执行一些简单分析,执行复杂分析的时间太长。
二、对变量相同、行数不同、不同格式的数据文件进行导入测试。
对于非SPSS格式的数据文件,如果文件太大,读取将会非常耗时。这里对一批不同格式的数据文件进行导入测试,所用时间如下表:
从上面的表格可知:
1、读取SPSS文件的速度最快,读取Stata文件也很快,读取Excel文件很慢,读取CSV文件的速度尚可接受。
2、需要处理和分析的数据集通常不是SPSS格式的文件,建议以CSV格式存储这些待处理的文件。
注意,以上测试中,数据集中有11个变量,如果变量数多于11个,那么相同行数的数据集,在部分测试中所需的时间可能会更长。
综上,在SPSS中处理千万级别及以下的数据集是完全没问题的,且执行时间很短;这已经满足了绝大多数人的分析需求。如果数据集规模达到了亿级别,SPSS中执行复杂分析所花费的时间相对较长,不愿意等的话,建议使用其它性能更强的分析软件。
SPSS中可以快速导入亿级别的SPSS格式文件,但我们获取的很多数据集最初并不是以SPSS格式存储的,建议先在R语言等编程软件中将数据转换为SPSS格式再导入SPSS软件中,或者先以CSV格式存储数据,然后将其导入到SPSS中,再转存为SPSS格式,后续直接使用SPSS格式的文件,避免重复导入这些耗费时间的格式的文件。
领取专属 10元无门槛券
私享最新 技术干货
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2024 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号: 粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287