抛弃你的Excel吧,5行Python代码快速处理合并单元格
在日常处理数据的过程中,我们经常遇到带有合并单元格的excel文件,或者带有空值的csv文件,使用excel打开后如下图所示,但这对数据分析是很不友好的,作为一个Data Analyst,看到这么糟心的数据,怎么能忍?赶紧掏出万能的Pandas来tidy data!
需求分析:想要根据哪一列的粒度整理数据?
-
如果是
class_id
这一列,则整理后的结果将成为4行
,同一个class_id
下的student_list
将会被合并到一个单元格内,可以考虑使用,
将不同的元素隔开 -
如果是
student_list
这一列,则整理后的结果将成为8
行,有合并单元格的列将会被拆分开来,且在有空值的位置补上对应的正确的值
处理步骤
准备工作
-
用到的库:
pandas
-
用到的函数:
fillna()
,groupby()
,agg()
,merge()
1.读取数据
可以看到将数据读取到DataFrame后,在有合并单元格的列中,将会有值为
NaN
的单元格出现
# 引入 pandas 库
import pandas as pd