Spark DataFrame 的去重可以通过使用 dropDuplicates() 方法来实现。该方法接受一个可选的列名列表,表示基于哪些列去重。如果不提供列名列表,则会基于所有列去重。
示例代码如下:
# 去重所有列
df = df.dropDuplicates()
# 去重部分列
df = df.dropDuplicates(subset=["col1", "col2"])
希望这些信息对您有所帮助。
|
|
苦恼的啄木鸟 · 因果推理综述——《A Survey on ...· 1 年前 · |
|
|
温柔的沙滩裤 · 侠客风云传:前传史燕攻略 ...· 1 年前 · |
|
|
个性的啄木鸟 · 广美视觉艺术设计学院本科毕业设计展——视觉设计板块· 1 年前 · |
|
|
激动的瀑布 · 广东省妇女儿童工作委员会· 1 年前 · |
|
|
沉稳的生姜 · 海淀八里庄片区学校及踩盘分析(去过5次了) ...· 1 年前 · |
|
|
个性的啄木鸟 · 广美视觉艺术设计学院本科毕业设计展——视觉设计板块 1 年前 |
|
|
激动的瀑布 · 广东省妇女儿童工作委员会 1 年前 |
|
|
沉稳的生姜 · 海淀八里庄片区学校及踩盘分析(去过5次了) - 知乎 1 年前 |