Spark DataFrame 的去重可以通过使用 dropDuplicates() 方法来实现。该方法接受一个可选的列名列表,表示基于哪些列去重。如果不提供列名列表,则会基于所有列去重。
示例代码如下:
# 去重所有列
df = df.dropDuplicates()
# 去重部分列
df = df.dropDuplicates(subset=["col1", "col2"])
希望这些信息对您有所帮助。
![]() |
谈吐大方的铁链 · 汉代铜镜有“英文” 千百年来引猜想_手机新浪网· 9 月前 · |
![]() |
睿智的油条 · 罗永浩和《他的奋斗》|雷军|俞敏洪|王思聪| ...· 10 月前 · |
![]() |
体贴的扁豆 · 宛农工办〔2023〕5号南阳市农民工工作领导 ...· 1 年前 · |
![]() |
长情的椅子 · 咨询大佬们关于电视TVbox上阿里云盘资源扫 ...· 1 年前 · |
![]() |
重情义的筷子 · 【中华人民共和国国家发展和改革委员会令 ...· 1 年前 · |