添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

spark dataframe 去重

Spark DataFrame 的去重可以通过使用 dropDuplicates() 方法来实现。该方法接受一个可选的列名列表,表示基于哪些列去重。如果不提供列名列表,则会基于所有列去重。

示例代码如下:

# 去重所有列
df = df.dropDuplicates()
# 去重部分列
df = df.dropDuplicates(subset=["col1", "col2"])

希望这些信息对您有所帮助。

  •