PySpark Distinct
PySpark Distinct
PySpark Distinct
- pyspark에서 모든 열에서 중복된 행을 제거하는 메서드는
distinct
df_distinct = df.distinct()
와 같이 간단히 사용
- 특정 열을 선택하기 위해서는
dropDuplicates
메서드를 사용하면 됨df_distinct = df.dropDuplicates("col1", "col2")
distinct
df_distinct = df.distinct()
와 같이 간단히 사용dropDuplicates
메서드를 사용하면 됨df_distinct = df.dropDuplicates("col1", "col2")