PySpark agg
PySpark agg
PySpark agg
- Groupby된 데이터프레임의 값을 집계할 때 사용하는 메서드
- 하나 이상의 값을 집계 가능
df.groupBy().agg(sum("col1"), sum("col2"))
와 같이 사용 가능
- groupBy를 생략하고 df.agg()를 사용하면, df.groupBy().agg() 를 사용한 것으로 취급됨
References
- https://sparkbyexamples.com/pyspark/pyspark-groupby-agg-aggregate-explained/
- https://spark.apache.org/docs/3.1.3/api/python/reference/api/pyspark.sql.DataFrame.agg.html