Pyspark Window
Pyspark Window
Pyspark Window
- PySpark에서 데이터프레임에 윈도우를 만들때 사용하는 클래스
- pyspark.sql.Window에 위치
partitionBy
메서드로 그룹핑을 수행해 파티션을 만들고,orderBy
메서드로 순서를 만듦rowsBetween
메서드로 윈도우에 들어갈 행의 범위를 결정- 다음은 사용 예시
# col1열을 대상으로 그룹핑, col2를 기준으로 정렬, 14번째 이전 행 ~ 직전 행을 대상으로 함
spec = Window.partitionBy("col1").orderBy("col2").rowsBetween(-14, -1)
# col3값의 평균을 window 상에서 계산
df = df.withColumn("newcol", F.avg("col3").over(spec))
References
- https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.Window.html
- https://brunch.co.kr/@woodyco/18
기타
- 틀린 정보가 있을 수 있으며, 수정될 수 있음