pyspark

PySpark split

PySpark split PySpark split Pyspark에서 split 하는 방법 다음 예시 코드와 같이 pyspark.sql.functions.split 함수를 사용하면 됨 원하는 아이템을 얻으려면 getItem(index)를 사용 import pyspark.sql.functions as F df = df.withColumn("col1", F.split(F.col("original_col"), " ").getItem(0)) df = df.withColumn("col2", F.split(F.col("original_col"), " ").getItem(1)) References https://sparkbyexamples.com/pyspark/pyspark-split-dataframe-column-into-multiple-columns/

pyspark

Read txt as json

Read txt as json Read txt as json Spark에서 데이터 값은 json이지만, 파일 형식이 txt인 경우가 존재 이 값을 읽는 방법을 몰라서 많이 찾아봤는데, 다음과 같이 그냥 json 읽듯이 txt 파일을 읽으면 됨 df = spark.read.json("/some/path/txt/*.txt") df에 정상적으로 읽힌 데이터프레임이 저장됨

pyspark

Pyspark Window

Pyspark Window Pyspark Window PySpark에서 데이터프레임에 윈도우를 만들때 사용하는 클래스 pyspark.sql.Window에 위치 partitionBy 메서드로 그룹핑을 수행해 파티션을 만들고, orderBy 메서드로 순서를 만듦 rowsBetween 메서드로 윈도우에 들어갈 행의 범위를 결정 다음은 사용 예시 # col1열을 대상으로 그룹핑, col2를 기준으로 정렬, 14번째 이전 행 ~ 직전 행을 대상으로 함 spec = Window.partitionBy("col1").orderBy("col2").rowsBetween(-14, -1) # col3값의 평균을 window 상에서 계산 df = df.withColumn("newcol", F.avg("col3").over(spec)) References https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.Window.html https://brunch.co.kr/@woodyco/18 기타 틀린 정보가 있을 수 있으며, 수정될 수 있음

pyspark

Pyspark lit

Pyspark lit Pyspark lit Pyspark에서 literal 값으로 컬럼을 만들고 싶을 때 사용하는 메서드 df = df.withColumn("a", lit("b")) 와 같이 사용하면, a라는 열에 b라는 값으로 채워지게 됨 References https://spark.apache.org/docs/3.1.3/api/python/reference/api/pyspark.sql.functions.lit.html