PySpark withColumn
PySpark withColumn
PySpark withColumn
- pyspark에서는
withColumn
이라는 메소드를 통해, 새 컬럼을 만들거나 기존 컬럼을 수정 가능df = df.withColumn()
형태로 사용
- 첫 번째 인자로 추가 / 수정할 컬럼의 이름, 두 번째 인자로 컬럼을 제공하면 됨
- 이 메서드는 특정 열만 선택하는
projection
이라는 방법을 쓰는데, 이 때문에 이 메서드를 여러 번 반복 호출하면 (e.g. for loop) 성능이 저하될 수 있음