Pyspark join
Pyspark join
Pyspark join
- Pyspark에서 두 데이터프레임을 Join할 때 쓰는 메서드
- df1.join(df2,
on
= None,how
= None) 형태로 사용- df1과 df2를 조인할 때 사용
on
에는 컬럼 이름 혹은 컬럼 이름의 리스트가 오며, 등식 형태의 조인 조건을 줘도 됨- 컬럼 이름 혹은 리스트를 주는 경우에는 양 쪽의 데이터프레임에 동일한 컬럼이 존재햐야 함
how
에는 조인 방식을 줌.cross
,left
,right
등이 올 수 있으며, default는inner