PySpark Shuffle Join
PySpark Shuffle Join
PySpark Shuffle Join
- 스파크가 조인할 때 노드간 통신을 하는 방법에 따라 shuffle join과 broadcast join으로 나뉨
- Shuffle join은 전체 노드 간 통신을 통해 join을 수행하는 방법
- 모든 데이터를 지정된 노드로 이동시키며, 동일한 키를 가진 데이터를 동일한 노드로 이동하는 등의 방식 사용
- 이렇게 데이터를 섞기 때문에
shuffle join
- 이렇게 데이터를 섞기 때문에
- 통신 자원이 많이 소요됨
- 샤딩이 잘 되어 있지 않는 경우 비효율적
- 큰 테이블과 큰 테이블을 join할 때 사용