PySpark 소개
PySpark 소개
PySpark 소개
- Apache Spark를 위한 파이썬에서 사용할 수 있게 한 API
- 파이썬 분산환경에서 큰 데이터를 빠르게 사용할 수 있게 함
- 다음과 같은 Spark의 주요 기능 제공
- Spark SQL과 DataFrame으로 구조화된 데이터 다루기
- Pandas API로 Pandas 작업을 여러 노드에서 수행 가능
- Structured Streaming으로 stream 작업
- 머신러닝 (MLlib) 제공
- Spark Core과 RDD 제공