Apache Spark 개요
Apache Spark 개요
Apache Spark 개요
- 아파치 스파크란 데이터 엔지니어링을 실행하기 위한 multi-language 엔진
- 다음과 같은 기능 제공
- 배치 혹은 스트리밍 데이터를 다룰 수 있음
- 파이썬, SQL, 자바, R 등 각종 언어로 사용 가능
- 빠르고 분산된 SQL 수행 가능
- PB 스케일 데이터에 대해서도 EDA 수행 가능
- 머신 러닝 알고리즘을 분산 클러스터에서 수행 가능
- 대용량 데이터를 위한 분산 SQL 엔진을 기반으로 구축됨
- Spark SQL은 다음과 같은 특성 지원
- 적응형 쿼리를 통해 런타임에 실행 계획을 최적화
- ANSI SQL 역시 지원
- JSON, 이미지 등과 같이 비구조화된 데이터에 대한 지원도 됨