ORC File Format
ORC File Format
ORC File Format
- Optimized Row Columnar 의 약자로, Hive에 저장되는 파일 포맷
- 컬럼 단위로 파일을 기록하지만, 인덱스도 같이 기록함
- 행을 읽는 속도가 빠르므로, 기존 파일 포맷인 RC 형식에 비해 읽기 성능이 향상된다고 함
- 높은 압축률을 자랑
- 그러나 하이브에서만 지원하는 등 많은 제한이 존재
- 결국 다양한 플랫폼에서 사용 가능한 parquet 보다는 덜 쓰이는 것으로 보임
- PySpark에서는 df.read.orc() 등으로 orc 파일을 읽을 수 있음