[HADOOP] HDFS 아카이브 (HAR)
개요 Hadoop에서는 과거 버전부터 Hadoop Archive(이하 HAR) 기능을 제공한다. 이는 우리가 일반적으로 사용하는 파일의 압축과 비슷한 개념인데, 우리가 일반적으로 파일시스템에서 압축(archive)를 하는 이유는 (1)여러개의 파일을 하나의 묶음으로 관리하기 위해서나, (2)다양한 압축 방법을 통해 파일의 용량을 줄이기 위함이다. 그러나 HDFS에서 아카이브는 HDFS 상에 있는 다수의 파일을 더 적은 수의 파일로 관리하기 위한 목적이다. 이는 HDFS의 구조적인 한계에서부터 비롯된 것인데, HDFS 상에서 관리될 수 있는 최대 파일의 개수가 약 3억 5천만개이기 때문이다. 따라서 HDFS 상에서 파일의 개수를 줄일 수 있는 방법이 고안되어야 했고 이것이 바로 HAR이다. 사용법 압축 h..
02.IT공부(간헐적취미)/빅데이터
2021. 1. 19. 22:15