개요 Hadoop에서는 과거 버전부터 Hadoop Archive(이하 HAR) 기능을 제공한다. 이는 우리가 일반적으로 사용하는 파일의 압축과 비슷한 개념인데, 우리가 일반적으로 파일시스템에서 압축(archive)를 하는 이유는 (1)여러개의 파일을 하나의 묶음으로 관리하기 위해서나, (2)다양한 압축 방법을 통해 파일의 용량을 줄이기 위함이다. 그러나 HDFS에서 아카이브는 HDFS 상에 있는 다수의 파일을 더 적은 수의 파일로 관리하기 위한 목적이다. 이는 HDFS의 구조적인 한계에서부터 비롯된 것인데, HDFS 상에서 관리될 수 있는 최대 파일의 개수가 약 3억 5천만개이기 때문이다. 따라서 HDFS 상에서 파일의 개수를 줄일 수 있는 방법이 고안되어야 했고 이것이 바로 HAR이다. 사용법 압축 h..
Apache ozone 벤치마킹 자료 (by cloudera) 다양한 산업군의 기업들이 데이터 분석을 통한 높은 수준의 비즈니스 서비스를 제공하기 위해 가지고 있는 모든 데이터를 하나의 저장소에 모으려는 노력을 하고 있다. (+ 물론 아직까지 남들이 하니까 일단 모으고 보자는 곳들도 존재한다 ~ ___ ~) 일반적으로 주위에서 데이터의 양과 일상적으로 처리해야 할 데이터가 많지 않은 기업들은 CSP의 서비스를 사용하고 있으며, 데이터가 많으며 지속적인 처리작업이 이루어지거나 개인정보 및 국가에서 관리하는 기술 민감정보를 가지고 있는 기업들은 on-premise에 자체적인 data lake를 구축하는 추세이다. 이때 쉽게 그리고 싸게 생각할 수 있는 것이 범용장비 여러대로 구성할 수 있는 하둡 기반의 Da..
zookeeper를 구성하는 경우 과반수 선출(majority voting/quorums)을 위해 zookeeper server의 수를 홀수로 구성할 것을 권고한다. 개발/테스트 환경을 위해서 1대로 구성하는 경우가 아니라면, 보통 3대로 구성하며 더 failure에 대해 견고하게 구성하고자 한다면 5대로 앙상블ensemble을 구성하게 된다. * 그렇다면 zookeeper를 짝수로 구성하면 어떠한 문제가 생기는 것인가?결론적으로 말하면 그렇다고 해서 문제가 생기지는 않는다. 다만 4대로 구성하는 경우는 결함failure 에 대한 수준이 3대로 구성한 것과 다르지 않으며, 6대로 구성한 경우도 5대로 구성한 경우와 다르지 않다. 예를들어, zookeeper server 4대로 운영하던 중 leader역할..
Benchmark tool on hadoop cluster - 하둡 클러스터 성능분석 도구(1)TestDFSIO : 스토리지 성능 분석 도구 개요- 하둡 분산 환경에서 클러스터 성능 분석을 수행을 위한 도구- 비교하고자 하는 대상들의 스토리지의 특성을 파악하기 유용하다. > 테스트에 사용하고자 하는 파일의 크기 및 개수를 쉽게 설정 할 수 있다. > write , read, append에 대한 through put을 결과로 얻을 수 있다. - 기본적으로 하둡 릴리즈에서 hadoop-mapreduce-client-jobclient-*-tests.jar로 패키지되어 제공된다. - 각 작업들은 mapreduce를 통해 수행된다. (reduce는 결과 출력을 위해 사용되며, 1개로 고정) 사용법- yarn ja..
* HDFS Erasure coding (Hadoop 3.0.0-alpha1, HDFS-7285) 1. 개요1) HDFS의 storage 및 network overhead를 줄이기 위해서 고안됨 2) 3-replica 는 데이터 블록의 중복으로 인해 200%의 storage space overhead를 가지나, EC(Erasure Coding) 방식은 데이터 블록의 절반의 패리티parity 블록을 위한 50%의 overhead를 가짐그림1 - Erasure coding의 storage efficeincy : https://blog.cloudera.com/blog/2015/09/introduction-to-hdfs-erasure-coding-in-apache-hadoop/ 3) EC는 HDFS replic..
최근 몇 년간 다양한 cloud 서비스가 개발/확산으로 WEB, WAS, Storage 심지어 ERP까지 AWS, Azure, Google cloud와 같은 public cloud 서비스를 이관하고 있다.Public cloud 서비스의 가장 큰 장점은 확장성과 비용이기 때문에많은 데이터를 저장해야 하고 다수의 node가 필요한 hadoop cluster를 구축하기 좋은 선택이다. 그리고 같은 이유로 block storage(HDFS)를 사용하는 대신 object storage를 사용하기 시작했다. * * * Bigdata 시스템에서 왜 object storage를 사용할까? 1. HDFS capacity overhead를 줄여준다. HDFS는 fault tolerance를 보장하기 위해서 데이터블록을 3..
hdfs_balancer HDFS Balancer 수행 간단 수행 명령어 sudo -u hdfs hdfs balancer [-policy ] [-threshold ] [-blockpools ] [-include [-f | ]] [-exclude [-f | ]] [-idleiterations ] [-runDuringUpgrade] 옵션이 필요 이상으로 많은 것 처럼 보인다. 하지만 모두 필요에 의해서 만들어진 것이니 간단히 보고 넘어가면 좋을 듯 하다.hdfs dfsadmin -setBalancerBandwidth 1073741824 // 1GB로 대역폭을 변경 그 밖에도 parameter 설정을 통한 많은 옵션들이 존재한다. 자세한 사항은 아래를 참고하라. (https://community.hortonw..