Apache ozone 벤치마킹 자료 (by cloudera) 다양한 산업군의 기업들이 데이터 분석을 통한 높은 수준의 비즈니스 서비스를 제공하기 위해 가지고 있는 모든 데이터를 하나의 저장소에 모으려는 노력을 하고 있다. (+ 물론 아직까지 남들이 하니까 일단 모으고 보자는 곳들도 존재한다 ~ ___ ~) 일반적으로 주위에서 데이터의 양과 일상적으로 처리해야 할 데이터가 많지 않은 기업들은 CSP의 서비스를 사용하고 있으며, 데이터가 많으며 지속적인 처리작업이 이루어지거나 개인정보 및 국가에서 관리하는 기술 민감정보를 가지고 있는 기업들은 on-premise에 자체적인 data lake를 구축하는 추세이다. 이때 쉽게 그리고 싸게 생각할 수 있는 것이 범용장비 여러대로 구성할 수 있는 하둡 기반의 Da..
https://cloud.google.com/blog/products/storage-data-transfer/hdfs-vs-cloud-storage-pros-cons-and-migration-tips HDFS vs. Cloud Storage: Pros, cons and migration tips | Google Cloud Blog With the recent merger of Hadoop companies Cloudera and Hortonworks, some are asking: Is the Hadoop file system officially dead? The news around this merge cloud.google.com * 위 글을 참조하여 작성되었으나, 주관적인 생각이 녹아있습니다. 물론..
Benchmark tool on hadoop cluster - 하둡 클러스터 성능분석 도구(1)TestDFSIO : 스토리지 성능 분석 도구 개요- 하둡 분산 환경에서 클러스터 성능 분석을 수행을 위한 도구- 비교하고자 하는 대상들의 스토리지의 특성을 파악하기 유용하다. > 테스트에 사용하고자 하는 파일의 크기 및 개수를 쉽게 설정 할 수 있다. > write , read, append에 대한 through put을 결과로 얻을 수 있다. - 기본적으로 하둡 릴리즈에서 hadoop-mapreduce-client-jobclient-*-tests.jar로 패키지되어 제공된다. - 각 작업들은 mapreduce를 통해 수행된다. (reduce는 결과 출력을 위해 사용되며, 1개로 고정) 사용법- yarn ja..
* HDFS Erasure coding (Hadoop 3.0.0-alpha1, HDFS-7285) 1. 개요1) HDFS의 storage 및 network overhead를 줄이기 위해서 고안됨 2) 3-replica 는 데이터 블록의 중복으로 인해 200%의 storage space overhead를 가지나, EC(Erasure Coding) 방식은 데이터 블록의 절반의 패리티parity 블록을 위한 50%의 overhead를 가짐그림1 - Erasure coding의 storage efficeincy : https://blog.cloudera.com/blog/2015/09/introduction-to-hdfs-erasure-coding-in-apache-hadoop/ 3) EC는 HDFS replic..
hdfs_balancer HDFS Balancer 수행 간단 수행 명령어 sudo -u hdfs hdfs balancer [-policy ] [-threshold ] [-blockpools ] [-include [-f | ]] [-exclude [-f | ]] [-idleiterations ] [-runDuringUpgrade] 옵션이 필요 이상으로 많은 것 처럼 보인다. 하지만 모두 필요에 의해서 만들어진 것이니 간단히 보고 넘어가면 좋을 듯 하다.hdfs dfsadmin -setBalancerBandwidth 1073741824 // 1GB로 대역폭을 변경 그 밖에도 parameter 설정을 통한 많은 옵션들이 존재한다. 자세한 사항은 아래를 참고하라. (https://community.hortonw..