'HDFS' 태그의 글 목록

[Ozone]Apache Ozone 벤치마킹 자료 (by cloudera)

Apache ozone 벤치마킹 자료 (by cloudera) 다양한 산업군의 기업들이 데이터 분석을 통한 높은 수준의 비즈니스 서비스를 제공하기 위해 가지고 있는 모든 데이터를 하나의 저장소에 모으려는 노력을 하고 있다. (+ 물론 아직까지 남들이 하니까 일단 모으고 보자는 곳들도 존재한다 ~ ___ ~) 일반적으로 주위에서 데이터의 양과 일상적으로 처리해야 할 데이터가 많지 않은 기업들은 CSP의 서비스를 사용하고 있으며, 데이터가 많으며 지속적인 처리작업이 이루어지거나 개인정보 및 국가에서 관리하는 기술 민감정보를 가지고 있는 기업들은 on-premise에 자체적인 data lake를 구축하는 추세이다. 이때 쉽게 그리고 싸게 생각할 수 있는 것이 범용장비 여러대로 구성할 수 있는 하둡 기반의 Da..

02.IT공부(간헐적취미)/빅데이터 2020. 4. 26. 23:04

[빅데이터]HDFS와 Cloud Storage 비교 & 장단점

https://cloud.google.com/blog/products/storage-data-transfer/hdfs-vs-cloud-storage-pros-cons-and-migration-tips HDFS vs. Cloud Storage: Pros, cons and migration tips | Google Cloud Blog With the recent merger of Hadoop companies Cloudera and Hortonworks, some are asking: Is the Hadoop file system officially dead? The news around this merge cloud.google.com * 위 글을 참조하여 작성되었으나, 주관적인 생각이 녹아있습니다. 물론..

02.IT공부(간헐적취미)/빅데이터 2019. 8. 4. 14:04

[HDFS] TestDFSIO : Benchmark tools on hadoop cluster -하둡 클러스터 성능분석 도구(1)

Benchmark tool on hadoop cluster - 하둡 클러스터 성능분석 도구(1)TestDFSIO : 스토리지 성능 분석 도구 개요- 하둡 분산 환경에서 클러스터 성능 분석을 수행을 위한 도구- 비교하고자 하는 대상들의 스토리지의 특성을 파악하기 유용하다. > 테스트에 사용하고자 하는 파일의 크기 및 개수를 쉽게 설정 할 수 있다. > write , read, append에 대한 through put을 결과로 얻을 수 있다. - 기본적으로 하둡 릴리즈에서 hadoop-mapreduce-client-jobclient-*-tests.jar로 패키지되어 제공된다. - 각 작업들은 mapreduce를 통해 수행된다. (reduce는 결과 출력을 위해 사용되며, 1개로 고정) 사용법- yarn ja..

02.IT공부(간헐적취미)/빅데이터 2018. 12. 6. 23:53

[HDFS] Hadoop 3.x new feature : Erasure coding

* HDFS Erasure coding (Hadoop 3.0.0-alpha1, HDFS-7285) 1. 개요1) HDFS의 storage 및 network overhead를 줄이기 위해서 고안됨 2) 3-replica 는 데이터 블록의 중복으로 인해 200%의 storage space overhead를 가지나, EC(Erasure Coding) 방식은 데이터 블록의 절반의 패리티parity 블록을 위한 50%의 overhead를 가짐그림1 - Erasure coding의 storage efficeincy : https://blog.cloudera.com/blog/2015/09/introduction-to-hdfs-erasure-coding-in-apache-hadoop/ 3) EC는 HDFS replic..

02.IT공부(간헐적취미)/빅데이터 2018. 11. 22. 23:21

[HDFS] Hadoop HDFS balancer수행 및 bandwidth변경

hdfs_balancer HDFS Balancer 수행 간단 수행 명령어 sudo -u hdfs hdfs balancer [-policy ] [-threshold ] [-blockpools ] [-include [-f | ]] [-exclude [-f | ]] [-idleiterations ] [-runDuringUpgrade] 옵션이 필요 이상으로 많은 것 처럼 보인다. 하지만 모두 필요에 의해서 만들어진 것이니 간단히 보고 넘어가면 좋을 듯 하다.hdfs dfsadmin -setBalancerBandwidth 1073741824 // 1GB로 대역폭을 변경 그 밖에도 parameter 설정을 통한 많은 옵션들이 존재한다. 자세한 사항은 아래를 참고하라. (https://community.hortonw..

02.IT공부(간헐적취미)/빅데이터 2018. 10. 10. 23:08

« 1 »

헤링의 일상

티스토리툴바

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28