제주살이 올해(2018年) 제주도에 대한 막연한 환상으로 휩싸여 있었다. (아니 사실 도망치고 싶은 마음이 컸는지 모르겠다) 제주 카카오 본사로 이직하고 제주도에 내려오면 어떨까? 라는 생각의 연장선의 사전답사의 이유도 이번 제주 여행의 한 부분이였다. 여행의 끝에서 내린 결론을 먼저 말하자면, 지금의 위치에서 도망치지 말자. 바다 좋다. 비행기를 타면 2시간 정도면 집에 올 수 있다(아무 문제가 없다면 강원도 보다 접근성이 좋다) 하지만 여기도 결국 사람이 살기엔 좋은 점도 있고 나쁜 점도 있다. 내가 사는 곳과 같이 치열하게 사는 사람들도 있고, 누구의 말처럼 한량처럼 살며 자신의 인생에서 도망치는 사람도 많다. 내가 제주 생활에 대한 생각을 접은 이유는 무엇일까? 첫 번째로 변덕스러운 날씨. 대체로..
Benchmark tool on hadoop cluster - 하둡 클러스터 성능분석 도구(1)TestDFSIO : 스토리지 성능 분석 도구 개요- 하둡 분산 환경에서 클러스터 성능 분석을 수행을 위한 도구- 비교하고자 하는 대상들의 스토리지의 특성을 파악하기 유용하다. > 테스트에 사용하고자 하는 파일의 크기 및 개수를 쉽게 설정 할 수 있다. > write , read, append에 대한 through put을 결과로 얻을 수 있다. - 기본적으로 하둡 릴리즈에서 hadoop-mapreduce-client-jobclient-*-tests.jar로 패키지되어 제공된다. - 각 작업들은 mapreduce를 통해 수행된다. (reduce는 결과 출력을 위해 사용되며, 1개로 고정) 사용법- yarn ja..
개요Java의 특성이자 장점인 Object에 대한 동적할당이 때로는 우리의 발목을 잡는다. 일반적으로 대부분의 문제들은 log4J로 생성되는 로그들이나 GC로그를 통해 확인할 수 있다. Java 프로세스가 느려지거나 멈추는 현상은 대부분 메모리 부족으로 인한 gc/swap 으로 인한 것이기 때문에 리소스가 충분하다면 손쉽게 문제를 해결 할 수 있다. 하지만 log에 특별한 exception이 발생하지 않고, log.level을 DEBUG로 변경하였는데도 특별한 에러가 발견되지 않는다면 우리는 조금 더 복잡한 방법으로 문제를 확인해야 한다. 많은 접근 방식이 있겠지만 가장 쉽게 생각할 수 있고 많은 레퍼런스가 있는 JVM thread dump 와 JVM heap dump 방식을 보려고 한다. 1. JVM ..
* HDFS Erasure coding (Hadoop 3.0.0-alpha1, HDFS-7285) 1. 개요1) HDFS의 storage 및 network overhead를 줄이기 위해서 고안됨 2) 3-replica 는 데이터 블록의 중복으로 인해 200%의 storage space overhead를 가지나, EC(Erasure Coding) 방식은 데이터 블록의 절반의 패리티parity 블록을 위한 50%의 overhead를 가짐그림1 - Erasure coding의 storage efficeincy : https://blog.cloudera.com/blog/2015/09/introduction-to-hdfs-erasure-coding-in-apache-hadoop/ 3) EC는 HDFS replic..
요즘과 같이 바쁜 날들을 보내다 보면 주위 사람들과 소통하고 공감할 수 있는 시간이 부족하다. 아니 사실은 노력이, 공감하기 위한 노력이 없다. 다른 이와 공감하는 것은 철저하게 나의 자유의지에 달렸지만 숨 쉬듯 공감되는 말이나 행동이 있고 진심으로 공감하고 싶지만 도저히 이루어지지 않는 것들이 있다. * * * 공중에 새를 심었다 이제 하늘 밖으로 날아갈 수 없는 새들은바람에 흔들리는 모종처럼작고 가벼운 날개를 파닥거린다 날아도 날아도 그 자리 ....... 일용할 양식을 낟알처럼 쪼아대며새들은140자 안에서 허락된 자유를 누리고단문을 점점 좋아하게 되고공백과 기호들을 풍성하게 사용할 줄 알게 되지 새들은 오늘도 윗, 윗, 윗, 윗, 트윗, 트윗, 트윗,지상의 작은 방앗간에서 파일명 서정시 - 「새를 ..
최근 몇 년간 다양한 cloud 서비스가 개발/확산으로 WEB, WAS, Storage 심지어 ERP까지 AWS, Azure, Google cloud와 같은 public cloud 서비스를 이관하고 있다.Public cloud 서비스의 가장 큰 장점은 확장성과 비용이기 때문에많은 데이터를 저장해야 하고 다수의 node가 필요한 hadoop cluster를 구축하기 좋은 선택이다. 그리고 같은 이유로 block storage(HDFS)를 사용하는 대신 object storage를 사용하기 시작했다. * * * Bigdata 시스템에서 왜 object storage를 사용할까? 1. HDFS capacity overhead를 줄여준다. HDFS는 fault tolerance를 보장하기 위해서 데이터블록을 3..