* HBase Shell commands - HBase shell을 통해 수행되는 operation을 통해서 HBase에서 제공하는 기초적인 기능 및 사용목적을 이해하고자 작성함 1) General HBase shell commands - status : cluster 상태를 보여주며, 추가옵션을 통해 상세정보를 확인> status > status 'simple' > status 'summary' > status 'detailed' - version : 설치된 HBase의 버전정보를 확인> version - whoami : 현재 hbase의 사용자를 확인> whoami 2) Table Management commands - alter : (1)table의 schema를 변경하기위해 사용된다. dictio..
* 데이터 버저닝Data Versioning - HBase의 특별한 기능 중 하나로 각 셀cell의 특정column 값에 여러 버전 을 저장할 수 있다. 각 버전에 타임스탬프timestamp를 사용하여 구현되었으며 내림차순으로 정렬된다. long integer 타입으로 millisecond로 환산되는데, 1970년 1월 1일 이후부터의 UTC 시간을 기록하고 있으며 이것을 유닉스시간UnixTime 이라고 한다. 그리고 최초의 시간을 Epoch라 한다. - Timestamp는 명시적으로 입력하는 것도 가능한데, default로 HBase는 각 cell의 변경을 3개 까지 보관하며 기본적으로 scan을 통해서 조회하게 되면 내림차순이기 때문에 가장 최신의 데이터가 조회된다. 또한 저장되어 있는 모든 vers..
* Shard와 Region의 구조 - 일반적으로 샤딩이란 논리적 테이블을 수평적으로 파티셔닝하여 레코드를 논리적으로 분할하는 것인데, 데이터를 분산저장하기 위해서 사용한다. 각 데이터를 적절한 장소로 라우팅routing 하기위해서는 해시함수와 같은 규칙을 미리 정의해야 한다. 수평적 파티션에서 하나의 파티션 용량이 가득 찬 경우 리샤딩reshard 작업이 수행되는데 이는 경우에 따라 데이터의 저장구조가 변경 될(파티션 간 경계를 재설정, 데이터 수평적 재분배 등) 필요가 있음으로 리소스의 비용이 많이 든다. 이때는 I/O가 높아짐으로 데이터 update가 제대로 안 일어날 수도 있다. Reshard 문제는 가상샤드(virtual shard)를 통해 어느정도 완화할 수 있다. 이것은 논리적 테이블을 매우..
* ISSUE1) spark 설치 후 yarn에 작업을 올려 수행하는 경우 ( beeline 수행, spark shell 수행, zeppelin 수행 등) yarn 에 올라간 작업이 아래 에러로그를 발생 시키면서 hang이 걸린다. 2) spark thrift server 가 정상적으로 올라오지 않음. * ERROR LOG17/06/04 11:47:03 WARN DefaultChannelPipeline: An exception 'java.lang.NoSuchMethodError: org.apache.spark.network.client.TransportClient.getChannel()Lio/netty/channel/Channel;' [enable DEBUG level for full stacktrace..
Apache Storm 빌드 및 테스트 - 해당 글은 Apache Storm 1.1.0 을 기준으로 작성되었으며, 릴리즈에 따라서 상세 내용이 변경될 수 있습니다. 1. 사전요구사항 - 메뉴얼에는 Maven 3.2.5 나 그 이하의 버전을 사용할 것을 권고하며 latest는 버그가 많으며 이러한 것들은 패키지간의 의존성을 제대로 연결하지 못할 수 있다고함. 그리고 이것을 사용하면 mvn dependency:tree 명령어가 제대로된 결과값을 보여주지 못할 수도 있다고 기술되어 있음. (https://issues.apache.org/jira/browse/MSHADE-206) 하지만 2017년 09월 06일 기준으로 최신 Maven 버전은 3.5.0 이기 때문에 Maven 3.3.3, 3.3.9 또는 3.5..
Apache Storm에 자세히 알아보기에 앞서 개발환경을 구성하고 platform을 구성하여 간단한 예제를 수행해 보도록하자. 이를 통해서 대략적으로 storm의 구성이나 동작들을 유추할 수 있다. 1. VM 환경구성 : Apache Storm은 CentOS7에 distributed cluster가 아닌 local mode로 설치할 인데, 이는 테스트와 개발용도로 자주 사용된다. Virtual box 위에 centOS7를 올리고, putty를 통해서 SSH로 접속하였다. 기본적인 OS 환경설정이 궁금하다면 다음을 참고하라. (링크예정) 2. Zookeeper 구성 : Apache Storm을 local mode로 구성하더라도 내부적으로 fast-fail처리를 수행하기 위해서 Apache Zookeepe..
1. Apache Ambari 소개 - Apache ambari 프로젝트는 하둡 관리를 보다 쉽게 만들기 위한 것을 목표로 한다. 이를 위해 하둡 cluster에 대한 provisioning, managing, monitoring 소프트웨어를 개발하였으며, 계속 발전시키고 있다. Ambari는 직관적이고 사용하기 쉽도록 RESTfull API들을 통하여 webUI를 제공하며, customizing을 쉽게 수행할 수 있다. Ambari를 통해 다음과 같은 시스템 관리를 수행할 수 있다. > Provision a Hadoop Cluster . 여러 host에 hadoop services를 설치하기 위한 wizard를 제공한다. . Cluster들에 대한 hadoop services들의 configuratio..