* Apache HBase Write Path - Apache Hbase 는 hadoop의 HDFS를 기반으로 하는 database이다. HDFS 상의 파일은 생성 후에 오직 append 기능만을 제공하며 read 작업 수행 시 block 단위로 full-scan 이 이루어지는데, HBase를 사용하면 HDFS 상의 데이터를 랜덤액세스random access 하거나 업데이트update 가능하도록 해준다. HBase는 어떻게 low-latency로 이런 read/write 를 제공할 수 있을까? - Hbase write path는 hbase의 put/delete 연산이 어떻게 이루어지는지에 대한 방법을 나타낸 것으로 client 에서 시작하여 region server를 거쳐 결국에는 HFile이라고 불리는..
* 스톰 1. 개요 - 실시간 데이터를 병렬 분산 처리하기 위한 SW. 실시간 처리를 위해서는 이벤트가 발생함과 동시에 감지하여 데이터를 적재하는 방식과 데이터 적재와 동시에 마이크로 배치를 실행해 이벤트를 감지하는 방식이 있는데, 스톰은 전자에 해당한다. 2. 주요 구성요소 - spout : 외부로부터 데이터를 유입받아 가공 처리해서 튜플을 생성. 이후 해당 튜플을 bolt에 전송 - bolt : 튜플을 받아 실제 분산 작업을 수행하며, 필터링(filtering), 집계(aggregation), 조인(join)등의 연산을 병렬로 실행 - topology : spout-bolt의 데이터 처리 흐름을 정의. 하나의 spout와 다수의 bolt로 구성 - nimbus : topology를 supervisor..