Apache ozone 벤치마킹 자료 (by cloudera) 다양한 산업군의 기업들이 데이터 분석을 통한 높은 수준의 비즈니스 서비스를 제공하기 위해 가지고 있는 모든 데이터를 하나의 저장소에 모으려는 노력을 하고 있다. (+ 물론 아직까지 남들이 하니까 일단 모으고 보자는 곳들도 존재한다 ~ ___ ~) 일반적으로 주위에서 데이터의 양과 일상적으로 처리해야 할 데이터가 많지 않은 기업들은 CSP의 서비스를 사용하고 있으며, 데이터가 많으며 지속적인 처리작업이 이루어지거나 개인정보 및 국가에서 관리하는 기술 민감정보를 가지고 있는 기업들은 on-premise에 자체적인 data lake를 구축하는 추세이다. 이때 쉽게 그리고 싸게 생각할 수 있는 것이 범용장비 여러대로 구성할 수 있는 하둡 기반의 Da..
최근 몇 년간 다양한 cloud 서비스가 개발/확산으로 WEB, WAS, Storage 심지어 ERP까지 AWS, Azure, Google cloud와 같은 public cloud 서비스를 이관하고 있다.Public cloud 서비스의 가장 큰 장점은 확장성과 비용이기 때문에많은 데이터를 저장해야 하고 다수의 node가 필요한 hadoop cluster를 구축하기 좋은 선택이다. 그리고 같은 이유로 block storage(HDFS)를 사용하는 대신 object storage를 사용하기 시작했다. * * * Bigdata 시스템에서 왜 object storage를 사용할까? 1. HDFS capacity overhead를 줄여준다. HDFS는 fault tolerance를 보장하기 위해서 데이터블록을 3..