요즘 Public Cloud Provider들의 경쟁 열기가 뜨거운 것 같다. AWS가 독보적인 서비스 제공으로 시장을 장악하는 듯하더니 요즘은 MS Azure가 적극적인 마케팅의 결과로 빠르게 시장점유율이 증가하고 있다. 그리고 Google 또한 적극적으로 경쟁에 가세하기 시작했다. (https://www.channelpartnersonline.com/2019/02/07/azure-still-king-in-public-cloud-while-azure-grows-fastest-ibm-falls/) 몇 달 전 사내에서 GCP(Google Cloud Platform)에 대한 설명회가 열려 참석할 기회가 있었다. 사실 설명회 내용만 놓고 봐서는 AWS와 경쟁하기 위한 더 좋은 점을 찾지는 못하였다. 설명회에서..
https://cloud.google.com/blog/products/storage-data-transfer/hdfs-vs-cloud-storage-pros-cons-and-migration-tips HDFS vs. Cloud Storage: Pros, cons and migration tips | Google Cloud Blog With the recent merger of Hadoop companies Cloudera and Hortonworks, some are asking: Is the Hadoop file system officially dead? The news around this merge cloud.google.com * 위 글을 참조하여 작성되었으나, 주관적인 생각이 녹아있습니다. 물론..
보안은 모든 곳에 있고 어디에서나 중요하다. 엔터프라이즈의 환경에서는 계정 정보를 통합하여 관리하고 서비스 하는 경우가 많다. 따라서 제공하는 솔루션에서 계정관리 시스템과 연계할 수 있도록 해야 하는데, 이때 인증Authentication/인가Authorization는 매우 중요한 요소이다. 그리고 일정 수준 이상으로 성숙한 솔루션들은 웹을 기반으로 제어할 수 있도록 기능을 제공한다. 이때 민감한 시스템의 경우는 내부망에 구성했음에도 불구하고 SSL을 적용하는 경우가 더러 있다. 이를 위해서 간단하게 간을 보았다. * LDAP - LDAP의 기능은 무엇인가? > LDAP (Lightweight Directory Access Protocol)은 네트워크 상에서 어떠한 정보(전화번호, 주소, 조직, 파일, ..
1장부터 공부하기에는 너무 고리타분하여 3장부터 진행한다.. 전체적으로 용어가 다양하고 각 분석 방법에 대한 구분을 하는 것이 중요할 것으로 보인다. #### 학습목표 - 데이터 처리 프로세스 이해 - 데이터 분석 기법 중 시각화를 이해 - 데이터 분석 기법 중 공간분석을 이해 - 데이터 분석 기법 중 탐색적 자료 분석을 이해 1) 데이터 처리 - 보통 Data Warehouse(DW)나 Data Mart(DM)에서 데이터를 가져오며 해당 데이터가 없는 경우 직접 Legacy 에서 가져오기도 한다. - 운영데이터를 직접 가져오는 것은 부담이 됨으로 Operational Data Source(ODS) 을 통해서 운영데이터를 가져오거나 Staging Area에서도 가져올 수 있다. - Staging Area..
zookeeper를 구성하는 경우 과반수 선출(majority voting/quorums)을 위해 zookeeper server의 수를 홀수로 구성할 것을 권고한다. 개발/테스트 환경을 위해서 1대로 구성하는 경우가 아니라면, 보통 3대로 구성하며 더 failure에 대해 견고하게 구성하고자 한다면 5대로 앙상블ensemble을 구성하게 된다. * 그렇다면 zookeeper를 짝수로 구성하면 어떠한 문제가 생기는 것인가?결론적으로 말하면 그렇다고 해서 문제가 생기지는 않는다. 다만 4대로 구성하는 경우는 결함failure 에 대한 수준이 3대로 구성한 것과 다르지 않으며, 6대로 구성한 경우도 5대로 구성한 경우와 다르지 않다. 예를들어, zookeeper server 4대로 운영하던 중 leader역할..
Benchmark tool on hadoop cluster - 하둡 클러스터 성능분석 도구(1)TestDFSIO : 스토리지 성능 분석 도구 개요- 하둡 분산 환경에서 클러스터 성능 분석을 수행을 위한 도구- 비교하고자 하는 대상들의 스토리지의 특성을 파악하기 유용하다. > 테스트에 사용하고자 하는 파일의 크기 및 개수를 쉽게 설정 할 수 있다. > write , read, append에 대한 through put을 결과로 얻을 수 있다. - 기본적으로 하둡 릴리즈에서 hadoop-mapreduce-client-jobclient-*-tests.jar로 패키지되어 제공된다. - 각 작업들은 mapreduce를 통해 수행된다. (reduce는 결과 출력을 위해 사용되며, 1개로 고정) 사용법- yarn ja..
개요Java의 특성이자 장점인 Object에 대한 동적할당이 때로는 우리의 발목을 잡는다. 일반적으로 대부분의 문제들은 log4J로 생성되는 로그들이나 GC로그를 통해 확인할 수 있다. Java 프로세스가 느려지거나 멈추는 현상은 대부분 메모리 부족으로 인한 gc/swap 으로 인한 것이기 때문에 리소스가 충분하다면 손쉽게 문제를 해결 할 수 있다. 하지만 log에 특별한 exception이 발생하지 않고, log.level을 DEBUG로 변경하였는데도 특별한 에러가 발견되지 않는다면 우리는 조금 더 복잡한 방법으로 문제를 확인해야 한다. 많은 접근 방식이 있겠지만 가장 쉽게 생각할 수 있고 많은 레퍼런스가 있는 JVM thread dump 와 JVM heap dump 방식을 보려고 한다. 1. JVM ..