데이터 엔지니어, 데이터 분석가 그리고 데이터 사이언티스트 차이 요즘 가장 핫한 직업을 꼽으라면 빠지지 않는 것이 바로 '데이터 사이언티스트(Data Scientist)'이다. 많은 사람들이 직업을 얻기 위해, 직장에서 조금 더 좋은 대우를 받기 위해서 데이터 사이언티스트가 되고자 한다. 실제로 많은 기업에서 많은 기업에서 데이터 사이언티스트를 채용공고하고 있으며, 많은 구직자가 데이터 사이언티스트의 역할을 하기 위해 지원한다. 그리고 그런 구직자들 중 대부분이 데이터 사이언티스트로써의 경험이 없고, 데이터 사이언티스트가 하는 일이 무엇인지 명확하게 정의하지 못한다. 현업에서도 크게 다르지 않은 것 같다. 데이터 분석가와 사이언티스트의 구분을 느낌적으로 하는 이들이 대다수 이며 데이터 엔지니어를 구분하지..
Alto.Sax 에서 Tenor.Sax 사이의 톤을 고민하면서 Tenor로 악기를 변경할지 고민하던 찰나에 계속해서 Alto를 불도록 붙들어 준 사람이 바로 Vincent Herring 이다.선생님이 저번에 주신 Vincent Herring의 앨범 6장 중 첫번째 앨범이였던 'DawnBird'는 1993년 발매된 앨범으로 하드밥과 쿨재즈가 적절하게 섞여 있는 앨범이다. 플레이 리스트의 가장 위에 있던 'August After' 를 듣고 조금은 피곤해서 Vincent Herring의 앨범을 한동안 듣는것을 보류하였었다. 그러던 중 전체 플레이리스트에서 우연히 앨범 'Jobim for Lover' 의 'One note Samba'를 듣고 Vincent Herring의 앨범을 듣고 모든 앨범을 순차적으로 듣고..
hdfs_balancer HDFS Balancer 수행 간단 수행 명령어 sudo -u hdfs hdfs balancer [-policy ] [-threshold ] [-blockpools ] [-include [-f | ]] [-exclude [-f | ]] [-idleiterations ] [-runDuringUpgrade] 옵션이 필요 이상으로 많은 것 처럼 보인다. 하지만 모두 필요에 의해서 만들어진 것이니 간단히 보고 넘어가면 좋을 듯 하다.hdfs dfsadmin -setBalancerBandwidth 1073741824 // 1GB로 대역폭을 변경 그 밖에도 parameter 설정을 통한 많은 옵션들이 존재한다. 자세한 사항은 아래를 참고하라. (https://community.hortonw..
if kakao, 네이버의 데뷰처럼 카카오의 개발자 컨퍼런스이다. 웹 서핑 중 우연한 기회에 배너를 클릭해서 신청하고 팀 내에 공유 했는데, 결국 나 혼자 참가하게 되었다. 서울 촌놈인지라 오랜만에 코엑스에 나가니 기분이 매우 설렜다. 출근 하는 것 보다 더 일찍 일어나 준비를 하고 9호선을 타고 봉은사역에 내렸다. 어릴 적 부터 친하게 지내던 친구가 봉은사역으로 출퇴근 할때는 그냥 그런가보다 했는데 10시 컨퍼런스여서 조금 여유 있게 출발했는데도 9호선은 많은 사람들로 숨이 막혔다. 키노트가 시작하기 약 30분 정도 전에 도착하였는데 이미 많은 참관객으로 북적거렸고, 참가기념품만을 챙기고 가는 사람도 더러 있었다. 그랜드볼룸 홀로 가는길에는 컨퍼런스 명인 if kakao 사인이 입구를 장식하고 있었고,..
Hive Partitioning 개요 Hive 파티셔닝의 개념은 RDBMS 와 크게 다르지 않다. 테이블을 하나 이상의 키로 파티셔닝 할 수 있으며, 이것은 각 테이블에 데이터가 얼마나 저장될 것이냐를 기준으로 설정하면 된다. 예를 들어 테이블이 id, name, age 3개의 칼럼으로 구성되어 있고 age로 파티셔닝 하기로 설정하였더만, 같은 나이를 갖는 row 들이 물리적으로 같이 저장된다. 파티션 테이블 일반적으로 non-partition 테이블은 아래와 같이 선언할 수 있다. create table salesdata_source( salesperson_id int, product_id int, date_of_sale string ) 이와 같은 구조를 'data_of_sale' 로 아래와 같이 파티..
Hive LLAP 사이징 및 설정 Hive LLAP 사이징 및 설정1. 기본 클러스터 설정1) LLAP 를 수행할 YARN 노드를 설정하라.사용자 요구 및 사용하는 작업workload에 따라서 일반적으로 클러스터의 15~50%의 노드를 LLAP로 사용하거나, 전체 클러스터를 LLAP 노드로 설정할 수 있다. Hive LLAP를 수행하기 위한 3가지 YARN container 종류가 있다. 데이터를 직접 처리하는 execution daemon 쿼리 수행을 관리하기 위한 쿼리 코디네이터, TEZ AMsexecution daemon을 모니터링 하고 AM을 실행하기 위한 SliderLLAP에 할당된 용량의 대부분이 execution daemon에 의해서 사용된다. 최적의 결과를 위해서 YARN 노드 전체가 ex..