View
Apache Hadoop YARN: state of the union
Apache Hadoop YARN is the modern distributed operating system for big data applications. It morphed the Hadoop compute layer to be a common resource management platform that can host a wide variety of applications. Many organizations leverage YARN in building their applications on top of Hadoop without themselves repeatedly worrying about resource management, isolation, multi-tenancy issues, etc.
In this talk, we’ll start with the current status of Apache Hadoop YARN—how it is used today in deployments large and small. We'll then move on to the exciting present and future of YARN—features that are further strengthening YARN as the first class resource management platform for data centers running enterprise Hadoop.
We’ll discuss the current status as well as the future promise of features and initiatives like: powerful container placement, global scheduling, support for machine learning and deep learning workloads through GPU and FPGA support, extreme scale with YARN federation, containerized apps on YARN, support for long running services (alongside applications) natively without any changes, seamless application upgrades, powerful scheduling features like application priorities, intra-queue preemption across applications, and operational enhancements including insights through Timeline Service V2, a new web UI, and better queue management.
Apache Hadoop YARN은 빅데이터 어플리케이션 처리를 위해 최근에 가장 많이 사용되는 분산 OS 이다(사실 OS라기보단 솔루션/플랫폼에 가깝다). YARN은 하둡에서 일반적인 자원관리 플랫폼으로 사용되고 있는데, 맵리듀스외에도 다양한 형태의 어플리케이션에 대한 관리가 가능하다. 많은 팀들이 YARN을 이용해서 하둡에서 수행될 application을 개발하는데, 그들 스스로 자원관리나, isolation(메모리/구동환경 분리), multi-tenancy(다중의 application을 하나의 node에서 실행) 하는 것과 같은 작업을 할 필요가 없다.
이 세션에서 우리는 현재의 YARN이 얼마나 다양하게 사용되는지 이야기 한 후 미래의 YARN에 대해서 이야기 할 것이다. 앞으로 데이터센터에서 구동되는 엔터프라이즈 하둡을 위한 자원관리에 대한 기능들이 앞으로 어떻게 발전해 나갈 것인지 이야기 할 것이다.
그리고 우리는 미래 특징과 더불어 현재상태에서 토론하고 다음과 같은 주제로 이야기할 것이다 : 강력한 컨테이너 할당, 글로벌 스케쥴링, GPU와 FPGA 지원을 통한 머신러닝과 딥러닝 작업을 위한 지원, 매우 큰 스케일에서의 YARN 통합, YARN의 컨테이너에서 돌아가는 어플리케이션, 변경 없이 오랫동안 수행되는 서비스들에 대한 지원(alongside application), 변경없는 어플리케이션 업그레이드 및 어플리케이션 우선순위등을 활용한 강력한 스케쥴링 기능, 어플리케이션 간의 내부 선점(preemption)큐, Timeline service V2나 새로운 web UI, 향상된 큐 관리와 같은 운영상의 향상된 기능들 에 대해서 이야기할 것이다.
(의역)
'02.IT공부(간헐적취미) > Conference' 카테고리의 다른 글
[20180904] IFKAKAO 2018 참관기 - NUI 전쟁 (0) | 2018.09.06 |
---|---|
[Meetup] All things Spark – Machine Learning, Atlas integration, ORC & Hive EDW updates (0) | 2018.05.17 |