데이터처리/hadoop

[Hadoop] Hadoop 기본 개념

kwon92 2020. 5. 21. 12:14

Contents

  • Apache Hadoop?

 

- Apache Hadoop?

 

공홈에서 소개하는걸 보면 이렇게 나와있다.

 

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.

 

 

하둡 프로젝트는 안정적이고 확장 가능한 분산 컴퓨팅을 위한 오픈 소스 소프트웨어를 개발한다.

Apache Hadoop 소프트웨어 라이브러리는 간단한 프로그래밍 모델을 사용하여 컴퓨터 클러스터 간에 대용량 데이터 세트를 분산 처리할 수 있는 프레임워크다.

단일 서버에서 수천 대의 기계로 확장할 수 있도록 설계되었으며, 각각 로컬 컴퓨팅과 스토리지를 제공한다.

고가용성을 제공하기 위해 하드웨어에 의존하기보다는 라이브러리 자체가 애플리케이션 계층의 장애를 감지하고 처리할 수 있도록 설계되어 있어, 각각 고장이 발생하기 쉬운 컴퓨터 클러스터 위에 가용성이 높은 서비스를 제공한다.

 

 

요약해보면 하둡은 분산 컴퓨팅 인데,

한 클러스터에서 대용량 데이터셋을 분산 처리할 수 있는 프레임 워크라고 보면 될 것 같다.

 

 

Module

 

하둡의 모듈은

 

 

이런 종류들을 가지고 있다.

여기서 중요한건 HDFS, YARN, MapReduce 라고 보면 될것같다

하나씩 알아보도록 하자

 

 

Related Project

하둡의 생태계에 대해 이미지로 봐보자면

 

출처: 클라우데라

필요한것들 하나씩 알아보도록 하자