Hadoop

방대한 양의 데이터가 간결한 프로그래밍 모델을 이용하여 여러대의 컴퓨터로 이루어진 클러스터에서 분산 처리될 수 있도록 도와주는 프레임웍 이다. 

아파치 하둡은 처리 장치와 기억 장치를 가지는 하나의 컴퓨터에서 처리되던 방대한 작업들을 수천대의 컴퓨터로 작업을 분산해서 처리할 수 있는 확장성을 제공하기 위해서 설계되었다.

아파치 하둡에는 다음과 같은 3개 이상의 하위 프로젝트들이 있다

 

1.Hadoop Common(하둡 커먼): 다른 하둡 하위 프로젝트들에서 공통

     으로 사용되는 유틸리티들을 포함하고 있다.

 

2. Hadoop Distributed File System (HDFS™)(하둡 분산 파일 시스템): 

   애플리케이션 데이터에 접근할 때 높은 처리량을 지원하는 분산 파일

   시스템이다.

 

3. Hadoop MapReduce(하둡 맵리듀스): 컴퓨터 클러스터에서 대용량

   데이터의 분산 처리를 위한 프로그래밍 모델 이다.

   Map Reduce 극도로 간단한 작은 단위의 작업을 엄청나게 많이 해야할 때 사용할 수 있는  

   programming model이다.

   분산처리에 관한 내용이지만, 기본적인 개념은 매우 간단하다. 큰 묶음의 job을 작은 단

   위로 쪼개고, 계산하고, 합치는 것이다.

 

용어 정리

Hadoop
방대한 양의 데이터가 간결한 프로그래밍 모델을 이용하여 여러 대의 컴퓨터로 이루어진 클러스터에서 분산 처리될 수 있도록 도와주는 플랫폼

 

HDFS(Hadoop Distributed File System)

파일을 64M 단위로 나누어 장비에 나누어서 저장하는 방식

사용자는 하나의 파일로 보이나 실제로는 나누어져 있음

2003Google이 논문으로 Google File System발표.

데이터를 복제본을 저장하기 때문에 데이터의 유실이나 장애가 발생 했을 때도 데이터 복구가 가능하.

 

MapReduce (2004Google이 논문 발표)

MapReduce 일종 함수형 프로그래밍 모델입니다. map, reduce 합쳐진 용어로, 두 함수의 조합을 통해서 분산/병렬 시스템을 운용을 지원한다. Map Reduce 극도로 간단한 작은 단위의 작업을 엄청나게 많이 해야할 때 사용할 수 있는  programming model이다.

분산처리에 관한 내용이지만, 기본적인 개념은 매우 간단하다. 큰 묶음의 job을 작은 단

위로 쪼개고, 계산하고, 합치는 것이다.

 

Hcatalog

테이블 추상화를 통해서 사용자에게 HDFS에 있는 데이터의  관계형 제공한다.

사용자는 더이상 데이터가 어디에 저장되어 있는지, 또 어떤 포맷

(RCFile format, text file, sequence file)으로 저장되어 있는지 신경쓰지 않아도 된다.

 

대용량데이터에 Apache Hadoop적합한가?

 

 

Q. 애플리케이션/트랜잭션 로그 정보는 매우 크다.

    대용량 파일을 저장할 수 있는 분산 파일 시스템을 제공한다.(HDFS)

Q.I/O 집중적이면서 CPU도 많이 사용한다.

    멀티 노드로 부하를 분산시켜 처리한다.

Q. 데이터베이스는 하드웨어 추가 시 성능 향상이 linear하지 않다.

    장비를 증가시킬 수록 성능이 linear에 가깝게 향상된다.

Q. 데이터베이스는 소프트웨어와 하드웨어가 비싸다.

    Apache Hadoop은 무료이다.

    Intel Core 머신과 리눅스는 싸다.

 

 

 

'Hadoop' 카테고리의 다른 글

hadoop 데몬  (0) 2013.02.19
하둡 Master / Slave 접근방식과 ssh의 설정  (0) 2013.02.19
하둡 설정 파일  (0) 2013.02.19
HDFS의 특징  (0) 2013.02.19
hadoop HDFS 명령어  (0) 2013.02.19
by pacino.kang 2013. 2. 14. 13:11
| 1 ··· 5 6 7 8 |