HDFS의 정의
분산 서버 구조로 Master Name node가 파일의 메타(meta) 정보를 관리하고 실제 데이터는 여러 대의 Data node에 분산해서 저장하는 하둡 분산 파일 시스템

HDFS의 장점
기존의 대용량의 파일 시스템이나 DB서버를 구성하려면 고성능의 서버를 구매해야 했으면 상당히 많은
비용때문에 부담이 가는 실정이었습니다.
하지만 HDFS를 사용하면 일반 PC급 사양의 서버를 묶어서 하나의 스토리지 처럼 사용 할 수 있게되어
비용적인 부담이 줄게 되었고 향후 업그레이드 시에도 클러스터에 서버를 묶어 주기만하면 성능을
효과적으로 향상시킬수 있는 장점이 있습니다.
기존의 RDBMS 시스템은 투자한 금액에 비례해서 성능이 나오지 않았으나
HDFS는 투자한만큼 성능이 나타납니다.

HDFS의 특징
1. 분산서버는 다양한 장애 상황에 놓일수 있습니다.
   네트웍장애 하드웨어장애 등
   또한 디스크 장애로 인해 복구가 불가능한 상황에 놓일 수도 있습니다.
   HDFS는 이러한 장애를 감지하기위해 분산서버간에 서로 상태를 체크하여
   장애를 인지하고 대처할 수 있게 도와줍니다.
   이렇게 하기위해 데이터 노드간에는 데이터를 서로 복제하여 저장하게됩니다.

2. HDFS는 배치작업에 적합하도록 설계되어 있습니다.
   스트리밍 방식으로 데이터에 접근하기 때문에 특정위치의 정보에 정보를 읽는데는 적합하지 않고
   처음부터 끝까지 모든데이터를 읽는 높은데이터 처리량에 중점을 두고 있습니다.

3. HDFS는 하나의 파일이 수 기가바이트에서 테라바이트이상 으로 저장될 수 있게 설계 됐습니다.

4.HDFS는 한번 저장한 데이터는  수정할 수 없고 읽기만 가능하게 해서 데이터 무결성을 유지 시킵니다.
   이점에서 RDBMS와는 사용처가 다르다고 할 수 있습니다.
   데이터의 수정은 불가능 하지만 파일의 이동 삭제 복사는 할 수 있습니다.

'Hadoop' 카테고리의 다른 글

hadoop 데몬  (0) 2013.02.19
하둡 Master / Slave 접근방식과 ssh의 설정  (0) 2013.02.19
하둡 설정 파일  (0) 2013.02.19
hadoop HDFS 명령어  (0) 2013.02.19
hadoop 개요  (0) 2013.02.14
by pacino.kang 2013. 2. 19. 14:06