HDFS의 정의
분산 서버 구조로 Master Name node가 파일의 메타(meta) 정보를 관리하고 실제 데이터는 여러 대의 Data node에 분산해서 저장하는 하둡 분산 파일 시스템

HDFS의 장점
기존의 대용량의 파일 시스템이나 DB서버를 구성하려면 고성능의 서버를 구매해야 했으면 상당히 많은
비용때문에 부담이 가는 실정이었습니다.
하지만 HDFS를 사용하면 일반 PC급 사양의 서버를 묶어서 하나의 스토리지 처럼 사용 할 수 있게되어
비용적인 부담이 줄게 되었고 향후 업그레이드 시에도 클러스터에 서버를 묶어 주기만하면 성능을
효과적으로 향상시킬수 있는 장점이 있습니다.
기존의 RDBMS 시스템은 투자한 금액에 비례해서 성능이 나오지 않았으나
HDFS는 투자한만큼 성능이 나타납니다.

HDFS의 특징
1. 분산서버는 다양한 장애 상황에 놓일수 있습니다.
   네트웍장애 하드웨어장애 등
   또한 디스크 장애로 인해 복구가 불가능한 상황에 놓일 수도 있습니다.
   HDFS는 이러한 장애를 감지하기위해 분산서버간에 서로 상태를 체크하여
   장애를 인지하고 대처할 수 있게 도와줍니다.
   이렇게 하기위해 데이터 노드간에는 데이터를 서로 복제하여 저장하게됩니다.

2. HDFS는 배치작업에 적합하도록 설계되어 있습니다.
   스트리밍 방식으로 데이터에 접근하기 때문에 특정위치의 정보에 정보를 읽는데는 적합하지 않고
   처음부터 끝까지 모든데이터를 읽는 높은데이터 처리량에 중점을 두고 있습니다.

3. HDFS는 하나의 파일이 수 기가바이트에서 테라바이트이상 으로 저장될 수 있게 설계 됐습니다.

4.HDFS는 한번 저장한 데이터는  수정할 수 없고 읽기만 가능하게 해서 데이터 무결성을 유지 시킵니다.
   이점에서 RDBMS와는 사용처가 다르다고 할 수 있습니다.
   데이터의 수정은 불가능 하지만 파일의 이동 삭제 복사는 할 수 있습니다.

'Hadoop' 카테고리의 다른 글

hadoop 데몬  (0) 2013.02.19
하둡 Master / Slave 접근방식과 ssh의 설정  (0) 2013.02.19
하둡 설정 파일  (0) 2013.02.19
hadoop HDFS 명령어  (0) 2013.02.19
hadoop 개요  (0) 2013.02.14
by pacino.kang 2013. 2. 19. 14:06

 

 

 

by pacino.kang 2013. 2. 14. 15:09

by pacino.kang 2013. 2. 14. 14:42

Act는 Oracle로 치면 Sql_plus같은 프로그램이다.

by pacino.kang 2013. 2. 14. 14:33

 ACM에 접속하기위해서는 QUEEN NODE가 가동되어 있어야 한다.

       ACM에 접속하기위해서는 QUEEN NODE가 가동되어 있어야 한다.

by pacino.kang 2013. 2. 14. 13:33

Aster Express 실습 - 필요사항 

범위 : 실습을 위한 Aster Cluster Multi Node Server 이미지 설치

          ACT 사용법

          Eclipse 내에 ADE(Aster Development Environment)구축

          Aster Data SQL client

          Aster 분석 라이브러리 설치

          SQL-MR실습(Aster 내장 분석 MapReduce 함수 실행)

          사용자의 정의 MapReduce 작성, 배포, 실행

 소프트웨어 : vmplayer, 7zip, winscp, putty, 이클립스 64bit ,jdk 64bit

                        aster express 이미지 다운로드 URL

                        http://www.asterdata.com/download_aster_express/

                        ADE 다운로드 URL

                        http://www.asterdata.com/download_development_environment/

                       

 하드웨요구사항 : 64-bit capable CPU

                           메모리 4Gb이상

                           하드 20 Gb 이상

참고 tutorial 사이트

http://www.asterdata.com/download_aster_express/tutorial.php

 

 

by pacino.kang 2013. 2. 14. 13:19

 TeraData Aster

TeraData Aster는 빅 데이터 분석 언어인 MapReduce와 전통적인 DB처리 언어인 SQL을 결합한 것이 특징이다.

기존의 SQL을 통해 빅 데이터를 분석할 수 있다는 것이다.

Aster DataIn-Database MapReduce라는 개념으로 불리며 SQL 질의에서 MapReduce 함수를 사용하는 방식이다. TeraData Aster대규모 병렬 처리 (MPP) 아키텍처 위에서 설계되었다.
 embed MapReduce 분석 엔진은 최적화된 자원을 최대한 활용하여 빠른 분석결과를 제공한다.

TeraData Aster는 고급분석기능의 함수를 MapReduce로 구현 삽입
고급 분석 개발자
의 능력을 MapReduce의 분석 함수로 대체하여 쉽게 Big DataSet에서 분석결과를 초고속 결과를 제공 한다.

TeraData Aster 제품군

 

Aster Database

  대규모 병렬 처리 (MPP) 아키텍처위에 설계된 RDBMS

Aster SQL- MapReduce(사용자의 정의 MapReduce 함수)

  HDFS대신 RDBMS를 사용함.

Aster MapReduce 분석 포트폴리오(분석 함수)

  Aster Database(RDBMS)를 대상으로 하는 Aster에서 제공하는 분석함수

Aster SQL-H

  HDFS에서 비정형화된 데이터를 HCatalog 를 통해 정형화된 데이터로

  제공해서 SQL- MapReduce를 사용할 수 있게 변화하는 역할

 

SQL-MapReduce

 

 Aster Data 데이터베이스 내에서  SQL-MapReduce로 알려진 MapReduce 프레임워크 이다.

 매우 효율적으로 분석 Aster 데이터베이스에서 병렬 방식으로 처리, 쓰기 할 수 있

 신속하게 작성 테스트, 그리고 Aster DataBase SQL-MapReduce 기능을 배포 할 수 있.

 

 

by pacino.kang 2013. 2. 14. 13:17

 Hadoop

방대한 양의 데이터가 간결한 프로그래밍 모델을 이용하여 여러대의 컴퓨터로 이루어진 클러스터에서 분산 처리될 수 있도록 도와주는 프레임웍 이다. 

아파치 하둡은 처리 장치와 기억 장치를 가지는 하나의 컴퓨터에서 처리되던 방대한 작업들을 수천대의 컴퓨터로 작업을 분산해서 처리할 수 있는 확장성을 제공하기 위해서 설계되었다.

아파치 하둡에는 다음과 같은 3개 이상의 하위 프로젝트들이 있다

 

1.Hadoop Common(하둡 커먼): 다른 하둡 하위 프로젝트들에서 공통

     으로 사용되는 유틸리티들을 포함하고 있다.

 

2. Hadoop Distributed File System (HDFS™)(하둡 분산 파일 시스템): 

   애플리케이션 데이터에 접근할 때 높은 처리량을 지원하는 분산 파일

   시스템이다.

 

3. Hadoop MapReduce(하둡 맵리듀스): 컴퓨터 클러스터에서 대용량

   데이터의 분산 처리를 위한 프로그래밍 모델 이다.

   Map Reduce 극도로 간단한 작은 단위의 작업을 엄청나게 많이 해야할 때 사용할 수 있는  

   programming model이다.

   분산처리에 관한 내용이지만, 기본적인 개념은 매우 간단하다. 큰 묶음의 job을 작은 단

   위로 쪼개고, 계산하고, 합치는 것이다.

 

용어 정리

Hadoop
방대한 양의 데이터가 간결한 프로그래밍 모델을 이용하여 여러 대의 컴퓨터로 이루어진 클러스터에서 분산 처리될 수 있도록 도와주는 플랫폼

 

HDFS(Hadoop Distributed File System)

파일을 64M 단위로 나누어 장비에 나누어서 저장하는 방식

사용자는 하나의 파일로 보이나 실제로는 나누어져 있음

2003Google이 논문으로 Google File System발표.

데이터를 복제본을 저장하기 때문에 데이터의 유실이나 장애가 발생 했을 때도 데이터 복구가 가능하.

 

MapReduce (2004Google이 논문 발표)

MapReduce 일종 함수형 프로그래밍 모델입니다. map, reduce 합쳐진 용어로, 두 함수의 조합을 통해서 분산/병렬 시스템을 운용을 지원한다. Map Reduce 극도로 간단한 작은 단위의 작업을 엄청나게 많이 해야할 때 사용할 수 있는  programming model이다.

분산처리에 관한 내용이지만, 기본적인 개념은 매우 간단하다. 큰 묶음의 job을 작은 단

위로 쪼개고, 계산하고, 합치는 것이다.

 

Hcatalog

테이블 추상화를 통해서 사용자에게 HDFS에 있는 데이터의  관계형 제공한다.

사용자는 더이상 데이터가 어디에 저장되어 있는지, 또 어떤 포맷

(RCFile format, text file, sequence file)으로 저장되어 있는지 신경쓰지 않아도 된다.

 

대용량데이터에 Apache Hadoop적합한가?

 

 

Q. 애플리케이션/트랜잭션 로그 정보는 매우 크다.

    대용량 파일을 저장할 수 있는 분산 파일 시스템을 제공한다.(HDFS)

Q.I/O 집중적이면서 CPU도 많이 사용한다.

    멀티 노드로 부하를 분산시켜 처리한다.

Q. 데이터베이스는 하드웨어 추가 시 성능 향상이 linear하지 않다.

    장비를 증가시킬 수록 성능이 linear에 가깝게 향상된다.

Q. 데이터베이스는 소프트웨어와 하드웨어가 비싸다.

    Apache Hadoop은 무료이다.

    Intel Core 머신과 리눅스는 싸다.

 

 

 

'Hadoop' 카테고리의 다른 글

hadoop 데몬  (0) 2013.02.19
하둡 Master / Slave 접근방식과 ssh의 설정  (0) 2013.02.19
하둡 설정 파일  (0) 2013.02.19
HDFS의 특징  (0) 2013.02.19
hadoop HDFS 명령어  (0) 2013.02.19
by pacino.kang 2013. 2. 14. 13:11
| 1 |