HDFS의 정의
분산 서버 구조로 Master Name node가 파일의 메타(meta) 정보를 관리하고 실제 데이터는 여러 대의 Data node에 분산해서 저장하는 하둡 분산 파일 시스템

HDFS의 장점
기존의 대용량의 파일 시스템이나 DB서버를 구성하려면 고성능의 서버를 구매해야 했으면 상당히 많은
비용때문에 부담이 가는 실정이었습니다.
하지만 HDFS를 사용하면 일반 PC급 사양의 서버를 묶어서 하나의 스토리지 처럼 사용 할 수 있게되어
비용적인 부담이 줄게 되었고 향후 업그레이드 시에도 클러스터에 서버를 묶어 주기만하면 성능을
효과적으로 향상시킬수 있는 장점이 있습니다.
기존의 RDBMS 시스템은 투자한 금액에 비례해서 성능이 나오지 않았으나
HDFS는 투자한만큼 성능이 나타납니다.

HDFS의 특징
1. 분산서버는 다양한 장애 상황에 놓일수 있습니다.
   네트웍장애 하드웨어장애 등
   또한 디스크 장애로 인해 복구가 불가능한 상황에 놓일 수도 있습니다.
   HDFS는 이러한 장애를 감지하기위해 분산서버간에 서로 상태를 체크하여
   장애를 인지하고 대처할 수 있게 도와줍니다.
   이렇게 하기위해 데이터 노드간에는 데이터를 서로 복제하여 저장하게됩니다.

2. HDFS는 배치작업에 적합하도록 설계되어 있습니다.
   스트리밍 방식으로 데이터에 접근하기 때문에 특정위치의 정보에 정보를 읽는데는 적합하지 않고
   처음부터 끝까지 모든데이터를 읽는 높은데이터 처리량에 중점을 두고 있습니다.

3. HDFS는 하나의 파일이 수 기가바이트에서 테라바이트이상 으로 저장될 수 있게 설계 됐습니다.

4.HDFS는 한번 저장한 데이터는  수정할 수 없고 읽기만 가능하게 해서 데이터 무결성을 유지 시킵니다.
   이점에서 RDBMS와는 사용처가 다르다고 할 수 있습니다.
   데이터의 수정은 불가능 하지만 파일의 이동 삭제 복사는 할 수 있습니다.

'Hadoop' 카테고리의 다른 글

hadoop 데몬  (0) 2013.02.19
하둡 Master / Slave 접근방식과 ssh의 설정  (0) 2013.02.19
하둡 설정 파일  (0) 2013.02.19
hadoop HDFS 명령어  (0) 2013.02.19
hadoop 개요  (0) 2013.02.14
by pacino.kang 2013. 2. 19. 14:06

하둡에서 생성한 HDFS 디렉토리 정보는 일반 리눅스 명령어로는 보이지 않습니다.
아래의 HDFS명령어를 사용해야 합니다.

ls - 현재 디렉토리 정보를 나열합니다.
hadoop fs -ls output

lsr - 현재 디렉토리 목록과 하위디렉토리 정보를 나열합니다.
hadoop fs -lsr output

du - 디렉토리나 파일의 사용량을 확인하는 명령 바이트 단위로 결과 출력
hadoop fs -du output

dus - 디렉토리 전체의 합계용량을 출력
hadoop fs -dus output

cat - 테스트파일의 내용을 표시
hadoop fs -cat /user/root/output/part-r-00000

text - 테스트파일뿐 아니라 zip파일 형태의 내용도 표시.
hadoop fs -text /user/root/output/part-r-00000

mkdir - 디렉토리를 생성합니다..
hadoop fs -mkdir output1

put - 로컬의 파일 및 디렉토리를 목적지 경로(hdfs)로 복사.
        목적지 디렉토리가 없을 경우엔 디렉토리를 생성.

hadoop fs -put NOTICE.txt /user/root/input

get - hdfs의 파일 및 디렉토리를 로컬의 목적지로 복사.
목적지 디렉토리가 없을 경우엔 디렉토리를 생성.

hadoop fs -get input output

cp - hdfs간에 소스디렉토리 및 파을을 목저지로 복사.
hadoop fs -cp input/NOTICE.txt input/NOTICE.txt

rm - hdfs 디렉토리나 파일을 삭제한다.
       디렉토리는 반드시 비어있는 경우만 삭제 할 수 있습니다.
rmr - 비어있지 않은 디렉토리는 rmr로 삭제 할 수 있습니다.

hadoop fs -rm input1

mv - hdfs의 파일이나 디렉토리를 이동 합니다..

tail - 파일의 마지막 1kb의 내용을 화면에 출력합니다.
       로그파일의 마지막을 보고자 할때 유용합니다.
hadoop fs -tail -f input/notice.txt

count - 지정경로에 대한 파일갯수 디렉토리갯수 전체파일사이즈를 출력합니다.
           -q옵션을 사용할 경우 디렉토리의 파일 용량제한 정보를 조회할 수 있습니다.
hadoop fs -count -q input
첫번째 none은 파일갯수 쿼터값
첫번째 inf는 파일잔여쿼터값
두번째 none은 파일용량 쿼터값
두번째 inf는 파일용량 잔여 쿼터값
1은 디렉토리갯수
2는 파일갯수
1467은 전체파일사이즈
다음은 지정한경로이름

chmod - 지정한 파일이나 디렉토리에 대해 권한을 변경합니다.
          -R옵션을 주면 해당 디렉토리에 포함된 파일이나 디렉토리까지 변경됩니다.

chown - 지정한 파일이나 디렉토리의 소유권을 변경합니다.
           -R옵션을 주면 해당 디렉토리에 포함된 파일이나 디렉토리까지 변경됩니다.

touchz - 0바이트 파일을 생성합니다.

 

'Hadoop' 카테고리의 다른 글

hadoop 데몬  (0) 2013.02.19
하둡 Master / Slave 접근방식과 ssh의 설정  (0) 2013.02.19
하둡 설정 파일  (0) 2013.02.19
HDFS의 특징  (0) 2013.02.19
hadoop 개요  (0) 2013.02.14
by pacino.kang 2013. 2. 19. 12:41
| 1 |