hdfs (3) 썸네일형 리스트형 Hbase Hbase란? Hbase는 hdfs위에 있는 Storage Engine으로 Parquet와 Kudu와 비교하여 Full scan보다는 Random Access 기반의 Read/Insert 작업에 특화되어 있습니다. 또한 Column-oriented DB로 칼럼 접근이 빠르고, sorted map형식으로 물리적으로 데이터가 저장되기 때문에 순차탐색에 유리합니다. 추가적으로 Hbase를 비롯한 대부분은 NoSQL이 Write performance가 빠른이유가 바로 LSM Tree 기반이기 때문입니다. Memory에서 memTable이 self balancing binary tree로 구조 가져가 있어서 sorted된 형태로 데이터를 유지합니다. 해당 형태를 기준으로 특정 기준이 되면 disk에 flush하며.. [Hadoop] corrupt/missing block Datanode의 디스크가 문제가 생기던지 혹은 Namenode에 너무 많은 Metadata를 가지고 있어서 block에 대한 문제가 발생할 수 있습니다. Corrput block, Missing block이 이에 따른 문제입니다. Corrput block block replicas 중에서 일부가 손상된 상태입니다. Namenode는 주기적으로 Datanode로 부터 heartbeat와 block report를 받기 때문에 Datanode 별 최신정보를 업데이트 합니다. 그렇기 때문에 corrupt block은 Namenode가 자동으로 채워줍니다. 복구가 가능한 상황이기 때문에 별도의 리포트 또한 없습니다. 만약 Missing block 복제본이 아예 없는 경우로 block이 복구 불가능한 상태입니다... MapReduce 원리 MapReduce의 기본원리는 입력 파일을 일정 단위로 나눠서 처리하는 Mapper과 개별적인 결과를 집계하는 Reduce로 나누어져있습니다. InputSplits MapReduce 작업에서 map task를 구성하는 작업의 단위입니다. 기본적으로 HDFS 기본 block 단위(126 or 256mb로 나누게 됩니다. 이렇게 단위를 나누어서 여러 node에 분배하면 해당 node에서 작업을 진행하는 data locality라는특징을 갖습니다. Map 데이터를 key,value 형태로 만들어서 작업을 처리하는 과정입니다. 맵 결과는 우선 메모리 버퍼에 저장되지만 limit을 넘으면 디스크에 spill됩니다. Combiner 네트워크의 bottleneck을 줄이기 위해 Reducer로 보내기 전에 적은 양의.. 이전 1 다음