빅데이터/Storage Engine (2) 썸네일형 리스트형 Hbase Hbase란? Hbase는 hdfs위에 있는 Storage Engine으로 Parquet와 Kudu와 비교하여 Full scan보다는 Random Access 기반의 Read/Insert 작업에 특화되어 있습니다. 또한 Column-oriented DB로 칼럼 접근이 빠르고, sorted map형식으로 물리적으로 데이터가 저장되기 때문에 순차탐색에 유리합니다. 추가적으로 Hbase를 비롯한 대부분은 NoSQL이 Write performance가 빠른이유가 바로 LSM Tree 기반이기 때문입니다. Memory에서 memTable이 self balancing binary tree로 구조 가져가 있어서 sorted된 형태로 데이터를 유지합니다. 해당 형태를 기준으로 특정 기준이 되면 disk에 flush하며.. Kudu Kudu는 Columnar Storage로 칼럼마다 압축 방식과 인코딩 방식을 지원합니다. 또한 Primary Key가 필수고 B+트리로 저장되어있어서 인덱스 처럼 저장되어있어서 delete, update 등 Random Access가 빠른 특징을 갖고 있습니다. 또한 Parquet처럼 Sequental read에도 최적화 되어있습니다. Parquet, Kudu, Hbase 간 primary key를 기준으로 Random Access 그리고 substring() 연산통해서 성능 비교 시 Kudu가 Parquet와 Hbase의 중간 정도 성능을 보이 연구 또한 있습니다.(참고자료에 있음) 또한 Table들은 Tablet(partition)으로 구성되어있는데, resiliance를 위해 여러 노드에 분산저장.. 이전 1 다음