Datanode의 디스크가 문제가 생기던지 혹은 Namenode에 너무 많은 Metadata를 가지고 있어서 block에 대한 문제가 발생할 수 있습니다. Corrput block, Missing block이 이에 따른 문제입니다.
Corrput block
block replicas 중에서 일부가 손상된 상태입니다. Namenode는 주기적으로 Datanode로 부터 heartbeat와 block report를 받기 때문에 Datanode 별 최신정보를 업데이트 합니다. 그렇기 때문에 corrupt block은 Namenode가 자동으로 채워줍니다. 복구가 가능한 상황이기 때문에 별도의 리포트 또한 없습니다. 만약
Missing block
복제본이 아예 없는 경우로 block이 복구 불가능한 상태입니다.
corrupt block 확인 및 제거
# fsck로 전체 파일시스템을 검사하기엔 너무 많은 시간이 소요됩니다.
hdfs fsck -list-corruptfileblocks # corrput-block 확인
hdfs fsck -move # /lost+found 이동
or
hdfs fsck -delete # 파일 삭제
[missing block]
https://eyeballs.tistory.com/280
https://velog.io/@crescent702/hadoop-missing-block
'빅데이터 > Hadoop' 카테고리의 다른 글
Block Count / Small files 해결 (0) | 2022.09.24 |
---|---|
MapReduce 원리 (0) | 2022.09.22 |
Hadoop HA 아키텍처 (1) | 2022.09.21 |
Yarn 동작 원리 & Scheduler (0) | 2022.09.21 |
하둡 아키텍처 참고 글 (0) | 2022.09.09 |