반응형
HuggingFace의 datasets 라이브러리를 사용하여 데이터셋을 저장하고 사용하다보면 이상하게 디렉토리의 저장 용량이 점점 커지는 경우를 보실 수 있습니다.
이러한 이유는 데이터셋에 캐시 파일이 남아있기 때문입니다.
위의 사진처럼 cache-*.arrow 파일로 캐시가 떨어지게 되는데요. 여러가지 처리를 테스트하다보면 너무 많은 캐시가 쌓일 때가 있어서 가끔씩 지워줘야합니다.
직접 손으로 삭제해도 되지만, 코드 상에서도 간단하게 삭제할 수 있습니다. 데이터셋 객체에 대해 .cleanup_cache_files() 메서드를 사용하여 제거하시면 됩니다.
dataset.cleanup_cache_files()
캐시를 비활성화하거나, 로드부터 메모리를 다 쓰는 방법 등은 공식 페이지에서 추가로 확인할 수 있습니다.
반응형