반응형
DVC란, Data Version Control로, Git과 유사하지만 데이터를 관리하는 툴을 말합니다.
관련 웹사이트 : https://dvc.org/doc/start
AWS S3, GCP Cloud Storage 등 데이터를 파일 스토리지에 올린 후 다운 받을 수도 있고,
올릴 수 도 있습니다.
커맨드는 Git 과 비슷합니다.
기본적인 커맨드에 대해서 좀 알아보도록 하겠습니다.
일단 기본적으로 Git Repository 내에서 dvc 커맨드를 입력합니다.
$ dvc init
그 이후 dvc를 git에 저장합니다.
$ git status
Changes to be committed:
new file: .dvc/.gitignore
new file: .dvc/config
...
$ git commit -m "Initialize DVC"
dvc 에 데이터를 저장합니다.
$ dvc add data/data.xml
이럼 dvc 파일이 생기게 됩니다.
git에는 dvc 파일을 저장하고, 실제 데이터는 .gitignore에 저장하게 됩니다.
정확히는, dvc add 커맨드가 .gitignore에 저장하게 됩니다.
dvc 파일은 data/data.xml.dvc의 형태로 저장되며,
이를 git에다 저장하고 commit함과 동시에 git 저장소에 push합니다.
$ git add data/data.xml.dvc data/.gitignore
$ git commit -m "Add raw data"
dvc remote 를 통해 s3 버킷 등에 올릴 수도 있습니다.
데이터 버전을 불러오려면, 먼저 git을 이용해 버전을 불러온 후
dvc를 이용해 데이터를 불러옵니다.
$ git checkout <...>
$ dvc checkout
반응형
'Machine Learning' 카테고리의 다른 글
Cloud(GCP)를 이용한 ML-Pipeline 만들기 - 1. Vertex AI AutoML (0) | 2023.05.03 |
---|---|
label studio ml backend 구축 (1. label studio 소개, import, export 및 labeling 머지!) (0) | 2022.12.12 |
Adam Optimization에 대한 설명 (0) | 2022.02.24 |
Gradient Descent(경사 하강)에 대해서 알아봅시다! (0) | 2022.02.18 |
train test split 하는 커스텀 python 스크립트를 만들어봤습니다 (0) | 2021.12.23 |