반응형
데이터 품질관리를 위해서 데이터 품질관리 명칭들의 의미정리를 해 보았습니다.
구문 정확성 : 라벨링 데이터 포맷과 값이 정확하게 입력돼 있고 필수항목 중 누락된 내용이 없는지를 확인
의미 정확성 : 분류라벨, 경계박스 등이 일관된 기준에 따라 작업자가 정확하게 라벨링 했는지를 확인
학습모델 유효성 : validation set 및 test set을 이용한 유효성 검사
구문 정확성 검사에서,
Data 의 version control을 위해서
dvc를 활용할 수 있을 것 같습니다.
또한, 데이터의 효율적인 관리를 위해서 클라우드 (Azure, GCP, AWS 등)에 올리는것도 굉장히 효율적인 것 같습니다.
dvc와 클라우드를 같이 사용하는 방법입니다.
출처 : http://it.chosun.com/site/data/html_dir/2021/06/17/2021061702601.html
반응형
'Data Engineering' 카테고리의 다른 글
GCP Data Engineer 대비 정리 - 용어정리 (0) | 2022.04.20 |
---|---|
GCP Data Engineer 자격증 준비! (0) | 2022.04.07 |