Data Engineering

데이터 품질관리 명칭 해석 및 도구들

jinmc 2022. 3. 17. 15:04
반응형

데이터 품질관리를 위해서 데이터 품질관리 명칭들의 의미정리를 해 보았습니다.

 

구문 정확성 : 라벨링 데이터 포맷과 값이 정확하게 입력돼 있고 필수항목 중 누락된 내용이 없는지를 확인

의미 정확성 : 분류라벨, 경계박스 등이 일관된 기준에 따라 작업자가 정확하게 라벨링 했는지를 확인

학습모델 유효성 : validation set 및 test set을 이용한 유효성 검사

 

구문 정확성 검사에서, 

Data 의 version control을 위해서

dvc를 활용할 수 있을 것 같습니다.

https://dvc.org/

 

또한, 데이터의 효율적인 관리를 위해서 클라우드 (Azure, GCP, AWS 등)에 올리는것도 굉장히 효율적인 것 같습니다.

https://medium.com/geekculture/data-version-control-dvc-with-google-cloud-storage-and-python-for-ml-fe99dc7d338

dvc와 클라우드를 같이 사용하는 방법입니다.

 

 

 

출처 : http://it.chosun.com/site/data/html_dir/2021/06/17/2021061702601.html

반응형

'Data Engineering' 카테고리의 다른 글

GCP Data Engineer 대비 정리 - 용어정리  (0) 2022.04.20
GCP Data Engineer 자격증 준비!  (0) 2022.04.07