Data Engineering 3

GCP Data Engineer 대비 정리 - 용어정리

각각의 서비스들에 대해서 알아보겠습니다. 각각의 서비스들에 대해서 간단히 정리해 보고, 특징 들에 대해서도 간단하게 요약해 보도록 하겠습니다. 비교적 Coursera data engineer 코스에서 많이 다루고, sample exam에서도 많이 다뤘던 내용들을 바탕으로 정리하였습니다. Cloud Datastore에 대한 그래프 OLTP(online transaction processiong database) - normalization 필요 (대부분의 경우) OLAP(online analyticial processing database) - used for data warehouse and data mart applications DDL(Data definition language statements)..

Data Engineering 2022.04.20

GCP Data Engineer 자격증 준비!

시작은 미디엄 아티클이었습니다. 머신러닝 부트캠프를 참여한 김현일님의 아티클을 보고, https://medium.com/@hkkim1984/%EA%B5%AC%EA%B8%80-%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%EB%B6%80%ED%8A%B8%EC%BA%A0%ED%94%84-%ED%9B%84%EA%B8%B0-f25241f2c7fa 뭐, 텐서플로우 자격증이 일주일이면 딴다고? 이러면서 텐서플로우 자격증을 땄던 게 시발점이었습니다. 막상 따고 보니깐, 머신러닝 부트캠프의 다른 자격증들이 눈에 들어왔습니다. GCP Data Engineer 자격증과 GCP ML Engineer자격증. 욕심난다.. 결국 따기로 마음먹고 Coursera등록을 하였습니다. Data Engineer Co..

Data Engineering 2022.04.07

데이터 품질관리 명칭 해석 및 도구들

데이터 품질관리를 위해서 데이터 품질관리 명칭들의 의미정리를 해 보았습니다. 구문 정확성 : 라벨링 데이터 포맷과 값이 정확하게 입력돼 있고 필수항목 중 누락된 내용이 없는지를 확인 의미 정확성 : 분류라벨, 경계박스 등이 일관된 기준에 따라 작업자가 정확하게 라벨링 했는지를 확인 학습모델 유효성 : validation set 및 test set을 이용한 유효성 검사 구문 정확성 검사에서, Data 의 version control을 위해서 dvc를 활용할 수 있을 것 같습니다. https://dvc.org/ 또한, 데이터의 효율적인 관리를 위해서 클라우드 (Azure, GCP, AWS 등)에 올리는것도 굉장히 효율적인 것 같습니다. https://medium.com/geekculture/data-vers..

Data Engineering 2022.03.17