전체 글 176

Regression(회귀) 모델 1. Decision Tree

가장 기본적인 모델인 Decision Tree(결정 트리) 입니다. 전체 Input Space를 여러 개의 작은 직사각형으로 계속 자르는 알고리즘으로 모델을 만드는 것입니다. Classification and regression tree (CART)라고도 한다고 합니다. 그림은 타이타닉 데이터에서 가져왔다고 합니다. 성별, 나이와 가족 숫자라고 하네요. Decision Tree의 경우 굉장히 직관적이고 이해하기 쉽다는 장점이 있지만, 어떤 특성(Feature)을 먼저 사용할 지에 대해서 dependency가 굉장히 걸린다는 부담이 있습니다. 다른 말로는, 갈릴 때 cost가 가장 적은 split을 먼저 고릅니다. greedy algorithm이라고도 표현하네요. Regression 과 Classifica..

GCP Data Engineer 대비 정리 - 용어정리

각각의 서비스들에 대해서 알아보겠습니다. 각각의 서비스들에 대해서 간단히 정리해 보고, 특징 들에 대해서도 간단하게 요약해 보도록 하겠습니다. 비교적 Coursera data engineer 코스에서 많이 다루고, sample exam에서도 많이 다뤘던 내용들을 바탕으로 정리하였습니다. Cloud Datastore에 대한 그래프 OLTP(online transaction processiong database) - normalization 필요 (대부분의 경우) OLAP(online analyticial processing database) - used for data warehouse and data mart applications DDL(Data definition language statements)..

Data Engineering 2022.04.20

Kaggle 정복하기 - House Prices - Advanced Regression Techniques #1 EDA

다음 캐글 Contest를 try해봤습니다. https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques 모르는 것을 너무도 많이 알 수 있었던 좋은 Contest였습니다. 참고 : https://www.kaggle.com/code/pmarcelino/comprehensive-data-exploration-with-python 1460개의 data와, 80개의 column이 있습니다. train의 경우 81개의 column이 있습니다. 81개의 column 중 target은 salePrice가 우리가 regression을 원하는 값입니다. 필요 library를 import합니다. #invite people for the K..

kaggle 및 dacon 2022.04.17

dvc 를 이용해서 데이터 버전 관리하기 (ft. mlops)

DVC란, Data Version Control로, Git과 유사하지만 데이터를 관리하는 툴을 말합니다. 관련 웹사이트 : https://dvc.org/doc/start AWS S3, GCP Cloud Storage 등 데이터를 파일 스토리지에 올린 후 다운 받을 수도 있고, 올릴 수 도 있습니다. 커맨드는 Git 과 비슷합니다. 기본적인 커맨드에 대해서 좀 알아보도록 하겠습니다. 일단 기본적으로 Git Repository 내에서 dvc 커맨드를 입력합니다. $ dvc init 그 이후 dvc를 git에 저장합니다. $ git status Changes to be committed: new file: .dvc/.gitignore new file: .dvc/config ... $ git commit -m ..

Machine Learning 2022.04.14

GCP Data Engineer 자격증 준비!

시작은 미디엄 아티클이었습니다. 머신러닝 부트캠프를 참여한 김현일님의 아티클을 보고, https://medium.com/@hkkim1984/%EA%B5%AC%EA%B8%80-%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%EB%B6%80%ED%8A%B8%EC%BA%A0%ED%94%84-%ED%9B%84%EA%B8%B0-f25241f2c7fa 뭐, 텐서플로우 자격증이 일주일이면 딴다고? 이러면서 텐서플로우 자격증을 땄던 게 시발점이었습니다. 막상 따고 보니깐, 머신러닝 부트캠프의 다른 자격증들이 눈에 들어왔습니다. GCP Data Engineer 자격증과 GCP ML Engineer자격증. 욕심난다.. 결국 따기로 마음먹고 Coursera등록을 하였습니다. Data Engineer Co..

Data Engineering 2022.04.07

29살.. 코딩 시작을 주저하는 그대에게

이 글은 어딘가에 있을 나이먹은 (하지만 나보다 적은) 사람들이 혹시 코딩을 시작하기 주저하는 사람을 생각하고 쓰는 글입니다. 마침 제 친동생이 29살이고, 항상 제가 지금 코딩을 시작해도 늦지 않았다고 말을 하기 때문에 좀 더 신빙성이 있게 다가올 수 있을 것 같아요. 29살이면, 확실히 적은 나이는 아니라고 생각합니다. 뭐 이 글에서는 적지 않겠지만, 개발자 로드맵이라는게 확실히 있습니다. 없지는 않아요. 아무리 비전공자라고 해도, 그 로드맵에서 많이 벗어나긴 힘들다고 생각합니다. 결국 코딩을 시작한다면, 누구나 겪을 과정이고, 겪지 않았다면 성장하기 어려운 과정들이 있다고 생각합니다. 그 과정은 조금만 서술하자면, 백엔드, 프론트엔드, 데이터베이스, 자료구조, 네트워크, 스택 오버플로우 구글링, 등..

잡담 2022.04.03

폴더 안에 파일들 이름 정리하기 (Python3)

https://walkaroundthedevelop.tistory.com/99?category=897569 폴더 안에 파일명을 정리하고 싶어서, 스크립트를 짜보려고 하다가, 문득 제 블로그 중에서 비슷한 일을 했던 것을 발견하고, 거기서 조금만 추가해서 스크립트를 다시 만들어 보려고 합니다. 예상 시나리오는 다음과 같습니다. (실제 예) 폴더 안에 동영상 파일들이 많은데, 그 동영상 파일들의 제목들이 너무 길어서 정리가 잘 안되서, 날짜와 폴더이름, 순서로 정리를 하고자 싶을 때, 스크립트를 사용해서 간단하게 정리 하는 스크립트를 만들었습니다. import os def main(): # directory 선택하기 ldir = os.listdir() ldir.remove("change_file_names...

Utils 2022.03.29

kaggle competition - H&M Recommendation EDA

이번에 H&M contest를 시작해 보기로 합니다. https://www.kaggle.com/c/h-and-m-personalized-fashion-recommendations 코드 리뷰 : https://www.kaggle.com/code/vanguarde/h-m-eda-first-look 데이터셋은 articles, customers, transactions 세 가지가 있습니다. articles는 25가지의 column으로 이루어져 있습니다. 1. Articles EDA articles.head() 로 볼 수 있죠. article_id : A unique identifier of every article. product_code, prod_name : A unique identifier of eve..

kaggle 및 dacon 2022.03.20

데이터 품질관리 명칭 해석 및 도구들

데이터 품질관리를 위해서 데이터 품질관리 명칭들의 의미정리를 해 보았습니다. 구문 정확성 : 라벨링 데이터 포맷과 값이 정확하게 입력돼 있고 필수항목 중 누락된 내용이 없는지를 확인 의미 정확성 : 분류라벨, 경계박스 등이 일관된 기준에 따라 작업자가 정확하게 라벨링 했는지를 확인 학습모델 유효성 : validation set 및 test set을 이용한 유효성 검사 구문 정확성 검사에서, Data 의 version control을 위해서 dvc를 활용할 수 있을 것 같습니다. https://dvc.org/ 또한, 데이터의 효율적인 관리를 위해서 클라우드 (Azure, GCP, AWS 등)에 올리는것도 굉장히 효율적인 것 같습니다. https://medium.com/geekculture/data-vers..

Data Engineering 2022.03.17