전체 글 193

Kaggle 정복하기 - House Prices - Advanced Regression Techniques #1 EDA

다음 캐글 Contest를 try해봤습니다. https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques 모르는 것을 너무도 많이 알 수 있었던 좋은 Contest였습니다. 참고 : https://www.kaggle.com/code/pmarcelino/comprehensive-data-exploration-with-python 1460개의 data와, 80개의 column이 있습니다. train의 경우 81개의 column이 있습니다. 81개의 column 중 target은 salePrice가 우리가 regression을 원하는 값입니다. 필요 library를 import합니다. #invite people for the K..

kaggle 및 dacon 2022.04.17

dvc 를 이용해서 데이터 버전 관리하기 (ft. mlops)

DVC란, Data Version Control로, Git과 유사하지만 데이터를 관리하는 툴을 말합니다. 관련 웹사이트 : https://dvc.org/doc/start AWS S3, GCP Cloud Storage 등 데이터를 파일 스토리지에 올린 후 다운 받을 수도 있고, 올릴 수 도 있습니다. 커맨드는 Git 과 비슷합니다. 기본적인 커맨드에 대해서 좀 알아보도록 하겠습니다. 일단 기본적으로 Git Repository 내에서 dvc 커맨드를 입력합니다. $ dvc init 그 이후 dvc를 git에 저장합니다. $ git status Changes to be committed: new file: .dvc/.gitignore new file: .dvc/config ... $ git commit -m ..

Machine Learning 2022.04.14

GCP Data Engineer 자격증 준비!

시작은 미디엄 아티클이었습니다. 머신러닝 부트캠프를 참여한 김현일님의 아티클을 보고, https://medium.com/@hkkim1984/%EA%B5%AC%EA%B8%80-%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%EB%B6%80%ED%8A%B8%EC%BA%A0%ED%94%84-%ED%9B%84%EA%B8%B0-f25241f2c7fa 뭐, 텐서플로우 자격증이 일주일이면 딴다고? 이러면서 텐서플로우 자격증을 땄던 게 시발점이었습니다. 막상 따고 보니깐, 머신러닝 부트캠프의 다른 자격증들이 눈에 들어왔습니다. GCP Data Engineer 자격증과 GCP ML Engineer자격증. 욕심난다.. 결국 따기로 마음먹고 Coursera등록을 하였습니다. Data Engineer Co..

Data Engineering 2022.04.07

29살.. 코딩 시작을 주저하는 그대에게

이 글은 어딘가에 있을 나이먹은 (하지만 나보다 적은) 사람들이 혹시 코딩을 시작하기 주저하는 사람을 생각하고 쓰는 글입니다. 마침 제 친동생이 29살이고, 항상 제가 지금 코딩을 시작해도 늦지 않았다고 말을 하기 때문에 좀 더 신빙성이 있게 다가올 수 있을 것 같아요. 29살이면, 확실히 적은 나이는 아니라고 생각합니다. 뭐 이 글에서는 적지 않겠지만, 개발자 로드맵이라는게 확실히 있습니다. 없지는 않아요. 아무리 비전공자라고 해도, 그 로드맵에서 많이 벗어나긴 힘들다고 생각합니다. 결국 코딩을 시작한다면, 누구나 겪을 과정이고, 겪지 않았다면 성장하기 어려운 과정들이 있다고 생각합니다. 그 과정은 조금만 서술하자면, 백엔드, 프론트엔드, 데이터베이스, 자료구조, 네트워크, 스택 오버플로우 구글링, 등..

잡담 2022.04.03

폴더 안에 파일들 이름 정리하기 (Python3)

https://walkaroundthedevelop.tistory.com/99?category=897569 폴더 안에 파일명을 정리하고 싶어서, 스크립트를 짜보려고 하다가, 문득 제 블로그 중에서 비슷한 일을 했던 것을 발견하고, 거기서 조금만 추가해서 스크립트를 다시 만들어 보려고 합니다. 예상 시나리오는 다음과 같습니다. (실제 예) 폴더 안에 동영상 파일들이 많은데, 그 동영상 파일들의 제목들이 너무 길어서 정리가 잘 안되서, 날짜와 폴더이름, 순서로 정리를 하고자 싶을 때, 스크립트를 사용해서 간단하게 정리 하는 스크립트를 만들었습니다. import os def main(): # directory 선택하기 ldir = os.listdir() ldir.remove("change_file_names...

Utils 2022.03.29

kaggle competition - H&M Recommendation EDA

이번에 H&M contest를 시작해 보기로 합니다. https://www.kaggle.com/c/h-and-m-personalized-fashion-recommendations 코드 리뷰 : https://www.kaggle.com/code/vanguarde/h-m-eda-first-look 데이터셋은 articles, customers, transactions 세 가지가 있습니다. articles는 25가지의 column으로 이루어져 있습니다. 1. Articles EDA articles.head() 로 볼 수 있죠. article_id : A unique identifier of every article. product_code, prod_name : A unique identifier of eve..

kaggle 및 dacon 2022.03.20

데이터 품질관리 명칭 해석 및 도구들

데이터 품질관리를 위해서 데이터 품질관리 명칭들의 의미정리를 해 보았습니다. 구문 정확성 : 라벨링 데이터 포맷과 값이 정확하게 입력돼 있고 필수항목 중 누락된 내용이 없는지를 확인 의미 정확성 : 분류라벨, 경계박스 등이 일관된 기준에 따라 작업자가 정확하게 라벨링 했는지를 확인 학습모델 유효성 : validation set 및 test set을 이용한 유효성 검사 구문 정확성 검사에서, Data 의 version control을 위해서 dvc를 활용할 수 있을 것 같습니다. https://dvc.org/ 또한, 데이터의 효율적인 관리를 위해서 클라우드 (Azure, GCP, AWS 등)에 올리는것도 굉장히 효율적인 것 같습니다. https://medium.com/geekculture/data-vers..

Data Engineering 2022.03.17

Tensorflow 자격증 취득 후기

Tensorflow자격증을 획득했습니다. 아직 공식적으로 증이 나오지 않아서 여기 Share는 못하겠지만, 그래도 시험이 끝나자마자 바로 이메일이 오더군요. 다음은 자격증, 및 링크 입니다. https://www.credential.net/01adb74d-93bd-4328-82f8-6a8ff37ee3c9 다섯 문제가 나왔고, (알고는 있었지만), 주어진 시간은 다섯시간이었는데, 거의 네시간 반 정도 투자를 한 것 같습니다. 다행이었던 것은, 그렇게 급박하다고 느껴지지는 않았던 것 같습니다. 막히는 부분이 있어도, 어떻게든 되겠지란 생각으로 계속 하니깐, 됬던 것 같습니다. 확실히 Coursera 의 Tensorflow certificate course가 엄청 도움이 된것 같습니다. 텐서플로우 자격증 시험..

Tensorflow 자격증 대비 - CNN (SIGN LANGUAGE MNIST 손동작 구분)

1. 라이브러리 설치 import csv import string import numpy as np import tensorflow as tf import matplotlib.pyplot as plt from tensorflow.keras.preprocessing.image import ImageDataGenerator, array_to_img 2. 데이터 다운로드 및 변수 설정 # sign_mnist_train.csv !gdown --id 1z0DkA9BytlLxO1C0BAWzknLyQmZAp0HR # sign_mnist_test.csv !gdown --id 1z1BIj4qmri59GWBG4ivMNFtpZ4AXIbzg TRAINING_FILE = './sign_mnist_train.csv' VALIDA..

Tensorflow 자격증 대비 - 셰익스피어 따라하기 자연어 처리 (NLP with LSTM)

Tensorflow 자격증 1. 관련 라이브러리 from tensorflow.keras.preprocessing.sequence import pad_sequences from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout, Bidirectional from tensorflow.keras.preprocessing.text import Tokenizer from tensorflow.keras.models import Sequential from tensorflow.keras.optimizers import Adam ### YOUR CODE HERE from tensorflow.keras import regularizers # Figure ou..