전체 글 179

폴더 안에 파일들 이름 정리하기 (Python3)

https://walkaroundthedevelop.tistory.com/99?category=897569 폴더 안에 파일명을 정리하고 싶어서, 스크립트를 짜보려고 하다가, 문득 제 블로그 중에서 비슷한 일을 했던 것을 발견하고, 거기서 조금만 추가해서 스크립트를 다시 만들어 보려고 합니다. 예상 시나리오는 다음과 같습니다. (실제 예) 폴더 안에 동영상 파일들이 많은데, 그 동영상 파일들의 제목들이 너무 길어서 정리가 잘 안되서, 날짜와 폴더이름, 순서로 정리를 하고자 싶을 때, 스크립트를 사용해서 간단하게 정리 하는 스크립트를 만들었습니다. import os def main(): # directory 선택하기 ldir = os.listdir() ldir.remove("change_file_names...

Utils 2022.03.29

kaggle competition - H&M Recommendation EDA

이번에 H&M contest를 시작해 보기로 합니다. https://www.kaggle.com/c/h-and-m-personalized-fashion-recommendations 코드 리뷰 : https://www.kaggle.com/code/vanguarde/h-m-eda-first-look 데이터셋은 articles, customers, transactions 세 가지가 있습니다. articles는 25가지의 column으로 이루어져 있습니다. 1. Articles EDA articles.head() 로 볼 수 있죠. article_id : A unique identifier of every article. product_code, prod_name : A unique identifier of eve..

kaggle 및 dacon 2022.03.20

데이터 품질관리 명칭 해석 및 도구들

데이터 품질관리를 위해서 데이터 품질관리 명칭들의 의미정리를 해 보았습니다. 구문 정확성 : 라벨링 데이터 포맷과 값이 정확하게 입력돼 있고 필수항목 중 누락된 내용이 없는지를 확인 의미 정확성 : 분류라벨, 경계박스 등이 일관된 기준에 따라 작업자가 정확하게 라벨링 했는지를 확인 학습모델 유효성 : validation set 및 test set을 이용한 유효성 검사 구문 정확성 검사에서, Data 의 version control을 위해서 dvc를 활용할 수 있을 것 같습니다. https://dvc.org/ 또한, 데이터의 효율적인 관리를 위해서 클라우드 (Azure, GCP, AWS 등)에 올리는것도 굉장히 효율적인 것 같습니다. https://medium.com/geekculture/data-vers..

Data Engineering 2022.03.17

Tensorflow 자격증 취득 후기

Tensorflow자격증을 획득했습니다. 아직 공식적으로 증이 나오지 않아서 여기 Share는 못하겠지만, 그래도 시험이 끝나자마자 바로 이메일이 오더군요. 다음은 자격증, 및 링크 입니다. https://www.credential.net/01adb74d-93bd-4328-82f8-6a8ff37ee3c9 다섯 문제가 나왔고, (알고는 있었지만), 주어진 시간은 다섯시간이었는데, 거의 네시간 반 정도 투자를 한 것 같습니다. 다행이었던 것은, 그렇게 급박하다고 느껴지지는 않았던 것 같습니다. 막히는 부분이 있어도, 어떻게든 되겠지란 생각으로 계속 하니깐, 됬던 것 같습니다. 확실히 Coursera 의 Tensorflow certificate course가 엄청 도움이 된것 같습니다. 텐서플로우 자격증 시험..

Tensorflow 자격증 대비 - CNN (SIGN LANGUAGE MNIST 손동작 구분)

1. 라이브러리 설치 import csv import string import numpy as np import tensorflow as tf import matplotlib.pyplot as plt from tensorflow.keras.preprocessing.image import ImageDataGenerator, array_to_img 2. 데이터 다운로드 및 변수 설정 # sign_mnist_train.csv !gdown --id 1z0DkA9BytlLxO1C0BAWzknLyQmZAp0HR # sign_mnist_test.csv !gdown --id 1z1BIj4qmri59GWBG4ivMNFtpZ4AXIbzg TRAINING_FILE = './sign_mnist_train.csv' VALIDA..

Tensorflow 자격증 대비 - 셰익스피어 따라하기 자연어 처리 (NLP with LSTM)

Tensorflow 자격증 1. 관련 라이브러리 from tensorflow.keras.preprocessing.sequence import pad_sequences from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout, Bidirectional from tensorflow.keras.preprocessing.text import Tokenizer from tensorflow.keras.models import Sequential from tensorflow.keras.optimizers import Adam ### YOUR CODE HERE from tensorflow.keras import regularizers # Figure ou..

Tensorflow 자격증 대비 - 시계열 데이터 분석 (태양의 흑점 조사)

다음은 Coursera의 텐서플로우 자격증 코스에서 나온 태양의 흑점 데이터 분석과 딥러닝을 통한 모델 생성 및 prediction입니다. 1. 데이터 받기 # tensorflow 버전 확인 import tensorflow as tf print(tf.__version__) # plot 함수 import numpy as np import matplotlib.pyplot as plt def plot_series(time, series, format="-", start=0, end=None): plt.plot(time[start:end], series[start:end], format) plt.xlabel("Time") plt.ylabel("Value") plt.grid(True) # csv 파일 받기 !wg..

Coursera Tensorflow Certificate 강의 후기

1주일 만에 끝냈습니다. https://coursera.org/share/d79eeaed17a40a9e71909ebc9af84b72 Completion Certificate for DeepLearning.AI TensorFlow Developer This certificate verifies my successful completion of DeepLearning.AI's "DeepLearning.AI TensorFlow Developer" on Coursera www.coursera.org 3.1절과 샌드위치 휴일, 그리고 주말에 쉬지도 못하면서 계속 들었습니다. 총 네 개의 코스로 되어있으며, 각각의 코스는 1. Introduction to TensorFlow for Artificial Intelli..

Adam Optimization에 대한 설명

Adam Optimization은 2014년에 발표된 논문에서 잘 설명되어 있습니다. https://arxiv.org/abs/1412.6980 저는 Yolov5를 이용하면서 학습을 하며, SGD보다 Adam이 더 효율적이라는 것을 확인하였고, Warmup Epoch과도 잘 맞는것을 확인하였습니다. Adam Optimization의 기본 pseudo code는 다음과 같습니다. 다음을 설명하기 위해서는, Momentum, exponentionally weighted averages, RMS Props 등을 알면 훨씬 더 쉽게 설명될 수 있을것 같습니다. 이 이외에도 NAG, Adagrad, AdaDelta, 많은 설명은 Coursera의 Deep Learning Specialization 의 세 번째 코스..

Machine Learning 2022.02.24

Gradient Descent(경사 하강)에 대해서 알아봅시다!

물론 잘 되어 있는 포스트가 많기 때문에, 간단하게 쓰겠습니다. Gradient Descent란, Machine Learning에서 궁극적으로 하려고 하는 목표, 즉, local minimum/maximum을 찾고자 할 때 사용하는 최적화 방법이라고 할 수 있겠습니다. 보통 이때, 로컬 미니멈/맥시멈을 찾는 주체는 loss function 또는 cost function이라고 할 수 있겠습니다. 이 Gradient Descent는, Linear Regression(선형 회귀)에서도 사용하고, CNN, RNN, 등 거의 모든 Machine Learning에서 사용하지만, Gradient Descent를 배울 때는 그 복잡도 때문에 항상 Linear Regression에서의 예를 찾는 편입니다. Linear ..

Machine Learning 2022.02.18