Audio Processing 2

소리 데이터를 활용한 딥러닝 - Mel Spectrogram

소리를 이용한 딥러닝을 하는데 있어서 한 가지 방법은 Mel Spectrogram을 이용하는 방법입니다. Mel Spectrogram이란, 소리의 파형을 인간이 들을 수 있는 범위로 줄인 Mel scale로 다운 스케일한 이후 그 파형을 그림으로 그린 모양이라고 할 수 있습니다. librosa library를 이용합니다. audio_file = "sound.wav" y, sr = librosa.load(audio_file) sr = 44100 mel_spec = librosa.feature.melspectrogram(y=y, sr=sr, n_fft=2048, hop_length=1024) mel_spec = librosa.power_to_db(mel_spec, ref=np.max) plt.figure(f..

Audio Processing 2022.07.22

오디오 프로세싱 - for loop를 사용해서 오디오 자르기

오디오를 사용한 딥러닝을 하던 중, 오디오를 잘라야 하는 상황이 발생하였습니다. 참고 링크에서 librosa 라이브러리를 이용하여 오디오를 자르는 방법은 나와 있었지만, 제가 원하는 것은 4초 간격으로 0초부터 4초, 1초부터 5초, .. 등으로 잘라서, 1분짜리 오디오의 경우 56초부터 1분까지의 오디오로 총 57개의 파일로 저장하는 법의 스크립트를 공유합니다. 이를 위해서는, 오디오 파일의 길이를 측정하는 방법을 구하였고, SoundFile이라는 라이브러리를 사용하여, frame 수와 samplerate를 활용하였습니다. import os import librosa import numpy as np import soundfile as sf def trim_audio_data(audio_file, sa..

Audio Processing 2022.07.20