作为你们可能已经注意到的,我对Python和声音处理非常陌生。我用Python和logfbank和mfcc函数从波形文件中提取了FFT数据(希望如此)。 (logfbank似乎给出了最有前途的数据,但是mfcc输出对我来说看起来有点奇怪)。
在我的程序中,我想改变logfbank / mfcc数据,然后从中创建波形数据(并将它们写入文件)。 我没有真正找到有关从FFT数据创建波形数据的过程的任何信息。 你们中有没有人有解决方法? 我会非常感激 :)
这是我迄今为止的代码:
在我的程序中,我想改变logfbank / mfcc数据,然后从中创建波形数据(并将它们写入文件)。 我没有真正找到有关从FFT数据创建波形数据的过程的任何信息。 你们中有没有人有解决方法? 我会非常感激 :)
这是我迄今为止的代码:
from scipy.io import wavfile
import numpy as np
from python_speech_features import mfcc, logfbank
rate, signal = wavfile.read('orig.wav')
fbank = logfbank(signal, rate, nfilt=100, nfft=1400).T
mfcc = mfcc(signal, rate, numcep=13, nfilt=26, nfft=1103).T
#magic data processing of fbank or mfcc here
#creating wave data and writing it back to a .wav file here