给定一个人类讲话的音频wav文件(单声道,采样率16KHz),是否有一种方法可以提取出人声,从而过滤掉大部分机械和背景噪音?我正在尝试使用Python 3.6中的
当尝试使用fft / ifft将频率限制为300-3400范围时,产生的声音严重失真。
librosa
包进行此操作,但无法弄清楚piptrack
如何工作(或是否有更简单的方法)。当尝试使用fft / ifft将频率限制为300-3400范围时,产生的声音严重失真。
sr, y = scipy.io.wavfile.read(wav_file_path)
x = np.fft.rfft(y)[0:3400]
x[0:300] = 0
x = np.fft.irfft(x)