如何确定哪些频谱图帧属于哪些音频样本?

3

我一直在使用这个脚本:

spgram = torchaudio.transforms.Spectrogram(512, hop_length=32)
audio = spgram(audio)

获取某些立体声音频的频谱图。我期望得到的频谱图具有形状[2,257,audio.shape [1] / 32],然而事实并非如此。例如,大小为[2,199488](sr = 24576)的音频剪辑产生了大小为[2,257,6241]的频谱图(请注意,199488/32=6234)。为什么会这样?我该如何将帧位置转换为样本位置?

1个回答

0

请查看center参数。

是否在两侧填充waveform,使第t帧在时间 t x hop_length 处居中。(默认值:True)

因此,默认情况下,信号会用零进行填充。 填充长度可能是 (win_length - hop_length)。 这最终会使结果长度增加 (win_length - hop_length) / hop_length,在您的情况下为 7。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接