我一直在使用这个脚本:
spgram = torchaudio.transforms.Spectrogram(512, hop_length=32)
audio = spgram(audio)
获取某些立体声音频的频谱图。我期望得到的频谱图具有形状[2,257,audio.shape [1] / 32],然而事实并非如此。例如,大小为[2,199488](sr = 24576)的音频剪辑产生了大小为[2,257,6241]的频谱图(请注意,199488/32=6234)。为什么会这样?我该如何将帧位置转换为样本位置?