如何确定哪些频谱图帧属于哪些音频样本？

Question

如何确定哪些频谱图帧属于哪些音频样本？

3

我一直在使用这个脚本：

spgram = torchaudio.transforms.Spectrogram(512, hop_length=32)
audio = spgram(audio)

获取某些立体声音频的频谱图。我期望得到的频谱图具有形状[2，257，audio.shape [1] / 32]，然而事实并非如此。例如，大小为[2，199488]（sr = 24576）的音频剪辑产生了大小为[2，257，6241]的频谱图（请注意，199488/32=6234）。为什么会这样？我该如何将帧位置转换为样本位置？

- halimamran

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Keunwoo Choi · Answer 1

请查看center参数。

是否在两侧填充waveform，使第t帧在时间 t x hop_length 处居中。(默认值：True)

因此，默认情况下，信号会用零进行填充。填充长度可能是 (win_length - hop_length)。这最终会使结果长度增加 (win_length - hop_length) / hop_length，在您的情况下为 7。