音频信号归一化

Question

4

我希望能够可靠地使用specgram在Python中将录制的音频（通过麦克风）和处理后的音频（WAV文件）转换为相同的离散表示。我的流程如下：

基本上，当我到达最后的离散化过程时，我希望尽可能可靠地在相同的歌曲的频率/时间/振幅空间中获得相同的值。

我的问题是如何解决录制和WAV读取音频中音量（即样本的振幅）不同的情况？

我的归一化选项（也许？）：

我应该如何解决这个问题？我几乎没有信号处理知识或经验。

- lollercoaster

由于噪声可能永远不会达到最高振幅，因此您可以在FFT之前执行以下操作来处理：1）将每个样本除以其相应的最大振幅；2）然后在FFT之前乘以目标公共振幅；3）在归一化样本中执行FFT。 - Saullo G. P. Castro

我不确定我理解这个问题，但如果你只关心频谱图中的峰值位置，那么就没有必要归一化振幅。 - Bjorn Roche

@SaulloCastro：什么是“目标共振幅度”？ - lollercoaster

@BjornRoche：我的理解是，频谱图表示窗口时间和频率的信号振幅（与音量相关）。如果这种想法是正确的，那么规范化振幅以考虑不同音量的标量倍数是否有意义？ - lollercoaster

@lollercoaster，通过目标公共振幅，我指的是您希望在最终达到的公共音量。 - Saullo G. P. Castro

显示剩余5条评论

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- David Wurtz · Accepted Answer

WAV文件和录制的音频的频谱永远不会完全相同，因为从麦克风源获取的音频数据在传输到计算机时会受到额外的干扰。这些干扰可以被均衡掉，但这可能比你想做的更多工作。

至于归一化，我建议缩放麦克风信号的频谱，使其能量与WAV文件的频谱相匹配（其中“能量”是FFT系数的平方幅值之和）。

现在，你提到希望信号的频谱图尽可能相似。由于频谱图是一个信号随时间变化的频谱绘图，因此你可能需要尝试在每个时间间隔重新归一化，而不仅仅是在整个音频录制过程中进行归一化。