我的目标是:
- 使用Skype,呼叫我的邮箱(成功)
- 输入密码并告诉邮箱我想要录制新的欢迎信息(成功)
- 现在,我的邮箱告诉我在提示音后录制新的欢迎信息
- 我想等待提示声然后播放新的信息(失败)
我尝试实现最后一点的方法:
- 使用FFT和滑动窗口创建频谱图(成功)
- 为提示音创建“指纹”
- 在来自Skype的音频中搜索该指纹
我面临的问题是:
来自Skype的音频和参考提示音的FFT结果在数字意义上不同,即它们相似但不相同,尽管提示音是从具有记录Skype音频的音频文件中提取出来的。下图显示了左侧为来自Skype音频的提示音的频谱图,右侧为参考提示音的频谱图。如您所见,它们非常相似,但并不相同...
上传了一张图片 http://img27.imageshack.us/img27/6717/spectrogram.png
我不知道如何继续下去。我应该平均它吗?即将其分成列和行,并比较这些单元格的平均值,如此处所述? 我不确定这是最好的方法,因为他已经说明,它在短音频样本中效果不佳,而提示音长度不到一秒...
有什么提示可以帮助我继续吗?