最简单的衡量两段短音频相似度的算法是什么?

7

这个问题是要寻找在iOS应用中度量两个音频之间相似度的任何开源或简单实现。

简单来说,音频可以用一维向量表示,计算这个向量之间的距离。但由于音频长度可能不同,因此需要进行一些预处理等操作。

期待在这里获得一些线索,谢谢。

1个回答

6
两个长度可变的序列之间的相似度可以通过DTW有效地计算:

http://en.wikipedia.org/wiki/Dynamic_time_warping

这个算法很容易自己实现,维基页面上有很多现成的实现可供使用。
简单来说,音频可以用1-D向量表示,
将音频分割成帧,并将其转换为2-D特征向量是合理的,其中对于每个帧,您都有一个值(特征)数组,对应不同的频率带。如果您想处理音乐,则每个帧的FFT是个好主意;对于语音,则最好计算梅尔频率倒谱系数
同样,您可以使用许多现有的库来提取梅尔频率特征,其中之一是语音识别工具包CMUSphinx

1
非常感谢!收到了很多信息!特别是iOS开源http://cmusphinx.sourceforge.net/。 - Forrest

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接