开源音频模式识别(指纹识别)

29

有没有开源的音频指纹方案可以提供“Shazam类”解决方案?

Shazam使用Landmark数字的商业解决方案,但我正在寻找一种替代方案(即使精度和性能较差)。

是否有人了解这样的实现,甚至发表过未实现的算法?

5个回答

25
  • echoprint 看起来是商业库的一个不错的替代品。

语音识别方面:

我们只测试了 echoprint,目前为止还不错。

我知道答案有点晚,但由于这个页面在谷歌上弹出,我们可以随着时间的推移逐步改进它 :)

编辑为 CMU 是以语音为导向的。


语音识别软件列表:https://zh.wikipedia.org/wiki/语音识别软件列表 - user
echoprint的网址已经失效。 - Sarvesh Mishra
网址已更新。谢谢@SarveshMishra - teriiehina

14

有一些开源音频识别项目,虽然你可以忘记商业音频识别服务(例如Shazam、SoundHound等)的质量/性能。这也取决于您想要进行什么样的识别(音频文件指纹/标记,实时识别,OTA(空中升级)识别等)。

开源音频识别

  • AcoustID/MusicBrainz 提供执行音频指纹和元数据关联(指纹器和服务器)的工具。您可以自行搭建指纹/元数据服务器或使用MusicBrainz的服务。适用于音频文件指纹和识别,但不适合实时高性能应用程序(例如OTA)。我们还测试了它的音频流监控(广播监控),但结果相当差。

  • Echoprint 提供与AcoustID相同的工具(指纹器和服务器+元数据),并且也可用于音频流监控,因为它可以识别从音频中任何地方获取的片段,并具有相当准确性(但我不会将其用于严肃的商业应用)。他们还声称它适用于OTA应用程序,但性能远不能用于生产用途。

  • Last.fm 不是完全开源的,尽管他们已经开源了指纹模块。您必须查询它们的识别和元数据提供商服务,因为它们不提供完整的解决方案。


12

2
如果你正在寻找.NET解决方案,请查看SoundFingerprinting库。
它是开源的,并建立在使用小波的内容指纹研究论文之上。
该算法与Shazaam的算法不同,但总体思路相似:从频谱中提取最突出的系数,然后使用它们构建指纹以供以后检索。
算法的描述可以在这里找到。

你知道如何将SQL Server用作永久存储吗? - Furkan Gözükara

1

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接