声音识别API,SDK (Android)

11

我需要制作一个Android应用程序,可以识别由我创建的某些声音文件,并在识别后执行操作。与Shazam/Soundhound类似,但使用自己的声音文件。是否有适用于此的API、SDK或其他工具?

我已经了解了Echoprint,但我知道它只能用于Windows和iOS,而且对我来说似乎相当困难。那会起作用吗?还是有其他选项可供选择?

附注:为了明确,我不想要语音识别或文本转语音。我的声音文件可以包含音乐、扭曲的声音、效果等。


这是什么?你不想要语音识别吗?那么你如何识别声音文件呢? - BhavikKama
正如我所说,我希望它能像Shazam或Soundhound一样识别声音文件,而不是某人的语音命令。 - KKO
这也被用于(高通的Gimbal)《星际迷航:黑暗无界》应用程序中,但SDK功能尚未公开发布。 - KKO
这是音频特征提取音频指纹识别问题。对于不同方法的学术研究并不缺乏。强大的(例如针对播放速度调整、EQ、失真、压缩等)往往是专有的(实质上,Shazam的主要资产就是其算法)。然而,也有许多远不如此强大且非系统化的方法被发表,可能附带源代码。 [Sonic Visualizer](http://www.sonicvisualiser.org)是获取这两种方法和源代码的好地方。这是一个特别困难的问题。 - marko
我知道这与音频指纹有关,但我不想创建整个系统。那是一个完整的项目。我想使用已经为此创建的系统,这就是我询问是否有任何API或SDK的原因。 - KKO
2个回答

4
ACRCloud支持音乐/音频搜索引擎,支持5千万首歌曲/用户上传内容,提供iOS/Android/Linux SDK,注册后即可下载(http://console.acrcloud.com/signup)。客户有三种选择:
  • 免费版,用于演示/原型设计
  • 加速版,适用于创业公司
  • 商业版
希望这能帮到您。

我刚刚快速制作了一个这个服务的测试应用程序,看起来非常有前途。文档肯定需要全面改进,整体而言,这似乎是一个仍在成熟的服务,但很容易上手,并且第一次尝试就能够运行。 - SuperDeclarative
谢谢,我们已经改进了控制台,示例代码可以在这里找到:https://github.com/acrcloud/webapi_example - FernandoSanchez

1
一年后,我最终使用了为Android编译的Echoprint(如此处所述)。它可以得到一些结果,但总体而言效果相当糟糕,特别是对于自定义的声音文件。 Echoprint不适用于OTA识别。我建议将其用于测试/原型设计,但不适用于生产。不幸的是,到目前为止,这是唯一允许您拥有自己的服务器和声音文件的服务。

ACRCloud是一项音频/音乐识别服务,支持用户定义的搜索数据库,这意味着用户可以上传自己的音频/音乐文件来建立音频/音乐索引。请参见: https://github.com/acrcloud/webapi_example 和 http://console.acrcloud.com/demo - FernandoSanchez
我正在开展一个预存声音的说话人识别/说话人鉴定项目。这对于什么有帮助? - Abdul Muheet

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接