声音识别API，SDK （Android）

Question

声音识别API，SDK （Android）

androidaudioaudio-processing

11

我需要制作一个Android应用程序，可以识别由我创建的某些声音文件，并在识别后执行操作。与Shazam/Soundhound类似，但使用自己的声音文件。是否有适用于此的API、SDK或其他工具？

我已经了解了Echoprint，但我知道它只能用于Windows和iOS，而且对我来说似乎相当困难。那会起作用吗？还是有其他选项可供选择？

附注：为了明确，我不想要语音识别或文本转语音。我的声音文件可以包含音乐、扭曲的声音、效果等。

- KKO

这是什么？你不想要语音识别吗？那么你如何识别声音文件呢？ - BhavikKama

正如我所说，我希望它能像Shazam或Soundhound一样识别声音文件，而不是某人的语音命令。 - KKO

这也被用于（高通的Gimbal）《星际迷航：黑暗无界》应用程序中，但SDK功能尚未公开发布。 - KKO

这是音频特征提取和音频指纹识别问题。对于不同方法的学术研究并不缺乏。强大的（例如针对播放速度调整、EQ、失真、压缩等）往往是专有的（实质上，Shazam的主要资产就是其算法）。然而，也有许多远不如此强大且非系统化的方法被发表，可能附带源代码。 [Sonic Visualizer]（http://www.sonicvisualiser.org）是获取这两种方法和源代码的好地方。这是一个特别困难的问题。 - marko

我知道这与音频指纹有关，但我不想创建整个系统。那是一个完整的项目。我想使用已经为此创建的系统，这就是我询问是否有任何API或SDK的原因。 - KKO

2个回答

1

一年后，我最终使用了为Android编译的Echoprint（如此处所述）。它可以得到一些结果，但总体而言效果相当糟糕，特别是对于自定义的声音文件。 Echoprint不适用于OTA识别。我建议将其用于测试/原型设计，但不适用于生产。不幸的是，到目前为止，这是唯一允许您拥有自己的服务器和声音文件的服务。

- KKO

ACRCloud是一项音频/音乐识别服务，支持用户定义的搜索数据库，这意味着用户可以上传自己的音频/音乐文件来建立音频/音乐索引。请参见： https://github.com/acrcloud/webapi_example 和 http://console.acrcloud.com/demo - FernandoSanchez

我正在开展一个预存声音的说话人识别/说话人鉴定项目。这对于什么有帮助？ - Abdul Muheet

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- FernandoSanchez · Accepted Answer

ACRCloud支持音乐/音频搜索引擎，支持5千万首歌曲/用户上传内容，提供iOS/Android/Linux SDK，注册后即可下载（http://console.acrcloud.com/signup）。客户有三种选择：

免费版，用于演示/原型设计
加速版，适用于创业公司
商业版

希望这能帮到您。