目前最好的iOS语音识别API是什么,可以匹配少量关键词?

17
我正在寻找一个ios API(最好是免费的),可以进行语音识别。我看过一些相关的帖子:iPhone语音识别API?iOS免费语音识别引擎?在查看了一些信息之后,我收集到了一些看起来相当有趣的SDK: 这些SDK中是否有一个真正脱颖而出的?它们之间的区别在哪里?

如果您只是在评论中指出了几个单词并正在寻找它们,那么最好更新您的问题以包含此要求。 - Nikolay Shmyrev
http://stackoverflow.com/questions/35388720/cant-start-service-speech-recog - Ruchir Baronia
3个回答

16
如果你想追踪一些关键词,不应该去寻找语音识别API或服务。这个任务叫做关键词检测,它使用的算法与语音识别不同。语音识别试图找出所有被说过的单词,因此它消耗的资源比关键词检测多得多。关键词检测只尝试找到几个选定的关键词或关键词短语。这更加简单,消耗的资源也少得多。
唯一可能实现此功能的解决方案是使用像OpenEars powered by Pocketsphinx这样的开源软件包。 http://www.politepix.com/openears OpenEars有一个Rejecto插件,实现了类似的功能。
Pocketsphinx本身最近也实现了开源的有效关键词检测,但还没有进入OpenEars。它仅通过pocketsphinx API提供,您需要创建kws搜索并设置要查找的目标单词。我希望很快这个功能也能到达OpenEars。

3
但是 OpenEars 的准确性相当不稳定,令人感到烦恼。你能推荐更好的东西吗? - Abhishek Bedi
@AbhishekBedi:对我来说,OpenEars的准确性非常好,可能是你没有正确使用它。你需要提供更多信息以便得到帮助。 - Nikolay Shmyrev
欢迎您更好地描述您的问题,并提供详细信息,包括您正在做什么、期望得到什么以及实际得到了什么。为了方便分析,您需要提供录音。只要提供足够的信息,这个问题就很容易解决。 - Nikolay Shmyrev
3
使用openears的演示版时,我最初并没有留下深刻印象。当我尝试说“TESTING”时,它回复说你说了“TURN”。或者说“NO”,而它则回应你说了“GO GO”。后来我意识到我只能使用一组固定的词汇时,我的体验才得以改善。此外,我认为必须使用Rejecto插件来拒绝不在固定词汇集中的单词。 - christophercotton
是的,强烈推荐使用Rejecto插件。 - Nikolay Shmyrev
显示剩余2条评论

3
Nuance给开发者提供免费访问(但不适用于高流量) - 详见 http://www.masshightech.com/stories/2011/09/26/daily13-Nuance-tweaks-mobile-dev-program-with-free-access-to-Dragon.htmlhttp://dragonmobile.nuancemobiledeveloper.com/public/index.php?task=home 通常情况下,Nuance服务是商业性的并要求提前支付费用和交易费用。上述有趣的消息是,他们现在将其服务的低使用量开放给开发者免费使用。因此,对于开发、测试和演示,您可以使用免费的Nuance服务。然而,与Android中免费提供的Google服务不同,如果您的应用程序有数千个用户,则可能需要为Nuance服务付费。

谢谢Michael - 它与OpenEars或iSpeech有何不同,它们也是免费的吗?您所说的高音量是什么意思:需要处理的数据量以提取关键字?对不起,我不太了解语音识别。在我的情况下,我需要连续提取几个关键字(最多4/5个):我不希望用户与应用程序交互以进入语音识别模式。 - tiguero
1
Nuance是商业语音识别领域的行业领导者。他们就像网络领域的思科或存储领域的EMC一样。他们是一家拥有行业领先技术的巨大成功公司。据信,Nuance提供了苹果Siri背后的识别技术。OpenEars(我相信)是一个针对Sphinx和其他开源识别器的iOS开源库。iSpeech来自新泽西州的一个小团队,他们似乎以DriveSafe.ly应用程序而闻名。抱歉,我不太了解他们。 - Michael Levy

2
自2008年以来,我们一直在开发CeedVocal SDK,它基于Julius和FLite开源项目。
背景如下:我们想在2008年开发我们的语音识别应用程序(Vocalia),最终选择了Julius(虽然Pocket Sphinx也很不错)并优化了其文件格式,使它在原始iPhone上启动时间缩短到1-2秒,而不是20秒。然后,我们勤奋地在6种语言中训练了我们自己的声学模型。我们设计了API,并最终决定将其提供给其他开发者作为SDK。
CeedVocal基本上支持两种操作模式:
1.单词匹配(或小短语);
2.关键字检测。
在第一种操作模式下,它会尝试将输入的语音与其可接受输入列表中的一个单词(或短语)进行对齐。即使语音内容不同,也会将其强制转换为预先知道的单词,准确性很高。在第二种操作模式下,它将尝试从语音流中选取其中一个关键字。这种情况比较困难,可能不太准确。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接