我正在寻找一个ios API(最好是免费的),可以进行语音识别。我看过一些相关的帖子:iPhone语音识别API?和iOS免费语音识别引擎?在查看了一些信息之后,我收集到了一些看起来相当有趣的SDK: http://dragonmobile.nuancemobiledeveloper.com/public/index.php?task=home http://www.politepix.com/openears http://www.creaceed.com/ceedvocalsdk/(不免费:- \) http://www.ispeech.org/ 这些SDK中是否有一个真正脱颖而出的?它们之间的区别在哪里?
如果你想追踪一些关键词,不应该去寻找语音识别API或服务。这个任务叫做关键词检测,它使用的算法与语音识别不同。语音识别试图找出所有被说过的单词,因此它消耗的资源比关键词检测多得多。关键词检测只尝试找到几个选定的关键词或关键词短语。这更加简单,消耗的资源也少得多。唯一可能实现此功能的解决方案是使用像OpenEars powered by Pocketsphinx这样的开源软件包。 http://www.politepix.com/openears OpenEars有一个Rejecto插件,实现了类似的功能。Pocketsphinx本身最近也实现了开源的有效关键词检测,但还没有进入OpenEars。它仅通过pocketsphinx API提供,您需要创建kws搜索并设置要查找的目标单词。我希望很快这个功能也能到达OpenEars。
Nuance给开发者提供免费访问(但不适用于高流量) - 详见 http://www.masshightech.com/stories/2011/09/26/daily13-Nuance-tweaks-mobile-dev-program-with-free-access-to-Dragon.html 或 http://dragonmobile.nuancemobiledeveloper.com/public/index.php?task=home 通常情况下,Nuance服务是商业性的并要求提前支付费用和交易费用。上述有趣的消息是,他们现在将其服务的低使用量开放给开发者免费使用。因此,对于开发、测试和演示,您可以使用免费的Nuance服务。然而,与Android中免费提供的Google服务不同,如果您的应用程序有数千个用户,则可能需要为Nuance服务付费。
自2008年以来,我们一直在开发CeedVocal SDK,它基于Julius和FLite开源项目。背景如下:我们想在2008年开发我们的语音识别应用程序(Vocalia),最终选择了Julius(虽然Pocket Sphinx也很不错)并优化了其文件格式,使它在原始iPhone上启动时间缩短到1-2秒,而不是20秒。然后,我们勤奋地在6种语言中训练了我们自己的声学模型。我们设计了API,并最终决定将其提供给其他开发者作为SDK。CeedVocal基本上支持两种操作模式:1.单词匹配(或小短语);2.关键字检测。在第一种操作模式下,它会尝试将输入的语音与其可接受输入列表中的一个单词(或短语)进行对齐。即使语音内容不同,也会将其强制转换为预先知道的单词,准确性很高。在第二种操作模式下,它将尝试从语音流中选取其中一个关键字。这种情况比较困难,可能不太准确。