谷歌语音识别API的正确识别结果

3

是否可以使用样本数据训练Google语音API以帮助我的应用程序识别?

我的意思是像wit.ai提供的方法一样,在这里描述(尽管示例适用于nlp处理)。基本上,如果您可以预测用户与机器人的交互,您就可以训练它更好地执行。例如,我知道将使用哪些城市子集,例如:当我说“Zurich”时,似乎无法让机器人理解我,它变成了“Syria”或“Siberia”,但我已经知道这是不可能的。因此,如果我可以上传首选单词列表,然后如果找不到匹配项,则回退到标准识别或类似方法,我认为它将取得更好的结果。

有任何想法是否可能以及如何实现?我知道这些API处于测试阶段并且可能会更改,但我仍然想尝试一下。

我可以上传一些代码示例,说明我目前正在做什么,尽管目前只是发送音频并分析结果,因此与此问题不太相关。

2个回答

1

识别配置中,您可以使用maxAlternatives字段(最多30个)指定要返回的备选项。一旦您有了带有置信度的30个备选项,您将获得置信度为0.5Syria,置信度为0.01Siberia和置信度为0.1Zurich。通常情况下,正确答案是存在的,尽管它可能不在最上面。您可以根据当前状态选择最佳备选项。


不要失望,这只是一个副业项目,目前我没有时间去处理它,但是一旦我回来了,我会告诉你你的答案是否有帮助(我已经注意到你的自信,但可能忽略了多个选项,我有印象只有一个选项,不太确定)。 - ThanksForAllTheFish

0

当前的Google Cloud语音转文字API允许用户指定一个单词和短语列表,提供语音识别任务的提示。

来自https://cloud.google.com/speech-to-text/docs/basics镜像):

speechContext - (可选)包含处理此音频的附加上下文信息。上下文包含以下子字段: phrases - 包含一个单词和短语列表,为语音识别任务提供提示。

有关更多详细信息,请参见:https://cloud.google.com/speech-to-text/docs/basics#phrase-hints镜像)。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接