谷歌语音识别API的正确识别结果

Question

谷歌语音识别API的正确识别结果

3

是否可以使用样本数据训练Google语音API以帮助我的应用程序识别？

我的意思是像wit.ai提供的方法一样，在这里描述（尽管示例适用于nlp处理）。基本上，如果您可以预测用户与机器人的交互，您就可以训练它更好地执行。例如，我知道将使用哪些城市子集，例如：当我说“Zurich”时，似乎无法让机器人理解我，它变成了“Syria”或“Siberia”，但我已经知道这是不可能的。因此，如果我可以上传首选单词列表，然后如果找不到匹配项，则回退到标准识别或类似方法，我认为它将取得更好的结果。

有任何想法是否可能以及如何实现？我知道这些API处于测试阶段并且可能会更改，但我仍然想尝试一下。

我可以上传一些代码示例，说明我目前正在做什么，尽管目前只是发送音频并分析结果，因此与此问题不太相关。

- ThanksForAllTheFish

2个回答

0

当前的Google Cloud语音转文字API允许用户指定一个单词和短语列表，提供语音识别任务的提示。

来自https://cloud.google.com/speech-to-text/docs/basics（镜像）:

speechContext - （可选）包含处理此音频的附加上下文信息。上下文包含以下子字段： phrases - 包含一个单词和短语列表，为语音识别任务提供提示。

有关更多详细信息，请参见：https://cloud.google.com/speech-to-text/docs/basics#phrase-hints（镜像）。

- Franck Dernoncourt

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Nikolay Shmyrev · Accepted Answer

在识别配置中，您可以使用maxAlternatives字段（最多30个）指定要返回的备选项。一旦您有了带有置信度的30个备选项，您将获得置信度为0.5的Syria，置信度为0.01的Siberia和置信度为0.1的Zurich。通常情况下，正确答案是存在的，尽管它可能不在最上面。您可以根据当前状态选择最佳备选项。