我目前正在尝试在AS3中实现基本的语音识别。由于需要完全在客户端进行,因此我无法访问强大的服务器端语音识别工具。我的想法是检测单词中的音节,并使用它来确定所说的单词。我知道这将大大限制识别能力,但我只需要识别几个关键词,并且我可以确保它们都有不同数量的音节。
我目前能够生成一个单词的声音级别的一维数组,并且如果我以某种方式绘制它,我可以清楚地看到,在大多数情况下,音节之间存在明显的峰值。然而,我完全不知道如何找到这些峰值。我只需要计数,但我认为这需要先找到它们。起初,我想抓住一些最大值,并将它们与值的平均值进行比较,但我忘记了那个比其他峰值更高的峰值,因此,我的“峰值”都位于一个实际峰值上。
我偶然发现了一些Matlab代码,看起来几乎太简短了,以至于我无法将其转换为我所知道的任何语言。我尝试了AS3和C#。因此,我想知道您是否能够帮助我找到正确的路径或提供任何有关峰值检测的伪代码?