我正在寻找一种算法,以确定实时语音输入是否与给定的 144 个(舒适地区分)音素对之一相匹配。
最好是尽可能低级别的算法。
我正在为 iPhone / iPad 开发激进/实验性的音乐培训软件。
我的音乐系统包括 12 个辅音音素和 12 个元音音素,演示见此处。 这使得有 144 种可能的音素对。 学生必须响应视觉刺激唱出正确的音素对“laa duu bee”等。
我已经做了很多研究,看起来我最好的选择可能是使用 iOS Sphinx 封装器之一(iPhone 应用程序 › 添加语音识别?是我找到的最好的信息来源)。 然而,我看不出我如何调整这样的软件包,有没有使用这些技术的经验的人可以简单介绍所需的步骤?
用户需要进行培训吗? 我认为不需要,因为这是一个基本的任务,与数千个单词的完整语言模型和更复杂的音素基础相比,要简单得多且不太微妙。 然而,让用户训练 12 个音素对也可以接受(但不理想):{辅音1+元音1,辅音2+元音2,...,辅音12+元音12}。 完整的 144 种对将会太繁重。
有没有更简单的方法? 我觉得使用完整功能的连续语音识别器就好像用大锤敲开一个坚果一样。 使用最小的技术解决问题会更加优雅。
所以我真正寻找的是任何能够识别音素的开源软件。
附言:我需要一个几乎实时运行的解决方案。 因此,即使他们唱着音符,它首先会闪烁以说明它捕捉到了被唱出的音素对,然后会发光以说明他们是否唱出了正确的音高。