比较两个语音的声音

4
我需要能够确定两个声音是否非常相似。目标是拥有一个非常有限的词汇量(10或15个)的短一到两个音节的单词,然后比较捕获的声音以确定它是否为这些项目之一,并考虑到环境和捕获条件的所有典型变异。这个想法是用户可以通过语音发出几个简单的命令,而不是使用键盘或鼠标。
有人知道最好的方法吗?我不想做全面的语音识别,只是想要更加有限的东西。

1
这个系统是否会支持多人使用还是只针对特定人员进行训练? - Paul R
听起来很有趣!我会对你得到的任何答案感兴趣。我所知道的关于语音的是,“共振峰”(频谱中的主要峰值)可以用来识别语言元素。我不确定真正的语音识别软件是否利用了这一点。 - erickson
你正在寻找“语音识别”。 - Marcus Adams
声音将如何表示? - David Thornley
@erickson:共振峰存在于元音声音中 - 共振峰的分布决定了我们听到哪个元音。对于语音识别,我们还需要处理所有其他非元音声音。 - Paul R
1个回答

3
我建议您考虑使用语音识别库,比如CMU's Sphinx软件或者Microsoft's speech recognizer。不过,这并不是一个简单的任务。完成您想要做的事情的一种典型方法如下:
1)将样本分成小段(几毫秒)。
2)对每个片段进行傅里叶变换,收集主要系数。
3)使用隐马尔可夫模型来确定给定系数序列的音素可能转换。
4)将其映射到描绘音素到单词的字典中(您可以参考Sphinx字典作为指南)...像您这样的小型集合应该能产生出色的结果。
如果想要简化这个过程,你可以尝试提取特定时间步长的系数,并将它们输入到SVM或神经网络中...我还没有尝试过,但是我敢打赌,通过一些调整,你可以得到合理的结果。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接