机器学习挑战:学习英语发音

5

假设你想要使用CMU音素数据集,其输入格式如下:

ABERRATION  AE2 B ER0 EY1 SH AH0 N
ABERRATIONAL  AE2 B ER0 EY1 SH AH0 N AH0 L
ABERRATIONS  AE2 B ER0 EY1 SH AH0 N Z
ABERT  AE1 B ER0 T
ABET  AH0 B EH1 T
ABETTED  AH0 B EH1 T IH0 D
ABETTING  AH0 B EH1 T IH0 NG
ABEX  EY1 B EH0 K S
ABEYANCE  AH0 B EY1 AH0 N S

左边是单词,右边是一系列音素,点击这里

你想将它作为训练数据,用于机器学习系统中,猜测新单词在英语中的发音。

至少对我来说,并不明显,因为没有固定的字母令牌大小可以与音素相对应。我有一种感觉,马尔科夫链可能是正确的方法。

您会如何处理这个问题?


需要记住的一件事是,CMU和moby数据都是针对美式发音的,对于英国或其他英语变体来说,它们的音素集合并不是很好。实际上,即使是CMU和moby数据也有不同的音素集合。moby发音器在这里:http://icon.shef.ac.uk/Moby/mpron.html - hippietrail
2个回答

6

2

虽然这不完全是我的领域,但也许可以建立一个具有多个层的神经网络-前面的层用于猜测单词分成顺序音节的方式,后面的层用于猜测所述音节的发音。

对于数值数据,设置ANFIS学习神经网络相当简单,但对于文字/语音数据,任务无疑要复杂几个级别。


你真的可以拥有一个具有可变输出节点数量的神经网络吗? - ʞɔıu
我相信是这样的 - 快速搜索表明,单独训练网络然后合并以实现多个输出更容易。这个问题远非琐碎,我不能声称真正解决它。 - Jukka Dahlbom
你真的需要可变数量的输出节点吗?除非音素的数量非常大,否则只需拥有尽可能多的输出节点来表示所有音素。 - bubaker

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接