如何使用机器学习从音频剪辑中提取人声？

Question

如何使用机器学习从音频剪辑中提取人声？

machine-learningspeech-recognitioncurve-fittingspeech-to-textspeech

3

我们如何利用机器学习从含有许多噪声的音频剪辑中获取人类声音，这些噪声可能存在于整个频率域中。

- user3392464

1

你最终是怎么解决这个问题的？ - kRazzy R

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Nikolay Shmyrev · Accepted Answer

在任何机器学习应用中，过程都很简单：收集样本，设计特征，训练分类器。对于样本，您可以使用嘈杂的录音，或者您可以在网络声音收藏（如freesound.org）中找到许多噪声。对于特征，您可以使用均值归一化的Mel频率系数，您可以在CMUSphinx语音识别工具包中找到实现。对于分类器，您可以选择GMM或SVM。如果您有足够的数据，它将运行得相当不错。

为了提高准确性，您可以添加假设，即噪声和语音是连续的，因此您可以使用挂起方案（基本上是HMM）分析检测历史记录以检测语音块，而不是对每个帧进行分析。