如何使用机器学习从音频剪辑中提取人声?

3

我们如何利用机器学习从含有许多噪声的音频剪辑中获取人类声音,这些噪声可能存在于整个频率域中。


1
你最终是怎么解决这个问题的? - kRazzy R
1个回答

2
在任何机器学习应用中,过程都很简单:收集样本,设计特征,训练分类器。对于样本,您可以使用嘈杂的录音,或者您可以在网络声音收藏(如freesound.org)中找到许多噪声。对于特征,您可以使用均值归一化的Mel频率系数,您可以在CMUSphinx语音识别工具包中找到实现。对于分类器,您可以选择GMM或SVM。如果您有足够的数据,它将运行得相当不错。
为了提高准确性,您可以添加假设,即噪声和语音是连续的,因此您可以使用挂起方案(基本上是HMM)分析检测历史记录以检测语音块,而不是对每个帧进行分析。

1
你能否提供一个好的参考资料? - user3392464
当然,您能详细说明您需要什么类型的参考资料吗? - Nikolay Shmyrev
一些阅读材料,用于了解降噪和语音识别的背景理论。谢谢! - user3392464
1
http://www.amazon.com/Spoken-Language-Processing-Algorithm-Development/dp/0130226165 - Nikolay Shmyrev

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接