从音频文件中提取音高特征

Question

从音频文件中提取音高特征

pythonaudioscipyfeature-extraction

11

我正在尝试从音频文件中提取音高特征，以用于分类问题。我使用 Python（scipy/numpy）进行分类。

我认为可以使用 scipy.fft 获取频率特征，但我不知道如何通过频率近似音符。我做了一些研究，发现需要获取色度特征，将频率映射到半音阶的12个音符中的一个。

我认为 Matlab 有一个色度工具箱，但我不认为 Python 中有类似的东西。

我该怎么办？还有人能推荐一些我应该查阅的阅读材料吗？

- Ada Xu

3个回答

3

您可以阅读关于音高检测的文献，这方面的资料非常丰富。一般来说，基于自相关的方法效果不错；而基于频域或零交叉的方法较为脆弱（因此FFT并没有太大帮助）。你可以考虑实现以下两种算法之一作为起点：

YAAPT, 参考文献：Stephen A. Zahorian 和 Hongbing Hu, "A spectral-temporal method for robust fundamental frequency tracking", J. Acoust. Soc. Am. 123, 4559 (2008). http://bingweb.binghamton.edu/~hhu1/paper/Zahorian2008spectral.pdf。MATLAB代码在这里：http://ws2.binghamton.edu/zahorian/yaapt.htm
YIN, 参考文献：De Cheveigné, A., Kawahara, H. "YIN, a fundamental frequency estimator for speech and music", J. Acoust. Soc. Am. 111, 1917-1930 (2002)。http://audition.ens.fr/adc/pdf/2002_JASA_YIN.pdf

至于现成的解决方案，可以查看Aubio，这是一个带有Python包装器的C语言库，提供了多种音高提取算法，包括YIN和multiple-comb。

- Alex I

1

非常感谢 :) 关于aubio，我发现在这个页面http://aubio.org/doc/latest/examples.html上实现示例有点困难。我找不到他们在库中使用的方法，并且文档不足。 - Ada Xu

2

如果你愿意使用第三方库（至少作为其他人如何完成此操作的参考）：

从声音中提取音乐信息，PyCon 2012 的演示展示了如何使用 AudioNest Python API：

这里是相关的 EchoNest 文档：

Track API 方法
详细的分析文档

相关摘录：

“音高内容”由“色度”向量给出，对应于C、C＃、D到B的12个音高级别，其值范围从0到1，描述了色调音阶中每个音高的相对支配力。例如，C大调和弦可能由C、E和G的大值（即类0、4和7）表示。向量通过其最强的维度归一化为1，因此嘈杂的声音可能由所有接近1的值表示，而纯音则由一个值为1（音高）和其他接近0的值描述。

EchoNest在其服务器上进行分析。他们提供非商业用途的免费API密钥。

如果EchoNest不是一个选择，我会看看开源aubio项目。它有python绑定，您可以查看源代码以了解他们如何完成音高检测。

- Leftium

谢谢。有趣的视频 :) - Ada Xu

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Frank Zalkow · Accepted Answer

您可以将频率映射到音符：

$n=12\cdot\log_2(\frac{f}{C_p})+69$

在编程中， $n$ 表示待计算的midi音符编号， $f$ 表示频率， $C_p$ 表示室内音高（现代音乐中，440.0 Hz 是常见的音高）。

你可能知道，单一频率并不构成一个乐音。 "音高" 来自基音或谐波声的感觉，即主要由一个单一频率（即基音）的整数倍构成的声音。

如果你想在 Python 中使用色度特征，可以使用Bregman 音视频信息工具箱。请注意，色度特征无法提供有关音高八度的信息，因此您只能获得有关音高类别的信息。

from bregman.suite import Chromagram
audio_file = "mono_file.wav"
F = Chromagram(audio_file, nfft=16384, wfft=8192, nhop=2205)
F.X # all chroma features
F.X[:,0] # one feature

从音频中提取音高信息的一般问题被称为音高检测。