频谱图是声音的频谱可视化,将声音分解为不同频率的纯正弦波。频谱图展示了不同频率振幅随时间变化的情况。可以在二维图(或3D图)上显示,其中x表示时间,y表示频率,颜色表示声音中发现的任何频率成分的振幅:
声音频谱图,来源
在这些图中,坐标轴可以是线性的或对数的,频率轴甚至可以是音名(有时称为音高类别),而不是实际频率,因为每个音符都对应一个频率。在后一种情况下,该图被称为色度图。有关音频分析中使用的图形的详细信息,请参见下面的部分。
八度是从频率 f 到 2*f 的任意频率范围。每个八度可以用8个音符分成七个间隔。对于以C开始的八度:C、D、E、F、G、A、B、C。这些音程被称为(C大调)七声音阶,这是我们在学校里学习的音阶:
音程是以音符频率之比来衡量的。五个音程具有相同的值,称为全音,而另外两个音程,E-F和B-C,只有半个全音的值,称为半音。这种划分在所有八度中均可找到,因为加倍或减半频率不会改变比率。在钢琴键盘上,这些音符是白键。
还有一种将八度分为12个等距间隔的音阶,使用13个音符。这个音阶被称为半音音阶,chroma仅指这些音符:
构成半音音阶的音符是前一个音阶的音符加上将所有全音音程分成两个等长的半音音程的音符。在键盘上,这些音符是黑键。
除了极少数情况,音乐不是使用半音音阶(所有半音)来构作的。而是从半音音符池中选择一个起始音符和一种间隔方案来构建具有更多全音音程而少于半音音程的七声音阶。目前有两种间隔方案:大调和小调。对于12个可能的起始音符,存在24种可能的七声音阶。
色度:一个琐碎概念的大词
如上所示,色度(chroma)、色度分析和色度特征听起来很重要,但不用担心,色度只是指音阶中的音符或音高,即西方音乐中常见的音符集合。
频谱图
频谱图是一种三维表示,横轴为时间,纵轴为频率,而纵轴一般表示振幅或功率(功率通常是振幅的平方)。像素点(x,y)的颜色表示其对应的 Z 值。
任何轴,x、y或z都可以使用对数单位logarithmic和decibels进行转换。对于功率比例尺,它对应的转换公式为:dB = 10 log (P/P0),其中P0是参考值,通常为1,除非另有规定。倍增为+3dB。由于功率比例是振幅比例的平方,所以振幅的分贝值为 dB(振幅)= 20 log (A/A0)。同样的,只是将灰色调换成了彩色:
下一个图表与之前的图表相同,只是y轴的刻度是对数而不是线性的。如果能量集中在刻度的开始部分(低频率),就像这里的1 kHz以下,使用对数刻度更有意义。
这个下一个图表是一样的。从标题上看,似乎显示的是功率而不是振幅,但在视觉上没有颜色差异。
下一个图表类似,只是“constant Q”标题可能意味着使用恒定Q变换 (CQT)计算功率值。
CQT(而不是通常的离散傅里叶变换)可能是为了更准确地从信号中提取音符而进行的尝试。
色度图
色度图是一种特定的频谱图,其中y轴和z值具有特定含义。
y轴包括仅由半音音阶的12个音符。
z值是与每个音符对应的所有声音的总和,无论八度如何,因此C是C0(八度0中的C)加上C1(C0频率的两倍),再加上C2(C1频率的两倍),等等。这些音符都是C0的泛音。
你可能会想为什么要将八度相加,从而失去实际频率信息。这是特定于音乐声音的,即由共鸣装置产生的声音。当这样的装置产生频率为f的声音时,它还会产生f的倍数的声音(泛音在2f、3f、4f处),其各自的强度受其音色所决定。
此外,正如在关于音乐音阶的介绍部分所解释的那样,当创作一首音乐时,会选择一个音阶。这个选择决定了用于该曲的7个音符,无论使用哪个八度。对外来音符(意外音符)的孤立使用使它们在曲子中出现的频率较低,因此在色度图中也较少出现。Z轴代表的是什么并没有提到,可能是相对于信号中最大值(大约在音符E附近)的振幅(或功率)。
这个刻度是对数刻度。颜色表示检测到的BPM数值的频率有多高。由于有几个音符比一个时间短,所以会检测到多个BPM值。音符以高于实际BPM的频率重复出现。通常用于执行分析的算法还会提供最可能的BPM值,考虑到起始点分布(例如librosa)。
色度是声学中用来表示声音“色彩”的技术术语,如下所述: “http://acousticslab.org/psychoacoustics/PMFiles/Module05.htm#7b” “音高色度:特定音调的独特质量,将其与八度内其他音调分开。它描述了八度内音高的知觉“差异”/“距离”,以及被一个或多个完整八度分隔的音高的知觉相似性。这反映在不同的音符名称(例如C、D、E、F、G、A、B、C、D…)每增加2/1频率时(即每个八度),通过添加下标(例如C4)来指示此音高相对于某个参考音高的高低。换句话说,两个共享相同音高色度的音符之间的数字下标差异(例如C4 vs.C5)反映了两个音符之间一个或多个八度的音高差异。”