信号处理:有人能为我解释一下不同类型的频谱图吗?

4
我是一个新手,对信号处理一窍不通。我在谷歌上搜索了许多光谱图的术语,但我找不到任何关于不同类型光谱图的区别的内容。请问有人能帮我解释下面图片中不同种类光谱图的定义和意义吗?谢谢!
链接:光谱图 另外,光谱图和色度图之间有什么区别?色度图是用来做什么的,何时使用?
链接:色度图
2个回答

6
你要求澄清两个术语:频谱图和色度。
  • 频谱图是声音的频谱可视化,将声音分解为不同频率的纯正弦波。频谱图展示了不同频率振幅随时间变化的情况。可以在二维图(或3D图)上显示,其中x表示时间,y表示频率,颜色表示声音中发现的任何频率成分的振幅:

    enter image description here

    声音频谱图,来源

    在这些图中,坐标轴可以是线性的或对数的,频率轴甚至可以是音名(有时称为音高类别),而不是实际频率,因为每个音符都对应一个频率。在后一种情况下,该图被称为色度图。有关音频分析中使用的图形的详细信息,请参见下面的部分。

  • 八度是从频率 f 到 2*f 的任意频率范围。每个八度可以用8个音符分成七个间隔。对于以C开始的八度:C、D、E、F、G、A、B、C。这些音程被称为(C大调)七声音阶,这是我们在学校里学习的音阶:

    enter image description here

    音程是以音符频率之比来衡量的。五个音程具有相同的值,称为全音,而另外两个音程,E-F和B-C,只有半个全音的值,称为半音。这种划分在所有八度中均可找到,因为加倍或减半频率不会改变比率。在钢琴键盘上,这些音符是白键。

    enter image description here

    还有一种将八度分为12个等距间隔的音阶,使用13个音符。这个音阶被称为半音音阶chroma仅指这些音符:

    enter image description here

    构成半音音阶的音符是前一个音阶的音符加上将所有全音音程分成两个等长的半音音程的音符。在键盘上,这些音符是黑键。

    除了极少数情况,音乐不是使用半音音阶(所有半音)来构作的。而是从半音音符池中选择一个起始音符和一种间隔方案来构建具有更多全音音程而少于半音音程的七声音阶。目前有两种间隔方案:大调和小调。对于12个可能的起始音符,存在24种可能的七声音阶

色度:一个琐碎概念的大词

如上所示,色度(chroma)色度分析色度特征听起来很重要,但不用担心,色度只是指音阶中的音符音高,即西方音乐中常见的音符集合。

频谱图

频谱图是一种三维表示,横轴为时间,纵轴为频率,而纵轴一般表示振幅或功率(功率通常是振幅的平方)。像素点(x,y)的颜色表示其对应的 Z 值。

任何轴,x、y或z都可以使用对数单位logarithmicdecibels进行转换。对于功率比例尺,它对应的转换公式为:dB = 10 log (P/P0),其中P0是参考值,通常为1,除非另有规定。倍增为+3dB。由于功率比例是振幅比例的平方,所以振幅的分贝值为 dB(振幅)= 20 log (A/A0)。
下图显示了以dB表示的功率(灰度为z轴),在频率y(Hz)和时间x(x轴刻度未显示)上的变化。

enter image description here

同样的,只是将灰色调换成了彩色:

enter image description here

下一个图表与之前的图表相同,只是y轴的刻度是对数而不是线性的。如果能量集中在刻度的开始部分(低频率),就像这里的1 kHz以下,使用对数刻度更有意义。

enter image description here

这个下一个图表是一样的。从标题上看,似乎显示的是功率而不是振幅,但在视觉上没有颜色差异。

enter image description here

下一个图表类似,只是“constant Q”标题可能意味着使用恒定Q变换 (CQT)计算功率值。

enter image description here

CQT(而不是通常的离散傅里叶变换)可能是为了更准确地从信号中提取音符而进行的尝试。
下图显示了相同的数据,但y轴标记为音符名称而不是频率。

enter image description here

色度图

色度图是一种特定的频谱图,其中y轴和z值具有特定含义。

  • y轴包括仅由半音音阶的12个音符。

  • z值是与每个音符对应的所有声音的总和,无论八度如何,因此C是C0(八度0中的C)加上C1(C0频率的两倍),再加上C2(C1频率的两倍),等等。这些音符都是C0的泛音。

你可能会想为什么要将八度相加,从而失去实际频率信息。这是特定于音乐声音的,即由共鸣装置产生的声音。当这样的装置产生频率为f的声音时,它还会产生f的倍数的声音(泛音在2f、3f、4f处),其各自的强度受其音色所决定。

此外,正如在关于音乐音阶的介绍部分所解释的那样,当创作一首音乐时,会选择一个音阶。这个选择决定了用于该曲的7个音符,无论使用哪个八度。对外来音符(意外音符)的孤立使用使它们在曲子中出现的频率较低,因此在色度图中也较少出现。
色度图:

enter image description here

Z轴代表的是什么并没有提到,可能是相对于信号中最大值(大约在音符E附近)的振幅(或功率)。
最后一个图表不同之处在于Y轴不显示信号音高,而是样本的速度(每分钟节拍数)。 节拍图

enter image description here

这个刻度是对数刻度。颜色表示检测到的BPM数值的频率有多高。由于有几个音符比一个时间短,所以会检测到多个BPM值。音符以高于实际BPM的频率重复出现。通常用于执行分析的算法还会提供最可能的BPM值,考虑到起始点分布(例如librosa)。

1
我相信你一定查看了维基百科: https://en.wikipedia.org/wiki/Spectrogram 不要被频谱图的名称所困惑,它们的名称是根据它们所代表的内容或它们的呈现方式来命名的。为了完全理解频谱图,您需要进行大量阅读。从这里开始: http://www.phon.ucl.ac.uk/courses/spsci/acoustics/week1-10.pdf 线性或对数表示线性或对数缩放。一些解释在这里: http://manual.audacityteam.org/man/spectrogram_view.html 这里提到了功率谱图示例。为此,您需要了解功率谱密度: https://www.mathworks.com/matlabcentral/answers/122472-how-to-get-the-power-spectral-density-from-a-spectrogram-in-a-given-frequency-range?s_tid=gn_loc_drop Constant-Q是一种时频域转换,如下所述: https://en.wikipedia.org/wiki/Constant-Q_transform 它与FFT不同。
灰度只是使用灰色来更轻松地观察谱图。
tempogram是包含音乐信号的音频中节奏的可视化表示。一个执行此操作的工具箱的示例在此处: https://www.audiolabs-erlangen.de/resources/MIR/tempogramtoolbox/

色度是声学中用来表示声音“色彩”的技术术语,如下所述: “http://acousticslab.org/psychoacoustics/PMFiles/Module05.htm#7b” “音高色度:特定音调的独特质量,将其与八度内其他音调分开。它描述了八度内音高的知觉“差异”/“距离”,以及被一个或多个完整八度分隔的音高的知觉相似性。这反映在不同的音符名称(例如C、D、E、F、G、A、B、C、D…)每增加2/1频率时(即每个八度),通过添加下标(例如C4)来指示此音高相对于某个参考音高的高低。换句话说,两个共享相同音高色度的音符之间的数字下标差异(例如C4 vs.C5)反映了两个音符之间一个或多个八度的音高差异。”


嗨Thon,如果您发现我的评论有用,请点击上面的三角形:“答案很有用”。 - VladP
非常感谢您的回答,我想为您点赞,但我的声望不到15,系统不允许我点赞TTvTT。 - Toan Nhu
没问题。真正重要的是它帮助了你。干杯! - VladP

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接