我计划用人工神经网络构建一款软件,可以将音乐分类为好的或坏的。为此,我需要将音频转换为一些数字值,以作为NN输入。因此,在对NN进行训练之前,我首先下载了Billboard Hot 100歌曲(我认为应该被分类为好的音乐),并且还下载了一些噪音音频文件(它们将被分类为坏的音乐)。然后我将它们转换为.wav格式,然后将每个文件拆分成多个长度为2秒的.wav文件。我打算使用快速傅里叶变换将这些音频剪辑转换为频率 - 幅度对,但问题是,即使我们使用2秒的片段,其FFT也会生成约100,000个这样的对。对数千个音频文件执行此操作会生成太大的数据集和太多的特征。
我想知道是否有任何方法可以缩短此数据集,同时保留其中的“音乐精华”,以便做出更好的预测?还是说我应该使用其他算法/流程?
我想知道是否有任何方法可以缩短此数据集,同时保留其中的“音乐精华”,以便做出更好的预测?还是说我应该使用其他算法/流程?