我有一个包含视频流的数据库。我想从图像中计算LBP特征,并从MFCC音频中计算特征,对于视频中的每个帧都有一些注释。注释与视频帧和视频时间内联。因此,我想将注释中的时间映射到MFCC结果上。我知道采样率为44100。
from python_speech_features import mfcc
from python_speech_features import logfbank
import scipy.io.wavfile as wav
audio_file = "sample.wav"
(rate,sig) = wav.read(audio_file)
mfcc_feat = mfcc(sig,rate)
print len(sig) # 2130912
print len(mfcc_feat) # 4831
首先,为什么mfcc的长度为4831,如何将其映射到我在秒数上进行的注释中?视频的总时长为48秒。视频的注释在19-29秒窗口之外均为0,在该窗口内为1。如何从mfcc结果中定位窗口(19-29)内的样本?