我正在研究如何比较声音文件(wave)。基本上,我想将存储的声音文件(wav)与麦克风捕获的声音进行比较。因此,最终我希望能够预先存储一些自己的语音命令,然后在运行应用程序时,我想将预存的文件与麦克风输入进行比较。
我的想法是在比较时加入一些余量,因为以完全相同的方式连续说出某个词可能会很困难。
经过一些搜索,我发现Python有一个名为wave的模块和Wave_read对象。该对象有一个名为readframes(n)的函数:
“读取并返回至多n帧音频,作为字节串。”
这些字节包含什么?我打算逐帧循环遍历波形文件,逐帧进行比较。