可以使用Google的语音识别API对音频文件(WAV、MP3等)进行转录,只需要向http://www.google.com/speech-api/v2/recognize?...
发送请求即可。
例如:我在一个WAV文件中说了“一二三四五”,Google API 给出了以下结果:
{
u'alternative':
[
{u'transcript': u'12345'},
{u'transcript': u'1 2 3 4 5'},
{u'transcript': u'one two three four five'}
],
u'final': True
}
问题:是否可能获得每个单词说话的时间(以秒为单位)?
以我的示例为例:
['one', 0.23, 0.80], ['two', 1.03, 1.45], ['three', 1.79, 2.35], etc.
即单词"one"在00:00:00.23至00:00:00.80期间被提及,
而单词"two"则在00:00:01.03至00:00:01.45之间被提及(以秒为单位)。
PS:寻找支持英语以外其他语言(尤其法语)的API。