您好,我希望能够使用语音识别api或sdk,以便识别用户说的话并将其转换为文本形式。
详细描述如下:
在我的应用程序中,我需要播放一个音频文件,其中的文本已经存在。当音频开始播放时,应该突出显示被说出来的单词(来自音频文件)。
因此,如果可以从api或sdk中获取单词,则可以对其进行突出显示。
除此之外,我搜索了很多api,并发现了ceedvocalsdk,但它没有免费试用版。
如果有人能提供适合我的需求或api或sdk的其他想法,我将非常感激。
您好,我希望能够使用语音识别api或sdk,以便识别用户说的话并将其转换为文本形式。
详细描述如下:
在我的应用程序中,我需要播放一个音频文件,其中的文本已经存在。当音频开始播放时,应该突出显示被说出来的单词(来自音频文件)。
因此,如果可以从api或sdk中获取单词,则可以对其进行突出显示。
除此之外,我搜索了很多api,并发现了ceedvocalsdk,但它没有免费试用版。
如果有人能提供适合我的需求或api或sdk的其他想法,我将非常感激。
您可以查看 https://github.com/KingOfBrian/VocalKit,但我自己没有尝试过。
你也可以尝试使用Nexiwave.com。
我认为你正在寻找的功能是我们所谓的时间戳:
http://nexiwave.com/index.php/applications/for-transcription-companies它基本上是将音频和文本一起处理,然后在每个句子和单词上打上时间戳。
Ben