我认为谷歌的语音转文字设施(如Google Voice自动转录语音信箱、YouTube上视频的自动字幕等)非常令人印象深刻。我曾经查看过谷歌是否通过API提供了这项服务,但似乎他们没有(我并不怪他们!)。提供语音转文字功能的云计算服务将会非常酷。那么有没有什么“黑科技”可以用来访问语音转文字呢?我的架构基本上是这样的——将15-20秒的wav/mp3/其他片段作为输入,输出为纯文本。你们有什么想法吗?
有很多语音转文本的API可用。虽然谷歌没有提供他们的API,但这并不意味着你没有选择。
这里有一个适用于C#的好API。如果你的平台不是.NET,你可以搜索其他API。
看看这个:http://mikepultz.com/2011/03/accessing-google-speech-api-chrome-11/
我目前正在尝试在PHP中实现该API。
-- Seth
这里是Peter Moffatt建议的更新、更“官方”的版本:
http://lists.w3.org/Archives/Public/public-xg-htmlspeech/2011Feb/att-0020/api-draft.html
而谷歌的相关公告:
http://chrome.blogspot.com/2011/03/talking-to-your-computer-with-html5.html
它可以通过Chrome 8或Opera在HTML5中使用: https://docs.google.com/View?id=dcfg79pz_5dhnp23f5&pli=1
Google语音技术也可以通过Android API在Android手机上访问。
其他产品,如Sphinx,是最适合特定领域而不是“无限制”语音转文本的语音识别引擎。