语音转文字转换R

13

有没有办法使用 R 实时将用户的语音转换为文本?只是好奇。如果有人能分享一些在这个领域做过的例子,那就太棒了。

2个回答

6

这似乎是一个预先录制的波形文件,需要被输入到函数中。语音转文本能够实时工作吗? - bison2178
取决于您需要多实时的数据,音频文件可以在 API 调用之前录制。正在开发一款 Shiny 应用程序,它将通过一个按钮工作,通过 JavaScript 从您的浏览器录制声音。 - MarkeD
@MarkeD 我需要提前拥有 Google 云平台账户才能使用这个 API 吗? - useR
是的,它使用您从那里获得的身份验证。 - MarkeD
6
有没有非商业的替代方案? - Jens

3
截至2023年,使用“Whisper”自动语音识别模型可以进行语音转文本转录(和翻译)。
R包{{link1:audio.whisper}}封装了whisper.cpp C++库,基本上可以在R内部转录文本。一旦下载了模型,整个过程可以离线进行,无需调用任何外部API。
转录的质量出奇地好,包括英语以外的主要语言。然而,正如问题中提到的,这并不适用于“实时”转录,尽管可能可以通过使用较小的模型之一来进行适应。
在撰写本文时,对于打算尝试audio.whisper的人,有两个问题需要提及:
  • 按照相关的GitHub问题中的说明下载模型,因为专用的便利函数目前不起作用(当修复后,我会更新此回复)
  • 自述文件中所提到的,您应该考虑使用一些建议的标志安装(或重新安装)软件包,这将显著地提高性能

在GitHub上搜索“whisper language:R”可以找到其他依赖于Whisper的R软件包,但它们大多数都希望您单独安装whisper

可能会出现更完整、精细或文档更好的R软件包,但这些建议应该能帮助您找到一个有意义的解决方案。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接