语音转文字转换R

Question

13

有没有办法使用 R 实时将用户的语音转换为文本？只是好奇。如果有人能分享一些在这个领域做过的例子，那就太棒了。

- bison2178

2个回答

3

截至2023年，使用“Whisper”自动语音识别模型可以进行语音转文本转录（和翻译）。

R包{{link1：audio.whisper}}封装了whisper.cpp C++库，基本上可以在R内部转录文本。一旦下载了模型，整个过程可以离线进行，无需调用任何外部API。

转录的质量出奇地好，包括英语以外的主要语言。然而，正如问题中提到的，这并不适用于“实时”转录，尽管可能可以通过使用较小的模型之一来进行适应。

在撰写本文时，对于打算尝试audio.whisper的人，有两个问题需要提及：

在GitHub上搜索“whisper language:R”可以找到其他依赖于Whisper的R软件包，但它们大多数都希望您单独安装whisper。

可能会出现更完整、精细或文档更好的R软件包，但这些建议应该能帮助您找到一个有意义的解决方案。

- giocomai

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- MarkeD · Accepted Answer

6

我正在处理的是googleLanguageR，它包含了通过Google Cloud Speech API实现的语音转文本功能。

- MarkeD

这似乎是一个预先录制的波形文件，需要被输入到函数中。语音转文本能够实时工作吗？ - bison2178

取决于您需要多实时的数据，音频文件可以在 API 调用之前录制。正在开发一款 Shiny 应用程序，它将通过一个按钮工作，通过 JavaScript 从您的浏览器录制声音。 - MarkeD

@MarkeD 我需要提前拥有 Google 云平台账户才能使用这个 API 吗？ - useR

是的，它使用您从那里获得的身份验证。 - MarkeD

6

有没有非商业的替代方案？ - Jens