谷歌会议:WebRTC点对点和语音转文本

6

我参加了Google Meet的会议,发现可以启用实时字幕功能。他们实际上在这里提供了演示(链接),展示了实时语音转文本的实现方式,这一点不会让我感到困惑。

我一直想尝试使用WebRTC(我相信GoogleMeet使用它)来看看它的能力-例如,无需任何其他屏幕即可共享屏幕等。

然而,我一直以为WebRTC视频/音频流是客户端点对点的。那么我有以下几个问题:

  • 那么Google是如何将音频流发送到服务器进行分析的?
  • 是否可能将音频流同时发送到客户端和服务器?
  • 您是否需要创建两个相同的音频流(我不知道这是否可能),将一个发送到WebRTC的另一个对等方,并将另一个发送到服务器进行分析?

他们是如何实现这一点的-如果他们没有使用WebRTC,那么是否可能使用WebRTC实现这一点?

1个回答

8

谷歌 Meet 使用了 WebRTC 技术。 在这种情况下,“对等方”是服务器,而不是浏览器。 尽管这篇旧文章已经有六年了,并且一些细节发生了变化,但 这篇旧文章 中的大部分内容仍然是正确的。 从服务器上,谷歌可以进行音频处理。

这段视频 描述了实现语音转换为文本所需的架构(实际上还包括翻译和再次文本转语音)。


1
谢谢您。我原本以为WebRTC P2P的整个重点是绕过服务器直接连接客户端,因此这可能是一个愚蠢的问题。无论如何,还是非常感谢您! - Luke Madhanga

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接