我参加了Google Meet的会议,发现可以启用实时字幕功能。他们实际上在这里提供了演示(链接),展示了实时语音转文本的实现方式,这一点不会让我感到困惑。
我一直想尝试使用WebRTC(我相信GoogleMeet使用它)来看看它的能力-例如,无需任何其他屏幕即可共享屏幕等。
然而,我一直以为WebRTC视频/音频流是客户端点对点的。那么我有以下几个问题:
- 那么Google是如何将音频流发送到服务器进行分析的?
- 是否可能将音频流同时发送到客户端和服务器?
- 您是否需要创建两个相同的音频流(我不知道这是否可能),将一个发送到WebRTC的另一个对等方,并将另一个发送到服务器进行分析?
他们是如何实现这一点的-如果他们没有使用WebRTC,那么是否可能使用WebRTC实现这一点?