Microsoft语音产品/平台之间的区别

Question

Microsoft语音产品/平台之间的区别

speech-recognitionspeech-to-textazure-cognitive-servicesmicrosoft-speech-apimicrosoft-speech-platform

10

看起来微软提供了相当多的语音识别产品，我想了解它们之间的区别。

有Microsoft Speech API，或SAPI。但一些人会混淆Microsoft Cognitive Service Speech API也叫这个名字。
现在，Azure上的Microsoft Cognitive Service提供了Speech service API和Bing Speech API。我认为对于语音转文本，这两个API是相同的。
然后有System.Speech.Recognition（或桌面SAPI），Microsoft.Speech.Recognition（或服务器SAPI）和Windows.Media.Speech.Recognition。这里和这里有一些关于三者之间区别的解释。但我猜它们都是基于HMM的旧语音识别模型，即不是神经网络模型，并且所有三个都可以在没有互联网连接的情况下离线使用，对吗？
对于Azure语音服务和Bing语音API，它们是更先进的语音模型，对吗？但我认为没有办法在我的本地计算机上离线使用它们，因为它们都需要订阅验证。(即使Bing API似乎有一个C#桌面库..)

基本上，我想要一个离线模型，可以对我的对话数据（每个音频记录5-10分钟）进行语音转文本转换，识别多个发言者并输出时间戳（或时间编码输出）。现在我有点困惑于所有可选项。如果有人能为我解释一下，我将不胜感激！

- Blue482

请分享一下你的发现？这个离线转录的简单功能似乎只有在像Android和iOS这样的手持设备上才能使用，但在Windows PC上却无法使用。虽然有SpeechRecognation，但是没有语法，准确性仍然不够。 https://learn.microsoft.com/en-us/previous-versions/office/developer/speech-technologies/hh361683(v=office.14) - Ali123

1

嗨，好久不见。如果你想要最先进的ASR模型，我相信你将不得不使用这些主要提供商的API服务，这当然意味着你的数据将不会在本地处理。我不知道是否有任何公司为ASR提供联邦学习，但我的发现可能已经过时了。如果你关心的是隐私问题，那么像IBM这样的一些公司提供专用云。或者部署sota ASR开源模型，市面上有一些预训练模型可供选择。 - Blue482

谢谢更新。我正在研究DeepSpeech和vosk，它们是开源、离线的，并且可以在客户端上运行。Nvidia Nemo适用于在服务器端运行并在客户端使用API。 - Ali123

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- wolfma · Accepted Answer

这是一个棘手的问题，也是为什么它如此困难的一部分原因：我们（微软）似乎在“语音”和“语音APIs”方面提出了一个不连贯的故事。虽然我在微软工作，但以下是我的看法。我试图给出一些关于我团队（认知服务语音-客户端SDK）正在计划的内容的见解，但我无法预测不那么近的未来的所有方面。

早期微软就认识到语音是一种重要的媒介，因此微软在其产品中启用语音具有广泛而悠久的历史。有真正优秀的语音解决方案（具有本地识别）可用，你列举了其中一些。

我们正在努力统一这一点，并提供一个地方让您找到微软最先进的语音解决方案。这就是“Microsoft Speech Service”（https://learn.microsoft.com/de-de/azure/cognitive-services/speech-service/）-目前处于预览状态。

在服务端，它将把我们的主要语音技术（如语音转文本、文本转语音、意图、翻译（以及未来的服务））合并到一个统一的框架下。语音和语言模型不断地得到改进和更新。我们正在为此服务开发客户端SDK。随着时间的推移（今年晚些时候），这个SDK将在所有主要操作系统（Windows、Linux、Android、iOS）上提供，并支持主要编程语言。我们将继续增强/改进SDK的平台和语言支持。

这种在线服务和客户端SDK的组合将在今年晚些时候离开预览状态。

我们理解您想要具有本地识别能力的愿望。它不会在我们的第一个SDK发布中“开箱即用”（它也不是当前预览的一部分）。SDK的一个目标是实现平台和语言之间的功能和API的平等。这需要大量的工作。目前离线不包括在内，我无法对其特性或时间表做出任何预测...

所以从我的角度来看——新的语音服务和SDK是未来的方向。目标是在所有平台上实现统一的API，轻松访问所有Microsoft语音服务。它需要订阅密钥，需要您“连接”。我们正在努力使服务器和客户端都在今年晚些时候离开预览状态。

希望这有所帮助...

沃尔夫冈