Microsoft语音产品/平台之间的区别

10

看起来微软提供了相当多的语音识别产品,我想了解它们之间的区别。

  • Microsoft Speech API,或SAPI。但一些人会混淆Microsoft Cognitive Service Speech API也叫这个名字。

  • 现在,Azure上的Microsoft Cognitive Service提供了Speech service APIBing Speech API。我认为对于语音转文本,这两个API是相同的。

  • 然后有System.Speech.Recognition(或桌面SAPI),Microsoft.Speech.Recognition(或服务器SAPI)和Windows.Media.Speech.Recognition这里这里有一些关于三者之间区别的解释。但我猜它们都是基于HMM的旧语音识别模型,即不是神经网络模型,并且所有三个都可以在没有互联网连接的情况下离线使用,对吗?

  • 对于Azure语音服务和Bing语音API,它们是更先进的语音模型,对吗?但我认为没有办法在我的本地计算机上离线使用它们,因为它们都需要订阅验证。(即使Bing API似乎有一个C#桌面库..)

基本上,我想要一个离线模型,可以对我的对话数据(每个音频记录5-10分钟)进行语音转文本转换,识别多个发言者并输出时间戳(或时间编码输出)。现在我有点困惑于所有可选项。如果有人能为我解释一下,我将不胜感激!


请分享一下你的发现?这个离线转录的简单功能似乎只有在像Android和iOS这样的手持设备上才能使用,但在Windows PC上却无法使用。虽然有SpeechRecognation,但是没有语法,准确性仍然不够。 https://learn.microsoft.com/en-us/previous-versions/office/developer/speech-technologies/hh361683(v=office.14) - Ali123
1
嗨,好久不见。如果你想要最先进的ASR模型,我相信你将不得不使用这些主要提供商的API服务,这当然意味着你的数据将不会在本地处理。我不知道是否有任何公司为ASR提供联邦学习,但我的发现可能已经过时了。如果你关心的是隐私问题,那么像IBM这样的一些公司提供专用云。或者部署sota ASR开源模型,市面上有一些预训练模型可供选择。 - Blue482
谢谢更新。我正在研究DeepSpeech和vosk,它们是开源、离线的,并且可以在客户端上运行。Nvidia Nemo适用于在服务器端运行并在客户端使用API。 - Ali123
1个回答

8
这是一个棘手的问题,也是为什么它如此困难的一部分原因:我们(微软)似乎在“语音”和“语音APIs”方面提出了一个不连贯的故事。虽然我在微软工作,但以下是我的看法。我试图给出一些关于我团队(认知服务语音-客户端SDK)正在计划的内容的见解,但我无法预测不那么近的未来的所有方面。
早期微软就认识到语音是一种重要的媒介,因此微软在其产品中启用语音具有广泛而悠久的历史。有真正优秀的语音解决方案(具有本地识别)可用,你列举了其中一些。
我们正在努力统一这一点,并提供一个地方让您找到微软最先进的语音解决方案。这就是“Microsoft Speech Service”(https://learn.microsoft.com/de-de/azure/cognitive-services/speech-service/)-目前处于预览状态。
在服务端,它将把我们的主要语音技术(如语音转文本、文本转语音、意图、翻译(以及未来的服务))合并到一个统一的框架下。语音和语言模型不断地得到改进和更新。我们正在为此服务开发客户端SDK。随着时间的推移(今年晚些时候),这个SDK将在所有主要操作系统(Windows、Linux、Android、iOS)上提供,并支持主要编程语言。我们将继续增强/改进SDK的平台和语言支持。
这种在线服务和客户端SDK的组合将在今年晚些时候离开预览状态。
我们理解您想要具有本地识别能力的愿望。它不会在我们的第一个SDK发布中“开箱即用”(它也不是当前预览的一部分)。SDK的一个目标是实现平台和语言之间的功能和API的平等。这需要大量的工作。目前离线不包括在内,我无法对其特性或时间表做出任何预测...
所以从我的角度来看——新的语音服务和SDK是未来的方向。目标是在所有平台上实现统一的API,轻松访问所有Microsoft语音服务。它需要订阅密钥,需要您“连接”。我们正在努力使服务器和客户端都在今年晚些时候离开预览状态。
希望这有所帮助...

沃尔夫冈


1
非常感谢您,Wolfgang!我真的很感激您的回答!微软是否计划在不久的将来向其当前的语音服务API中添加说话者分离功能,即“谁在什么时间说了什么”? - Blue482
2
请理解我无法对未发布的服务、产品等做出任何声明。我无法预测认知服务何时/是否可用,但肯定有团队正在处理这些场景,请看看我们在五月份的//build大会上展示的内容:https://www.youtube.com/watch?v=ddb3ZgAp9TA - wolfma
谢谢@wolfma!感激不尽! - Blue482
2
谢谢你的回答,新工作看起来很有前途,但我仍然希望SAPI不会很快被淘汰。它轻便快速,对于基于字典的识别非常有帮助。 - Code Name Jack

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接