如何将语音转换为文本?

45

我如何将MP3中的语音转换为文本?

我有一些来自会议和会谈的录音笔记(录音中只有一个声音,即我的声音)。 我认为使用语音转文本工具将其转换为文本比手动转录更容易和有趣。 我知道有一些技术,特别是用于Asterisk和播客的VoIP应用程序,但它们是什么以及我该如何使用它们?


1
也许可以将这个传给 Joel 和 Jeff,这样他们就可以获得 SO 播客的文本转录。 - Sam Meldrum
作为一种解决方法,可以将媒体上传到YouTube作为视频,因为在上传视频时,YouTube会执行CC服务。这不是开发人员的解决方案,但在紧急情况下可能会有所帮助。https://www.youtube.com/watch?v=yxmfJuC2Uno - iamtoc
5个回答

31

我认为以上三种选择都可以满足您开始的需求,但是需要一些编码(不是简单的复制粘贴)。根据我极其有限的使用经验,在免费(啤酒和语音)方面,我会选择在小型个人项目中使用Sphinx与Asterisk PBX。 - Johnny Maelstrom

5

.NET可以使用其System.Speech命名空间实现此功能。

您需要先转换为.wav格式或从麦克风实时捕获音频。

有关实现详细信息,请参见此处: 使用.NET转录音频


4

第一个链接已经失效了。我想它曾经指向这个网址:https://www.nuance.com/dragon.html - evaristegd

3

来晚了,为未来的参考而回答。

该领域的进步以及 Mozilla 的心态和议程促成了这两个旨在实现此目标的项目:

后者有一个12GB的数据集可供下载。据我理解,前者可以使用你自己的音频文件训练模型。


0
你也可以尝试使用Leopard。这篇文章有一个概述。但是你的代码基本上看起来像这样:
from leopard import *
o = create(access_key=${YOUR_ACCESS_KEY})
print(o.process_file(${YOUR_AUDIO_FILE_PATH}))

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接