需要针对Linux系统的文字转语音和语音识别工具。

11

我计划编写一个在Linux上使用文本到语音和语音识别的程序。有哪些最好的工具/库可以用于此?我应该改用Windows以便使用更好的工具吗?这些工具需要能够轻松地从控制台或C程序中调用。

12个回答

6

针对语音识别技术有各种不同版本的Sphinxes可用。这些不同的变体具有不同的优点和缺点,可以参考Sphinx版本比较。其中Sphinx 4 是使用Java编写,其他的则采用C编写。


5
这取决于你想要识别的语音。这是一篇来自2005年的文章,介绍了创建听写程序的一些困难: http://www.cs.cmu.edu/~archan/personal/whyNoOpenSourceDictationDraft4.html。如果你需要这个,Julius 语音识别引擎似乎很有前途,但你需要添加自己的声学和语言模型。你可能可以使用 voxforge 声学模型。如果你不打算编写听写程序,那么你的任务就简单得多了。命令程序有限的词汇量,例如“如果您想继续使用英语,请说‘英语’”。
我使用 pocketsphinx 和 gstreamer 制作了一个程序,可以自动编辑大部分 twitter 词汇出现的部分,从 TWiT 播客中得到了不错的结果。在使用基于播客转录的自己的语言模型之前,它根本无法正常工作;语音识别器的机器转录毫无用处/有些滑稽,但它们能够找到关键字。请保留 HTML 标签。

你有使用Pocketsphinx和Gstreamer与Tcpserversrc/Client一起的经验吗? - si28719e
不,但是gstpocketsphinx + tcpserversrc/sink与其他任何gstreamer元素+ tcpserversrc/sink没有任何区别。 - joeforker
你的“twitterkiller”程序链接似乎已经失效了。 - Steven Oxley

4

对于语音识别,Linux 上几乎没有可用的选项。我只知道一个貌似不错的选择,IBM 几年前发布了一款名为 ViaVoice SDK 的东西,但后来不再提供(有人知道是否仍然可以从任何地方获得吗?)。在维基百科上有一些关于可能选项的更多信息。


1
ViaVoice SDK。它从未完全发布,文档要求在2.4内核发行版号码的相当狭窄范围内。当我的手腕间歇性肌腱炎时,我尝试过使用它来减轻打字负担,但没有成功... - dmckee --- ex-moderator kitten

3

我在Linux下使用过LoquendoFestival。 我认为我使用的Festival语音合成效果很差,声音非常机械化。而另一方面,Loquendo的语音效果非常出色,质量非常高。


如果您要使用 Festival,您应该安装备用语音。这里有(适用于 Debian/Ubuntu)的说明:http://ubuntuforums.org/showthread.php?t=677277 - Matt G
你用Loquendo的体验如何?如果可以的话,我想通过电子邮件向你询问一些问题。 - philfreo

0

对于Debian/Ubuntu的文本转语音,还有SVOX Pico:

sudo apt-get install libttspico-utils

-1

-1
还有 mbrola 用于文本转语音。

-1

你有没有尝试过基于HMM的语音合成技术来进行文本转语音?你可以在http://hts.sp.nitech.ac.jp/网站上找到免费的演示版本。不过安装可能会有些繁琐。


-1

-1

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接