高质量、情感丰富、流畅多变的文本转语音引擎?

13

在查看了一些服务/工具后,我得出了一个结论。大多数文本转语音工具的声音过于技术化、机械化——换句话说,质量很差。

而且,看起来它们都带有“硬编码”的语音模板,因此缩短了变化和自定义的可能性。有些工具允许你设置阅读速度和音调,但这还不够。

我猜测情感方面的问题在于,很难从纯文本中判断情感,特别是如果只是一两个句子。再加上,好老的电脑是一台机器——机器没有情感,但这是另外一个故事了。

最让我困扰的是质量。例如,有些工具会削减单词的顶点,导致声音听起来很技术化。感觉有问题的是句子构造或其他什么东西。虽然人们正在开发这样的工具,但我想知道,是什么阻止他们多花一点时间来改进那些……削减单词顶点的问题,这可不是小问题!而且,必须记住,一个好的、高质量的文本转语音软件价值很高!因此,它是一个相当有利可图的产品。

哦,在流畅性下隐藏了问题、感叹等。(可能这些不适用于流畅性,但我不是英语母语者,请原谅如果是这种情况。)

我看过的工具列表:

相当令人印象深刻,但还有改进的空间(++)

- Loquendo:声音缺乏变化,有一些小的语调/流畅度问题(取决于句子),在示例中咳嗽和借口太多!
- Nuance Vocalizer:虽然仍然缺乏变化,但提供的一些声音是值得的。


可以合作获取更多资源,然后一起开发不同但几乎相等的产品 (--)

- eSpeak:最好的机器人之一,因此程序标志是这样的(?!)
- Natural Reader (dumb autoplay!!):流畅度还可以,但仍有技术感。
- iSpeech:将语音设置为英文文本日语时非常好笑。我打赌日本人对此并不高兴。
- Cepstral + Enhanced Voices...除了大约5个以上的声音之外,增强的声音只会带来糟糕的结果。
- AT&T:流畅度还可以,但在句子结尾和机械化方面存在问题。
- LumenVox TTS:看起来来自具有丰富语音工具背景的公司,但仍导致机器人声音。
- 还有其他一些...


如果我错过了什么值得一看的东西,请分享。可以是免费的、商业的、超级昂贵的……只要它能工作,我就感兴趣! 而问题(-s)……
  1. 您认为语音质量、流畅度和多样性背后的主要问题是什么? 由于情感方面很难判断,如果您跳过它,我不介意,但如果您有一两个想法,我也不介意分享您的想法。
  2. 文本是如何转化为语音的? 比如说,这些工具背后使用了哪些算法?也许一两个新的理论会派上用场。
  3. 这些是不同的引擎/驱动程序,还是相同的驱动程序/引擎的不同语音模式?
  4. 只有我觉得第一个Text2Speech工具的质量在多年来没有太大变化(或者根本没有变化)吗? 不得不承认,这个老派的苹果工具提供的结果比一些2000年以后的工具更好,至少在与我所看到的视频进行比较时是这样。

2
在我看来,上面的第二点和第三点会是几个合理的问题。其余的似乎涉及到讨论,超出了问答论坛的范围。 - Jim Lewis
1
哦,也许有人会有心情回答这篇帖子中的一些问题,但是我已经为第二个问题开了一个新的主题链接 - tomsseisums
1
“Apex”指的是什么?我了解一些语音合成和理解方面的知识,但在这个上下文中不熟悉这个术语。我在谷歌搜索中也没有找到相关结果。或许可以插入一个定义来帮助理解? - Spike0xff
3个回答

3

我不知道您是否在寻找开放式解决方案,但如果您有Mac电脑,您应该查看OS X高级语音标记和"Repeat After Me"短语构建工具。它非常强大。内置于Mac OS X 10.5及更高版本的Alex语音比其他语音更先进。

在Mac上,突出显示以下文本,按住控制键单击,然后转到语音>开始朗读:

You talkin' to me
[[inpt PHON]] [[slnc 500]] [[rate -30]]
+yUW _1tAOl=kIHn ~AX [[pbas +3]]+mIY?

http://www.mattmontag.com/personal/mac-os-x-speech-synthesis-markup


第二/三行是一些选项,使声音更加真实? - tomsseisums
是的,它为强调和其他方面添加了一些微调。在我听来,这样听起来好多了。你也可以用 @ 符号来表示一个呼吸。 - Matt Montag

0

Google Translate使用的TTS对于短语来说相当不错,但对于任何复杂的内容可能会产生不自然的语调轮廓。尽管如此,在单词层面上,它仍然令人印象深刻。

这里有一个小代码示例

还有Ivona - 他们可能会比Google Translate产生稍微更多的发音错误,但在节奏和语调方面表现得更好。看看他们的“Raveena”声音,这是他们迄今为止最好的之一。


0

我知道这是一个老问题,但我刚刚看到了IBM的 "Watson" 演示,它非常令人印象深刻!他们支持多种语言,您可以控制语调、停顿、语音和其他一些变量。

如果您仍在寻找此类产品,或者其他人正在寻找一个好的TTS,请去看看。

免责声明:我不为IBM或与该产品相关的任何事情工作,我只是觉得它很棒!


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接