如何在音频文件中计算口语音节数量？

Question

如何在音频文件中计算口语音节数量？

5

我有很多干净音频文件，只包含普通话口语。我需要估算每个文件中说了多少个音节。是否有适用于OS X、Windows或Linux的工具可以估算这些音节数？

sample01.wav 15
sample02.wav 8
sample03.wav 5
sample04.wav 1
sample05.wav 18

由于有很多文件，因此最好使用命令行或批处理软件，例如：

$ application sample01.wav
15

使用语音转文字技术，然后统计字符数量的解决方案是合适的。

- Village

我只是在想，为什么一个回答（来自@navneet35371）可以获得+450的奖励，而这个回答比我的后面，并且只包含我在回答中提供的一个链接。看起来不公平，不是吗？ - marsei

抱歉，我犯了一个错误。我知道 speechrate 脚本解决了问题，但我没有意识到它在两个不同的帖子中都提到了。当我有更多积分时，我会想办法奖励你赏金积分。 - Village

1

没问题 - 我本可以让它更明显。请将您的积分留给其他有用的奖励，我很乐意再次帮忙。 - marsei

4个回答

1

这可能会对您有兴趣。

http://sites.google.com/site/speechrate/

- Navneet

1

你可以使用共振峰来确定这一点。每个音节应该对应一个共振峰。以下是有关共振峰的更多信息：

https://en.wikipedia.org/wiki/Formants

- Skylion

0

你的问题需要特定的关注和针对语音转文本的解决方案。我真的怀疑是否有任何免费开源库，容易获取并且能够提供服务。

我曾经使用过一个库，但是是用于“文本转语音”的反向目的。尽管这不是一个免费的库，我很乐意帮助，只需在谷歌上搜索“annosoft lipsync”即可...

http://www.annosoft.com/lipsync-sdks

这个库也可以用于SDK评估...

- Aditya

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- marsei · Accepted Answer

语音自动分割是一个活跃的科学领域，这意味着没有一种方法能够完美地运作。

2009年，de Jong和Wempe提出了一种使用Praat自动检测人类语音信号中音节的方法。该方法与人工分割相比效果良好，并已被应用于许多第三方科学研究。您可以在他们的科学文章（pdf）中找到该方法的详细描述，以及对先前提出的方法的历史背景。Praat脚本本身和几个教程可以在专门的网站上找到（www - speechrate）。

您还可能对由Harma开发的另一种分割算法感兴趣，该算法已在Matlab中实现（Harma Syllable Segmentation）。