如何在音频文件中计算口语音节数量?

5

我有很多干净音频文件,只包含普通话口语。我需要估算每个文件中说了多少个音节。是否有适用于OS X、Windows或Linux的工具可以估算这些音节数?

sample01.wav 15
sample02.wav 8
sample03.wav 5
sample04.wav 1
sample05.wav 18

由于有很多文件,因此最好使用命令行或批处理软件,例如:

$ application sample01.wav
15
  • 使用语音转文字技术,然后统计字符数量的解决方案是合适的。

我只是在想,为什么一个回答(来自@navneet35371)可以获得+450的奖励,而这个回答比我的后面,并且只包含我在回答中提供的一个链接。看起来不公平,不是吗? - marsei
抱歉,我犯了一个错误。我知道 speechrate 脚本解决了问题,但我没有意识到它在两个不同的帖子中都提到了。当我有更多积分时,我会想办法奖励你赏金积分。 - Village
1
没问题 - 我本可以让它更明显。请将您的积分留给其他有用的奖励,我很乐意再次帮忙。 - marsei
4个回答

13

语音自动分割是一个活跃的科学领域,这意味着没有一种方法能够完美地运作。

2009年,de Jong和Wempe提出了一种使用Praat自动检测人类语音信号中音节的方法。该方法与人工分割相比效果良好,并已被应用于许多第三方科学研究。您可以在他们的科学文章(pdf)中找到该方法的详细描述,以及对先前提出的方法的历史背景。Praat脚本本身和几个教程可以在专门的网站上找到(www - speechrate)。

您还可能对由Harma开发的另一种分割算法感兴趣,该算法已在Matlab中实现(Harma Syllable Segmentation)。


1

1

0
你的问题需要特定的关注和针对语音转文本的解决方案。 我真的怀疑是否有任何免费开源库,容易获取并且能够提供服务。
我曾经使用过一个库,但是是用于“文本转语音”的反向目的。 尽管这不是一个免费的库,我很乐意帮助,只需在谷歌上搜索“annosoft lipsync”即可...
http://www.annosoft.com/lipsync-sdks

这个库也可以用于SDK评估...


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接