ARPA语言模型文档

18

我在哪里可以找到关于ARPA语言模型格式的文档?

我正在使用Pocket Sphinx STT引擎开发简单的语音识别应用程序。由于性能原因,建议使用ARPA语言模型。我想了解如何调整我的语言模型以满足自定义需求。

我找到的只是一些非常简要的ARPA格式描述:

作为STT的初学者,我很难理解这些(n-grams等)。我正在寻找更详细的文档。就像JSGF语法文档一样:

http://www.w3.org/TR/jsgf/


我发现这个链接很有用:http://www.speech.sri.com/projects/srilm/manpages/ngram-format.5.html 它描述了n-gram,也称为ARPA或Doug Paul格式。 - Carl
1
请查看此 MSDN 链接。其中详细解释了 ARPA 和 ARGS 格式 编译语法输入和输出文件格式 - sbharti
3个回答

4

关于这个格式,其实在文档中已经说得很清楚了,没有太多需要补充的。

除此之外,你可能还想准备一个包含样例句子的文本文件,并且基于它生成语言文件。有一个在线版本可以帮助你完成这个过程:lmtool


1
尽管如此,它使用某种n-grams、回退等等……这些是什么,我在哪里可以找到更多信息? - Lukasz
1
@Lukasz 什么是n-gram?[N个单词的序列](http://en.wikipedia.org/wiki/N-gram)。回退是可选的。据我所记,概率以log10比例尺表示。 - Dariusz
Backoff是一种估计未出现(在训练期间)的ngram概率的方法。如果高阶ngram不在LM中,则基本上会回退到较低阶ngram。例如,如果遇到不存在的3gram,则回退到2gram。回退权重用于确保联合概率是真实概率,即总和为1。 - 0x5050
@Dariusz,lmtool的链接失效了。是否有其他工具可以构建ARPA语言模型? - Ridwan
我搜索了一下,找到了这个网址:https://www.npmjs.com/package/lmtool - Dariusz

2

2
我可能回答有点晚了,我在 Steve Young 等人的《HTK 书》中找到了 ARPA LM 格式的详细文档,链接在这里:link
ARPA 的每一行都是一个三元组,存储以下内容:
n-gram log-probability(base10) ; the n-gram itself ; back-off weight (also in log space). 

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接