得票数最多 'language-model' 问题

关联标签

21得票4回答

我正在开发一个循环语言模型。为了学习可用于初始化语言模型的词向量，我使用gensim的word2vec模型。训练完成后，word2vec模型为词汇表中的每个单词保存两个向量: 单词嵌入 (输入/隐藏矩阵的行) 和上下文嵌入(隐藏/输出矩阵的列)。正如这篇文章所述，至少有三种常见的方法来...

20得票5回答

一个k skipgram 是一个ngram，它是所有ngrams的超集，并且每个(k-i)skipgram直到(k-i)==0（包括0 skip grams）。那么如何在Python中高效地计算这些skipgrams呢？以下是我尝试过的代码，但它并没有像预期的那样运行： <pre&...

18得票3回答

我在哪里可以找到关于ARPA语言模型格式的文档？我正在使用Pocket Sphinx STT引擎开发简单的语音识别应用程序。由于性能原因，建议使用ARPA语言模型。我想了解如何调整我的语言模型以满足自定义需求。我找到的只是一些非常简要的ARPA格式描述： http://kered....

18得票2回答

我想在Keras NN模型中使用一些由Google在一篇非常著名的文章中发布的预训练词向量。他们提供了训练新模型的代码以及嵌入这里。然而，文档不清楚如何通过一个简单的Python函数调用从给定的字符（单词）中检索嵌入向量。文档中很多内容似乎集中于将向量倾入整个句子的文件，可能是为了情感分...

17得票2回答

我正在进行语音转文字和文字转语音方面的开发工作，发现OpenEars API非常有用。这个基于cmu-slm的API的原则是使用语言模型将iPhone设备听到的语音映射。所以我决定找一个大的英语语言模型来输入到API语音识别引擎中。但我不明白voxfourge英文数据模型的格式，也不知道如...

14得票2回答

我想创建一个包含近50000个单词的ARPA语言模型文件。我无法通过将我的文本文件传递给CMU Language Tool来生成语言模型。是否有其他链接可以获取这么多单词的语言模型?

12得票1回答

我正在学习如何使用TensorFlow构建语音识别的RNN。作为一个开端，我想尝试一些放在TensorFlow页面上的示例模型TF-RNN。根据建议，通过研究word2vec模型的基本版本代码，理解单词ID如何嵌入到密集表示（向量表示）中。我了解了tf.nn.embedding_looku...

11得票2回答

我正在尝试计算我拥有的数据的困惑度。我使用的代码是： import sys sys.path.append("/usr/local/anaconda/lib/python2.7/site-packages/nltk") from nltk.corpus import brown from ...

10得票2回答

我正在寻找一个Python接口来加载ARPA文件（回退语言模型），并使用它们评估一些文本，例如获取其对数概率、困惑度等。我不需要在Python中生成ARPA文件，只需要用它来查询。是否有推荐的软件包？我已经看到了kenlm和swig-srilm，但第一个在Windows上设置非常困难...

8得票2回答

什么是指令调优和大型语言模型的正常微调之间的区别？我所指的指令调优并不是上下文/提示式的那种。最近关于微调的所有论文似乎都是关于指令调优的。我看过一些关于微调/指令调优（例如FLAN）的论文，但没有一个真正描述指令调优与其他选择（无论是什么选择）之间的区别。我理解指令调优是一种...