21得票4回答
word2vec - 最佳方法是什么?添加、连接还是平均词向量?

我正在开发一个循环语言模型。为了学习可用于初始化语言模型的词向量,我使用gensim的word2vec模型。 训练完成后,word2vec模型为词汇表中的每个单词保存两个向量: 单词嵌入 (输入/隐藏矩阵的行) 和 上下文嵌入(隐藏/输出矩阵的列)。 正如这篇文章所述,至少有三种常见的方法来...

20得票5回答
如何在Python中计算skipgrams?

一个k skipgram 是一个ngram,它是所有ngrams的超集,并且每个(k-i)skipgram直到(k-i)==0(包括0 skip grams)。那么如何在Python中高效地计算这些skipgrams呢? 以下是我尝试过的代码,但它并没有像预期的那样运行: <pre&...

18得票3回答
ARPA语言模型文档

我在哪里可以找到关于ARPA语言模型格式的文档? 我正在使用Pocket Sphinx STT引擎开发简单的语音识别应用程序。由于性能原因,建议使用ARPA语言模型。我想了解如何调整我的语言模型以满足自定义需求。 我找到的只是一些非常简要的ARPA格式描述: http://kered....

18得票2回答
使用Keras从lm_1b中生成字符-单词嵌入

我想在Keras NN模型中使用一些由Google在一篇非常著名的文章中发布的预训练词向量。他们提供了训练新模型的代码以及嵌入 这里。 然而,文档不清楚如何通过一个简单的Python函数调用从给定的字符(单词)中检索嵌入向量。文档中很多内容似乎集中于将向量倾入整个句子的文件,可能是为了情感分...

17得票2回答
构建与OpenEars兼容的语言模型

我正在进行语音转文字和文字转语音方面的开发工作,发现OpenEars API非常有用。 这个基于cmu-slm的API的原则是使用语言模型将iPhone设备听到的语音映射。所以我决定找一个大的英语语言模型来输入到API语音识别引擎中。但我不明白voxfourge英文数据模型的格式,也不知道如...

14得票2回答
使用5万个单词创建ARPA语言模型文件

我想创建一个包含近50000个单词的ARPA语言模型文件。我无法通过将我的文本文件传递给CMU Language Tool来生成语言模型。是否有其他链接可以获取这么多单词的语言模型?

12得票1回答
TensorFlow 嵌入查找

我正在学习如何使用TensorFlow构建语音识别的RNN。作为一个开端,我想尝试一些放在TensorFlow页面上的示例模型TF-RNN。 根据建议,通过研究word2vec模型的基本版本代码,理解单词ID如何嵌入到密集表示(向量表示)中。我了解了tf.nn.embedding_looku...

11得票2回答
NLTK包用于估计(一元)困惑度。

我正在尝试计算我拥有的数据的困惑度。我使用的代码是: import sys sys.path.append("/usr/local/anaconda/lib/python2.7/site-packages/nltk") from nltk.corpus import brown from ...

10得票2回答
Python接口与ARPA文件

我正在寻找一个Python接口来加载ARPA文件(回退语言模型),并使用它们评估一些文本,例如获取其对数概率、困惑度等。 我不需要在Python中生成ARPA文件,只需要用它来查询。 是否有推荐的软件包? 我已经看到了kenlm和swig-srilm,但第一个在Windows上设置非常困难...

8得票2回答
指令调优与非指令调优大型语言模型的区别

什么是指令调优和大型语言模型的正常微调之间的区别? 我所指的指令调优并不是上下文/提示式的那种。 最近关于微调的所有论文似乎都是关于指令调优的。 我看过一些关于微调/指令调优(例如FLAN)的论文,但没有一个真正描述指令调优与其他选择(无论是什么选择)之间的区别。 我理解指令调优是一种...