17得票2回答
构建与OpenEars兼容的语言模型

我正在进行语音转文字和文字转语音方面的开发工作,发现OpenEars API非常有用。 这个基于cmu-slm的API的原则是使用语言模型将iPhone设备听到的语音映射。所以我决定找一个大的英语语言模型来输入到API语音识别引擎中。但我不明白voxfourge英文数据模型的格式,也不知道如...

18得票3回答
ARPA语言模型文档

我在哪里可以找到关于ARPA语言模型格式的文档? 我正在使用Pocket Sphinx STT引擎开发简单的语音识别应用程序。由于性能原因,建议使用ARPA语言模型。我想了解如何调整我的语言模型以满足自定义需求。 我找到的只是一些非常简要的ARPA格式描述: http://kered....

14得票2回答
使用5万个单词创建ARPA语言模型文件

我想创建一个包含近50000个单词的ARPA语言模型文件。我无法通过将我的文本文件传递给CMU Language Tool来生成语言模型。是否有其他链接可以获取这么多单词的语言模型?

21得票4回答
word2vec - 最佳方法是什么?添加、连接还是平均词向量?

我正在开发一个循环语言模型。为了学习可用于初始化语言模型的词向量,我使用gensim的word2vec模型。 训练完成后,word2vec模型为词汇表中的每个单词保存两个向量: 单词嵌入 (输入/隐藏矩阵的行) 和 上下文嵌入(隐藏/输出矩阵的列)。 正如这篇文章所述,至少有三种常见的方法来...

8得票1回答
在PyTorch中计算困惑度。

我刚使用pytorch训练了一个LSTM语言模型。该类的主体如下: class LM(nn.Module): def __init__(self, n_vocab, seq_size, e...

12得票1回答
TensorFlow 嵌入查找

我正在学习如何使用TensorFlow构建语音识别的RNN。作为一个开端,我想尝试一些放在TensorFlow页面上的示例模型TF-RNN。 根据建议,通过研究word2vec模型的基本版本代码,理解单词ID如何嵌入到密集表示(向量表示)中。我了解了tf.nn.embedding_looku...

8得票5回答
你会在文本分类任务中选择哪个模型(GPT2、BERT、XLNet等)?为什么?

我正在尝试训练一个句子分类任务的模型。输入是一个句子(一个整数向量),输出是标签(0或1)。我看到一些关于使用Bert和GPT2进行文本分类任务的文章。但是,我不确定应该选择哪一个来开始。在这些最近的NLP模型中,例如原始变压器模型、Bert、GPT2和XLNet中,您会选择哪一个作为起点?为...

7得票2回答
在一个小的自定义语料库上对语言模型进行预训练。

我想知道在文本生成中是否可以使用迁移学习,以及是否可以在特定类型的文本上重新训练/预训练它。例如,使用预训练的BERT模型和少量的医学(或任何“类型”)文本,生成能够生成医学文本的语言模型。假设您没有大量的“医疗文本”,这就是为什么您必须使用迁移学习。 将其作为一个流水线,我会描述如下: ...

18得票2回答
使用Keras从lm_1b中生成字符-单词嵌入

我想在Keras NN模型中使用一些由Google在一篇非常著名的文章中发布的预训练词向量。他们提供了训练新模型的代码以及嵌入 这里。 然而,文档不清楚如何通过一个简单的Python函数调用从给定的字符(单词)中检索嵌入向量。文档中很多内容似乎集中于将向量倾入整个句子的文件,可能是为了情感分...

20得票5回答
如何在Python中计算skipgrams?

一个k skipgram 是一个ngram,它是所有ngrams的超集,并且每个(k-i)skipgram直到(k-i)==0(包括0 skip grams)。那么如何在Python中高效地计算这些skipgrams呢? 以下是我尝试过的代码,但它并没有像预期的那样运行: <pre&...