11得票2回答
如何将FastText模型保存为vec格式?

我使用Python中的fasttext.train_unsupervised()函数来训练我的无监督模型。由于我将在fasttext.train_supervised()函数的pretrainedVectors参数中使用此文件,因此我希望将其保存为vec文件。但是,我在创建这个vec文件时遇到...

8得票2回答
使用词嵌入时,如何处理缺失的单词是最佳方法?

我有一组预先训练好的word2vec词向量和一个语料库。我想使用这些词向量来表示语料库中的单词。但是,语料库中有一些单词我没有预先训练好的词向量。那么,如何处理那些没有预训练向量的单词是最好的方法呢? 我听说了几种建议: 1. 对于每个缺失的单词,使用一个零向量。 2. 对于每个缺失的单词...

13得票2回答
下载预训练的句子转换模型到本地。

我正在使用SentenceTransformers库(在此处:https://pypi.org/project/sentence-transformers/#pretrained-models)创建句子的嵌入,使用预训练模型bert-base-nli-mean-tokens。我有一个应用程序将...

17得票2回答
加权词嵌入是什么意思?

我试图实现的论文中提到: 本研究使用三种类型的文本表示模型对推特进行建模。第一种是由tf-idf(词频 - 逆文档频率)加权的词袋模型(第2.1.1节)。第二种通过对所有单词(在句子中)的词嵌入求平均,来表示一个句子;第三种则是通过对所有单词的加权词嵌入求平均,其中每个单词的权重由tf...

9得票2回答
如何使用BERT查找最接近向量的词

我正努力使用BERT获取给定词嵌入的文本表示(或最接近的单词)。基本上,我正在尝试获得与gensim中类似的功能: >>> your_word_vector = array([-0.00449447, -0.00310097, 0.02421786, ...], dtype...

8得票1回答
在测试期间重新加载Keras Tokenizer

我会很乐意帮您进行翻译。以下是关于IT技术的内容: 我按照这里的教程(https://blog.keras.io/using-pre-trained-word-embeddings-in-a-keras-model.html)进行操作。 但是,我修改了代码以便通过h5py保存生成的模型。因...

24得票1回答
如何从Keras Embedding层获取词向量

我目前正在使用Keras模型,其中第一层是嵌入层。为了可视化每个词之间的关系和相似度,我需要一个函数来返回词汇表中每个元素的映射及其向量(例如“love”- [0.21, 0.56,...,0.65,0.10])。 有没有什么方法可以做到这一点?

12得票3回答
在Tensorflow中,仅更新单词嵌入矩阵的某一部分

假设我想在训练期间更新预先训练的单词嵌入矩阵,有没有一种方法只更新单词嵌入矩阵的子集? 我查看了Tensorflow API页面,并找到了这个:# Create an optimizer. opt = GradientDescentOptimizer(learning_rate=0.1) ...

8得票1回答
Python/Gensim - syn0和syn0norm的含义是什么?

我知道在 gensim 的 KeyedVectors-model 中,可以通过属性 model.syn0 访问嵌入矩阵。还有一个名为 syn0norm 的属性,但似乎对于我最近加载的 glove 模型无效。我记得以前在某个地方看到过 syn1。 我没有找到这方面的文档说明,我想知道背后的逻辑...

12得票3回答
在Keras中使用预训练的gensim Word2vec嵌入

我已经在gensim中训练了word2vec。在Keras中,我想使用它来使用该单词嵌入制作句子矩阵。由于存储所有句子的矩阵会占用很多空间和内存,因此我想在Keras中创建嵌入层以实现这一点,以便可以在后续层(LSTM)中使用它。您能详细告诉我如何做到这一点吗? PS:与其他问题不同,因为我...