28得票4回答
如何在自己的语料库上训练GloVe算法

我试着按照这个链接学习,但是却浪费了很多时间并最终没学到什么有用的内容。 我只是想在自己的语料库(~900Mb corpus.txt文件)上训练一个GloVe模型。 我下载了上述链接提供的文件,并使用cygwin进行编译(在编辑demo.sh文件并将其更改为VOCAB_FILE=corpus....

25得票2回答
手套(Glove)和Word2vec之间的主要区别是什么?

word2vec和glove有什么区别?它们都是训练词嵌入的方法吗?如果是,那么我们如何同时使用它们?

24得票2回答
预训练的GloVe向量文件(例如glove.6B.50d.txt)中的"unk"是什么意思?

我在从https://nlp.stanford.edu/projects/glove/下载的glove.6B.50d.txt向量文件中发现了“unk”标记。它的值如下:unk -0.79149 0.86617 0.11998 0.00092287 0.2776 -0.49185 0.50195...

16得票1回答
在pytorch中,是否可以仅冻结嵌入层中特定的嵌入权重?

在进行NLP任务时使用GloVe嵌入,数据集中的一些单词可能不存在于GloVe中。因此,我们为这些未知单词实例化随机权重。 是否可以冻结从GloVe获得的权重,仅训练新实例化的权重? 我只知道我们可以设置: model.embedding.weight.requires_grad = F...

13得票2回答
使用TensorFlow Transform有效地将标记转换为单词向量

我希望在训练、验证和推理阶段使用TensorFlow Transform将标记转换为单词向量。我遵循了这个StackOverflow帖子,并实现了从标记到向量的初始转换。转换按预期工作,对于每个标记我获得了EMB_DIM向量。import numpy as np import tensorfl...

7得票1回答
使用预训练的glove词嵌入来配合scikit-learn使用

我已经使用了Keras来使用预先训练好的单词嵌入,但我不太确定如何在scikit-learn模型上实现它。 我还需要在sklearn中执行此操作,因为我正在使用vecstack将Keras顺序模型和sklearn模型组合起来。 以下是我对于Keras模型所做的工作: glove_dir ...

7得票3回答
改进基础的现有GloVe模型

我正在使用GloVe进行研究。我已经从这里下载了模型。我一直在使用GloVe进行句子分类。我所分类的句子特定于某个领域,比如某个STEM学科。然而,由于现有的GloVe模型是基于通用语料库训练的,它们可能不会为我的特定任务产生最佳结果。 因此,我的问题是,我该如何加载重新训练的模型并在自己的...