得票数最多 'word-embedding' 问题 - 第3页

关联标签

16得票1回答

在pytorch中，是否可以仅冻结嵌入层中特定的嵌入权重？

在进行NLP任务时使用GloVe嵌入，数据集中的一些单词可能不存在于GloVe中。因此，我们为这些未知单词实例化随机权重。是否可以冻结从GloVe获得的权重，仅训练新实例化的权重？我只知道我们可以设置： model.embedding.weight.requires_grad = F...

pythonnlppytorchword-embeddingglove

15得票2回答

Fine-tuning Word Embeddings是如何工作的？

我一直在阅读一些深度学习与自然语言处理的论文，发现Fine-tuning似乎是一个简单但仍然令人困惑的概念。虽然已经有相同的问题here被问到了，但仍不太清楚。像Y. Kim, “Convolutional Neural Networks for Sentence Classificati...

machine-learningdeep-learningword-embedding

15得票4回答

谷歌BERT可以用来计算两个文本文档之间的相似度吗？

能否使用Google BERT计算两个文本文档之间的相似性？据我了解，BERT的输入应该是有限大小的句子。一些作品使用BERT来计算类似句子的相似性：https://github.com/AndriyMulyar/semantic-text-similarity和https://github....

pythontextscikit-learnnlpword-embedding

15得票2回答

如何使用transformers.BertTokenizer对多个句子进行编码？

我想使用transform.BertTokenizer将多个句子进行编码，以创建一个小批次。对于单个句子似乎可以工作。如何使其适用于多个句子？from transformers import BertTokenizer tokenizer = BertTokenizer.from_pretr...

word-embeddinghuggingface-transformershuggingface-tokenizers

14得票1回答

word2vec：CBOW和skip-gram在训练数据集大小方面的表现

这个问题很简单。在一个大数据集中，CBOW和skip-gram哪个更好？（小数据集的答案如下。）我感到困惑，因为Mikolov本人表示[链接]： Skip-gram：适用于少量训练数据，即使是罕见的单词或短语也能很好地表示。 CBOW：训练速度比skip-gram快几倍，对于频繁单词的...

nlpword2vecword-embedding

14得票6回答

确保gensim在相同数据上的不同运行生成相同的Word2Vec模型

在LDA模型多次在同一语料库上训练时生成不同主题中，通过设置np.random.seed(0)，LDA模型将始终以完全相同的方式初始化和训练。对于gensim中的Word2Vec模型呢？通过将随机种子设置为一个常数，不同运行相同数据集的结果是否会产生相同的模型？但奇怪的是，在不同的实例...

pythonrandomgensimword2vecword-embedding

14得票1回答

如何在Gensim的Word2Vec中正确使用get_keras_embedding()？

我正在尝试使用嵌入和RNN构建翻译网络。我已经训练了一个Gensim Word2Vec模型，并且它很好地学习了单词的关联性。但是，我无法理解如何将该层正确添加到Keras模型中。（以及如何对输出进行“反向嵌入”。但那是另一个问题，已经得到了答案：默认情况下您无法这样做）在Word2Vec中...

pythonkerasgensimword2vecword-embedding

13得票2回答

只训练一些词嵌入（Keras）

在我的模型中，我使用预先训练好的GloVe嵌入。我希望保持它们不可训练，以减少模型参数的数量并避免过拟合。但是，我有一个特殊的符号，我希望训练其嵌入。使用提供的嵌入层，我只能使用参数“trainable”来设置以下所有嵌入的可训练性：embedding_layer = Embedding(...

pythonnlpkerasword-embedding

13得票4回答

在Tensorboard Projector中可视化Gensim Word2vec嵌入。

我只看到了一些关于这个问题的提问，但都没有答案，所以我想我可以试试。我一直在使用gensim的word2vec模型创建一些向量。我将它们导出为文本，并尝试在tensorflow的嵌入式投影仪实时模型上导入它。有一个问题：它不起作用。它告诉我张量格式不正确。因此，作为初学者，我想向更有经验的人询...

pythontensorflowgensimtensorboardword-embedding

13得票2回答

下载预训练的句子转换模型到本地。

我正在使用SentenceTransformers库（在此处：https://pypi.org/project/sentence-transformers/#pretrained-models）创建句子的嵌入，使用预训练模型bert-base-nli-mean-tokens。我有一个应用程序将...

word-embeddingbert-language-modelhuggingface-tokenizerssentence-transformers