173得票9回答
tf.nn.embedding_lookup函数是用来做什么的?

tf.nn.embedding_lookup(params, ids, partition_strategy='mod', name=None) 我无法理解这个函数的职责。它是否像查找表一样?这意味着返回与每个id(在ids中)对应的参数? 例如,在skip-gram模型中,如果我们使用tf...

76得票4回答
在PyTorch中的嵌入

Embedding能让相似的单词更靠近吗?我只需要将所有句子传递给它吗?或者这只是一个查找表,我需要编写模型代码吗?

57得票2回答
WordPiece分词如何帮助NLP有效处理罕见单词问题?

我看到像BERT这样的NLP模型使用WordPiece进行标记化。在WordPiece中,我们将标记(例如playing)拆分为play和##ing。它被提到可以覆盖更广泛的未登录词汇(OOV words)。请问有人能帮我解释一下WordPiece标记化实际上是如何完成的,以及它如何有效地处理...

54得票3回答
CBOW与skip-gram:为什么要颠倒上下文和目标词?

在此页面中,它说: [...] skip-gram反转了上下文和目标,并试图从其目标单词预测每个上下文单词 [...] 但是,看一下它生成的训练数据集,X和Y对的内容似乎是可交换的,因为这两个(X,Y)对: (quick, brown), (brown, quick) ...

52得票6回答
PyTorch / Gensim - 如何加载预训练的词嵌入?

我想用gensim将预训练的word2vec嵌入加载到PyTorch嵌入层中。 如何将gensim加载的嵌入权重加载到PyTorch嵌入层中?

37得票2回答
Keras嵌入层中的mask_zero是如何工作的?

我以为 mask_zero=True 会在输入值为0时输出0,这样以下的层可以跳过计算或者其他操作。 mask_zero 是如何工作的? 例子:data_in = np.array([ [1, 2, 0, 0] ]) data_in.shape >>> (1, 4) ...

30得票6回答
如何使用BERT对相似的句子进行聚类

对于ElMo、FastText和Word2Vec,我将在句子中对单词嵌入求平均值,并使用HDBSCAN/KMeans聚类来分组相似的句子。 这种实现的一个很好的例子可以在这篇简短的文章中看到:http://ai.intelligentonlinetools.com/ml/text-clust...

25得票2回答
手套(Glove)和Word2vec之间的主要区别是什么?

word2vec和glove有什么区别?它们都是训练词嵌入的方法吗?如果是,那么我们如何同时使用它们?

24得票1回答
如何从Keras Embedding层获取词向量

我目前正在使用Keras模型,其中第一层是嵌入层。为了可视化每个词之间的关系和相似度,我需要一个函数来返回词汇表中每个元素的映射及其向量(例如“love”- [0.21, 0.56,...,0.65,0.10])。 有没有什么方法可以做到这一点?

24得票2回答
预训练的GloVe向量文件(例如glove.6B.50d.txt)中的"unk"是什么意思?

我在从https://nlp.stanford.edu/projects/glove/下载的glove.6B.50d.txt向量文件中发现了“unk”标记。它的值如下:unk -0.79149 0.86617 0.11998 0.00092287 0.2776 -0.49185 0.50195...