10得票3回答
当将单词向量化时,如何处理文本字符串中的数字?

如果我有一个要向量化的文本字符串,那么我应该如何处理其中的数字?或者如果我将数字和单词一起输入神经网络,如何保持数字为数字? 我打算制作一个所有单词的字典(如此建议)。在这种情况下,所有字符串都将变成数字数组。我应该如何处理数字字符?如何输出不混淆单词索引和数字字符的向量? 将数字转换为字...

9得票1回答
当存在多个文本特征时,如何使用Keras嵌入层?

我知道如何在只有一个文本特征的情况下(例如IMDB评论分类)使用Keras Embedding层。但是当我遇到有多个文本特征的分类问题时,例如我的数据集中有两个文本特征——诊断文本和所需手术,并且标签是二元分类(1表示已批准,0表示未批准),我就会感到困惑。在下面的示例中,x_train有两列...

9得票2回答
下载预训练的BERT模型到本地

我正在使用 SentenceTransformers 库(此处:https://pypi.org/project/sentence-transformers/#pretrained-models)来创建句子的嵌入,使用预训练模型 bert-base-nli-mean-tokens。我有一个将部...

9得票3回答
如何评估Word2Vec模型?

你好,我有自己的语料库,并在其中训练了几个Word2Vec模型。那么,如何评估它们并选择最佳模型呢?(显然不是手动评估——我正在寻找各种措施)。 值得注意的是,嵌入是针对项目而不是单词的,因此我无法使用任何现有的基准。 谢谢!

9得票1回答
BERT文档嵌入

我正在尝试使用BERT进行文档嵌入。我使用的代码是两个来源的组合。我使用BERT文档分类教程及其代码和BERT词嵌入教程。下面是代码,我将每个文档的前510个标记提供给BERT模型。最后,我将这些嵌入应用于K-means聚类,但每个聚类的成员都完全不相关。我想知道这是怎么可能的。也许我的代码有...

9得票2回答
如何使用BERT查找最接近向量的词

我正努力使用BERT获取给定词嵌入的文本表示(或最接近的单词)。基本上,我正在尝试获得与gensim中类似的功能: >>> your_word_vector = array([-0.00449447, -0.00310097, 0.02421786, ...], dtype...

8得票2回答
使用词嵌入时,如何处理缺失的单词是最佳方法?

我有一组预先训练好的word2vec词向量和一个语料库。我想使用这些词向量来表示语料库中的单词。但是,语料库中有一些单词我没有预先训练好的词向量。那么,如何处理那些没有预训练向量的单词是最好的方法呢? 我听说了几种建议: 1. 对于每个缺失的单词,使用一个零向量。 2. 对于每个缺失的单词...

8得票4回答
如何在Google Colaboratory上使用GloVe词嵌入文件

我已经使用wget下载了数据。 !wget http://nlp.stanford.edu/data/glove.6B.zip - ‘glove.6B.zip’ saved [862182613/862182613] 它被保存为zip文件,我想使用来自该zip文件的glove.6B.3...

8得票3回答
如何使用tensorflow serving使tensorflow hub嵌入可用?

我将尝试使用来自TensorFlow Hub的嵌入模块作为可用服务。我对TensorFlow还不熟悉。目前,我正在使用通用句子编码器嵌入作为查找,将句子转换为嵌入,然后使用这些嵌入来查找与另一个句子的相似性。 将句子转换为嵌入的当前代码如下: with tf.Session() as se...

8得票2回答
如何在Tensorflow RNN中构建嵌入层?

我正在构建一个RNN LSTM网络,根据作者的年龄对文本进行分类(二元分类-年轻/成年)。 看起来这个网络没有学习,突然开始过拟合: 红色:训练数据 蓝色:验证数据 可能的原因之一是数据表示不够好。我只是按单词出现频率排序并给它们指定索引。例如: unknown -> 0 th...