9得票2回答
如何在bertopic建模中按主题获取所有文档

我有一个数据集,正在尝试使用berTopic建模将其转换为主题,但问题是,我无法获取主题的全部文档。 berTopic每个主题只返回3个文档。 topic_model = BERTopic(verbose=True, embedding_model=embedding_model, ...

9得票1回答
BERT嵌入用于语义相似度

我之前发布了这个问题。我想要获得类似于这个YouTube视频33分钟处所示的嵌入。 1)我认为我从CLS令牌中得到的嵌入与YouTube视频中显示的嵌入不相似。我尝试进行语义相似性并得到了可怕的结果。是否有人可以确认我得到的嵌入是否类似于视频35.27处提到的嵌入? 2)如果上面问题的答案...

9得票1回答
如何将现有的huggingface-transformers模型用于spacy?

我在这里想问大家,是否可以将现有的huggingface-transformers训练模型与spacy一起使用。 我的第一个天真尝试是通过spacy.load('bert-base-uncased')加载它,但由于spacy要求特定的结构,因此它无法正常工作,这是可以理解的。 现在我正在尝...

9得票3回答
OSError: 找不到名为['pytorch_model.bin'、'tf_model.h5'、'model.ckpt.index']的文件。

当我在线加载BERT预训练模型时,会出现此错误:OSError: Error no file named['pytorch_model.bin','tf_model.h5','model.ckpt.index'] found in directory uncased_L-12_H-768_A-...

9得票1回答
运行时错误: 张量a的大小(4000)必须与张量b在非单例维度1上的大小(512)匹配

我正在尝试构建一个文档分类模型,使用 PyTorch 和 BERT。 我用下面的代码获取了Bert模型。 bert = AutoModel.from_pretrained('bert-base-uncased') 这是训练的代码。 for epoch in range(epochs)...

9得票1回答
BERT文档嵌入

我正在尝试使用BERT进行文档嵌入。我使用的代码是两个来源的组合。我使用BERT文档分类教程及其代码和BERT词嵌入教程。下面是代码,我将每个文档的前510个标记提供给BERT模型。最后,我将这些嵌入应用于K-means聚类,但每个聚类的成员都完全不相关。我想知道这是怎么可能的。也许我的代码有...

9得票1回答
如何使用BertForMaskedLM或BertModel计算句子的困惑度?

我想使用BertForMaskedLM或BertModel来计算一个句子的困惑度,所以我编写了以下代码: import numpy as np import torch import torch.nn as nn from transformers import BertTokenizer,...

9得票2回答
如何使用BERT查找最接近向量的词

我正努力使用BERT获取给定词嵌入的文本表示(或最接近的单词)。基本上,我正在尝试获得与gensim中类似的功能: >>> your_word_vector = array([-0.00449447, -0.00310097, 0.02421786, ...], dtype...

9得票2回答
使用huggingface/transformers(torch)输出bert-base-uncased的注意力机制

我正在关注关于基于BERT的词汇替换的一篇论文(具体来说是尝试实现公式(2),如果有人已经实现了整篇论文那就太好了)。因此,我想获取基本BERT模型(bert-base-uncased)的最后一个隐藏层(唯一不确定的是输出中的层的顺序:最后一个先还是最前面一个先?)和注意力。 然而,我有些...

9得票1回答
BERT分词器和模型下载

我是初学者.. 我正在使用Bert。然而,由于公司网络的安全性,以下代码无法直接接收bert模型。 tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased', do_lower_case=False) m...