16得票2回答
用户警告:所有训练样本中都存在标签不为:NUMBER:的情况

我正在进行多标签分类,尝试为每个文档预测正确的标签,以下是我的代码: mlb = MultiLabelBinarizer() X = dataframe['body'].values y = mlb.fit_transform(dataframe['tag'].values) class...

15得票2回答
sklearn分类器出现ValueError错误:输入形状不正确。

我有一个csv文件,结构是CAT1,CAT2,TITLE,URL,CONTENT,其中CAT1、CAT2、TITLE和CONTENT均为中文。 我想使用X(TITLE)和feature(CAT1,CAT2)训练LinearSVC或MultinomialNB,但两者都报错了。以下是我的代码: ...

15得票6回答
使用BERT文本分类时,出现“ValueError: too many dimensions 'str'”错误

尝试使用BERT模型对文本情感进行分类,但是遇到了ValueError: too many dimensions 'str'错误。这是训练数据值的DataFrame;因此它们是train_labels。0 notr 1 notr 2 notr 3 negative 4 no...

15得票2回答
如何使用从Word2Vec等获取的单词向量表示作为分类器的特征?

我熟悉使用BOW特征进行文本分类,首先找到语料库的词汇量,并将其作为我们的特征向量大小。然后对于每个句子/文档,以及其中所有单词,我们根据该单词在该句子/文档中的出现情况,分别标记0/1。 但是,现在我正在尝试使用每个单词的向量表示,是否必须创建全局词汇表?

14得票1回答
Scikit learn - 对测试集进行fit_transform

我在使用Python和Scikit learn中的随机森林时遇到了困难。我的问题是,我将其用于文本分类(分为3类-积极/消极/中性),而我提取的特征主要是单词/单元组,因此我需要将这些转换为数值特征。我找到了一种使用DictVectorizer的fit_transform来实现的方法:from...

14得票2回答
由于维度不同,无法在scikit-learn中使用FeatureUnion

我正在尝试使用FeatureUnion从数据结构中提取不同的特征,但由于维度不同而失败:ValueError: blocks[0,:] has incompatible row dimensions 实现 我的FeatureUnion是这样构建的: features = Fea...

13得票2回答
如何将保存在sklearn中的模型转换为TensorFlow/Lite

如果我想使用sklearn库实现分类器,有没有一种方法可以保存模型或将文件转换为保存的tensorflow文件,以便稍后将其转换为tensorflow lite?

13得票4回答
可扩展或在线的多标签分类器(Out-of-Core Multi-Label Classifiers)

在过去的2-3周中,我一直在为这个问题苦苦思索。我的问题是多标签(而不是多类)问题,其中每个样本可以属于几个标签。 我有大约450万个文本文档作为训练数据,以及约100万个文本文档作为测试数据。标签数约为35K。 我正在使用scikit-learn。对于特征提取,我之前使用的是TfidfV...

13得票4回答
使用LSTM和词嵌入防止文本分类中的过拟合

目标: 使用用户输入的问题(如问答系统)识别类别标签。 从大型PDF文件中提取数据,并根据用户输入来预测页码。 主要用于政策文件,用户对政策有疑问并需要显示特定页面编号。 之前的实现: 应用了弹性搜索,但精度非常低,因为用户输入任何文本,如“我需要”=“想要”。 数据集信息:...

12得票3回答
scikit learn为什么混淆矩阵是反转的?

我有3个问题: 1) sklearn的混淆矩阵如下:TN | FP FN | TP 当我查看在线资源时,我发现它像这样:TP | FP FN | TN 我应该考虑哪一个? 2) 由于scikit learn中上述混淆矩阵与我在其他资源中找到的不同,在多类混淆矩阵中,结构会是什么样子?我...