得票数最多 'text-classification' 问题 - 第2页

关联标签

16得票2回答

用户警告：所有训练样本中都存在标签不为:NUMBER:的情况

我正在进行多标签分类，尝试为每个文档预测正确的标签，以下是我的代码： mlb = MultiLabelBinarizer() X = dataframe['body'].values y = mlb.fit_transform(dataframe['tag'].values) class...

pythonscikit-learnclassificationtext-classificationmultilabel-classification

15得票2回答

sklearn分类器出现ValueError错误：输入形状不正确。

我有一个csv文件，结构是CAT1,CAT2,TITLE,URL,CONTENT，其中CAT1、CAT2、TITLE和CONTENT均为中文。我想使用X(TITLE)和feature(CAT1,CAT2)训练LinearSVC或MultinomialNB，但两者都报错了。以下是我的代码： ...

pythonscikit-learnclassificationtext-classification

15得票6回答

使用BERT文本分类时，出现“ValueError: too many dimensions 'str'”错误

尝试使用BERT模型对文本情感进行分类，但是遇到了ValueError: too many dimensions 'str'错误。这是训练数据值的DataFrame；因此它们是train_labels。0 notr 1 notr 2 notr 3 negative 4 no...

pythontensortext-classificationbert-language-modelmlp

15得票2回答

如何使用从Word2Vec等获取的单词向量表示作为分类器的特征？

我熟悉使用BOW特征进行文本分类，首先找到语料库的词汇量，并将其作为我们的特征向量大小。然后对于每个句子/文档，以及其中所有单词，我们根据该单词在该句子/文档中的出现情况，分别标记0/1。但是，现在我正在尝试使用每个单词的向量表示，是否必须创建全局词汇表？

textvectornlptext-classificationword2vec

14得票1回答

Scikit learn - 对测试集进行fit_transform

我在使用Python和Scikit learn中的随机森林时遇到了困难。我的问题是，我将其用于文本分类（分为3类-积极/消极/中性），而我提取的特征主要是单词/单元组，因此我需要将这些转换为数值特征。我找到了一种使用DictVectorizer的fit_transform来实现的方法：from...

machine-learningclassificationscikit-learnrandom-foresttext-classification

14得票2回答

由于维度不同，无法在scikit-learn中使用FeatureUnion

我正在尝试使用FeatureUnion从数据结构中提取不同的特征，但由于维度不同而失败：ValueError: blocks[0,:] has incompatible row dimensions 实现我的FeatureUnion是这样构建的： features = Fea...

pythonscikit-learnclassificationtext-classification

13得票2回答

如何将保存在sklearn中的模型转换为TensorFlow/Lite

如果我想使用sklearn库实现分类器，有没有一种方法可以保存模型或将文件转换为保存的tensorflow文件，以便稍后将其转换为tensorflow lite？

tensorflowmachine-learningscikit-learntext-classificationtensorflow-lite

13得票4回答

可扩展或在线的多标签分类器（Out-of-Core Multi-Label Classifiers）

在过去的2-3周中，我一直在为这个问题苦苦思索。我的问题是多标签（而不是多类）问题，其中每个样本可以属于几个标签。我有大约450万个文本文档作为训练数据，以及约100万个文本文档作为测试数据。标签数约为35K。我正在使用scikit-learn。对于特征提取，我之前使用的是TfidfV...

machine-learningclassificationscikit-learndocument-classificationtext-classification

13得票4回答

使用LSTM和词嵌入防止文本分类中的过拟合

目标：使用用户输入的问题（如问答系统）识别类别标签。从大型PDF文件中提取数据，并根据用户输入来预测页码。主要用于政策文件，用户对政策有疑问并需要显示特定页面编号。之前的实现：应用了弹性搜索，但精度非常低，因为用户输入任何文本，如“我需要”=“想要”。数据集信息：...

tensorflowkeraslstmtext-classificationword-embedding

12得票3回答

scikit learn为什么混淆矩阵是反转的？

我有3个问题： 1) sklearn的混淆矩阵如下：TN | FP FN | TP 当我查看在线资源时，我发现它像这样：TP | FP FN | TN 我应该考虑哪一个？ 2）由于scikit learn中上述混淆矩阵与我在其他资源中找到的不同，在多类混淆矩阵中，结构会是什么样子？我...

scikit-learntext-classificationconfusion-matrixperformance-measuring