得票数最多 'text-classification' 问题

关联标签

158得票3回答

如何绘制混淆矩阵？

我正在使用scikit-learn对22000个文本文档进行100类别的分类。我使用了scikit-learn的混淆矩阵方法来计算混淆矩阵。model1 = LogisticRegression() model1 = model1.fit(matrix, labels) pred = mode...

pythonmatplotlibmatrixscikit-learntext-classification

87得票10回答

如何使用Bert进行长文本分类？

我们知道BERT的令牌最大长度限制为512，因此如果一篇文章的长度超过了512个令牌，比如文本中有10000个令牌，那么如何使用BERT呢？

nlptext-classificationbert-language-model

42得票4回答

多类别分类中的ROC

我正在进行不同的文本分类实验。现在，我需要为每个任务计算AUC-ROC。对于二元分类，我已经使用以下代码使其工作：scaler = StandardScaler(with_mean=False) enc = LabelEncoder() y = enc.fit_transform(label...

pythonscikit-learntext-classificationrocmulticlass-classification

35得票2回答

使用TensorFlow进行多标签文本分类

文本数据被组织成具有 20,000 个元素的向量，如 [2, 1, 0, 0, 5, ...., 0]。第 i 个元素表示文本中第 i 个单词的频率。基准真实标签数据也表示为具有 4,000 个元素的向量，如 [0, 0, 1, 0, 1, ...., 0]。第 i 个元素表示该文本的第 ...

pythontensorflowtext-classificationmultilabel-classification

32得票3回答

使用Scikit-learn计算信息增益

我正在使用Scikit-learn进行文本分类。我想计算每个属性相对于稀疏文档术语矩阵中的类的信息增益。信息增益被定义为H（Class） - H（Class | Attribute），其中H是熵。在Weka中，可以使用InfoGainAttribute来计算这个值。但是我没有在Scik...

pythonmachine-learningscikit-learntext-classificationfeature-selection

29得票3回答

在sklearn的TfidfVectorizer中添加停用词列表中的单词

我想在TfidfVectorizer中添加一些停用词。我按照此解决方案，将我的停用词列表中包含了英文的停用词和我指定的停用词。但是TfidfVectorizer仍然不接受我的停用词列表，我仍然可以在我的特征列表中看到那些词语。以下是我的代码：from sklearn.feature_extra...

pythonscikit-learnclassificationstop-wordstext-classification

21得票2回答

如何将文本长度作为另一个特征添加到当前词袋分类中？Scikit-learn

我正在使用词袋模型来对文本进行分类。目前效果不错，但我想知道如何添加一个非单词的特征。以下是我的示例代码。import numpy as np from sklearn.pipeline import Pipeline from sklearn.feature_extraction.tex...

pythonmachine-learningscikit-learnclassificationtext-classification

18得票4回答

CountVectorizer：属性错误：'numpy.ndarray'对象没有'lower'属性

我有一个一维数组，其中每个元素都是很长的字符串。我正在尝试使用CountVectorizer将文本数据转换为数值向量。但是，我遇到了一个错误：AttributeError: 'numpy.ndarray' object has no attribute 'lower' mealarray 包含...

pythonnumpyscikit-learntext-classification

18得票2回答

AutoModelForSequenceClassification 和 AutoModel 有哪些不同？

我们可以使用AutoModel（TFAutoModel）函数创建一个模型： from transformers import AutoModel model = AutoModel.from_pretrained('distilbert-base-uncase') 换句话说，模型是通过...

nlptext-classificationhuggingface-transformers

17得票3回答

朴素贝叶斯：不平衡的测试数据集

我正在使用scikit-learn多项式朴素贝叶斯分类器进行二元文本分类（分类器告诉我文档是否属于类别X）。我使用一个平衡的数据集来训练我的模型，并使用一个平衡的测试集进行测试，结果非常有前途。这个分类器需要实时运行并不断随机分析文档。然而，当我在生产环境中运行我的分类器时，误报率非常...

pythonmachine-learningclassificationscikit-learntext-classification