158得票3回答
如何绘制混淆矩阵?

我正在使用scikit-learn对22000个文本文档进行100类别的分类。我使用了scikit-learn的混淆矩阵方法来计算混淆矩阵。model1 = LogisticRegression() model1 = model1.fit(matrix, labels) pred = mode...

87得票10回答
如何使用Bert进行长文本分类?

我们知道BERT的令牌最大长度限制为512,因此如果一篇文章的长度超过了512个令牌,比如文本中有10000个令牌,那么如何使用BERT呢?

42得票4回答
多类别分类中的ROC

我正在进行不同的文本分类实验。现在,我需要为每个任务计算AUC-ROC。对于二元分类,我已经使用以下代码使其工作:scaler = StandardScaler(with_mean=False) enc = LabelEncoder() y = enc.fit_transform(label...

35得票2回答
使用TensorFlow进行多标签文本分类

文本数据被组织成具有 20,000 个元素的向量,如 [2, 1, 0, 0, 5, ...., 0]。第 i 个元素表示文本中第 i 个单词的频率。 基准真实标签数据也表示为具有 4,000 个元素的向量,如 [0, 0, 1, 0, 1, ...., 0]。第 i 个元素表示该文本的第 ...

32得票3回答
使用Scikit-learn计算信息增益

我正在使用Scikit-learn进行文本分类。我想计算每个属性相对于稀疏文档术语矩阵中的类的信息增益。 信息增益被定义为H(Class) - H(Class | Attribute),其中H是熵。 在Weka中,可以使用InfoGainAttribute来计算这个值。 但是我没有在Scik...

29得票3回答
在sklearn的TfidfVectorizer中添加停用词列表中的单词

我想在TfidfVectorizer中添加一些停用词。我按照此解决方案,将我的停用词列表中包含了英文的停用词和我指定的停用词。但是TfidfVectorizer仍然不接受我的停用词列表,我仍然可以在我的特征列表中看到那些词语。以下是我的代码:from sklearn.feature_extra...

21得票2回答
如何将文本长度作为另一个特征添加到当前词袋分类中?Scikit-learn

我正在使用词袋模型来对文本进行分类。目前效果不错,但我想知道如何添加一个非单词的特征。 以下是我的示例代码。import numpy as np from sklearn.pipeline import Pipeline from sklearn.feature_extraction.tex...

18得票4回答
CountVectorizer:属性错误:'numpy.ndarray'对象没有'lower'属性

我有一个一维数组,其中每个元素都是很长的字符串。我正在尝试使用CountVectorizer将文本数据转换为数值向量。但是,我遇到了一个错误:AttributeError: 'numpy.ndarray' object has no attribute 'lower' mealarray 包含...

18得票2回答
AutoModelForSequenceClassification 和 AutoModel 有哪些不同?

我们可以使用AutoModel(TFAutoModel)函数创建一个模型: from transformers import AutoModel model = AutoModel.from_pretrained('distilbert-base-uncase') 换句话说,模型是通过...

17得票3回答
朴素贝叶斯:不平衡的测试数据集

我正在使用scikit-learn多项式朴素贝叶斯分类器进行二元文本分类(分类器告诉我文档是否属于类别X)。我使用一个平衡的数据集来训练我的模型,并使用一个平衡的测试集进行测试,结果非常有前途。 这个分类器需要实时运行并不断随机分析文档。 然而,当我在生产环境中运行我的分类器时,误报率非常...