10得票3回答
为给定文档选择前n个TFIDF特征

我正在使用TFIDF稀疏矩阵进行文档分类,并希望每个文档仅保留前n个(例如50)按TFIDF得分排名的词项。参见下面的编辑。import numpy as np import pandas as pd from sklearn.feature_extraction.text import Tf...

10得票4回答
使用Spacy、Bert进行文本分类时,是否需要进行停用词去除、词干提取/词形还原?

在使用Spacy、Bert或其他先进的NLP模型获取文本向量嵌入时,停用词去除、词干提取和词形还原是否必要进行文本分类? text = "婚礼上提供的食物非常美味" 1.由于Spacy、Bert是在大量原始数据集上进行训练的,因此在使用bert/spacy进行文本分类任务之...

10得票3回答
用哪些算法进行单类分类?

我有超过15000个特定主题的文本文件。我想基于这些文件构建语言模型,以便我可以向该模型呈现各种主题的新文本文件,并使算法告诉我新文档是否属于同一主题。 我尝试了sklearn.naive_bayes.MultinomialNB, sklearn.svm.classes.LinearSVC以...

10得票1回答
如何使用Scikit交叉验证模块将数据(原始文本)分割成测试/训练集?

我有一个包含2500个原始文本的大语料库,希望使用scikit-learn库将它们分成测试集和训练集。在使用tf-idf表示时,如何使用scikit-learn库解决这个问题?是否可以提供分割原始文本为测试集和训练集的示例?

10得票3回答
应对多标签分类中的类别不平衡问题

我看到了一些关于多类别不平衡的问题。但是,我面临的是一个多标签问题,那么在这种情况下,你该如何处理呢? 我有大约300k个文本示例。正如标题中提到的那样,每个示例至少有一个标签,而仅有100个可能的唯一标签。通过利用命名空间,例如: 从: healthy fruit | bananas ...

10得票3回答
超越关键词依赖的文本分类和推断实际含义。

我正在尝试开发一个文本分类器,将一篇文章归类为私密或公开。以医疗或健康信息为例,我所能想到的典型分类器会将关键词作为主要区分因素,对吧?但像下面这种情况怎么办呢?如果两个文本都包含相似的关键词但具有不同的含义呢。 以下文字揭示了某人的私人(健康)状况(患者患有癌症):我曾经去过两家诊所和我的...

9得票2回答
如何在bertopic建模中按主题获取所有文档

我有一个数据集,正在尝试使用berTopic建模将其转换为主题,但问题是,我无法获取主题的全部文档。 berTopic每个主题只返回3个文档。 topic_model = BERTopic(verbose=True, embedding_model=embedding_model, ...

9得票1回答
如何在sklearn的Pipeline中使用线性SVC模型来运用SHAP?

我正在使用sklearn中的线性SVC模型进行文本分类。现在我想通过使用SHAP(https://github.com/slundberg/shap)来可视化哪些单词/标记对分类决策产生最大影响。 目前,这种方法无法实现,因为我遇到了一个错误,似乎是由我定义的管道中的向量化步骤引起的 - 这...

9得票1回答
为什么在序列分类中(DistilBertForSequenceClassification),要选择第一个隐藏状态?

在HuggingFace进行序列分类的最后几层中,他们采用了变压器输出序列长度的第一个隐藏状态用于分类。 hidden_state = distilbert_output[0] # (bs, seq_len, dim) <-- transformer output pooled_ou...

8得票2回答
在特定文件上测试NLTK分类器

以下代码运行朴素贝叶斯电影评论分类器。该代码生成最具信息量的特征列表。 注意:**电影评论**文件夹位于nltk中。 from itertools import chain from nltk.corpus import stopwords from nltk.probability im...