得票数最多 'text-classification' 问题 - 第4页

关联标签

10得票3回答

为给定文档选择前n个TFIDF特征

我正在使用TFIDF稀疏矩阵进行文档分类，并希望每个文档仅保留前n个（例如50）按TFIDF得分排名的词项。参见下面的编辑。import numpy as np import pandas as pd from sklearn.feature_extraction.text import Tf...

pythonscikit-learnsparse-matrixtext-classificationtf-idf

10得票4回答

使用Spacy、Bert进行文本分类时，是否需要进行停用词去除、词干提取/词形还原？

在使用Spacy、Bert或其他先进的NLP模型获取文本向量嵌入时，停用词去除、词干提取和词形还原是否必要进行文本分类？ text = "婚礼上提供的食物非常美味" 1.由于Spacy、Bert是在大量原始数据集上进行训练的，因此在使用bert/spacy进行文本分类任务之...

nlpspacytext-classificationbert-language-model

10得票3回答

用哪些算法进行单类分类？

我有超过15000个特定主题的文本文件。我想基于这些文件构建语言模型，以便我可以向该模型呈现各种主题的新文本文件，并使算法告诉我新文档是否属于同一主题。我尝试了sklearn.naive_bayes.MultinomialNB, sklearn.svm.classes.LinearSVC以...

scikit-learntext-classification

10得票1回答

如何使用Scikit交叉验证模块将数据（原始文本）分割成测试/训练集？

我有一个包含2500个原始文本的大语料库，希望使用scikit-learn库将它们分成测试集和训练集。在使用tf-idf表示时，如何使用scikit-learn库解决这个问题？是否可以提供分割原始文本为测试集和训练集的示例？

machine-learningscikit-learnclassificationcross-validationtext-classification

10得票3回答

应对多标签分类中的类别不平衡问题

我看到了一些关于多类别不平衡的问题。但是，我面临的是一个多标签问题，那么在这种情况下，你该如何处理呢？我有大约300k个文本示例。正如标题中提到的那样，每个示例至少有一个标签，而仅有100个可能的唯一标签。通过利用命名空间，例如：从： healthy fruit | bananas ...

machine-learningclassificationtext-classificationvowpalwabbit

10得票3回答

超越关键词依赖的文本分类和推断实际含义。

我正在尝试开发一个文本分类器，将一篇文章归类为私密或公开。以医疗或健康信息为例，我所能想到的典型分类器会将关键词作为主要区分因素，对吧？但像下面这种情况怎么办呢？如果两个文本都包含相似的关键词但具有不同的含义呢。以下文字揭示了某人的私人（健康）状况（患者患有癌症）：我曾经去过两家诊所和我的...

pythontext-classificationnlp

9得票2回答

如何在bertopic建模中按主题获取所有文档

我有一个数据集，正在尝试使用berTopic建模将其转换为主题，但问题是，我无法获取主题的全部文档。 berTopic每个主题只返回3个文档。 topic_model = BERTopic(verbose=True, embedding_model=embedding_model, ...

nlptext-classificationbert-language-modeltopic-modeling

9得票1回答

如何在sklearn的Pipeline中使用线性SVC模型来运用SHAP？

我正在使用sklearn中的线性SVC模型进行文本分类。现在我想通过使用SHAP(https://github.com/slundberg/shap)来可视化哪些单词/标记对分类决策产生最大影响。目前，这种方法无法实现，因为我遇到了一个错误，似乎是由我定义的管道中的向量化步骤引起的 - 这...

scikit-learnpipelinetext-classificationsvcshap

9得票1回答

为什么在序列分类中（DistilBertForSequenceClassification），要选择第一个隐藏状态？

在HuggingFace进行序列分类的最后几层中，他们采用了变压器输出序列长度的第一个隐藏状态用于分类。 hidden_state = distilbert_output[0] # (bs, seq_len, dim) <-- transformer output pooled_ou...

time-seriessequencetensorflow2.0text-classificationhuggingface-transformers

8得票2回答

在特定文件上测试NLTK分类器

以下代码运行朴素贝叶斯电影评论分类器。该代码生成最具信息量的特征列表。注意：**电影评论**文件夹位于nltk中。 from itertools import chain from nltk.corpus import stopwords from nltk.probability im...

python-2.7nlpclassificationnltktext-classification