得票数最多 'countvectorizer' 问题

关联标签

19得票2回答

Sklearn：在CountVectorizer中添加词形还原器

我按照这个Sklearn页面的说明，向我的计数向量化器添加了词形还原功能。 from nltk import word_tokenize from nltk.stem import WordNetLemmatizer class LemmaTokenizer(objec...

pythonscikit-learnlemmatizationcountvectorizer

17得票3回答

如何在scikit-learn管道中在CountVectorizer之前包含SimpleImputer？

我有一个包含文本列的pandas DataFrame，我想使用scikit-learn的CountVectorizer向量化文本。然而，该文本中包括缺失值，因此我想在向量化之前进行常数值填充。我的初始想法是创建SimpleImputer和CountVectorizer的Pipeline： i...

pythonmachine-learningscikit-learnimputationcountvectorizer

14得票2回答

使用Scikit-Learn的CountVectorizer将文本语料库中的单词按出现次数排序并列出。

我已经在scikit-learn中为一些文档配备了CountVectorizer。为了选择停用词，我想查看文本语料库中所有术语及其相应的频率。例如：'and' 123 times, 'to' 100 times, 'for' 90 times, ... and so on 是否有内置函数可以做...

pythonmachine-learningscikit-learntext-extractioncountvectorizer

11得票2回答

CountVectorizer不会打印词汇表。

我已经安装了Python 2.7、NumPy 1.9.0、SciPy 0.15.1和Scikit-learn 0.15.2。现在，在Python中执行以下操作：train_set = ("The sky is blue.", "The sun is bright.") test_set = (...

pythonnumpyscikit-learnscipycountvectorizer

10得票2回答

sklearn CountVectorizer 的 partial fit

CountVectorizer支持部分拟合吗？我想使用不同的数据批次训练CountVectorizer。

scikit-learncountvectorizer

10得票1回答

使用CountVectorizer时，针对单个字母的词汇为空。

尝试将字符串转换为数字向量，### Clean the string def names_to_words(names): print('a') words = re.sub("[^a-zA-Z]"," ",names).lower().split() print('b...

pythonnlpvectorizationfeature-extractioncountvectorizer

9得票1回答

Scala Spark - 在Spark DataFrame中将向量列拆分为单独的列

我有一个Spark DataFrame，其中有一列包含向量值。这些向量值都是n维的，即长度相同。我还有一个列名列表Array("f1", "f2", "f3", ..., "fn")，每个元素对应于向量中的一个元素。 some_columns... | Features ... ...

scalaapache-sparkdataframecountvectorizer

9得票4回答

将CountVectorizer应用于Python中的行列表单元格

我为文本分析做了一个预处理部分，在去除停用词和词干提取后如下： test[col] = test[col].apply( lambda x: [ps.stem(item) for item in re.findall(r"[\w']+", x) if ps.stem(item) no...

pythonsparse-matrixcpu-wordcountvectorizerbag

7得票1回答

Pyspark - 多个稀疏向量求和（CountVectorizer 输出）

我有一个数据集，包含约30k个唯一的文档，它们被标记为具有特定关键字。数据集中的一些关键字段是文档标题、文件大小、关键字和摘录（关键字周围50个词）。这约30k个唯一的文档中每个文档都有多个关键字，并且每个文档在数据集中有一行（因此，每个文档有多行）。以下是原始数据集中关键字段的示例： Ra...

pythonapache-sparkpysparktf-idfcountvectorizer