19得票2回答
Sklearn:在CountVectorizer中添加词形还原器

我按照这个Sklearn页面的说明,向我的计数向量化器添加了词形还原功能。 from nltk import word_tokenize from nltk.stem import WordNetLemmatizer class LemmaTokenizer(objec...

17得票3回答
如何在scikit-learn管道中在CountVectorizer之前包含SimpleImputer?

我有一个包含文本列的pandas DataFrame,我想使用scikit-learn的CountVectorizer向量化文本。然而,该文本中包括缺失值,因此我想在向量化之前进行常数值填充。我的初始想法是创建SimpleImputer和CountVectorizer的Pipeline: i...

14得票2回答
使用Scikit-Learn的CountVectorizer将文本语料库中的单词按出现次数排序并列出。

我已经在scikit-learn中为一些文档配备了CountVectorizer。为了选择停用词,我想查看文本语料库中所有术语及其相应的频率。例如:'and' 123 times, 'to' 100 times, 'for' 90 times, ... and so on 是否有内置函数可以做...

11得票2回答
CountVectorizer不会打印词汇表。

我已经安装了Python 2.7、NumPy 1.9.0、SciPy 0.15.1和Scikit-learn 0.15.2。现在,在Python中执行以下操作:train_set = ("The sky is blue.", "The sun is bright.") test_set = (...

10得票2回答
sklearn CountVectorizer 的 partial fit

CountVectorizer支持部分拟合吗? 我想使用不同的数据批次训练CountVectorizer。

10得票1回答
使用CountVectorizer时,针对单个字母的词汇为空。

尝试将字符串转换为数字向量,### Clean the string def names_to_words(names): print('a') words = re.sub("[^a-zA-Z]"," ",names).lower().split() print('b...

9得票1回答
Scala Spark - 在Spark DataFrame中将向量列拆分为单独的列

我有一个Spark DataFrame,其中有一列包含向量值。这些向量值都是n维的,即长度相同。我还有一个列名列表Array("f1", "f2", "f3", ..., "fn"),每个元素对应于向量中的一个元素。 some_columns... | Features ... ...

9得票4回答
将CountVectorizer应用于Python中的行列表单元格

我为文本分析做了一个预处理部分,在去除停用词和词干提取后如下: test[col] = test[col].apply( lambda x: [ps.stem(item) for item in re.findall(r"[\w']+", x) if ps.stem(item) no...

7得票1回答
Pyspark - 多个稀疏向量求和(CountVectorizer 输出)

我有一个数据集,包含约30k个唯一的文档,它们被标记为具有特定关键字。数据集中的一些关键字段是文档标题、文件大小、关键字和摘录(关键字周围50个词)。这约30k个唯一的文档中每个文档都有多个关键字,并且每个文档在数据集中有一行(因此,每个文档有多行)。以下是原始数据集中关键字段的示例: Ra...