我对Python和Pyspark都是新手,正在练习TF-IDF。
我从txt文件中将所有句子中的单词分割出来,去除了标点符号,去除了停用词列表中的单词,并将它们保存为一个字典,代码片段如下所示。
我有10个不同的txt文件用于同一个过程。我想在字典的键中添加一个字符串,比如"@d1",以便我可以表示该键来自文档1。
我应该如何将"@d1"添加到字典的所有键中?
基本上,我的字典的形式是:
我希望它是这样的:
x = text_file.flatmap(lambda line: str_clean(line).split()
x = x.filter(lambda word: word not in stopwords
x = x.reduceByKey(lambda a,b: a+b)
x = x.collectAsMap()
我有10个不同的txt文件用于同一个过程。我想在字典的键中添加一个字符串,比如"@d1",以便我可以表示该键来自文档1。
我应该如何将"@d1"添加到字典的所有键中?
基本上,我的字典的形式是:
{'word1': 1, 'word2': 1, 'word3': 2, ....}
我希望它是这样的:
{'word1@d1': 1, 'word2@d1': 1, 'word3@d1': 2, ...}