我有一个pandas数据框,我想基于一个文本列进行2-gram频率计算。
text_column
This is a book
This is a book that is read
This is a book but he doesn't think this is a book
最终想要的结果是一个2元组的频率计数,但是这个频率计数是针对每个文档中是否存在2元组进行计算,而不是2元组的数量。
因此部分结果将会是:
2 gram Count
This is 3
a book 3
“这是”和“一本书”在所有三个文本中都出现了,尽管第三个文本有两个,但我只关心这样的2克拉在多少文档中出现过,计数为3,因此不是4。
您有什么想法吗?
谢谢。