我正在开发一个项目,需要分析一篇文本和多个文本集合以确定主要单词。我想知道是否有一个库(最好是c#或java),可以为我处理重活。如果没有,是否有算法或多个算法可以实现我的以下目标。
我想做的与从网址或rss提要构建的单词云类似,但我不需要可视化效果。它们经常用于分析总统候选人的演讲,以查看主题或最常用的单词。
问题在于,我需要在数千个短文档上进行此操作,然后是这些文档的集合或类别。
我的初始计划是解析该文档,然后过滤掉常见的单词- of、the、he、she等。然后计算剩余单词在文本中(以及整个集合/类别)出现的次数。
问题在于,在未来,我想处理词干、复数形式等。我还想知道是否有办法识别重要短语。 (不是单词的计数,而是2-3个单词组合的计数)
如有帮助的策略、库或算法,请指导。