我以前做过这个,使用了Lucene来获取TD*IDF数据。 虽然需要一些调试,但是如果有其他更容易的解决方案,那么请使用它们。 首先看看TermFreqVector和org.apache.lucene.index中的其他类。
Apache Mahout: https://github.com/apache/mahout/blob/master/mr/src/main/java/org/apache/mahout/vectorizer/TFIDF.java 我认为这需要一个Hadoop文件系统,这需要一些额外的工作。但是它的效果非常好。