我可以通过计算文档中术语的数量轻松获得TF,而我想知道如何计算文档频率,即包含此术语的文档数量。
截至目前为止,我查询Solr并返回大量结果进行计数,但这非常耗时和内存。我只想计算术语。
截至目前为止,我查询Solr并返回大量结果进行计数,但这非常耗时和内存。我只想计算术语。
SolrQuery q = new SolrQuery();
q.setQuery("tweet_text:"+kw);
q.addField("tweet_text");
q.setRows(40000000);
SolrDocumentList results = null ;
try {
QueryResponse rsp = solrServer.query(q);
results = rsp.getResults();
} catch (SolrServerException e) {
e.printStackTrace();
}
ArrayList<String> tweets = new ArrayList<String>();
for (SolrDocument doc : results)
{
tweets.add(doc.getFieldValue("tweet_text").toString());
}