我正在尝试将字符串分词成ngrams。奇怪的是,在NGramTokenizer的文档中,我没有看到一个返回被分词的单个ngram的方法。实际上,在NGramTokenizer类中,我只看到两种返回字符串对象的方法。
这里是我的代码:
Reader reader = new StringReader("This is a test string");
NGramTokenizer gramTokenizer = new NGramTokenizer(reader, 1, 3);
- 哪里可以找到被分词的ngrams?
- 如何将输出转换成字符串/单词?
我希望我的输出是这样的:This, is, a, test, string, This is, is a, a test, test string, This is a, is a test, a test string。
abc xyz mno
,我想要的是abc xyz
而不是abc xyz
。 - Arun Gowda