我有一个文本文件,我将它读入Java应用程序中,并逐行计算其中的单词数量。目前,我是通过一个 来将行分割成单词。
String.split([\\p{Punct}\\s+])"
但我知道我错过了文本文件中的一些单词。例如,单词"can't"应该分成两个单词"can"和"t"。
逗号和其他标点符号应完全忽略并视为空格。我一直在尝试理解如何形成更精确的正则表达式来做到这一点,但我是一个新手,所以需要一些帮助。
有什么更好的正则表达式可以实现我描述的目的吗?