我有一个 test.txt 文件,其中包含几行文本,例如:
"h3llo, @my name is, bob! (how are you?)"
"i am fine@@@@@"
我希望将所有的字母数字字符和换行符拆分成一个ArrayList,以便输出结果为:
output = ["h", "llo", "my", "name", "is", "bob", "how", "are", "you", "i", "am", "fine"]
现在,我尝试使用来分割我的文本。
output.split("\\P{Alpha}+")
但是出于某种原因,这似乎会在数组列表的第一个位置添加一个逗号,并将换行符替换为空字符串。
output = ["", "h", "llo", "my", "name", "is", "bob", "how", "are", "you", "", "i", "am", "fine"]
还有其他方法可以修复这个问题吗?谢谢!
--
编辑:如何确保它忽略换行符?
3
视为分隔符,导致结果为["h", "llo", ...]
?你如何区分要从单词中删除的分隔符和字符? - Mark Petersh llo我的名字是bob你好我很好。
- YoungHobbit3
将被视为分隔符。如果你运行"\"h3llo, @my name is, bob! (how are you?)\"\n\n\"i am fine@@@@@\"".split("\\P{Alpha}+");
,它会返回[, h, llo, my, name, is, bob, how, are, you, i, am, fine]
。 - Andrew Mairose