我几乎在这个主题中(samplebias的答案)找到了这个问题的答案;然而我需要把短语分成单词、数字、标点符号以及空格/制表符。我还需要保留每个元素出现的顺序(那个主题中的代码已经做到了这一点)。
因此,我找到了像这样的东西:
但这是我需要生成的列表类型:
因此,我找到了像这样的东西:
from nltk.tokenize import *
txt = "Today it's 07.May 2011. Or 2.999."
regexp_tokenize(txt, pattern=r'\w+([.,]\w+)*|\S+')
['Today', 'it', "'s", '07.May', '2011', '.', 'Or', '2.999', '.']
但这是我需要生成的列表类型:
['Today', ' ', 'it', "'s", ' ', '\t', '07.May', ' ', '2011', '.', ' ', 'Or', ' ', '2.999', '.']
正则表达式一直是我薄弱的部分,经过几个小时的研究,我仍然摸不着头脑。谢谢!
'07.May'
没有被展开成'07', '.', 'May'
? - Andrew Clark