我目前正在尝试使用Python对语言数据进行标记化(tokenize),想知道是否有有效或内置的方法可以将句子字符串分割成单独的单词和分离的标点符号。例如:
'Hello, my name is John. What's your name?'
如果我在这个句子上使用split()
,那么我会得到
['Hello,', 'my', 'name', 'is', 'John.', "What's", 'your', 'name?']
What I want to get is:
['Hello', ',', 'my', 'name', 'is', 'John', '.', "What's", 'your', 'name', '?']
我曾尝试使用查找字符串、找到标点符号、存储它们的索引、从字符串中删除它们,然后拆分字符串,并相应地插入标点符号等方法,但这种方法在处理大型语料库时似乎过于低效。
你知道是否有更有效的方法吗?
谢谢。