我们正在寻找一个正则表达式,可以将句子分成单词。当然,最直接的答案是使用
所以,理想情况下,我应该使用什么正则表达式来将以下句子拆分为以下单词:
\w
,但它不能在我们需要的_
上进行拆分。
然后,我们尝试了[a-zA-Z0-9]
(我们希望允许单词中包含数字),但问题是它会在重音符号处进行拆分,而在许多语言中这种情况非常普遍...所以,理想情况下,我应该使用什么正则表达式来将以下句子拆分为以下单词:
"Je ne déguste pas d'asperges, car je n'aime pas ça"
信息
["Je","ne","déguste","pas","d", "asperges", "car","je", "n","aime","pas", "ça"]