我正在使用
原始的正则表达式是
如果我正确理解了正则表达式,它应该匹配任意数量的字母字符,或者在一个“数字”前后有单词字符的情况下匹配,“数字”。但实际上,它将我的“单词”拆分成了单独的标记。我正在处理的示例单词是A1X。如有帮助,请指教。
Text::Ngrams
来确定字符串中的单词组合。但是,我需要保留其中包含数字的单词。我已经确定$o->{tokenrex}
需要进行修改,但是我无法确定正确的正则表达式。原始的正则表达式是
qr/([a-zA-Z]+|(\d+(\.\d+)?|\d*\.\d+)([eE][-+]?\d+)?)/;
,但我认为我需要更接近这样的东西: qr/([a-zA-Z]+|(?<=\w)(\d+(\.\d+)?|\d*\.\d+)([eE][-+]?\d+)?(?=\w)|(\d+(\.\d+)?|\d*\.\d+)([eE][-+]?\d+)?)/;
如果我正确理解了正则表达式,它应该匹配任意数量的字母字符,或者在一个“数字”前后有单词字符的情况下匹配,“数字”。但实际上,它将我的“单词”拆分成了单独的标记。我正在处理的示例单词是A1X。如有帮助,请指教。
x
正则表达式修饰符,它允许您在正则表达式中使用空格(空格、制表符、换行符)进行格式化。 - Eric Strom