我正在寻找一个正则表达式,用于提取仅包含字母数字字符的单词:
这可以通过对字符串进行分词,并使用以下正则表达式逐个评估每个标记来完成:
由于性能问题,我希望能够提取包含字母和数字的令牌,而不需要对整个字符串进行标记化处理。我找到的最接近的方法是:
string = 'This is a $dollar sign !!'
matches = re.findall(regex, string)
matches = ['This', 'is', 'sign']
这可以通过对字符串进行分词,并使用以下正则表达式逐个评估每个标记来完成:
^[a-zA-Z0-9]+$
由于性能问题,我希望能够提取包含字母和数字的令牌,而不需要对整个字符串进行标记化处理。我找到的最接近的方法是:
regex = \b[a-zA-Z0-9]+\b
但它仍然提取包含字母数字字符的子字符串:
string = 'This is a $dollar sign !!'
matches = re.findall(regex, string)
matches = ['This', 'is', 'dollar', 'sign']
有没有一个正则表达式可以做到这一点?我尝试过不同的方式,但是无法得出解决方案。
\b
,因为在$
和dollar
之间存在一个单词边界。 - kindall