我有一批文本语料,正在使用正则表达式对其进行解析以查找最常见的单词。目前我正在使用
.match(/(?!'.*')\b\[\w'\]+\b/g)
。我的问题是,\w
无法匹配非字母数字字符,所以我的表情符号永远不会被解析。具体而言,我正在尝试制作一个可以识别单词(包括缩写)和表情符号,并在单词边界上分离它们的正则表达式。
例如,我想输入 "Hey there! , let's go to the moon "
并获得以下结果:
Array( "Hey", "there", "", "let's", "go", "to", "the", "moon", "", "")
\b[\w']+\b|[\u2B00-\uDBFF\uDC00-\uDFFF]
这样将单词与表情符号模式结合起来,但我不确定表情符号模式(: - bobble bubble/\w+(?:'\w+)|<emoji_regex>/g
,或者你想跳过单引号内的任何子字符串吗?此外,如果您计划正确匹配所有Emoji 11.0 Unicode符号,则需要此模式。 - Wiktor Stribiżew