我正在从事一个涉及推文中表情符号的NLP项目。
以下是推文示例:
由于我有数十万条推文,因此我正在寻找一种有效的方法来完成这项工作,但我无法确定从哪里开始。
谢谢。
以下是推文示例:
"sometimes i wish i wa an octopus so i could slap 8 people at once"
我的问题是,once
被视为一个单词,因此我想将这个独特的单词拆分成两个,使我的推文看起来像这样:"sometimes i wish i wa an octopus so i could slap 8 people at once "
请注意,我已经有了包含每个表情符号的编译正则表达式!由于我有数十万条推文,因此我正在寻找一种有效的方法来完成这项工作,但我无法确定从哪里开始。
谢谢。
\w
),其中不包括任何表情符号。一旦匹配了“once”,匹配就停止了,因为它无法再匹配到更多的单词字符。所以从那个位置开始,它会搜索下一个匹配项,只是试图找到任何不是空格字符的东西。实际上,如果表情符号不在末尾,这种方法是有缺陷的,我认为,让我再测试一些。 - L3viathan""
解析为" "
! - Thomas Reynaud