我有一个网页爬虫,将论坛问题分成单个词并将其写入文本文件。这些单词存储在一组元组的列表中。每个元组包含单词及其频率。就像这样...
[(u'move', 3), (u'exploration', 4), (u'prediction', 21),
(u'find', 5), (u'user', 2), (u'interface', 2), (u'pleasant', 2),
(u'am', 11), (u'puzzled', 2), (u'find', 5), (u'way', 5),
(u'prediction', 21), (u'mode', 2), (u'have', 21),
(u'explored', 2), (u'file', 9), (u'Can', 7), (u'help', 6),
(u'Possible', 1), (u'bug', 2), (u'data', 31), (u'is', 17)
然而,论坛上一些人使用了字符 \u200b,这破坏了我的代码,因为该字符不再是Unicode空白字符。
(u'used\u200b', 1)
打印不会出现错误,但写入文本文件会出错。我发现 string.strip()
和 string.replace()
都没有用,所以想知道如何使用正则表达式库来去掉那个字符。我计划遍历整个元组列表来找到它。