在使用Python 2.7爬取某些文档时,我遇到了一些令人烦恼的页面分隔符,决定将其删除。这些分隔符使用了一些奇怪的字符。我已经在此 提问 如何使这些字符显示其utf-8代码。有两个非ASCII字符:
'\xc2\xad'
和 '\x0c'
。现在,我只需要删除这些字符,以及一些空格和页码。
StackOverflow上,我看到有人将Unicode字符与正则表达式一起使用,但它们的格式很奇怪,我没有这些字符,例如'\u00ab'
。此外,没有人同时使用ASCII和非ASCII字符。最后,Python文档关于正则表达式中的Unicode内容很少...关于标志的内容...我不知道。有人能帮忙吗?
这是我的当前用法,它不能实现我想要的功能:
re.sub('\\xc2\\xad\s\d+\s\\xc2\\xad\s\\x0c', '', my_str)
my_str = my_str.decode('utf-8')
将我的字符串转换为Unicode。问题只是出在我的正则表达式上吗?如果你的意思是这样,我可以匹配确切的Unicode转义字符。但是,既然我要切换到全转义正则表达式,那么中间的数字应该变成什么呢?还是'\d'吗? - Brian Peterson