在进行网络爬虫并且去除所有HTML标签后,我得到了Unicode编码的黑色电话字符\u260e(☎)。但与这个回答不同,我也想把它去掉。
我在Scrapy中使用以下正则表达式来消除HTML标签:
pattern = re.compile("<.*?>| |&",re.DOTALL|re.M)
接着我尝试匹配\u260e,但似乎被“反斜杠瘟疫”(the backslash plague)所困扰。我尝试了以下模式,但均未成功:
pattern = re.compile("<.*?>| |&|\u260e",re.DOTALL|re.M)
pattern = re.compile("<.*?>| |&|\\u260e",re.DOTALL|re.M)
pattern = re.compile("<.*?>| |&|\\\\u260e",re.DOTALL|re.M)
所有这些尝试都没有起作用,我仍然以\u260e作为输出结果。如何使其消失?