如果这是一个简单的问题,我很抱歉,因为我还是很新手,但我已经花了一段时间寻找答案,但没有找到。我有一个看起来像这个可怕混乱的列表:
['Organization name} ', '> (777) 777-7777} ', ' class="lsn-mB6 adr">1 Address, MA 02114 } ', ' class="lsn-serpListRadius lsn-fr">.2 Miles} MORE INFO YOUR LISTING MAP if (typeof(serps) !== \'undefined\') serps.arrArticleIds.push(\'4603114\'); ', 'Other organization} ', '> (555) 555-5555} ', ' class="lsn-mB6 adr">301 Address, MA 02121 } ', ' class="lsn-serpListRadius lsn-fr">.2 Miles} MORE INFO CLAIM YOUR LISTING MAP if (typeof(serps) !== \'undefined\') serps.arrArticleIds.push(\'4715945\'); ', 'Organization} ']
我需要处理一段文本,使得HTML.py可以将其转换为表格。但是由于某些原因,HTML.py无法处理大量元素(例如'class="lsn-serpListRadius lsn-fr">.2 Miles} MORE INFO YOUR LISTING MAP if (typeof(serps) !== \'undefined\') serps.arrArticleIds.push(\'4603114\');'等)。幸运的是,我实际上并不关心这些元素中的信息,想要将它们删除。
我尝试编写一个正则表达式来匹配所有超过两个字母的大写字母单词,以识别这些巨型元素,并获得了以下结果:
re.compile('[^a-z]*[A-Z][^a-z]*\w{3,}')
但是我不知道如何将其应用于从列表中删除包含与该正则表达式匹配的元素。我该怎么做/这是正确的方法吗?