我看到许多关于从字符串中删除HTML标签的问题,但我还是有些不清楚如何处理我的特定情况。
我看到许多帖子建议不要使用正则表达式来处理HTML,但我怀疑我的情况可能需要审慎规避这个规则。
我正在尝试解析PDF文件,我已成功将样本PDF文件的每个页面转换为UTF-32文本字符串。当出现图像时,会插入一个类似HTML的标记,其中包含图像的名称和位置(保存在其他地方)。
在我的应用程序的另一个部分,我需要摆脱这些图像标记。因为我们仅涉及图像标记,所以我认为使用正则表达式可能是合适的。
我的问题有两个:
- 我应该使用正则表达式来删除这些标记,还是仍然使用像BeautifulSoup这样的HTML解析模块?
- 我应该使用哪种正则表达式或BeautifulSoup构造?换句话说,我应该如何编写代码?
为了清晰起见,标记的结构如下:<img src="/path/to/file"/>
谢谢!
<img>
标签? - senderle