最新 'beautifulsoup' 问题

标签列表

关联标签

11得票2回答

BeautifulSoup：如何用一个元素标签替换元素中的值？

假设我有以下这段HTML代码:<p>This text is my <a href="#">text</a><p> 如何将第一个 "text" 替换为锚点元素，以便结果变为：<p>This <a href="#">text...

pythonbeautifulsoup

8得票1回答

Python中使用BeautifulSoup4进行异步HTML解析

我正在编写一个Python网络爬虫脚本。我应该使用asyncio实现这个目标。所以，为了进行异步HTTP请求，我使用了AioHTTP。这样做还可以，但是当我尝试构建一个非阻塞的应用程序（await）时，beautifulsoup4会阻塞应用程序，因为beautifulsoup4不支持异步。 ...

pythonasynchronousbeautifulsoup

13得票1回答

加载大型XML文件并处理MemoryError异常

我有一个非常大的XML文件（确切地说是20GB，而且我需要全部内容）。当我尝试加载文件时，会出现以下错误： Python(23358) malloc: *** mmap(size=140736680968192) failed (error code=12) *** error: can'...

pythonxmlbeautifulsoupmediawiki

16得票8回答

无法在Python 3.6上安装BeautifulSoup。

我已经无望地花了45分钟尝试运行以下内容： from bs4 import BeautifulSoup 但是一切都没有用。我尝试了以下命令： python -m pip install beautifulsoup4 当它说： Requirement already satisfi...

pythonbeautifulsoup

17得票1回答

如何在BeautifulSoup.BeautifulStoneSoup中维护区分大小写的标签？

我正在编写一个使用BeautifulStoneSoup编辑XML文件的脚本，但是该库会将所有标签转换为小写。是否有选项可以保留大小写？import BeautifulSoup xml = "<TestTag>a string</TestTag>" sou...

pythonxmlbeautifulsoup

10得票1回答

使用Beautiful Soup进行抓取，保留 实体

我希望从网页中抓取一个表格，并保持&nbsp;实体的完整性，以便稍后能够重新发布为HTML。然而，BeautifulSoup似乎将它们转换为了空格。例如：from bs4 import BeautifulSoup html = "<html><body&gt...

pythonweb-scrapingbeautifulsouphtml-parsinghtml-entities

16得票3回答

使用Python 2.7解析HTML - HTMLParser、SGMLParser还是Beautiful Soup？

我想用Python 2.7进行一些屏幕抓取，并且我不了解HTMLParser、SGMLParser或Beautiful Soup之间的区别。它们都是为解决同样的问题而存在吗，还是出于不同的原因而存在？哪一个是最简单的，哪一个是最强大的，哪一个（如果有的话）是默认选择？另外，请让我知道是否有任何...

pythonhtmlparsingbeautifulsouphtml-parsing

17得票2回答

在元组列表中查找精确匹配的元组并返回其索引

我正在尝试找出如何确定一个元组是否在一个由多个元组组成的列表中有精确匹配，如果有匹配，返回匹配元组的索引位置。例如，如果我有：TupList = [('ABC D','235'),('EFG H','462')] 我希望能够获取任意元组('XXXX','YYYY')并查看它是否在TupList...

pythonpython-2.7beautifulsoup

12得票8回答