11得票2回答
BeautifulSoup:如何用一个元素标签替换元素中的值?

假设我有以下这段HTML代码:<p>This text is my <a href="#">text</a><p> 如何将第一个 "text" 替换为锚点元素,以便结果变为:<p>This <a href="#">text...

8得票1回答
Python中使用BeautifulSoup4进行异步HTML解析

我正在编写一个Python网络爬虫脚本。我应该使用asyncio实现这个目标。所以,为了进行异步HTTP请求,我使用了AioHTTP。 这样做还可以,但是当我尝试构建一个非阻塞的应用程序(await)时,beautifulsoup4会阻塞应用程序,因为beautifulsoup4不支持异步。 ...

13得票1回答
加载大型XML文件并处理MemoryError异常

我有一个非常大的XML文件(确切地说是20GB,而且我需要全部内容)。 当我尝试加载文件时,会出现以下错误: Python(23358) malloc: *** mmap(size=140736680968192) failed (error code=12) *** error: can'...

16得票8回答
无法在Python 3.6上安装BeautifulSoup。

我已经无望地花了45分钟尝试运行以下内容: from bs4 import BeautifulSoup 但是一切都没有用。我尝试了以下命令: python -m pip install beautifulsoup4 当它说: Requirement already satisfi...

17得票1回答
如何在BeautifulSoup.BeautifulStoneSoup中维护区分大小写的标签?

我正在编写一个使用BeautifulStoneSoup编辑XML文件的脚本,但是该库会将所有标签转换为小写。是否有选项可以保留大小写?import BeautifulSoup xml = "<TestTag>a string</TestTag>" sou...

10得票1回答
使用Beautiful Soup进行抓取,保留 实体

我希望从网页中抓取一个表格,并保持 实体的完整性,以便稍后能够重新发布为HTML。 然而,BeautifulSoup似乎将它们转换为了空格。 例如:from bs4 import BeautifulSoup html = "<html><body&gt...

16得票3回答
使用Python 2.7解析HTML - HTMLParser、SGMLParser还是Beautiful Soup?

我想用Python 2.7进行一些屏幕抓取,并且我不了解HTMLParser、SGMLParser或Beautiful Soup之间的区别。它们都是为解决同样的问题而存在吗,还是出于不同的原因而存在?哪一个是最简单的,哪一个是最强大的,哪一个(如果有的话)是默认选择?另外,请让我知道是否有任何...

17得票2回答
在元组列表中查找精确匹配的元组并返回其索引

我正在尝试找出如何确定一个元组是否在一个由多个元组组成的列表中有精确匹配,如果有匹配,返回匹配元组的索引位置。例如,如果我有:TupList = [('ABC D','235'),('EFG H','462')] 我希望能够获取任意元组('XXXX','YYYY')并查看它是否在TupList...

12得票8回答
抓取一个动态网站

什么是最好的方法来爬取动态网站,其中大部分内容似乎是通过ajax请求生成的?我之前有使用过Mechanize、BeautifulSoup和Python组合进行爬取,但我可以尝试新的方法。 --编辑-- 更详细地说,我正在尝试爬取CNN primary database。那里有丰富的信息,但似...

8得票3回答
在Mac OSX上安装BeautifulSoup

我尝试了所有方法:如何在Mac上安装Beautiful Soup模块? 从传统方式和使用easy_install都可以正确安装,但当我使用以下命令时: from bs4 import BeautifulSoup 解释器说找不到这个模块。 为了排除此问题,应该首先查看哪些方面?