13得票2回答
警告:root:一些字符无法解码,已被替换为REPLACEMENT CHARACTER。使用Requests和Beautifulsoup

我几分钟之前还在使用这个网络爬虫代码,但现在我收到了这个编码警告。由于这个请求没有返回 HTML,所以当我搜索 标签的内容时,BeautifulSoup 返回了 None 类型。这里出了什么问题?我试图在 Google 上查找一些关于这个编码问题的信息,但是没能找到明确的答案。import ...

17得票3回答
BeautifulSoup返回意外的额外空格

我正在尝试使用BeautifulSoup从HTML文档中获取一些文本。在我的一个非常相关的案例中,它产生了一个奇怪而有趣的结果:在某个特定点之后,soup中的文本中充满了额外的空格(每个字母之间都有一个空格)。我尝试搜索网络以找到原因,但我只遇到了一些关于相反错误的新闻(根本没有空格)。 您...

17得票1回答
BeautifulSoup提取仅限于顶级标记

我正在使用Python 3.4中的BeautifulSoup进行网页爬取。现在我在学习过程中遇到了一个问题:我尝试从一个网页中获取表格行,我使用find_all()来获取它们,但是在表格内部 - 还有更多表格,其中包含表格行!如何在BeautifulSoup中仅获取标签的顶层/第一层通用或具体...

24得票4回答
在BeautifulSoup中检查属性?

我正在通过遍历某个特定级别的元素并使用nextSibling从HTML中解析一些数据,并根据遇到的每个元素的标签名称和类进行不同的操作。 例如,if n.name == "p" and n.class == "poem": blah() 但是,如果该元素没有类或不是Tag的实例,因此没有名称...

29得票3回答
UnicodeEncodeError: 'ascii'编解码器无法对字符u'\u2026'进行编码

我正在学习urllib2和Beautiful Soup,但在第一次测试时出现了错误,例如: UnicodeEncodeError: 'ascii' codec can't encode character u'\u2026' in position 10: ordinal not in ra...

8得票3回答
使用Beautiful Soup在Python中解析网页

我在获取网站数据方面遇到了一些问题。这是该网站的源代码: view-source:http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO 这是一个类似于以下内容的信息: ...

29得票3回答
Python BeautifulSoup 爬取表格

我正在尝试使用BeautifulSoup创建表格爬取。我编写了以下Python代码:import urllib2 from bs4 import BeautifulSoup url = "http://dofollow.netsons.org/table1.htm" # change to...

7得票4回答
将Web数据传递给Beautiful Soup - 空列表

我重新检查了我的代码并查看了打开URL以将Web数据传递到Beautiful Soup的类似操作,但由于某种原因,尽管它的格式正确,但我的代码却没有返回任何内容: >>> from bs4 import BeautifulSoup >>> from ur...

15得票2回答
禁用特殊的“class”属性处理

故事梗概: 使用BeautifulSoup解析HTML时,class属性被视为多值属性并以特殊方式处理: 请记住,单个标签的“class”属性可以有多个值。 当搜索与某个CSS类匹配的标签时,您正在与其任何CSS类匹配。 此外,以下是一个内置的HTMLTreeBuilder引用,用作...

10得票2回答
Bs4 select_one和find的区别

我在想bs.find('div')和bs.select_one('div')之间有什么区别。同样的,find_all和select也是如此。 在性能方面是否有差异,或者在特定情况下应该使用哪一个更好。