得票数最多 'beautifulsoup' 问题 - 第4页

关联标签

80得票3回答

使用Python和BeautifulSoup（将网页源代码保存到本地文件中）

我正在使用Python 2.7 + BeautifulSoup 4.3.2。我试图使用Python和BeautifulSoup从网页上获取信息。由于该网页位于公司网站上，需要登录并重定向，因此我将目标页面的源代码复制到文件中，并将其保存为“example.html”，以便练习，放在C:\中。这...

pythonbeautifulsoup

78得票8回答

BeautifulSoup内部HTML是什么？

假设我有一个包含的页面，我可以使用soup.find()轻松获取该div。现在，我想要打印该的全部innerhtml：也就是说，我需要一个字符串，其中包含所有的HTML标签和文本，就像在JavaScript中使用obj.innerHTML获取的字符串一样。这是否可能？

pythonhtmlbeautifulsoupinnerhtml

78得票4回答

使用BeautifulSoup搜索HTML中的字符串

我正在使用BeautifulSoup在特定页面上查找用户输入的字符串。例如，我想查看页面上是否有字符串“Python”：http://python.org 当我使用以下代码： find_string = soup.body.findAll(text='Python')， find_strin...

pythonbeautifulsoup

77得票3回答

从<p>标签中获取BeautifulSoup的文本，不选择后续段落

首先，我对Python一窍不通。但是，我已经编写了一段代码来查看RSS源，打开链接并从文章中提取文本。以下是我的代码：from BeautifulSoup import BeautifulSoup import feedparser import urllib # Dictionaries ...

pythonpython-2.7beautifulsoup

76得票1回答

BeautifulSoup: .find()和.select()方法的区别

当你使用BeautifulSoup去爬取网站的某个部分时，你可以使用以下方法： soup.find() 和 soup.findAll() soup.select() .find() 和 .select() 方法有什么区别吗？（例如性能或灵活性等），还是它们相同？

pythonpython-3.xbeautifulsoup

75得票4回答

如何消除BeautifulSoup用户警告？

在我安装了BeautifulSoup之后，每当我从命令行运行Python时，就会出现以下警告： D:\Application\python\lib\site-packages\beautifulsoup4-4.4.1-py3.4.egg\bs4\__init__.py:166: UserWa...

pythonbeautifulsoup

74得票3回答

Python BeautifulSoup给findAll方法传递多个标签参数

我正在寻找一种方法使用findAll获取两个标签，按它们在页面上出现的顺序排列。目前我有：import requests import BeautifulSoup def get_soup(url): request = requests.get(url) page = r...

pythonbeautifulsoup

74得票6回答

我该用什么来打开一个URL，而不是使用urllib3中的urlopen？

我想写一个像以下代码一样的程序：from bs4 import BeautifulSoup import urllib2 url = 'http://www.thefamouspeople.com/singers.php' html = urllib2.urlopen(url) soup =...

pythonweb-scrapingbeautifulsoupurllib3

73得票3回答

使用BeautifulSoup查找包含特定文本的HTML标签

我试图获取包含以下文本模式的HTML元素：#\S{11}<h2> this is cool #12345678901 </h2> 所以，使用以下内容可以匹配之前的内容：soup('h2',text=re.compile(r' #\S{11}')) 结果可能类似于：[u'...

pythonregexbeautifulsouphtml-content-extraction

71得票2回答

UnicodeEncodeError: 'ascii'编解码器无法对特殊名称的字符进行编码。

我的Python脚本（版本2.7）可以顺利从本地HTML文件中获取一些公司名称，但是当涉及到某些特定的国家名称时，它会出现错误：“UnicodeEncodeError：'ascii' codec无法编码字符” 尤其是在出现这个公司名称时出错公司名称：Kühlfix Kälteanlage...

pythonunicodeencodingbeautifulsoupascii