80得票3回答
使用Python和BeautifulSoup(将网页源代码保存到本地文件中)

我正在使用Python 2.7 + BeautifulSoup 4.3.2。我试图使用Python和BeautifulSoup从网页上获取信息。由于该网页位于公司网站上,需要登录并重定向,因此我将目标页面的源代码复制到文件中,并将其保存为“example.html”,以便练习,放在C:\中。这...

78得票8回答
BeautifulSoup内部HTML是什么?

假设我有一个包含的页面,我可以使用soup.find()轻松获取该div。 现在,我想要打印该的全部innerhtml:也就是说,我需要一个字符串,其中包含所有的HTML标签和文本,就像在JavaScript中使用obj.innerHTML获取的字符串一样。这是否可能?

78得票4回答
使用BeautifulSoup搜索HTML中的字符串

我正在使用BeautifulSoup在特定页面上查找用户输入的字符串。 例如,我想查看页面上是否有字符串“Python”:http://python.org 当我使用以下代码: find_string = soup.body.findAll(text='Python'), find_strin...

77得票3回答
从<p>标签中获取BeautifulSoup的文本,不选择后续段落

首先,我对Python一窍不通。但是,我已经编写了一段代码来查看RSS源,打开链接并从文章中提取文本。以下是我的代码:from BeautifulSoup import BeautifulSoup import feedparser import urllib # Dictionaries ...

76得票1回答
BeautifulSoup: .find()和.select()方法的区别

当你使用BeautifulSoup去爬取网站的某个部分时,你可以使用以下方法: soup.find() 和 soup.findAll() soup.select() .find() 和 .select() 方法有什么区别吗? (例如性能或灵活性等),还是它们相同?

75得票4回答
如何消除BeautifulSoup用户警告?

在我安装了BeautifulSoup之后,每当我从命令行运行Python时,就会出现以下警告: D:\Application\python\lib\site-packages\beautifulsoup4-4.4.1-py3.4.egg\bs4\__init__.py:166: UserWa...

74得票3回答
Python BeautifulSoup给findAll方法传递多个标签参数

我正在寻找一种方法使用findAll获取两个标签,按它们在页面上出现的顺序排列。 目前我有:import requests import BeautifulSoup def get_soup(url): request = requests.get(url) page = r...

74得票6回答
我该用什么来打开一个URL,而不是使用urllib3中的urlopen?

我想写一个像以下代码一样的程序:from bs4 import BeautifulSoup import urllib2 url = 'http://www.thefamouspeople.com/singers.php' html = urllib2.urlopen(url) soup =...

73得票3回答
使用BeautifulSoup查找包含特定文本的HTML标签

我试图获取包含以下文本模式的HTML元素:#\S{11}&lt;h2&gt; this is cool #12345678901 &lt;/h2&gt; 所以,使用以下内容可以匹配之前的内容:soup('h2',text=re.compile(r' #\S{11}')) 结果可能类似于:[u'...

71得票2回答
UnicodeEncodeError: 'ascii'编解码器无法对特殊名称的字符进行编码。

我的Python脚本(版本2.7)可以顺利从本地HTML文件中获取一些公司名称,但是当涉及到某些特定的国家名称时,它会出现错误:“UnicodeEncodeError:'ascii' codec无法编码字符” 尤其是在出现这个公司名称时出错 公司名称:Kühlfix Kälteanlage...