104得票7回答
Python/BeautifulSoup - 如何从一个元素中删除所有标签?

我该如何从BeautifulSoup中找到的元素中简单地删除所有标记? ```text 如何使用BeautifulSoup从文本中提取纯文本? ```

98得票10回答
导入错误:找不到名为BeautifulSoup的模块

我使用easy_install安装了BeautifulSoup,并尝试运行以下脚本。from BeautifulSoup import BeautifulSoup import re doc = ['<html><head><title>Page titl...

98得票5回答
如何使用Python和BeautifulSoup爬取需要登录的网站?

如果我想要爬取一个需要先登录密码的网站,我该如何使用Python和BeautifulSoup4库开始爬取它?以下是我在不需要登录的网站上所做的操作。from bs4 import BeautifulSoup import urllib2 url = urllib2.urlopen("...

96得票7回答
测试BeautifulSoup中标签内是否存在某个属性

我想获取文档中的所有<script>标签,然后根据某些属性的存在(或不存在)来处理每个标签。 例如,对于每个<script>标记,如果存在for属性,则执行某些操作;否则,如果存在bar属性,则执行其他操作。 以下是我目前正在做的事情:outputDoc = Bea...

96得票1回答
如何从一个美丽汤对象中获取HTML。

我有以下的bs4对象列表:>>> listing <div class="listingHeader"> <h2> .... >>> type(listing) <class 'bs4.element.Tag'> 我想...

95得票5回答
仅提取此元素的文本,而不包括其子元素。

我想从我的soup的最上层元素中提取文本,但是soup.text返回了所有子元素的文本: 我有:import BeautifulSoup soup=BeautifulSoup.BeautifulSoup('<html>yes<b>no</b></ht...

87得票5回答
BeautifulSoup - 在标签内搜索文本

请观察以下问题:import re from bs4 import BeautifulSoup as BS soup = BS(""" <a href="/customer-menu/1/accounts/1/update"> Edit </a> """) ...

86得票6回答
BeautifulSoup如何使用findAll()方法查找多个class?

我想从一个网站上抓取一系列物品,并保留它们呈现的顺序。这些物品被组织在一个表格中,但它们可以是两个不同的类(顺序随机)。 是否有办法提供多个类,并让BeautifulSoup4找到所有属于任何给定类的项? 我需要实现这段代码的功能,只是要保留源代码中的物品顺序:items = soup.f...

82得票18回答
使用Python将HTML转换为文本

我正在尝试使用Python将HTML块转换为文本。 输入:<div class="body"><p><strong></strong></p> <p><strong></strong...

82得票4回答
使用pip安装Beautiful Soup

我正在尝试在Python 2.7中使用pip安装Beautiful Soup,但总是遇到错误信息而无法理解原因。 我按照指示安装了pip,并将其安装到以下目录:c:\Python27\Scripts\pip.exe。然后我尝试将其添加到路径中,并运行pip install package命令。...