我有多个文本文件,用于存储网站的源页面。因此,每个文本文件都是一个源页面。
我需要使用以下代码从存储在文本文件中的 div 类中提取文本:
我已经检查了我的soup对象的类型,以确保在查找div类时不使用字符串查找方法。 soup对象的类型是什么?
我已经参考了以前的帖子,并在beautifulsoup语句内编写了一个开放性陈述。
错误:
来自页面的源代码:
我需要使用以下代码从存储在文本文件中的 div 类中提取文本:
from bs4 import BeautifulSoup
soup = BeautifulSoup(open("zing.internet.accelerator.plus.txt"))
txt = soup.find('div' , attrs = { 'class' : 'id-app-orig-desc' }).text
print txt
我已经检查了我的soup对象的类型,以确保在查找div类时不使用字符串查找方法。 soup对象的类型是什么?
print type(soup)
<class 'bs4.BeautifulSoup'>
我已经参考了以前的帖子,并在beautifulsoup语句内编写了一个开放性陈述。
错误:
Traceback (most recent call last):
File "html_desc_cleaning.py", line 13, in <module>
txt2 = soup.find('div' , attrs = { 'class' : 'id-app-orig-desc' }).text
AttributeError: 'NoneType' object has no attribute 'text'
来自页面的源代码: