当然,可以使用任何数量的Python解析器来解析HTML页面,但我很惊讶似乎没有公开的解析脚本来从给定的HTML文档中提取有意义的内容(不包括侧栏、导航等)。我猜这就像收集DIV和P元素,然后检查它们是否具有最少量的文本内容,但我相信一个稳健的实现将包含我没有想到的很多东西。
我在浏览器中加载了一个网页(即其DOM和元素定位对我都是可访问的),现在我想找到包含最多内容(如连续文本块)的块级元素(或排序列表)。目标是排除类似菜单、头部、页脚等内容。
我正在寻找一个可以解析具有更多HTML特定功能的HTML文件的库/方法,而不仅仅是通用XML解析库。
我该如何解析以下HTML? <body> <span style="font-size:11px">12345</span> <a>Hello<a> </body> 我想从www.testtest.com的style...
我正在尝试创建一个通用的HTML解析器,可在博客文章上很好地工作。我想将我的解析器指向特定条目的URL,并获取帖子本身的干净文本。我的基本方法(来自Python)是使用BeautifulSoup / Urllib2的组合,这还可以,但它假设您知道博客条目的正确标记。有没有更好的想法? 以下是...
我已将整个网页的HTML保存到一个字符串中,现在我想获取链接的“href”值,最好能够稍后将它们保存到不同的字符串中。最好的方法是什么? 我尝试将该字符串保存为.xml文档,并使用XPathDocument导航器对其进行解析,但(惊讶吧)它无法很好地导航一个不真正是XML文档的文件。 正则...
我想使用Python从HTML文件中提取文本。 我希望基本上获得与从浏览器复制文本并将其粘贴到记事本中获得的相同输出。 我需要的比使用正则表达式更强大,因为它可能无法处理格式不良的HTML。我看到许多人推荐Beautiful Soup,但我在使用它时遇到了一些问题。首先,它捕捉到了不需要的文...
请问有没有人能够推荐一个用于解析HTML的C或Objective-C库?它需要能够处理一些不太符合标准的HTML代码。 是否存在这样的库,或者我最好尝试使用正则表达式来解析HTML?
我正在编写一个程序,用于下载HTML页面并选择其中一些信息,并将其写入另一个文件中。我想提取在段落标签之间的信息,但是我只能得到段落的一行。我的代码如下:FileReader fileReader = new FileReader(file); BufferedReader buffRd = ...
我试图获取包含以下文本模式的HTML元素:#\S{11}<h2> this is cool #12345678901 </h2> 所以,使用以下内容可以匹配之前的内容:soup('h2',text=re.compile(r' #\S{11}')) 结果可能类似于:[u'...