44得票2回答
BeautifulSoup中"findAll"和"find_all"的区别

我希望使用Python解析HTML文件,我使用的模块是BeautifulSoup。 有人说find_all函数和findAll函数是相同的。我已经尝试过两者,但我相信它们是不同的: import urllib, urllib2, cookielib from BeautifulSoup i...

43得票1回答
XPath查找不包含子节点的节点

我想创建一些XPath,以查找所有不包含img标签的a标签,例如:<a href="http://aol.com">link</a> 匹配,但是<a href="http://yahoo.com"><img src="http://yahoo.com/...

41得票4回答
如何使用XPath获取节点值/innerHTML?

我有一个XPath选择器,用于选择我想要的类://div[@class='myclass']。但它会返回整个(包括<div class='myclass'>),但我只想返回标签内的内容而不包括标签本身。有什么方法可以做到这一点吗?

41得票3回答
使用AngularJS解析ng-bind中的HTML

我在使用AngularJS时遇到了问题。我的应用程序从服务器请求一些数据,其中从服务器返回的数据之一是一个包含HTML字符串的值。我正在使用以下方式将其绑定到我的Angular模板中:<div>{{{item.location_icons}}</div> 但是正如你所预...

41得票1回答
TagSoup vs. Jsoup vs. HTML Parser vs. HotSax vs

HTML解析器数量众多,让人眼花缭乱: http://java-source.net/open-source/html-parsers 我该如何选择一个最符合以下要求的解析器: 成熟(比其他解析器少出现错误) 保持活跃状态(即有维护人员) 快速且资源高效(适用于Android设备) ...

41得票6回答
任何主要浏览器都内置了HTML验证器吗?

在Firefox浏览器中,有一个名为“Html Validator”的扩展程序。它在窗口右下角添加了一个小的指示图标。当您访问的页面不合法时,它会亮起来。您可以点击它以查看错误。该扩展程序真正重要的功能是它不连接到w3c的验证程序。它捆绑了与w3c使用的相同的验证SGML解析器。这意味着它可以...

40得票5回答
在PHP中进行网页抓取

我正在寻找一种方式,在PHP中使用用户给定的URL生成另一个页面的小预览。 我想只检索页面的标题、一个图像(例如网站的标志)和少量文本或描述(如果可用)。有没有简单的方法可以在不使用任何外部库/类的情况下实现这一点?谢谢 到目前为止,我尝试使用DOCDocument类加载HTML并在屏幕上...

39得票2回答
Beautiful Soup如何获取标签的id属性?

我试图从页面中获取一组div的id列表。当我打印属性时,列出了这些id。for tag in soup.find_all(class_="bookmark blurb group") : print(tag.attrs) 导致结果为:{'id': 'bookmark_8199633', '...

38得票6回答
如何使用标准库在Python中解析格式错误的HTML

Python内置了许多用于处理HTML和XML的库,很难相信没有支持现实世界HTML解析的功能。 我找到了很多非常棒的第三方库来完成这个任务,但是这个问题是关于Python标准库的。 要求: 只使用Python标准库组件(任何2.x版本) 支持DOM 处理HTML实体(如&nb...

37得票8回答
如何在不使用XmlService的情况下在Google Apps Script中解析HTML字符串?

我希望使用Google Apps Script在Google表格中创建一个网络爬虫。我知道这是可能的,并且我已经看过一些关于此的教程和讨论。 主要思路是使用: var html = UrlFetchApp.fetch('http://en.wikipedia.org/wiki/Docume...