得票数最多 'html-parsing' 问题 - 第4页

关联标签

44得票2回答

BeautifulSoup中"findAll"和"find_all"的区别

我希望使用Python解析HTML文件，我使用的模块是BeautifulSoup。有人说find_all函数和findAll函数是相同的。我已经尝试过两者，但我相信它们是不同的： import urllib, urllib2, cookielib from BeautifulSoup i...

pythonxml-parsinghtml-parsingbeautifulsoup

43得票1回答

XPath查找不包含子节点的节点

我想创建一些XPath，以查找所有不包含img标签的a标签，例如：<a href="http://aol.com">link</a> 匹配，但是<a href="http://yahoo.com"><img src="http://yahoo.com/...

xpathhtml-parsingxml-parsing

41得票4回答

如何使用XPath获取节点值/innerHTML？

我有一个XPath选择器，用于选择我想要的类：//div[@class='myclass']。但它会返回整个(包括<div class='myclass'>)，但我只想返回标签内的内容而不包括标签本身。有什么方法可以做到这一点吗？

xmlparsingxpathhtml-parsing

41得票3回答

使用AngularJS解析ng-bind中的HTML

我在使用AngularJS时遇到了问题。我的应用程序从服务器请求一些数据，其中从服务器返回的数据之一是一个包含HTML字符串的值。我正在使用以下方式将其绑定到我的Angular模板中：<div>{{{item.location_icons}}</div> 但是正如你所预...

javascriptangularjshtml-parsing

41得票1回答

TagSoup vs. Jsoup vs. HTML Parser vs. HotSax vs

HTML解析器数量众多，让人眼花缭乱: http://java-source.net/open-source/html-parsers 我该如何选择一个最符合以下要求的解析器: 成熟（比其他解析器少出现错误）保持活跃状态（即有维护人员）快速且资源高效（适用于Android设备） ...

javaandroidhtml-parsing

41得票6回答

任何主要浏览器都内置了HTML验证器吗？

在Firefox浏览器中，有一个名为“Html Validator”的扩展程序。它在窗口右下角添加了一个小的指示图标。当您访问的页面不合法时，它会亮起来。您可以点击它以查看错误。该扩展程序真正重要的功能是它不连接到w3c的验证程序。它捆绑了与w3c使用的相同的验证SGML解析器。这意味着它可以...

htmlhtml-parsing

40得票5回答

在PHP中进行网页抓取

我正在寻找一种方式，在PHP中使用用户给定的URL生成另一个页面的小预览。我想只检索页面的标题、一个图像（例如网站的标志）和少量文本或描述（如果可用）。有没有简单的方法可以在不使用任何外部库/类的情况下实现这一点？谢谢到目前为止，我尝试使用DOCDocument类加载HTML并在屏幕上...

phphtmlcurlhtml-parsingweb-scraping

39得票2回答

Beautiful Soup如何获取标签的id属性？

我试图从页面中获取一组div的id列表。当我打印属性时，列出了这些id。for tag in soup.find_all(class_="bookmark blurb group") : print(tag.attrs) 导致结果为：{'id': 'bookmark_8199633', '...

pythonhtmlbeautifulsouphtml-parsing

38得票6回答

如何使用标准库在Python中解析格式错误的HTML

Python内置了许多用于处理HTML和XML的库，很难相信没有支持现实世界HTML解析的功能。我找到了很多非常棒的第三方库来完成这个任务，但是这个问题是关于Python标准库的。要求: 只使用Python标准库组件（任何2.x版本）支持DOM 处理HTML实体（如&nb...

pythonhtmldomparsinghtml-parsing

37得票8回答

如何在不使用XmlService的情况下在Google Apps Script中解析HTML字符串？

我希望使用Google Apps Script在Google表格中创建一个网络爬虫。我知道这是可能的，并且我已经看过一些关于此的教程和讨论。主要思路是使用： var html = UrlFetchApp.fetch('http://en.wikipedia.org/wiki/Docume...

javascriptparsinggoogle-apps-scriptgoogle-sheetshtml-parsing