110得票6回答
如何使用Node.js解析HTML页面

我需要解析(服务端)大量的HTML页面。 我们都认为正则表达式不是解决这个问题的方法。 在我看来,JavaScript 是解析 HTML 页面的本地方式,但这种假设依赖于服务器端代码具有浏览器内 JavaScript 的所有 DOM 能力。 Node.js 是否具备此能力? 是否有更好的方法...

97得票5回答
如果HTML解析器没有使用正则表达式,它们是如何工作的?

我每天都看到有人问如何从HTML字符串中解析或提取某些内容,而第一个回答/评论总是“不要使用正则表达式来解析HTML,否则你会感受到它的愤怒!(最后一部分有时被省略)。 对我来说,这相当令人困惑,我一直认为通常解析任何复杂的字符串的最佳方式是使用正则表达式。那么HTML解析器是如何工作的呢?...

96得票1回答
如何从一个美丽汤对象中获取HTML。

我有以下的bs4对象列表:>>> listing <div class="listingHeader"> <h2> .... >>> type(listing) <class 'bs4.element.Tag'> 我想...

86得票6回答
BeautifulSoup如何使用findAll()方法查找多个class?

我想从一个网站上抓取一系列物品,并保留它们呈现的顺序。这些物品被组织在一个表格中,但它们可以是两个不同的类(顺序随机)。 是否有办法提供多个类,并让BeautifulSoup4找到所有属于任何给定类的项? 我需要实现这段代码的功能,只是要保留源代码中的物品顺序:items = soup.f...

85得票8回答
如何在JavaScript或jQuery中规范化HTML?

标签可以有多个属性。属性在代码中出现的顺序并不重要。例如:<a href="#" title="#"> <a title="#" href="#"> 如何在JavaScript中“标准化”HTML,使得属性的顺序总是相同?我不关心选择哪种顺序,只要始终如一即可。 更新...

83得票7回答
从网页中通过机器学习提取信息

我想在Python中从网页上提取特定类型的信息,例如邮政地址。虽然有成千上万种表单,但仍然可以以某种方式识别它们。由于表单数量众多,编写正则表达式甚至像文法一样的东西并使用解析器生成器进行解析可能非常困难。 因此,我认为我应该使用机器学习。如果我理解得正确,我应该能够创建一个数据样本,在其中...

76得票7回答
HTML5:W3C vs WHATWG。哪个提供了最权威的规范?

我正在进行一个html解析器,发现html5明确定义了解析不规范的html的原则。 (以前我从DTD中推断它们,叹气) 我很喜欢这个事实,但是我知道html5尚未最终确定(我也想知道是否会),而且它不是由W3C开发,而是由WHATWG开发。 在寻找所需的规范时,我看到了: W3C TR...

70得票4回答
Python中类似于jQuery的HTML解析库?

有没有Python库能够像 jQuery 一样解析HTML文档? 也就是说,我想使用CSS选择器语法从文档中获取任意一组节点,读取它们的内容/属性等。 我之前用过的唯一一个Python HTML解析库是 BeautifulSoup,虽然它很好用,但我仍然认为如果有jQuery语法可用,我的...

69得票29回答
你能提供解析HTML的例子吗?

如何使用不同的编程语言和解析库来解析HTML? 回答问题时: 为了展示正确的做法,个别评论将链接到有关如何使用正则表达式解析HTML的问题的答案。 为了保持一致性,我要求示例解析HTML文件以查找锚标记中的 href。 为了便于搜索该问题,我要求您按照以下格式进行: 语言:[语言名...

65得票10回答
网页抓取 - 如何识别网页上的主要内容

假设有一篇新闻文章网页(来自任何主要新闻来源,例如时代杂志或彭博社),我想要识别该页面上的主要文章内容并排除其他杂项元素,如广告、菜单、侧边栏和用户评论。 有什么通用的方法可以在大多数主要新闻网站上实现这一目标? 有哪些数据挖掘的好工具或库?(最好是基于Python)