37得票10回答
使用jQuery解析远程内容的最佳实践是什么?

在使用jQuery的ajax调用来检索整个XHTML文档之后,从结果字符串中选择特定元素的最佳方法是什么?也许有一个库或插件可以解决这个问题? 如果XHTML元素在W3C规范中通常允许在div中,则jQuery只能选择字符串中存在的XHTML元素;因此,我想知道如何选择诸如 <title...

36得票6回答
编写一个HTML解析器

我目前正在尝试(或计划尝试)编写一个简单(尽可能简单)的程序,将HTML文档解析成树形结构。 在谷歌上搜索后,我找到了很多答案说“不要这么做,它已经被完成了”(或类似的话),并提供了HTML解析器的示例以及一篇非常强调为什么不应该使用正则表达式的文章。但是,我没有找到任何关于编写解析器的“正...

36得票11回答
清理HTML,通过删除额外/冗余的格式标签

我一直在为一个允许用户使用HTML编辑器添加评论的网站使用CKEditor所提供的所见即所得编辑器。结果,我的数据库中出现了一些极其冗余的嵌套HTML代码,这导致查看/编辑这些评论时变得缓慢。 我的评论看起来像这样(这只是一个非常小的例子。我有超过100个嵌套标签的评论):<p>...

35得票9回答
IE中的HTML解析器问题

我正在尝试创建一个对话框,仅在选择的浏览器为IE(任何版本)时才会出现,但是我遇到了这个错误: 消息:HTML解析错误:无法修改子元素关闭之前的父容器元素(KB927917) 所有这些都在“行/字符/代码”0中,因此我不知道错误在哪里。 我使用的代码是: <script ty...

32得票5回答
Android HTML ImageGetter作为AsyncTask

这个问题让我有些抓狂。我的程序中有一个解析HTML的方法,我想包含内联图像,并且我认为使用Html.fromHtml(string,Html.ImageGetter,Html.TagHandler)可以实现这一点。 由于Html.ImageGetter没有实现,因此需要我自己编写一个。但是,...

32得票3回答
HtmlAgilityPack设置节点InnerText。

我想要用另一段文本替换HTML标签内的文本。我正在使用HtmlAgilityPack我使用以下代码提取所有文本HtmlDocument doc = new HtmlDocument(); doc.Load("some path") foreach (HtmlNode node in doc....

31得票12回答
PHP的类似于jQuery的接口?

我想知道是否存在类似于jQuery的PHP接口或库,用于处理HTML/XML文件,特别是使用jQuery样式选择器。 我希望能够像这样做一些事情(都是假设的): foreach (j("div > p > a") as anchor) { // ... } print j("#...

30得票2回答
HTML Agility Pack去除不在白名单中的标签

我正在尝试创建一个函数,该函数可以删除不在白名单中的HTML标签和属性。 我有以下HTML:<b>first text </b> <b>second text here <a>some text here</a> &l...

29得票1回答
HtmlAgility - 将解析结果保存为字符串

刚刚尝试使用HtmlAgility Pack并遇到问题。 首先,我从一个字符串变量加载。string NewsText = dr["Message"].ToString(); HtmlAgilityPack.HtmlDocument htmlDoc = new HtmlAgilityPack...

29得票1回答
.text和.get_text()之间的区别

BeautifulSoup 中,.text 和 .get_text() 之间有什么区别? 获取元素文本时应该优先使用哪一个?>>> from bs4 import BeautifulSoup >>> >>> html = "<div...