9得票3回答
如何以编程方式保存网页?

我希望能够通过编程的方式保存网页。 我不仅想保存HTML,还希望自动存储所有相关文件(如图片、CSS文件、可能的嵌入式SWF等),并且希望重写链接以便本地浏览。 这个应用的目的是一个个人书签应用程序,其中链接内容被缓存以防止原始副本被删除。

20得票8回答
从HTML中提取文本的Java方法

我正在编写一个程序,用于下载HTML页面并选择其中一些信息,并将其写入另一个文件中。我想提取在段落标签之间的信息,但是我只能得到段落的一行。我的代码如下:FileReader fileReader = new FileReader(file); BufferedReader buffRd = ...

11得票4回答
我可以使用哪些算法来识别网页上的内容?

我在浏览器中加载了一个网页(即其DOM和元素定位对我都是可访问的),现在我想找到包含最多内容(如连续文本块)的块级元素(或排序列表)。目标是排除类似菜单、头部、页脚等内容。

68得票9回答
在iPhone上解析HTML

请问有没有人能够推荐一个用于解析HTML的C或Objective-C库?它需要能够处理一些不太符合标准的HTML代码。 是否存在这样的库,或者我最好尝试使用正则表达式来解析HTML?

22得票11回答
从HTML中提取文本的正则表达式

我希望从一个常规的HTML页面中提取所有文本(无论是否显示)。 我想要 删除 任何HTML标签 任何JavaScript 任何CSS样式 是否有一个或多个正则表达式可以实现这一点?

19得票8回答
C# - 解析网页的最佳方法是什么?

我已将整个网页的HTML保存到一个字符串中,现在我想获取链接的“href”值,最好能够稍后将它们保存到不同的字符串中。最好的方法是什么? 我尝试将该字符串保存为.xml文档,并使用XPathDocument导航器对其进行解析,但(惊讶吧)它无法很好地导航一个不真正是XML文档的文件。 正则...

7得票2回答
如何使用C++/Qt解析HTML?

我该如何解析以下HTML? <body> <span style="font-size:11px">12345</span> <a>Hello<a> </body> 我想从www.testtest.com的style...

165得票10回答
如何使用php从html中提取img src、title和alt?

我想创建一个页面,其中列出了我网站上所有图像的标题和替代表示形式。 我已经编写了一个小程序来查找和加载所有HTML文件,但现在我卡在如何从这个HTML中提取src,title和alt。<img src="/image/fluffybunny.jpg" title="Harvey the ...

73得票3回答
使用BeautifulSoup查找包含特定文本的HTML标签

我试图获取包含以下文本模式的HTML元素:#\S{11}<h2> this is cool #12345678901 </h2> 所以,使用以下内容可以匹配之前的内容:soup('h2',text=re.compile(r' #\S{11}')) 结果可能类似于:[u'...

66得票15回答
用C#解析HTML的最佳方法是什么?

我正在寻找一个可以解析具有更多HTML特定功能的HTML文件的库/方法,而不仅仅是通用XML解析库。