我正在寻找一个可以解析具有更多HTML特定功能的HTML文件的库/方法,而不仅仅是通用XML解析库。
我正在寻找一个可以解析具有更多HTML特定功能的HTML文件的库/方法,而不仅仅是通用XML解析库。
试试这个脚本。
http://www.biterscripting.com/SS_URLs.html
当我使用它与这个URL时,
script SS_URLs.txt URL("https://dev59.com/EHVD5IYBdhLWcg3wL4qM")
它展示了这个串的页面上所有链接。
http://sstatic.net/so/all.css
http://sstatic.net/so/favicon.ico
http://sstatic.net/so/apple-touch-icon.png
.
.
.
你可以修改那个脚本来检查图片、变量或其他内容。
如果您需要查看JS对页面的影响并且准备好启动浏览器,请使用WatiN。
我用C#编写了一些解析HTML标签的类。如果它们符合您的特定需求,它们会很好而简单。
您可以阅读有关它们的文章并下载源代码,网址为http://www.blackbeltcoder.com/Articles/strings/parsing-html-tags-in-c。
还有一篇关于通用解析辅助类的文章,网址为http://www.blackbeltcoder.com/Articles/strings/a-text-parsing-helper-class。