63得票5回答
HTML敏捷包 - 解析表格

我想使用HTML Agility Pack来解析复杂网页中的表格,但是在对象模型中迷失了方向。 我查看了链接示例,但没有找到任何表格数据。我是否可以使用XPath获取表格?加载数据后,我基本上不知道如何获取表格。我以前用Perl做过这个,有点笨重,但可行(HTML::TableParser)...

63得票7回答
在Python中解析HTML - 使用lxml或BeautifulSoup?这两者在哪些情况下更好?

据我所了解,Python中两个主要的HTML解析库是lxml和BeautifulSoup。我选择使用BeautifulSoup来完成正在进行的项目,但这只是因为我发现它的语法比较易学易懂,并没有特别的原因。尽管如此,我发现很多人似乎更喜欢lxml,并且我也听说lxml更快。 那么,一个库相对...

59得票4回答
当使用PHP中的preg_replace时,如何获取匹配项?

我正在尝试获取几个单词的大写字母并将它们包装在标签中。我使用preg_replace函数进行提取和包装,但没有输出任何内容。preg_replace("/[A-Z]/", "<span class=\"initial\">$1</span>", $str)

53得票4回答
使用Haskell进行网络爬虫

目前Haskell中用于网站爬取的库处于什么状态? 为了提高自己对这门语言的熟练程度,我正在尝试使用Haskell处理更多的日常任务。 在Python中,我通常使用优秀的PyQuery库来完成这项工作。有没有类似于PyQuery简单易用的Haskell库呢?我已经研究了Tag Soup,虽...

51得票8回答
什么是解析?

在开发中,我经常遇到解析(Parsing)的问题,但作为一名初级开发者,我认为会在需要的时候掌握它。在我的当前项目中,我被告知要找到并使用一个HTML解析器来完成某个功能,我在网上找到了几个。 但是,HTML解析器实际上是做什么的?解析对象又意味着什么?

48得票7回答
在Excel单元格中将带有标签的HTML文本转换为格式化文本

有没有一种方法可以将HTML导入Excel,使其呈现为富文本格式(最好使用VBA)?基本上,当我将其粘贴到Excel单元格时,我希望将其转换为这样的格式:<html><p>This is a test. Will this text be <b>bold&l...

46得票5回答
解析器(例如HTML)是如何工作的?

假设我们有一个HTML解析器。 我读过,它首先对所有内容进行标记化,然后再进行解析。 什么是标记化? 解析器是否逐个字符地读取每个字符,构建一个多维数组来存储结构? 例如,它是否读取<并开始捕获元素,一旦遇到一个不在属性内的关闭>,它就被推入某个数组栈中? 出于好奇,我很...

46得票4回答
我该如何使用Python HTML解析库从特定的div标签中提取数据?

我正在尝试使用Python的HTMLParser库从一个HTML页面中获取一个值。 我想要获取的值位于这个HTML元素中:... <div id="remository">20</div> ... 这是我的HTMLParser类:class Link...

46得票8回答
将一个HTML文件读入到内存中的字符串变量中

如果我有一个存储在磁盘上的HTML文件,如何在运行时一次性将其全部读入到字符串变量中?然后我需要对该字符串变量进行一些处理。 类似于这样的一些HTML文件:<html> <table cellspacing="0" cellpadding="0" rules="al...

44得票11回答
自动将样式表转换为内联样式

不必担心链接样式或悬停样式。 我想自动转换这样的文件<html> <body> <style> body{background:#FFC} p{background:red} body, p{font-weight:bold} </style>...