得票数最多 'html-parsing' 问题 - 第3页

关联标签

63得票5回答

我想使用HTML Agility Pack来解析复杂网页中的表格，但是在对象模型中迷失了方向。我查看了链接示例，但没有找到任何表格数据。我是否可以使用XPath获取表格？加载数据后，我基本上不知道如何获取表格。我以前用Perl做过这个，有点笨重，但可行(HTML::TableParser)...

63得票7回答

据我所了解，Python中两个主要的HTML解析库是lxml和BeautifulSoup。我选择使用BeautifulSoup来完成正在进行的项目，但这只是因为我发现它的语法比较易学易懂，并没有特别的原因。尽管如此，我发现很多人似乎更喜欢lxml，并且我也听说lxml更快。那么，一个库相对...

59得票4回答

我正在尝试获取几个单词的大写字母并将它们包装在标签中。我使用preg_replace函数进行提取和包装，但没有输出任何内容。preg_replace("/[A-Z]/", "<span class=\"initial\">$1</span>", $str)

53得票4回答

目前Haskell中用于网站爬取的库处于什么状态？为了提高自己对这门语言的熟练程度，我正在尝试使用Haskell处理更多的日常任务。在Python中，我通常使用优秀的PyQuery库来完成这项工作。有没有类似于PyQuery简单易用的Haskell库呢？我已经研究了Tag Soup，虽...

51得票8回答

在开发中，我经常遇到解析(Parsing)的问题，但作为一名初级开发者，我认为会在需要的时候掌握它。在我的当前项目中，我被告知要找到并使用一个HTML解析器来完成某个功能，我在网上找到了几个。但是，HTML解析器实际上是做什么的？解析对象又意味着什么？

48得票7回答

有没有一种方法可以将HTML导入Excel，使其呈现为富文本格式（最好使用VBA）？基本上，当我将其粘贴到Excel单元格时，我希望将其转换为这样的格式：<html><p>This is a test. Will this text be <b>bold&l...

46得票5回答

假设我们有一个HTML解析器。我读过，它首先对所有内容进行标记化，然后再进行解析。什么是标记化？解析器是否逐个字符地读取每个字符，构建一个多维数组来存储结构？例如，它是否读取<并开始捕获元素，一旦遇到一个不在属性内的关闭>，它就被推入某个数组栈中？出于好奇，我很...

46得票4回答

我正在尝试使用Python的HTMLParser库从一个HTML页面中获取一个值。我想要获取的值位于这个HTML元素中：... <div id="remository">20</div> ... 这是我的HTMLParser类:class Link...

46得票8回答

如果我有一个存储在磁盘上的HTML文件，如何在运行时一次性将其全部读入到字符串变量中？然后我需要对该字符串变量进行一些处理。类似于这样的一些HTML文件：<html> <table cellspacing="0" cellpadding="0" rules="al...

44得票11回答

不必担心链接样式或悬停样式。我想自动转换这样的文件<html> <body> <style> body{background:#FFC} p{background:red} body, p{font-weight:bold} </style>...