我该如何使用Perl提取HTML表格数据？

Question

我该如何使用Perl提取HTML表格数据？

3

我需要从网页中检索一些数据。分析了页面的HTML代码后，我发现我需要的数据嵌入在一个具有唯一表ID的表格中。我不知道它是否是HTML规则，但我认为这对解析非常有用。

表格中的数据如下所示（为了让您清楚地理解“数据结构”，我们省略了各种属性和标签）。

<table .... id = "tablename" .... >
    <tr>
         <td .... >filed1</td>
             ....
         <td .... >filedn</td>
    </tr>
         #several "trs" here
    <tr>
         <td .... >filed1</td>
             ....
         <td .... >filedn</td>
    </tr>
</table>

所以我的问题是如何使用Perl的HTML解析器工具来满足我在这种情况下的需求。

提前感谢。

- Haiyuan Zhang

3个回答

2

使用HTML::Table来操作HTML表格。

- Pradeep

-1

看看Ken MacFarlane在The Perl Journal中的使用HTML::Parser解析HTML。我不确定那是否是你所说的解析器，但它看起来可以做你想要的事情，或者至少指引你朝着正确的方向前进。

- Chris Thompson

你不应该深入到HTML::Parser中去做这件事。有许多基于它构建的工具应该能够处理这项工作。 - brian d foy

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Leon Timmermans · Accepted Answer

HTML::TableExtract听起来正是你想要的。