我希望从一个HTML文件中提取所有的表格,并按照以下方式打印它们的内容:每个单元格由
\t
分隔,每一行由\n
分隔,每个表格由\n\n
分隔。以下是我的脚本,当我把它改成在tr上查找值时,整个tr被插入为一个元素,我甚至尝试了其他方法,比如findnodes_as_strings ($path)。我想修改它以符合上述结构。use strict;
use warnings;
use HTML::TreeBuilder::XPath;
my $tree= HTML::TreeBuilder::XPath->new;
$tree->parse_file( "html.html");
my @values=$tree->findvalues(q{//table//tr//td});
print $_, "\n" foreach(@values);